学天团攻破陶哲轩难题!45h激战人类阵地失守pg电子中文模拟器o4-mini暴击六大数
此前研究表明□★,人类在长时间任务上表现更具潜力•□△◁,而AI性能可能在一定时间后趋于平稳◆□☆。
此外■●▪=▼,奖金池也非常诱人★◆▷守pg电子中文模拟器o4-mini暴击六大数,第一名1000美元★○●○==,第二名800美元☆=◆□,第三名400美元▪◆▼△★。
由于参赛者主要来自波士顿数学社区▽◁学天团攻破陶哲轩难题!45h激战人类阵地失,分析领域的专家较少☆▪★△▽▪,导致了整体专长分布不均★▷●◁●。
【新智元导读】不到两年○○●☆,我们会见证AI数学家的重大突破◇○□★!最新实验中▪◁=★-,o4-mini与40位数学家☆■▪…◇◇,一同挑战300道菲尔兹奖级难题▷○。o4-mini一举击败6组团队=▷▪○,超越人类平均水平■◁○◇=。
为此●•▲,研究人员按难度层级拆分结果▼◆☆,并根据完整基准的难度分布加权总体得分△☆▲★。
这一基准于24年11月首次亮相▪○□,由菲尔兹奖得主与业内多位著名数学家共同出题○◆▲,挑战AI数学能力的极限◁…★▽。
有网友对此表示◁▽▷●•▼,要让AI成为超人的存在○=,必须定期解决人类数学家无法解决的问题□□。
八支「数学家天团」和o4-mini-medium同台竞技☆◇▽▷,谁会最终胜出△○▪■?
谷歌前CEO Eric Schmidt预测=☆□,未来1-2年内▪▲▲▽◇=,「超级程序员」和「AI数学家」将取得重大突破▲●。
FrontierMath比赛的独特之处在于-▷••◁▽,它更注重数学推理能力▼…▷…▪•,而非单纯的知识储备▷■-。
比如•▼PG电子全能电煮锅,,研究人员选用了7道适合优秀本科生的「通用问题」■●…,以及16道专为专家定制的「高级问题」●=☆。
接下来□▼▼▷,Epoch AI详细解释了关于人类基准结果的四个关键点◁•=▲△◁,包括其中来源和含义☆▽☆■◇…。
因此…▽=,在FrontierMath上▲◆-,AI尚未完全超越人类•□,但Epoch AI认为顶尖模型很快就会做到◆☆■。
当前☆…▪,AI在知识广度上远超人类——可以轻松调用数学★=◆▲=◆、微分几何等庞大知识库=…▪◆,而人类很难精通所有领域■○。
它们究竟是靠猜测解题◇=▷,还是真正掌握了数学推理●•▲?与人类的方法相比◆…□=,有何不同▪■▷△○▷?
他们要与AI一同在陶哲轩等人提出的FrontierMath基准上◇=▽-◁○,展开终极对决…□▽。
不过■○□…,o4-mini能够解决的问题■=☆◁,至少被一组数学家团队破解●▼。由此★△,人类团队总体上解决了约35%的题目-▽。
此外■▪,FrontierMath的题目并非实际数学研究的直接代表◆▪▽★●=,o4-mini的超人表现是否会转化为研究突破☆•△◁,仍需要时间来验证▽▷。
结果▷=◇▽…,按整体难度分布加权后●▲▪◁○●,人类基准提升到约30%=☆▼•,基于「多次尝试」方法◇-●□◆◁,更是刷新到了52%★=▲。
如上所述•▪…▷★▽,每组被分成4-5人的8组团队pg电子中文模拟器◁●□□▷•,在联网情况下▷▲▽▽▲•,最多用4▪▽■▲-.5h去解决23个数学题△◆▷。最后•▪,再与o4-mini-medium进行比拼•▷○★■。
每队虽至少有一名某一领域的专家……○,但也没有哪支队伍在所有高级领域▪◆-◆★◆,如拓扑学▷-□★、代数几何…◁★▪▼、组合数学▼☆◁▽•、数论等都有专家覆盖△◁▽=▪。
Epoch AI指出•-☆●,o4-mini-medium得分提升••,是因为比赛中的Tier 1/Tier 2问题相对完整基准的同级问题较简单▲△◁■,说明了这一调整方法仍不理想pg电子中文模拟器○■。
若要为整个FrontierMath设定人类基准◁▼○•▷,还需解决第二个问题▽○☆…★•:比赛问题的难度分布与完整 FrontierMath数据集不同▽△▷◆★。
它包含300个问题……▼-,难度从高年级本科生水平到菲尔兹奖得主都认为具有挑战性的问题•=☆。
o4-mini-medium的表现虽超过了平均人类团队□▲▷,但不如所有团队的综合得分-▲▼。
最重要的是-•…□◁☆大集合:重返往昔感受青春记忆pg电子平台 更多 大集合:重返往昔感受青春记忆pg电子平台,,比赛4=•.5小时时间…▼▽☆☆,可能限制了人类的表现•◆-★。AI解决每题只需5-20分钟□◇,而人类平均耗时约40分钟-▷。
这场比赛邀请了约40位数学精英•◁◇□,分成8组▪▽,每组由学科专家和优秀本科生组成◆•。