云天徽上 发表于 5 天前

【OpenAI o1】OpenAI发布超强o1大模型,数学考试的AI冠军,编程高手,还会推理

本帖最后由 云天徽上 于 2024-9-14 15:47 编辑

在毫无预兆之下,OpenAI 昨日震撼发布了其全新模型o1,标志着一系列专注于“推理”能力模型系列的启航。据OpenAI官方介绍,o1与先前广受赞誉的GPT-4o相比,显著的特点在于其更加深思熟虑的响应方式,即在给出答案前会投入更多时间进行深度思考与分析。这一革新使得o1能够驾驭更为复杂通用的推理任务,跨越科学、编程及数学模型等多个领域,解决前所未有的难题。

同时,OpenAI还推出了o1的轻量级版本——o1-mini,这款模型以更小巧的体积和更经济的成本,为市场提供了更多选择。这一举措无疑是对之前广为流传的“草莓模型”传言的正式回应,宣告了其从概念走向现实的跨越。


!(data/attachment/forum/202409/14/153413vxk00aoerskee02r.png)

OpenAI的o1模型无疑代表了人工智能领域的一项重大飞跃,标志着技术迈向了一个全新的高度。尽管o1在编程、数学及科学领域的卓越表现令人瞩目,但在特定应用场景下,其性能可能尚不及GPT-4o,且目前尚不具备浏览、文件上传或语音交互的功能。因此,OpenAI将此版本的o1定位为“预览版”,旨在凸显其作为新生力量的未成熟与潜力。

“为此,我们决定将系列编号重设为1,并正式命名为OpenAI o1,象征着全新时代的开启。”

o1不仅是OpenAI首个采纳强化学习技术进行深度训练的模型,更是这一领域内的里程碑。通过运用大规模的强化学习算法,o1学会了在高效利用训练数据的同时,运用其独特的“思维链”机制进行深度思考,这一过程与人类逐步解析复杂问题的方式不谋而合,极大地增强了模型的问题解决能力。

值得注意的是,OpenAI观察到,随着强化学习训练的深入(即训练时计算量的增加)以及模型思考时间的延长(即测试时计算资源的投入),o1的性能展现出了持续优化的趋势。这种性能提升的模式,与传统大型语言模型(LLM)预训练的限制有着本质的区别,为OpenAI未来的研究方向提供了宝贵的启示。因此,OpenAI承诺将继续深入探索这一领域,以期突破现有界限,推动人工智能技术的进一步发展。


!(data/attachment/forum/202409/14/153434hrdml191b4c67mnb.png)

为了彰显o1相较于GPT-4o在推理能力上的显著提升,OpenAI精心设计了一系列广泛覆盖人类考试及机器学习基准测试的实验来全面评估o1。实验数据清晰表明,在绝大多数考验推理能力的任务中,o1均展现出了超越GPT-4o的卓越表现,有力证明了其推理性能的飞跃性进步。


!(data/attachment/forum/202409/14/153501lin3ur37iw88u3yb.png)

o1在应对高难度的推理基准测试时,相较于GPT-4o,实现了显著的性能提升与改进。


!(data/attachment/forum/202409/14/153512jhs15h5k16ktv5x6.png)

o1在广泛的基准测试领域内相较于GPT-4o展现出了明显的进步,特别是在那些要求复杂推理能力的测试中,o1的性能达到了与人类专家相媲美的高度。

以2024年AIME数学竞赛为例,GPT-4o在平均情况下仅能解答出12%(即1.8/15)的问题,而o1在仅有一个样本参考时便能正确解答74%(即11.1/15)的问题,当利用64个样本进行综合分析并达成一致时,这一比例更是提升至83%(即12.5/15)。若进一步采用学习得到的评分函数对1000个样本进行优化排序,o1的解答正确率更是惊人地达到了93%(即13.9/15),这一成绩足以让o1跻身全美前500名,并超越了美国数学奥林匹克竞赛的分数线。

OpenAI的首席研究官鲍勃·麦格鲁(Bob McGrew)对此评价道:“这个模型在数学考试上的表现无疑比我更加出色,要知道我在大学时还辅修了数学。”

此外,在GPQA Diamond这一涵盖化学、物理及生物学专业知识的智力基准测试中,o1同样展现出了非凡的实力。为了准确评估o1与人类专家的差距,OpenAI特别邀请了拥有博士学位的专家参与解答GPQA Diamond问题。实验结果显示,o1的性能超越了这些人类专家,成为首个在此基准测试中达到如此高度的模型。

在模拟编程竞赛Codeforces中,o1的表现同样令人瞩目,它以89%的排名成绩脱颖而出,Elo评分高达1807,这一分数超过了93%的人类参赛者,彰显了o1在编程领域的卓越能力。


!(data/attachment/forum/202409/14/153524raabvb7eguv3k83z.png)

有工程师在X平台上分享了他的经验,称自己仅用了10分钟的时间,就利用o1成功开发出了一个APP应用,这一成果引发了广泛的关注与讨论。


!(data/attachment/forum/202409/14/153554fwwd6xsdhs1szz7y.png)

o1的强大能力确实令人印象深刻,然而,OpenAI的产品经理Joanne Jang在赞叹之余也保持了谨慎的态度。她指出,o1作为首个在复杂任务中表现出色的模型,其潜力尚未完全释放,未来将继续进步。同时,她也诚恳地提醒公众,不应对当前发布的版本寄予过高的期望,因为技术的成熟与完善需要时间。尽管如此,用户们对于OpenAI后续对o1模型的优化与升级仍充满了期待。

展望未来,OpenAI承诺将持续对o1进行迭代更新,计划引入浏览、文件及图像上传等更多实用功能,旨在让这款模型更加贴近用户需求,为每个人带来更加便捷和高效的使用体验。

参考文献:

1.https://www.theverge.com/

2.https://openai.com/index/learning-to-reason-with-llms/

3.https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw

4. https://www.msn.cn/zh-cn/news/other/openai%E5%8F%91%E5%B8%83%E8%B6%85%E5%BC%BAo1%E5%A4%A7%E6%A8%A1%E5%9E%8B-%E6%95%B0%E5%AD%A6%E8%80%83%E8%AF%95%E7%9A%84ai%E5%86%A0%E5%86%9B-%E7%BC%96%E7%A8%8B%E9%AB%98%E6%89%8B-%E8%BF%98%E4%BC%9A%E6%8E%A8%E7%90%86-%E8%83%BD%E5%8A%9B%E8%B6%85%E8%B6%8A%E4%BA%BA%E7%B1%BB%E5%8D%9A%E5%A3%AB/ar-AA1qypP6?ocid=BingNewsSerp

题图来源:https://openai.com/

页: [1]
查看完整版本: 【OpenAI o1】OpenAI发布超强o1大模型,数学考试的AI冠军,编程高手,还会推理