OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

心灵探险家今天 12

默认

摘要： 原生鸿蒙版最新开启测试版邀测升级测试时间为这次新增了重磅功能终于能用扫一扫了电脑登录更方便从目前用户反馈来看本文来自于微信公众号开放社区作者开放社区授权转载发布今天凌晨点开启第天也...

QQ原生鸿蒙版最新开启测试版9.1.16邀测升级，测试时间为2024/12/11-2024/12/18。这次新增了重磅功能，终于能用扫一扫了，电脑登录更方便。从目前用户反馈来看，HarmonyOSNE

本文来自于微信公众号 AIGC开放社区作者：AIGC开放社区，授权转载发布。

今天凌晨2点，开启第12天，也是最后一天。不负众望终于整了个大的，发布全新预览版模型——o3。

根据发布的o3 数据显示，美国AIME数学竞赛中达到了96.7分，大幅度超过了o1预览版的56.7和o1的83.3%，仅错了一道题相当于一名数学家的水平。

而在ARCAGI的中，o3在低算力资源情况下实现了75.7%，而当增加计算资源后实现了87.5%，这也是首次有大模型超过了人类85%的水平，实现重大技术突破。

有意思的是，直接跳过了o2发布了o3，主要原因是名字与英国著名电信公司o2发生了冲突无法使用，所以才直接来了个第三代~

o3主要数据

在软件风格基准中，由真实世界软件任务组成的3benchve fied基准里，准确率达到71.7%，相比o1模型提升超过20%。

在竞赛代码领域，o3模型在CodeForces竞赛编码网站上表现卓越，达到了约2727的ELO分数，远超o1模型的1891分，甚至超越了OpenAI首席科学家Yakov的分数，接近公司内部顶尖编程高手的水平，这表明o3在处理复杂编程竞赛任务时具备出色的逻辑推理和算法实现能力。

在数学能力中，o3模型在Amy考试中的准确率高达96.7%，而o1模型为83.3%。在这个被视为美国数学奥林匹克预选考试的高难度中，o3模型通常仅错一题，表现十分出色。

在衡量模型在博士阶段科学问题处理能力的GPQADiamond基准中，o3模型取得了87.7%的准确率，比o1模型的78%提高了约10%，甚至超越了领域专家博士通常能达到的70%的水平，这表明o3模型在数学和科学领域的复杂问题处理上已接近甚至超越人类专家水平。

在ARCAGI基准中，o3模型取得了重大突破。在低计算条件下，o3模型在ARCAGI的半私有保留集上得分为75.7，这一成绩在符合计算要求的同时，成为了新的行业领先水平。

当进一步提升计算能力，让o3模型进行更长时间的思考时，其在同一隐藏保留集上的得分更是高达87.5%。这一成绩尤为重要，因为人类在该中的表现阈值约为85%，O3模型的得分超过了这一阈值，标志着在该领域取得了新的里程碑。

此前，ARCAGI版本一花费了五年时间，才使领先的前沿模型从0%提升到5%，而o3模型的出色表现无疑展示了OpenAI在人工智能技术研发上的巨大进步。

o3Mini版本

与o3模型相比，o3Mini模型在性能与成本平衡方面表现出色，能够以较低的成本提供的服务。

在编码评估方面，o3Mini模型展现出了出色的性能提升。在CodeForces的评估中，随着思考时间的增加，o3Mini模型的表现不断提升，逐渐超越了o1Mini模型。

在中位思考时间下，o3Mini模型的性能甚至优于o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下，获得更的编程辅助，提高开发效率，降低开发成本。

在数学能力中，o3Mini模型在2024年数据集上表现出色。o3Mini低模型的性能与o1Mini相当，而o3Mini中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时，o3Mini模型也能展现出一定的优势，实现了接近即时响应的效果。

此外，o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能，与O1模型相当。在实际应用中，o3Mini模型在大多数评估中实现了可比或更好的性能。

在现场演示中，o3Mini 模型的强大功能得到了直观展示。例如，在一项任务中，模型被要求使用Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后，模型成功启动了本地服务器，并生成了包含文本框的用户界面。

用户在文本框中输入编码请求后，模型能够迅速将请求发送至 API，并自动任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但 o3Mini 模型在低推理努力模式下依然表现出了极快的处理效率。

目前，该模型还处于安全阶段，从今天开始o3Mini 模型率先开放给外部安全研究人员进行，随后 o3模型也将参与其中。研究人员可通过访问 OpenAI 的网站，填写申请表格参与。

标签：模型 o3Mini 性能

打赏

海报

阅读

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

相关推荐

阿德巴约取得生涯第206次两双 超越莫宁&amp;上升至热火队史第二位

欧文：不认为本赛季曼城会英超夺冠 利物浦比之前控制力更强

尽力局！希罗24中11得28分12板5助3断 下半场17分未能救主

⚡️架海紫金梁！哈滕准备充分积极拼抢砍了13分18板0失误

超猛的二当家！杰伦威25中12&amp;三分7中4得全队最高33分 另有6板4助

能否走出颓势？曼城近10次面对维拉取得8胜1平1负

打得还行！亚历山大25中10拿下25分7板4助2断 正负值+14最高

欧文谈理想球员：C罗右脚+吉格斯左脚+欧文速度+克林斯曼庆祝

阿德巴约取得生涯第206次两双超越莫宁&上升至热火队史第二位

欧文：不认为本赛季曼城会英超夺冠利物浦比之前控制力更强

尽力局！希罗24中11得28分12板5助3断下半场17分未能救主

超猛的二当家！杰伦威25中12&三分7中4得全队最高33分另有6板4助

打得还行！亚历山大25中10拿下25分7板4助2断正负值+14最高