数学中国

用户名  找回密码
 注册
帖子
热搜: 活动 交友 discuz
查看: 1096|回复: 0

“AI 做题家”来了,OpenAI 发布新一代大模型“o1”

[复制链接]
发表于 2024-9-15 11:57 | 显示全部楼层 |阅读模式
“AI 做题家”来了,OpenAI 发布新一代大模型“o1”

整理 | 周舒义、望乡

当地时间 9 月 12 日,人工智能巨头 OpenAI 正式发布新一代大模型“o1”,同时发布的还有速度更快、成本更低的版本 o1-mini 。与以往模型相比,o1 的特性更接近人类:可以花更长时间“思考”,通过深度推理解决更复杂的自然科学、编程和数学问题。OpenAI 表示,新模型标志着 AI 复杂推理能力的里程碑式进步,因此系列代号重置为“1”。o1 内部代号“Strawberry(草莓)”,独立于 GPT 模型系列,后者仍在开发过程中。

o1 的特别之处在于,它不再纯粹通过提示(prompting)完成思维链(CoT),而是将其视为一种“思考”手段,融入训练和推理过程。思维链是一种提示方法,主要思想是鼓励大模型解释其推理步骤,从而引导出更准确的结果。在训练阶段,o1 通过强化学习(RL)来更好地运用思维链“思考”,可以将复杂问题拆分为简单步骤、识别和纠正错误、尝试不同的方法。在推理阶段,模型会引入一个较长的内部思维链,花更长时间“思考”问题。OpenAI 表示,随着强化学习时间和思考时间延长,o1 性能会持续提高。这在传统模型性能标度律(Scaling laws)的模型参数量、数据集大小、计算量之外,开辟了新维度。



通过解读思维链,可以读懂模型“内心”,了解其思考过程。不过,思维链未经对齐,出于用户体验、保持竞争优势等因素,o1 并未向用户暴露原始思维链,仅展示模型生成的摘要。

o1 在数学、编程等推理要求较高的任务中表现优异,大幅领先于 GPT-4o 。在 2024 年美国数学邀请赛(AIME)中,o1 平均得分率达 74% ,GPT-4o 仅 12% 。如果采样 1000 次并加权投票,o1 能拿到 93% 的分数,跻身全美前 500 名。在另一项测试中,o1 和 GPT-4o 分别向不同领域的开放式问题提交匿名回答,由人类票选出他们更喜欢的答案。o1 在编程、数据分析和数学计算方面显著优于 GPT-4o ,在写作和编辑方面稍逊。



OpenAI 科学家 Noam Brown 表示,o1 并不完美,有时甚至会在简单问题上出错,许多人试图用类似的例子证明“大语言模型无法推理”,但 o1 在这方面取得了长足进步,并能走得更远。现在,o1 需要思考几秒钟;未来的版本不仅不快,反而会更慢——思考几小时、几天甚至几周。“推理成本会上升,但为了研发新的抗癌药物,你愿意付多少成本?为了突破性的电池?为了证明黎曼猜想?AI 可以不仅仅是聊天机器人。”

官方简介: https://openai.com/index/introducing-openai-o1-preview/

原创 周舒义、望乡 返朴 2024 年 09 月 15 日 08:27 北京

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

LaTEX预览输入 教程 符号库 加行内标签 加行间标签 
对应的 LaTEX 效果:

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-7-4 20:43 , Processed in 0.079805 second(s), 17 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表
\frac{\square}{\square}\sqrt{\square}\square_{\baguet}^{\baguet}\overarc{\square}\ \dot{\baguet}\left(\square\right)\binom{\square}{\square}\begin{cases}\square\\\square\end{cases}\ \begin{bmatrix}\square&\square\\\square&\square\end{bmatrix}\to\Rightarrow\mapsto\alpha\ \theta\ \pi\times\div\pm\because\angle\ \infty
\frac{\square}{\square}\sqrt{\square}\sqrt[\baguet]{\square}\square_{\baguet}\square^{\baguet}\square_{\baguet}^{\baguet}\sum_{\baguet}^{\baguet}\prod_{\baguet}^{\baguet}\coprod_{\baguet}^{\baguet}\int_{\baguet}^{\baguet}\lim_{\baguet}\lim_{\baguet}^{\baguet}\bigcup_{\baguet}^{\baguet}\bigcap_{\baguet}^{\baguet}\bigwedge_{\baguet}^{\baguet}\bigvee_{\baguet}^{\baguet}
\underline{\square}\overline{\square}\overrightarrow{\square}\overleftarrow{\square}\overleftrightarrow{\square}\underrightarrow{\square}\underleftarrow{\square}\underleftrightarrow{\square}\dot{\baguet}\hat{\baguet}\vec{\baguet}\tilde{\baguet}
\left(\square\right)\left[\square\right]\left\{\square\right\}\left|\square\right|\left\langle\square\right\rangle\left\lVert\square\right\rVert\left\lfloor\square\right\rfloor\left\lceil\square\right\rceil\binom{\square}{\square}\boxed{\square}
\begin{cases}\square\\\square\end{cases}\begin{matrix}\square&\square\\\square&\square\end{matrix}\begin{pmatrix}\square&\square\\\square&\square\end{pmatrix}\begin{bmatrix}\square&\square\\\square&\square\end{bmatrix}\begin{Bmatrix}\square&\square\\\square&\square\end{Bmatrix}\begin{vmatrix}\square&\square\\\square&\square\end{vmatrix}\begin{Vmatrix}\square&\square\\\square&\square\end{Vmatrix}\begin{array}{l|l}\square&\square\\\hline\square&\square\end{array}
\to\gets\leftrightarrow\nearrow\searrow\downarrow\uparrow\updownarrow\swarrow\nwarrow\Leftarrow\Rightarrow\Leftrightarrow\rightharpoonup\rightharpoondown\impliedby\implies\Longleftrightarrow\leftharpoonup\leftharpoondown\longleftarrow\longrightarrow\longleftrightarrow\Uparrow\Downarrow\Updownarrow\hookleftarrow\hookrightarrow\mapsto
\alpha\beta\gamma\Gamma\delta\Delta\epsilon\varepsilon\zeta\eta\theta\Theta\iota\kappa\varkappa\lambda\Lambda\mu\nu\xi\Xi\pi\Pi\varpi\rho\varrho\sigma\Sigma\tau\upsilon\Upsilon\phi\Phi\varphi\chi\psi\Psi\omega\Omega\digamma\vartheta\varsigma\mathbb{C}\mathbb{H}\mathbb{N}\mathbb{P}\mathbb{Q}\mathbb{R}\mathbb{Z}\Re\Im\aleph\partial\nabla
\times\cdot\ast\div\pm\mp\circ\backslash\oplus\ominus\otimes\odot\bullet\varnothing\neq\equiv\not\equiv\sim\approx\simeq\cong\geq\leq\ll\gg\succ\prec\in\ni\cup\cap\subset\supset\not\subset\not\supset\notin\not\ni\subseteq\supseteq\nsubseteq\nsupseteq\sqsubset\sqsupset\sqsubseteq\sqsupseteq\sqcap\sqcup\wedge\vee\neg\forall\exists\nexists\uplus\bigsqcup\bigodot\bigotimes\bigoplus\biguplus\bigcap\bigcup\bigvee\bigwedge
\because\therefore\angle\parallel\perp\top\nparallel\measuredangle\sphericalangle\diamond\diamondsuit\doteq\propto\infty\bowtie\square\smile\frown\bigtriangledown\triangle\triangleleft\triangleright\bigcirc \wr\amalg\models\preceq\mid\nmid\vdash\dashv\nless\ngtr\ldots\cdots\vdots\ddots\surd\ell\flat\sharp\natural\wp\clubsuit\heartsuit\spadesuit\oint\lfloor\rfloor\lceil\rceil\lbrace\rbrace\lbrack\rbrack\vert\hbar\aleph\dagger\ddagger

MathQuill输入:

Latex代码输入: