英文: The iPhone 6 Officially Ends Its Run: A Legendary Phone Steps Off the Stage
OpenAI 推出新模型 o1:深度“推理”能力带来革命性变革OpenAI 近期推出了新模型 OpenAI o1 的两个变体——o1-preview 和 o1-mini,它们在“推理”能力方面的突破引发了广泛关注。人工智能专家 Simon Willison 深入剖析了这些新模型的设计理念与实现细节,揭示了它们在技术上的独特优势与不足
OpenAI 推出新模型 o1:深度“推理”能力带来革命性变革
OpenAI 近期推出了新模型 OpenAI o1 的两个变体——o1-preview 和 o1-mini,它们在“推理”能力方面的突破引发了广泛关注。人工智能专家 Simon Willison 深入剖析了这些新模型的设计理念与实现细节,揭示了它们在技术上的独特优势与不足。
o1 并非简单地对 GPT-4o 进行升级,而是通过强化模型的“推理”能力,在成本和性能之间取得平衡。这一突破来自 OpenAI 针对“思维链”的深入研究,将以往的“分步思维”策略提升到了新的高度。
1. 思维链训练:提升推理能力的关键
OpenAI 声明:“我们研发了一系列新型人工智能模型,旨在让它们在做出响应前花更多时间思考。” 这些新模型可以被视为思维链提示策略的深化拓展,是“分步思维”策略的具体实践。
OpenAI 在论文《与大语言模型共学推理》(Learning to Reason with LLMs)中详细阐述了 o1 模型的训练方法,揭示了其能力提升背后的秘密。论文指出,OpenAI 采用大规模强化学习算法,精心设计了训练流程,使模型能够高效利用数据,熟练运用思维链进行深度思考。
通过强化学习的训练,o1 不仅学会了优化思维链的使用,还掌握了自我提升的关键技能。o1 能够识别并纠正错误,将复杂难题拆解为一系列更易处理的子任务。当现有方法失效时,它会尝试不同的方法直至找到最佳解法。这一过程极大提升了模型的推理能力。
实际上,o1 模型在处理复杂提示方面实现了质的飞跃。面对那些需要回溯与深入“思考”的任务时,模型能够展现出更加出色的表现,而不再仅仅依赖于下一个 Token 预测。
2. API 文档揭示底层细节与使用限制
OpenAI 在 API 文档中提供了一系列关于新模型及其设计权衡的有趣细节。
- 应用场景选择: 对于依赖图像输入、函数调用或追求即时响应速度的应用场景,GPT-4o 及其精简版 GPT-4omini 仍然是理想选择。如果项目需要深度推理能力,且能够适应较长的响应时间,那么 o1 模型无疑是更优的选择。
- API 访问权限: 目前,o1-preview 和 o1-mini 的访问仅限于五级账户用户,且 API 积分累计需达到至少 1,000 美元方可解锁。
- 系统提示限制: 模型集成了现有的聊天完成 API,但仅支持用户与助手之间的消息交互,不支持系统提示功能。
- 其他功能限制: 当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
- 响应时间: 鉴于模型解决问题所需推理量的不同,处理请求的时间可能介于几秒至几分钟不等。
- 推理 Token 的引入: 这些 Token 在 API 响应中不可见,但却扮演着至关重要的角色,是驱动新模型能力的核心,且作为输出 Token 计费并计数。鉴于推理 Token 的重要性,OpenAI 建议为充分利用新模型的提示预留约 25,000 个推理 Token 的预算。
- 输出 Token 配额提升: o1-preview 的配额增至 32,768 个,而 o1-mini 则高达 65,536 个。相比于 GPT-4o 及其 mini 版(两者的配额均为 16,384 个),这一增加为用户提供了更多资源。
- RAG 提示优化: 在整合附加上下文或文档时,应严格筛选,保留最相关的信息,以避免模型生成过于复杂的响应。这与 RAG 的传统做法截然不同,后者倾向于将大量潜在相关文档纳入提示。
3. 隐藏的推理 Token 引发争议
令人遗憾的是,推理 Token 在 API 调用中处于隐藏状态。用户需要为这些 Token 支付费用,却无法得知其具体内容。OpenAI 对此政策的解释如下:“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由,避免外界干预或操控其推理逻辑。展示模型的完整思维链可能暴露不一致性,并影响用户体验。”
这项决策基于多重考量:一方面是为了确保安全与策略的遵从性,另一方面则是为了保持技术上的竞争优势,避免竞争对手利用推理成果进行训练。
作为对大语言模型发展持保留意见的一方,Willison 对此决定并不满意。他认为,在追求技术创新的同时,保持可解释性与透明度至关重要。关键细节的隐藏,意味着对透明度的一种削弱,感觉像是一个倒退的举措。
4. 示例解读:展现 o1 的推理能力
OpenAI 在“思维链”部分提供了许多示例,包括 Bash 脚本生成、填字游戏解答和化学溶液 pH 值计算等,初步展示了这些模型在 ChatGPT 用户界面下的思维链能力。但它并未展示原始的推理 Token,而是通过一种优化机制,将复杂的推理步骤简化为易于理解的摘要。
OpenAI 还额外提供了两份文档,展示了更为复杂的例子。在“使用推理进行数据验证”一例中,o1-preview 演示了如何在 11 列 CSV 数据中生成示例,并通过多种策略验证数据的正确性;而“使用推理生成例程”则展示了如何将知识库文章转化为大语言模型能够解析并执行的标准化操作流程。
Willison 也在社交媒体上征集了许多 GPT-4o 未能成功应对却在 o1-preview 上表现出色的提示案例。其中两个尤为引人注目:
- 幽默解析: “解释一下这个笑话:‘两头牛站在地里,一头牛问另一头:‘你怎么看疯牛病?’另一头说:‘无所谓,我是直升机。’” o1-preview 给出了既合理又详细的解释,而其他模型对此无解。
尽管如此,优质的示例仍然较少。OpenAI 研究员 Jason Wei 指出,尽管 o1 在 AIME 和 GPQA 测试中的表现非常强大,但这种效果并不总是直观可感。找到让 GPT-4o 失手而 o1 表现出色的提示并不容易,但当你找到时,o1 的表现堪称神奇。大家都需要寻找更具挑战性的提示。
另一方面,沃顿商学院管理学教授、人工智能专家 Ethan Mollick 通过几周的预览体验,对 o1 给出了初步评价。他特别提到了一个填字游戏示例,其中 o1-preview 模型展现了清晰的推理步骤,如指出 1Across 与 1Down 的首字母不匹配,并主动建议替换答案以确保一致性。
5. 推理模型的未来:机遇与挑战并存
人工智能领域这一新进展带来了诸多待解之谜与潜在机遇,社区正逐步探索这些模型的最佳应用场景。
在此期间,Willison 预计 GPT-4o(及 Claude 3.5 Sonnet 等模型)将继续发挥重要作用。同时,我们也将见证这些推理模型如何扩展我们的思维模式,解决更多前所未有的任务。
此外,Willison 期待其他 AI 实验室,特别是开放模型权重社区,能够积极跟进,利用各自独特的模型版本复现并深化这些思维链推理的成果。
英文: The iPhone 6 Officially Ends Its Run: A Legendary Phone Steps Off the Stage
标签: OpenAI 出新 模型 o1 深度 推理 能力 带来 革命性
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!