okok下载站
首页 > 资讯 > OpenAI推出拥有顶尖数学运算能力的GPT-5.2

OpenAI推出拥有顶尖数学运算能力的GPT-5.2

OpenAI Group PBC 于今日推出了旗下最新且性能最为强大的大型语言模型 GPT-5.2。

LLM包含三个版本,分别是即时版、思维版与专业版。OpenAI指出,思维版和专业版这后两个版本在众多数学任务里都取得了创纪录的性能表现。同时,该公司还宣称GPT-5.2在其他领域的表现也超越了竞争对手。

OpenAI采用FrontierMath(Tier 1-3)基准对中端思维版本展开测试,该数据集涵盖大学难度的数学题目,部分题目甚至需要研究生投入数小时方可解答。据OpenAI透露,GPT-5.2思维在该数据集中的正确解题率达到40.3%,一举刷新行业纪录。不仅如此,该模型在国际数学奥林匹克资格考试中还取得了满分的成绩。

GPT-5.2 Pro是目前LLM里性能最强的版本,它助力研究人员在统计学习理论这一数学分支领域有了新的发现。这个版本解决了2019年某数学会议上提出的一个未解决问题的简化版本,并且据OpenAI透露,该解决方案是GPT-5.2 Pro在无人为指导的情况下自主研发出来的。

和GPT-5.1比起来,这个模型在理解科学论文里的图表这方面做得更出色。OpenAI借助一个叫CharXiv Reasoning的基准测试,对GPT-5.2在该领域的表现进行了评估。其中Thinking版本的模型准确解读了基准数据集中88.7%的图表,这比GPT-5.1 Thinking的表现提升了8%还多。

GPT-5.2的视觉推理能力同样能应用于多种不同任务。在OpenAI团队开展的一次内部测试里,他们向模型输入了主板的低分辨率图片,模型成功识别出了其中的关键部件。此外,GPT-5.2还具备分析商业智能仪表盘、产品图表以及其他各类文件的能力。

OpenAI称,该模型在前端开发以及构建界面等可视化应用组件方面,表现显著优于前代产品。其中,GPT-5.2尤其擅长创建模拟类的三维资产。

该模型在其他编程任务上也实现了性能提升。据OpenAI介绍,GPT-5.2在SWE-Bench Pro这一包含多种编程语言复杂编码任务的测试集上,取得了55.6%的创纪录得分;而在仅针对Python的SWE测试验证版本中,其得分更是达到了80%。

OpenAI 今天开始向 ChatGPT 推送 GPT-5.2。它还通过其应用程序接口为开发者提供了LLM的可用性。

入门级GPT-5.2模型的定价标准为:每百万输入代币1.75美元,每百万输出代币14美元。而对于使用LLM专业版的应用,这两项费率会分别提高到21美元和168美元。OpenAI指出,开发者借助缓存功能,能够将频繁出现的提示回复成本降低最多90%,因为无需为每个请求都重新从零开始生成内容。

游戏攻略
热门攻略
热门游戏
专题合集更多
热门攻略