OpenAI 智能体重磅发布:ChatGPT 如何实现里程碑式飞跃

     分类 [Ai资讯]
2025/7/18 14:05:35 浏览量  15 喜欢  0
导读:ChatGPT 现已具备自主处理复杂任务的能力ChatGPT 现已能够独立处理从网络搜索到制作演示文稿等各种复

OpenAI 智能体重磅发布:ChatGPT 如何实现里程碑式飞跃


 

ChatGPT 现已具备自主处理复杂任务的能力

 

ChatGPT 现已能够独立处理从网络搜索到制作演示文稿等各种复杂任务。这项新功能整合了早期的研究成果,并赋予了聊天机器人访问虚拟计算机环境的能力。

据 OpenAI 称,ChatGPT 现在通过主动从所谓的“智能体能力”工具箱中选择并直接在其虚拟计算机中运行这些能力来完成任务。这意味着用户可以要求它执行诸如规划和购买早餐菜单、分析竞争对手并创建演示文稿,或者根据当前新闻整理日历条目等任务。

“ChatGPT 智能体”旨在浏览网站、筛选结果、在需要时提示登录、执行代码、运行分析以及创建可编辑文档,如演示文稿或电子表格。


 

统一智能体系统:核心升级

 

此次更新的核心是 OpenAI 称之为“统一智能体系统”的东西。该公司表示,它将早期工具(如用于自主使用浏览器的“Operator”和用于信息检索和合成的“Deep Research”)的优势与 ChatGPT 的智能融合在一起。此前,这些系统是独立工作的:Operator 无法分析数据,Deep Research 无法与网站交互。现在,它们的整合开辟了新的用例。


 

复杂工作流的工具箱

 

ChatGPT 智能体内置了多种工具:用于图形界面的可视化浏览器、用于简单网络查询的文本浏览器计算机终端以及直接 API 访问。人工智能应该会自动选择最适合任务的工具。通过连接器,该智能体还可以访问 Gmail 或 Github 等应用程序。

所有这些都在云端的一个虚拟计算机环境中进行,该环境可以跟踪不同工具之间的上下文。OpenAI 强调用户始终保持控制。智能体在执行任何有后果的操作之前都会请求许可,用户可以随时中断、接管浏览器或停止任务。如果智能体需要更多详细信息才能完成目标,它也会主动询问。


 

性能基准测试表现卓越

 

OpenAI 表示,驱动该智能体的底层模型在多项基准测试中取得了新的最先进成果。在测试人工智能专家级问题的“Humanity's Last Exam”(HLE)中,该模型取得了 41.6 的新高分。对于严苛的数学基准测试“FrontierMath”,它取得了 27.4% 的准确率。

在衡量数据科学任务表现的“DSBench”中,OpenAI 声称 ChatGPT 智能体的性能显著优于人类。在测试电子表格处理的“SpreadsheetBench”中,该智能体得分为 45.5%,而 Excel 中的 Copilot 得分为 20%。尽管如此,在这些任务中人类仍然表现更优。

OpenAI 智能体重磅发布:ChatGPT 如何实现里程碑式飞跃

 

对于网络导航,“BrowseComp”基准测试显示了 68.9% 的新最先进结果,比 Deep Research 提高了 17.4 个百分点。


 

发布范围和新功能

 

智能体目前正在向 Pro、Plus 和 Team 用户推出,Enterprise 和 Education 客户将在未来几周内陆续获得。欧洲经济区和瑞士的用户仍在准备中。演示文稿制作功能处于测试阶段,OpenAI 表示结果可能仍不尽完善。

Pro 用户每月可获得 400 条消息,而 Plus 和 Team 用户每月可获得 40 条。首次可以购买额外消息。


 

OpenAI 应对新风险和安全问题

 

允许 ChatGPT 在网络上执行操作引入了新的风险,尤其是在用户数据方面。OpenAI 表示总体风险状况更高。该公司正致力于防范“提示注入”,即攻击者试图通过网页中的隐藏指令来操纵智能体。

OpenAI 的对策包括训练模型识别此类攻击、监控系统,以及在任何高影响操作之前要求明确的用户确认。一些关键任务,例如发送电子邮件,需要额外的“观察模式”进行监控,而银行转账等高风险操作则默认被阻止。

由于这些新能力,OpenAI 根据其准备框架将该智能体归类为具有“高生物和化学能力”,并已启动了额外的安全措施。该公司表示,这是其为 ChatGPT 实施的最全面的安全架构。措施包括详细的威胁模型、防止在生物和化学领域滥用的特殊培训、使用分类器和推理监视器进行持续监控,以及针对可疑活动的明确升级流程。

在开发过程中,OpenAI 与外部生物安全专家、安全机构和研究人员合作审查和验证保护措施。生物专业人员的红队演练旨在测试现实场景中的防御能力。OpenAI 表示,它采用了多层安全方法,涉及外部合作伙伴以尽早发现新风险。该公司还启动了一项漏洞赏金计划,以帮助发现现实世界中的风险。

感谢阅读,您的分享和订阅是对我最大的鼓励和支持:

 

标签

微信扫一扫,分享到朋友圈

微信公众号
 苹果iOS虚拟币充值(抖音钻石、快币、薯币、比心币、他趣币、陌陌币充值)

相关推荐