新智元报道
编辑:KingHZ 英智
最近,OpenAI 的研究团队在采访中表示,全新的 Deep Research 功能,可以为你节省几个小时甚至几天的时间!
Deep Research(深度研究)是继「Operator」之后,OpenAI 推出的第二个智能体,利用模型的推理能力,综合分析浩瀚的互联网信息,从而完成复杂的研究任务。
月初,OpenAI 首先向 ChatGPT Pro 用户开放了 Deep Research 功能。最近,进一步开放给了更多等级的订阅用户。
其中,Plus、Team、教育和企业用户每月 10 次查询机会,Pro 用户每月 120 次机会。
OpenAI 对新功能寄予厚望:
它能在几分钟内完成人类需要数小时才能完成的工作 。 综合知识的能力是创造新知识的先决条件。 因此,深度研究标志着我们在开发 AGI(通用人工智能)这一更广泛目标上迈出了重要一步。 长期以来,我们一直设想 AGI 能够进行创新性科学研究。
奥特曼表示:这是他最喜欢的已发布的功能之一。
此次更新,固然给用户带来了新体验,「钱没白花」。
但考虑到每月最多使用 10 次,新功能显得「鸡肋」:
考虑到同一梯队的竞争对手,不仅类似功能推出的更早,而且免费,OpenAI 这次发布,的确算不上出彩。
那这次 OpenAI 都推出哪些新特性?为什么这次落后竞争对手了呢?
技术报告发布
在X上,OpenAI 连发多条消息,介绍深度研究相关更新情况。
除更多用户可用之外,本次更新的主要改进为:
在输出中嵌入带引用的图片更好理解和参阅上传的文件
然后,其他改进呢?无。
至于,没什么落后竞争对手,OpenAI 给出的解释是为了控制风险,保证安全:
在推出深度研究并将其提供给 Pro 用户之前,我们进行了严格的安全性测试、准备评估和治理审查。 我们还进行了额外的安全性测试,以更好地了解与深度研究浏览网页能力相关的逐步风险,并添加了新的缓解措施。重点工作包括加强对在线发布的个人信息的隐私保护,并训练模型抵抗在互联网搜索过程中,可能遇到的恶意指令。 在广泛发布深度研究之前,我们花时间进行了更多的人工探测和自动化测试,以评估特定风险。
在官网发布的系统卡(System card),OpenAI 从提示注入、禁止内容、隐私、运行代码能力、偏见和幻觉等方面,全面测试、评估并缓解了系统安全问题。
OpenAI 展示了一系列测试结果,最后认为
总体上,深度研究在准备框架(Preparedness Framework)中被归类为中等风险,并且已采取相应的保障措施和安全缓解措施,为这个模型做好了准备。
值得关注的是,在模型自主性方面,在处理更长时间跨度和智能体任务时,深度研究性能有所改进,尤其是在模型自主性风险相关的任务中。
比如,在 SWE-Bench Verified 评测中,深度研究展现了执行明确定义的编程任务的能力,被评定为中等风险水平。
已有网友给出了全面的总结:
更多安全测试结果与分析,参阅 OpenAI 官方系统卡:
文档链接:https://cdn.openai.com/deep-research-system-card.pdf
尴尬之处在于,已免费推出相关功能的 Grok-3,以安全性著称。
红杉采访亮点
红杉资本合伙人 Sonya 和 Lauren,与 OpenAI Deep Research 的产品负责人 Isa 和 Josh 展开了深度对话。
当问及 2025 年的风口时,Isa 和 Josh 不约而同地回答:「智能体」。
Deep Research 是 OpenAI 在「Operator」之后推出的第二个智能体。通过端到端的强化学习训练,Deep Research 能像经验丰富的研究员一样,查资料、思考并完成全面的报告。
这不仅是节省5% 时间,而是将原本需要 8 小时的任务缩减到 5 分钟!
Deep Research 无法为你完成一切,但它能为你节省几个小时,甚至是几天。
Isa 表示:「我确信它会成为人们生活中不可或缺的一部分。」
从行业分析到医学研究,再到计划生日派对,Deep Research 几乎无所不能。
Deep Research 不是普通的搜索工具,它能广泛收集有关来源的信息,擅长在互联网上找到小众的事实,并整合到一个漂亮、整洁的报告中,嵌入图表,并附上指向原始信息的引用。
当你想寻找特定的信息,并需要搜寻大量资料时,它才能发挥出最佳水平。它很擅长寻找和综合信息,但 Isa 不认为 Deep Research 当前能做出新的科学发现。
应用场景
Deep Research 常被应用于科学研究、医学研究等领域。人们用它来了解市场、公司和房地产等。
Isa 的朋友正考虑创办一家消费品公司,会用它来做竞品调研,查看特定域名是否被占用,以及估算市场规模。
出人意料的是,用户会用 Deep Research 搜索代码,查找关于某个软件包的最新文档,并帮他们编写脚本。
Deep Research 不仅能用于工作,在购物和旅行建议上也很有用。比如想买一辆新车时,可以请它整理一份报告。在日本发布 Deep Research 功能时,它可以用来帮忙寻找餐厅。
个性化教育也是非常有趣的场景,如果想复习生物学知识,它会是个好帮手。
输入想了解的信息,它会为你整理出一份很棒的报告。
技术架构
驱动 Deep Research 的是 o3 模型的微调版本 ,o3 是 OpenAI 最先进的推理模型。
模型针对困难的搜索和推理任务进行了训练,可以调用浏览工具和 Python 工具。通过在这些任务上进行端到端训练,模型学会了在线搜索和分析。
Deep Research 最大的创新在于「端到端训练」。研究的过程中,很多事是无法预测的。Isa 认为没有脚本能像训练出的模型那样灵活,能对实时的信息做出反应。
Deep Research 在做有创造性的搜索,查看思维链总结会发现,它在想出下一个要查找的内容方面非常聪明。
Josh 表示「我们经常误以为自己写代码会比模型更聪明,但实际上,模型通常会提出更好的解决方案。」
强化学习微调很可能是构建强大智能体的关键!
Yann LeCun 有个「蛋糕比喻」,无监督学习是蛋糕,监督学习是糖霜,强化学习是顶部的樱桃。
成功的秘诀是构建高质量的数据集,数据质量是决定模型质量的最大因素。
Josh 认为「AGI」目前只是运营问题。
参考资料: