
2 月 6 日消息,美国时间周三,谷歌正式向公众发布 Gemini 2.0 人工智能模型套件,这是该公司迄今为止推出的“最强大”AI 系统。
虽然早在去年 12 月,谷歌已向开发者和受信任测试者开放了 Gemini 2.0 的早期版本,并将部分功能集成到自家产品中,但此次标志着该系统的"全面正式发布"。该模型套件包含三大核心模型套件:2.0 Flash 作为"主力模型",专为处理大规模高频次任务优化;2.0 Pro Experimental 针对编码性能进行强化;而 2.0 Flash-Lite 则被定位为"最具成本效益"的轻量化版本。
在定价策略上,Gemini Flash 对文本、图像和视频输入的处理费用为每百万 token 10 美分(token 即 AI 模型处理的最小数据单元,相比而言 GPT-4o 的输入成本为每百万 token 5 美元),其精简版 Flash-Lite 价格更低至 0.75 美分/百万 token。这一系列产品发布是谷歌在 AI 智能体领域的重要布局。随着科技巨头与初创企业间的 AI 军备竞赛日趋激烈,包括 Meta、亚马逊、微软、OpenAI 及 Anthropic 等公司都在竞相开发能自主完成多步骤复杂任务的智能体系统,而非需要逐步指导的传统 AI 模型。
谷歌在去年 12 月的技术博客中阐释:"过去一年,我们持续投资研发更具自主性的模型,使其能够深度感知环境、进行多步前瞻性思考,并在用户监督下代为执行操作。"Gemini 2.0 不仅实现了原生图像与音频输出的多模态突破,更具备原生工具调用能力,该系列模型将助力我们打造新一代 AI 智能体,向‘通用型数字助手’的愿景迈进。"
值得关注的是由前 OpenAI 研究团队创立、获亚马逊投资的 Anthropic 公司。这家 AI 新锐去年 10 月宣布其智能体已具备类人类的计算机操作能力,能够解析屏幕信息、点击按钮、输入文本、浏览网页,并通过各类软件结合实时网络数据完成任务。公司首席科学家贾里德·卡普兰(Jared Kaplan)当时表示:"我们的系统能以近乎人类的方式操作电脑,处理包含数十乃至数百个步骤的复杂流程。"
OpenAI 近期也推出名为 Operator 的智能体系统,可自动完成旅行规划、表格填写、餐厅预订等任务。这家微软投资的明星企业将 Operator 定义为"可联网执行任务的数字代理"。本周早些时候,OpenAI 又发布 Deep Research 功能,支持智能体自主生成深度研究报告。值得注意的是,谷歌在去年 12 月也推出了同名工具,定位为"能代用户探索复杂课题的研究助手"。
去年 12 月曾有报道称,谷歌计划在 2025 年初推出多项 AI 新功能。公司首席执行官桑达尔·皮查伊(Sundar Pichai)在内部战略会上强调:"商业史上,先发优势并非绝对关键,真正的成功在于卓越执行力与产品力。2025 年对我们而言,正是兑现产品承诺的关键之年。"(小小)