ChatGPT Plus停售风波:算力不足是伪命题,数据才是关键

  界面新闻记者李京亚

  昨日中午,一则 ChatGPT Plus 停售的消息在国内科技圈引发震动。据量子位等媒体报道,OpenAI 暂停了 Plus 的销售,ChatGPT 已不支持 Plus 付费,之后何时开放也未可知。

  几位用户告诉界面新闻,昨天确实发生了 ChatGPT Plus 的停售,这些用户包括国内售卖 ChatGPT 账号的中间商和卖虚拟信用卡的中间商。

  今日早间,多位用户告诉界面新闻,ChatGPT 会员可以正常升级到 ChatGPT Plus,升级后功能一切正常。

  算力告急?

  ChatGPT Plus 的推出是为了用户可在 ChatGPT 高峰时段优先使用,获得更迅速的服务响应,因此,付费的 ChatGPT Plus 相对于免费的 ChatGPT 而言,拥有更大的模型容量、更先进的训练和更好的预处理,在使用上能够更加快速高效地处理输入并完成输出。 OpenAI 是在今年 2 月 1 日发布了 ChatGPT Plus 订阅计划,ChatGPT Plus 每月收费 20 美元(约合 135 元人民币)。

  ChatGPT Plus 的强大功能是基于 GPT-4 模型而生,而此前风靡全网的 ChatGPT 使用的是 GPT-3.5 模型,更强大的模型就意味着更大规模的算力。

  目前,大模型算力成本主要有初始训练成本和后续运营成本两部分。东吴证券对 GPT 模型所需的算力作了测算:在 GPT-3 模型初始训练阶段,根据 OpenAI 官网数据,每个 token (token 是服务端生成的一串字符串, 以作客户端进行请求的一个令牌)的训练成本通常约为 6N FLOPS (FLOPS 指每秒浮点运算次数,可理解为计算速度,可以用来衡量硬件的性能), 那么 OpenAI 对 ChatGPT 的初始训练成本需要 843 颗英伟达 A100 芯片。

  当进入运营阶段,由于这个阶段所需算力量与使用者数量紧密相关,东吴证券作出假设,如果 GPT-3 每日有 5000 万活跃用户,每个用户提 10 个问题,每个问题回答 400 字,则这个阶段需要 16255 颗英伟达 A100 芯片。

  根据 ChatGPT Plus 的收费金额,东吴证券推论,GPT-4 的参数量是 GPT-3 的 10 倍以上,因此预计 GPT-4 的算力需求是 GPT-3 的 10 倍以上。

  此等算力规模需求,自然会引发算力告急的猜想。随着用户需求量超过预期,OpenAI 很可能采取一些方式来减少对 ChatGPT 的访问。比如从 3 月 31 日开始,ChatGPT 开始集中在亚洲地区大规模封号,据各方消息汇总,这次封号受到影响的账户多达百万。

  OpenAI 想借 ChatGPT Plus 作为打开丰富商业模式的开端。但在现实阶段体验中,无论是 ChatGPT 还是 ChatGPT Plus,都存在显著的相应延迟和回答错误率提升等问题。3 月下旬开始,OpenAI 对于 Plus 付费用户的访问连续下降阈值,其应用模型 GPT-4 访问限制由第一天的 150msg/4hr 到 100msg/4hr 到 50msg/3hr 直到最近的 25msg/3hr,相当于不到一个月连续下降了 4 次访问阈值,这都被视为算力不足的体现。

  不过,也出现了专业声音认为,算力并非大模型发展和功能体验的真正瓶颈。

  氪信科技创始人兼 CEO 朱明杰告诉界面新闻,他并没有把算力问题太当成瓶颈,做大模型,最先解决的是最终结果的问题。

  氪信科技是将搜索引擎级别的大规模机器学习技术用于金融领域的最早一批人工智能公司,朱明杰告诉记者,“用第一性原理来说,本质上 OpenAI 解决的问题是如何把这么大体量的数据压缩到模型里面去,变成知识的问题,这才是它的终极目标。中间算力到底用 A100 还是 A800,用的是 GPU 架构还是 CPU 架构,反而都是可解的事情。”

  事实上,此番扑朔迷离的 ChatGPT Plus 停售事件,是近日“唱衰 ChatGPT 大合唱”的最新乐章。

  刚刚,加拿大和德国加入了意大利的“反感 ChatGPT”阵营。当地时间 4 月 4 日,加拿大隐私专员办公室(OPC)宣布开始调查 ChatGPT 背后的公司 OpenAI,涉及“指控 OpenAI 未经同意收集、使用和披露个人信息”的投诉。

  据路透社消息,德国联邦数据保护专员 Ulrich Kelber 在 4 月 3 日发表的评论中告诉德国《商报》,德国可能会追随意大利的脚步,因数据安全考量而“封杀”ChatGPT。

  3 月底,意大利个人数据保护局宣布,即日起暂时禁止 ChatGPT 的使用,同时对 OpenAI 展开调查,限制其处理意大利的用户信息。该机构认为,3 月 20 日 ChatGPT 平台出现了用户对话数据和付款服务支付信息丢失情况。此外,平台没有就收集处理用户信息予以告知,缺乏大量收集和存储个人信息的法律依据。

  两天后,OpenAI 首席执行官 Sam Altman 回应称这是一个 “重大问题”,“我们对此感觉很糟糕。”他表示,将会遵从意大利政府的要求,并已停止在意大利提供 ChatGPT——尽管其认为自身遵守所有的隐私法。

  而在意大利对 ChatGPT 做出封禁决定前两天,马斯克率一众科技圈大佬呼吁暂停高阶 AI 系统训练,其所发表的一封公开信引发了轩然大波。信中指出,“只有在我们确信强大的人工智能系统的效果将是积极的,风险是可控的,才应该开发。”

  数据才是关键

  纵观近期围绕 ChatGPT 的争议事件会发现,表面看,算力是影响 OpenAI 发展的瓶颈,但事实上,数据才是 OpenAI 能否继续发展的助力和关隘。

  “算力的扩容目前不会是提供服务的瓶颈,不难克服。”北京师范大学法学院博士生导师、中国互联网协会研究中心副主任吴沈括对界面新闻表示。

  “ChatGPT 们当然需要新的监管规则,但现行的法规依然有效,在这个意义上,从数据切入是目前最扎实有效的监管方式。”吴沈括表示,无论是意大利、德国还是加拿大,他们本次监管切入点都是数据流转。

  “不过,意大利等国针对 ChatGPT 的监管举措到目前为止,都不能得出技术本身是违法的结论。”吴沈括强调。

  吴沈括进一步分析了欧美在 ChatGPT 监管中的不同站位,他指出,欧洲有严格的数据法规,从数据流转角度切入得心应手,能够反映欧洲关于数字主权、技术主权的核心立场,特别是针对美国企业,“这里有一个数字经济、数字发展的主导权问题。”

  他判断欧洲各国效法跟进的可能性较大,而美国方面,由于处于技术先发的优势地位,对 ChatGPT 们的监管思路会更为宽松。

  “美国和其他国家的监管思路必然出现明显差异,因为这种技术存在本身,能放大其已有的数据优势、算力优势和算法优势。”吴沈括直言。

  他预计此后,ChatGPT 们运算处理过程中的规则透明度、可解释性,会成为监管关系的重点。

  “这里面的要害是数据收集汇聚,是否具有合法性,是否取得了当事人同意,是否属于违法爬取数据;第二是加工处理角度,是否有超过、超越权利人授权;第三,关于数据处理运算结果的输出,是否符合伦理的要求,法律规则和安全的要求,是否会带来危害社会和公众利益的结果。”吴沈括从三个层次概括了 ChatGPT 们要度过目前数据屏障的关键。

  在移除数据屏障的过程中,OpenAI 可能还面临着一桩难题。

  OpenAI 已经面临与自己的金主微软之间尴尬的客户竞争,很多企业级客户开始在 OpenAI 和 Azure OpenAI 中进行权衡。有观点指出,OpenAI 已经向 Azure 保留了一些模型,迫使很多公司直接和 OpenAI 合作,比如 3 月 1 日开始,OpenAI 对外销售其语音识别模型 Whisper 的访问权限,目前该模型仍不可用于 Azure OpenAI 服务。

  亚洲地区大规模封号事件开始后,OpenAI 的系统出现了部分问题,而微软的 Azure 云上所提供的 OpenAI 相关服务仍然保持稳定,客户还可在运行与 OpenAI 相同的模型时获得 Microsoft Azure 的安全功能。安全性,已成为微软从 OpenAI 手上抢夺客户的一大优势。

  接下来,OpenAI 需要在纷繁复杂的线头中厘清制约发展的真正瓶颈在哪儿。OpenAI 的联合创始人 John Schulman 给别人提出的建议也适用于其自身:选择去解决什么问题的能力比你本身拥有的技能更重要。