国思软件 - 百度文心一言，还是个不完美小孩

　　文偲睿洞察，作者 Renee，编辑孙越

　　用“不完美小孩”，形容目前的百度文心一言，再合适不过了。

　　“不完美”体现在，用户们连着五天测试发现，文心一言偏科较为严重：是目前唯一能够直接进行“文生图”的模型，在文学创作例如诗词上有着“天赋”，但在“数学课”、“计算机编程课”较为差劲。

　　同时，文心一言也有着“小孩”的浮躁与诚实：不得不说，百度前期造势过猛。百度 Q4 季度财报以及高管发言无不预告着，文心一言成为百度 2023 年及之后的主题曲：

　　在发给百度全员的财报信中，李彦宏重点介绍了百度将在三月份推出的生成式 AI 产品文心一言(ERNIE Bot)，宣布计划将多项主流业务与文心一言整合。

　　同时 2 月份以来，各行各业接入百度文心一言消息不断，多次霸占新闻头条。

　　一顿操作猛如虎，让人误以为百度已经完完全全准备好了。

　　于是在发布会，百度高管诚实表示文心一言还不够成熟之时，百度股价应声而落：李彦宏诚实指出，自己体验时并不完美，这类大语言模型还远未到发展完善的阶段；百度首席技术官王海峰也提到模型目前“训练不够充分”。

　　于是，自 3.16 下午两点发布会开始之后，百度一度大跌 10%。

　　（百度近日股价变动图源：百度股市通）

　　而当用户真正去感受文心一言产品之时，发现其综合来看表现还算合格，3.17 过后，股民们又陆陆续续跑来鼓励这个“不完美小孩”。

　　股价跌也跌了，涨也涨了，大家骂也骂了。最终，我们还是得冷静下来，为这个不完美小孩，找一找差距，谋一谋出路。

　　01 不够理性的偏科生

　　3. 16 日，文心一言站上考场，“考官”们蜂拥而上，对其进行全天的“提问”。

　　考虑到个人测评样本过少，小编以国金证券券商测评结果为主，以机器之心、品玩等科技赛道自媒体测试结果为辅，对文心一言这五天的表现进行评估。结果发现，文心一言“同学”偏科较为严重：

　　（三大模型测评结果综合对比图源：国金证券研究所）

　　在推理类问题中，文心一言在演绎推理、逻辑推理等领域表现逊于 GPT 系列模型。例如在面对以下问题时，文心一言表现欠佳，GPT-3.5 和 4 持平：

　　在归纳总结类任务中，文心一言表现较好。品玩让文心一言和 GPT-3 分别给出一个用 5 块钱度过一周的方案，文心一言、GPT-3 的回答是：

　　可以看到，文心一言给出了更为贴合现实的方案；而 GPT-4 的回答，便是听君一席话，如听话一席。

　　在数学和代码类问题中，文心一言与 GPT-3、GPT-4 便有着较大的差距：

　　而在一些岗位的测试中，三大模型均能较好地完成 Al 生活助手、产品推荐等文本生成任务，其中在教育辅助岗位，在文言文和古诗词理解运用方面，文心一言有着“本土优势”，表现略佳。

　　（文心一言翻译情况图源：机器之心）

　　一整个测试下来，文心一言偏科还挺严重：一方面逻辑推理欠佳，对数学、计算机编程几乎“一窍不通”；一方面归纳总结能力较强，在文学创作、古诗文理解上有着“天赋”，有着文科生的潜质。

　　同时，也有着做“艺术生”的潜质：文心一言具备多模态生成能力，包括生成图片、生成语音（包括方言）以及生成视频的能力。以生成图片为例，机器之心让文心一言生成一张湖心亭看雪的水墨画，其生成速度、效果都在中上水准。

　　（文心一言文生图情况图源：机器之心）

　　综合看下来，在这五天的小考内，文心一言基于“本土优势”展现出自己在文学、艺术等方面的长处，相应地也暴露出在理科、以及逻辑思辨能力的较大短板。

　　文心一言，是个不够理性的偏科生。

　　02 成长的代价

　　经历过这五天上千万条拷问，文心一言应该能够“意识到”，自己需要恶补“理性思维”，从而能够在毕业时，cover 住更多的岗位。

　　此刻，文心一言便需要向目前班级上逻辑思维能力更好的 ChatGPT，找找差距，取取经。

　　在 AIGC 时代，算法、数据、算力是衡量差距的三把标尺：

　　在算法层面，百度与 ChatGPT 事实上是站在同一起跑线上的——百度与 OpenAI、谷歌都是基于 Transformer 模型去做不同的变体，延展出各自的深度学习框架以及再上层的大模型。

　　（芯片—AIGC 框架图图源：浙商证券）

　　在数据层面，二者差距较为明显：相比于百度文心一言，ChatGPT 经历了多次模型训练，并被无数个“考官”进行无数次指点，同时有专门的数据标注人员进行方向的修正。

　　据华西证券表示，ChatGPT 大模型最大的特点便是，引入人类反馈的强化学习（RLHF）。

　　RLHF 简单来说，就是用人工标注的方式，不断地将结果去反馈给模型：回答好的给出正反馈（例如图上的 Correct），回答不好的，就通过加分机制的方式让模型进一步的自我迭代，并进行不断的调优，直到回答正确。

　　（ChatGPT 答复情况图源：知乎博主 LowinLi）

　　百度同样也采用 RLHF，并辅以“对话增强、有监督精调”等机制，也就是说底层架构、技术路径相似，百度缺的是大量语料库的训练与反馈。毕竟，未被 RLHF 狠狠修正过的 ChatGPT，在刚上线的时候也出现了大量混乱的回答。

　　（百度文心一言模型技术图源：百度）

　　而在算力层面的差距，基本上可以靠钱填平。

　　这是因为，尽管美国出口限制政策影响较大，国内仍能采购性能更低的前代算力芯片，或者是使用自己研发的芯片，只是相对牺牲了计算速度。

　　同时，国内头部科技企业能够实现算力资源部分自给；国家也在重视算力的建设：2 月 24 日，东数西算一体化算力服务平台在宁夏银川正式上线发布。该平台将瞄准 ChatGPT 运算能力，以支撑中国人工智能运算平台急需的大算力服务。

　　不过，相比于阿里巴巴和华为，百度的数据中心容量有待提升。

　　（全球前十大科技企业数据中心容量排名图源：华西证券）

　　总结来看，文心一言的“文具”已然备齐，缺的是大把时间、大量资金去训练。

　　那么，“家长”百度若想让这个不完美小孩达到班级中上水平，需要砸多少钱？

　　根据华西证券测算，在不考虑人力支出及维护费用条件下，百度需要补足的成本拆分为训练成本、推理成本及数据标注成本，分别需要 2.29 亿元、13.62 亿元、0.05 亿元。

　　（类 ChatGPT 应用中期年均成本测算图源：华西证券）

　　也就是说，百度需要保持年均 16 亿元的投入，将有可能达到 ChatGPT 目前的能力。除此之外，文心一言为成长付出的代价包括但不限于：

　　为保证以上流程能够正常运转，百度还需吸纳更多的高价 AI 人才：在猎聘大数据研究院近期发布的 AI 人才报告中显示，2022 年 AI 相关岗位招聘的平均年薪为 33.15 万，比互联网岗位高 4.27 万；而 2023 年以来的一个多月，AI 岗位招聘的平均年薪已达到 42.51 万元，比上一年高出 9 万多；

　　为提供充足的算力，百度需要耗费更多资金建立并运作更多的数据中心：根据百度以往数据来看，一个数据中心的耗费在 47 亿元-100 亿元区间。

　　目前来看，百度有实力给“孩子”培训并让其吃饱喝足：

　　在 2017 年，百度提出“All IN AI”之后，百度持续为 AI 输血。在 2022 全年资本开支（除爱奇艺）高达 181 亿元。

　　并且现金流也较为充沛：截至 2022 年末，百度公司现金、现金等价物及受限现金为 652 亿元。

　　这个不完美小孩，在百度“富裕”的家庭环境下，未来或许会有着不错的发展。

　　03 百度搜索先吃到红利？

　　当大量的钱、人才、算力砸进去，文心一言具备了成熟的思维能力之后，百度要怎么走？

　　从目前来看，百度文心一言有两条“创业”方向：

　　1）为开发者直接提供 API 调用接口并收费。

　　据报道，“文心一言”已经以 API 形式接入 650 家企业，发布当日已有 6.5 万家企业申请测试，签约 5 家客户。

　　也就是说，B端商业化的思路已经显现。

　　但不排除后期因为预训练语言模型规模急剧增长，成本实在“蚌埠”住，最后无法持续提供服务的情况：OpenAI 便是出于商业角度考虑和高昂的端侧微调成本，大规模预训练语言模型不再被开源。

　　2）将 AGI 技术嵌入到自身成熟应用中，提供更强用户体验，进而推动用户为附加服务付费。例如，微软将 GPT 模型嵌入其搜索引擎 Bing 中：

　　2022 年 2 月，微软新推出 NewBing，该模块能够与用户对话、协助用户起草文本；

　　（Bing 广告情况图源：华西证券）

　　目前，Bing 已经靠着 ChatGPT，在短时间内，火速对巨头谷歌产生一定的威胁：

　　data.ai 数据显示，新功能上线当日，必应 Bing 应用程序的全球下载量在一夜之间猛增十倍；截至 3 月 10 日，Bing 活跃用户已突破 1 亿人，增幅超 600%。

（NewBing 下载量图源：华西证券）

　　撇去 ChatGPT 本身热度，Bing 收获青睐的原因是，搜索引擎与类 ChatGPT 产品能够双向互补：

　　1）搜索引擎能够弥补 GPT 的“消息滞后”。ChatGPT 的训练数据集仍停留在 2021 年，因此难以回答时效性问题，而 BingChat 能够基于实时更新的搜索库进行回答。

　　2）ChatGPT 能够对搜索结果进行直观集成，无需将链接一个个点开寻求答案，大大优化了用户体验。同时在此基础上，也增添了趣味性：微软为 NewBing 设置了三种性格状态，用户可根据偏好自行设定对话模型的回应风格。

　　基于此，更为人性化的、信息更为“新鲜”、全面的 NewBing 能够长时间地留住客户。用户在手，NewBing 变现的野心已经遮不住了：广告引流已经开始。

　　目前，据华西证券发现，Chat 界面提供了新的广告位：Bing 已经在回复框中，对电商产品进行展示引流。

　　（Bing 广告情况图源：华西证券）

　　参照 NewBing，百度搜索或许能够第一个吃到文心一言的红利。

　　但百度需要做到的是，在发展文心一言的同时，也要好好优化一下百度搜索，目前，百度搜索的使用体验并不友好：

　　根据偲睿洞察记者调查发现，在搜索“下载网易云音乐”这类明确的指令之下，百度有 1 亿条结果，一直到第 18 条才出现官网下载地址，前 18 条里还有 6 个广告，相比之下，必应有 7 亿多个结果，在第 5 条出现了官网下载地址；

　　在搜索“五官医院”时，必应出现 3.95 亿条结果，第一个词条是出现最近的五官医院的官网以及地址信息，之后是附近五官医院的地址，而百度出现 41 万条结果，迎面的几条都是机器人在线医疗......

　　当百度搜索更为精准之后，文心一言在此基础上，才能够提供更个性化、更高效的搜索服务，从而提升搜索的变现效果。

　　除了搜索之外，百度还将其融入智能云、Apollo 自动驾驶、小度智能设备等：在财报后的全员信中，李彦宏表示，百度的多项主流业务与文心一言整合。

　　而这一切的一切，都得等文心一言这个偏科生更“理性一点”。

百度文心一言，还是个不完美小孩

我们的产品

相关链接

关于我们

联系我们