AIGC(利用AI技术生成内容)是日烧百万的销金窟,但有应用场景的公司不在乎

  梦晨衡宇发自凹非寺

  量子位公众号 QbitAI

  没想到,第一批 AI 绘画产品已经开始倒闭了……

  StockAI,成立仅 4 个月,在 2022 年底因用户付费无法覆盖成本,遗憾宣布关闭平台、退款。

  以 3 月的付费 AI 绘画平台 Midjourney 推出为标志,AI 绘画开始被职业画师重视起来。到 8 月的 Stable Diffusion 开源,AI 绘画正式出圈并开启一场全民狂欢,这一过程只用了不到半年。

  AIGC(利用 AI 技术生成内容)这一概念也被彻底带火,成为最热门的风口之一,刚刚过去的 2022 年也被形容为 AIGC 元年。

  Stable Diffusion 背后的公司 StabilityAI 融资 1.01 亿美元,AI 文案生成公司 Jasper 融资 1.25 亿美元。

  这一波热潮还没完全过去,ChatGPT 横空出世,又把 AIGC 抬上了新高度。

  人们开始认为它能抢走搜索引擎的生意,甚至谷歌自己都感受到了危机,在公司内部发布了“红色警报”。

  以 ChatGPT 的火爆程度,从 0 到 100 万用户只用了不到 5 天。

  这是什么概念?作为对比,Twitter 用了 2 年,Facebook 用了 300 天,Instagram 用了将近 75 天。

  据马里兰大学副教授 Tom Goldstein 粗略估计,如果 100 万用户平均每天只进行 10 次对话,Open AI 就需要为 ChatGPT 每天烧掉 10 万美元(68 万人民币)。

  AIGC 太烧钱该如何持续?OpenAI 为什么能先后引领 AI 绘画与对话系统两波浪潮?成了行业热议的话题。

  量子位在这段时间里也和一些学者、从业者交流了这些问题,其中,京东集团副总裁、IEEE Fellow 何晓冬博士的观点很有启发性:利用 AI 拓展人类认知边界和 AI 商业化落地,是两个不同的逻辑

  商业巨头很难搞出 ChatGPT 这样的项目

  我们 2017 年就做了 AI 绘画

  在 AI 技术圈,何晓冬是公认的大牛。

  他本科毕业于清华大学,硕士毕业于中国科学院,后赴美国密苏里大学哥伦比亚分校获得博士学位,在微软全球八大研究院之首的雷德蒙研究院工作十余年,2018 年回国加入京东,并于 2019 年当选 IEEE Fellow。

  他先后发表了 200 余篇学术论文, 谷歌学术统计引用数超 4 万次,其中单篇论文最高被引用近 5000 次,h-index 达到 70。

  早在 2017 年,何晓冬就在微软研究过让 AI 根据文字生成图像的技术,当时的模型 AttnGAN 登上 CVPR,生成的一张“一只红羽毛白肚子的短咀小鸟”现在看来也不算过时,这也是早期 AIGC 和多模态智能领域重要的进展。

  △AttnGAN 按照 “一只红羽毛白肚子的短咀小鸟” 生成的图像

  语言模型方面,像 ChatGPT 一样不再一味追求大参数、无监督学习的类似思路之前也不是没人想到过,只是没能做到极致。

  那么其他人离做出 DALL·E和 ChatGPT 这样的产品还差些什么?

  何晓冬认为,不差在思路,也不差在资源,而是差在决心。

  两大独立 AI 研究机构,DeepMind 和 Open AI 做的事,都是在拓展人类认知边界,并不能直接带来商业价值。

  要下这样的决心,和技术负责人的品位、组织的使命和生存模式都离不开关系。

  像谷歌虽然手里也有 LaMDA 这样的超强对话语言模型,却迟迟不面向公众大规模开放,甚至被内部员工吐槽是“起了个大早,赶了个晚集”。

  这其中的原因,有谷歌在 AI 伦理道德议题上不敢冒进,也有对自身现有商业模式颠覆的顾虑——广告是谷歌的核心收入来源之一,当人们不再用搜索引擎而改用 AI 对话时,广告是无处安放的。

  要让 AIGC 产生商业价值,就要遵从一套完全不同的逻辑。

  AIGC 如何产生商业价值?

  在微软开发的这个 AI 绘画技术当年终究是没能做成产品上线,但作为技术初心和拓展人类认知边界的一个尝试,AI 画出的这只鸟一直被何晓冬当作手机壁纸。

  不过,另一项技术“AI 看图说话”就成功找到了自己的位置。

  现在的 Office 里,插入一张图片就能自动生成一段描述文本(alt text),可由系统语音读出为视力障碍者提供方便。

  技术结合场景,在产业真实落地,就能发挥更大的价值。

  2018 年,何晓冬离开工作了十余年的微软雷蒙德研究院,选择回国加盟京东,这之中也是有离场景更近方面的考量。

  在京东,何晓冬带领团队打造了京东云言犀人工智能应用平台,服务京东 5.8 亿用户和 17.8 万商家,也将系列 AI 产品服务落地到了金融、政务、交通等各个领域。

  仅在开放给第三方商家使用服务与导购产品的京小智上,就帮助商家带来了上千亿元 GMV。

  另一套商品文案生成系统,目前已覆盖 3000+ 品类,累计“种草”30 亿字,带来超过 3 亿的 GMV。

  光是线上购物这一个场景,就支持了这么多种技术落地的可能性,而更大的发挥空间在背后的设计、生产、仓储、物流等供应链上下游场景。

  这也是京东云产业 AI 的推进路线,一面保持对前沿技术的探索,一面依托自身的场景推进 AI 技术产业化、规模化落地。

  经过反复迭代打磨后,再将技术以模块化、组件化、产品化的方式,基于言犀人工智能应用平台对外开放,成为产业上下游的超复杂协同的最佳“助手”,助力产业数智化升级。

  相比于一些其他公司,京东的供应链场景丰富,更重要的是京东的“价值标准”,如同正品行货、物流配送一样,AI 产品也必须满足客户的价格、产品、服务等方面的综合体验,又要满足京东在技术商业化过程中自身的成本与效率。

  深入产业 AI,不可避免的会遇到更低频、长尾的复杂场景和产业大规模协同的需求。

  这些场景的数据样本少、数据分布不均,研发成本更高,同时定制化程度高、难以复制。如此一来,就需要迁移成本低、基础数据样本丰富、灵活弹性、适用能力强的综合性 AI 系统。

  对于 AIGC 这一具体方向来说,同样如此。

  何晓冬拿智能客服场景来举例,用于京东自营的模型是高度定制化的,直接开放给几十万第三方卖家使用很难满足所有人需求,又很难靠人力去适配所有需求。

  后来的解决办法是定义好产品的边界,预训练大模型提供基础能力,同时结合在京东沉淀的丰富领域知识图谱,把知识接口开放给卖家,无论是卖食品还是化妆品都可以把产品知识填进去,让 AI 能力方便的迁移到不同领域。

  这个过程中模型免不了牺牲一些性能才能做到最终产品的标准化、开箱即用,因为产业 AI 到了这一步,很多用户都不是技术专家。

把 AI 能力组合成产品对传统行业客户太有挑战性了,直接提供开箱即用的 AI 产品和应用才能让不懂技术的客户也能快速组成解决方案,满足自己的需求。

  在这套体系下,京东云还进行了 AIGC 的多方向探索,如联手中央美术学院的 AI书法生成

  以及一键生成店铺专属数字人。在数字人领域,言犀平台上推出了 2D 真人、3D 卡通、3D 超写实等多种类型数字人,近期还上线了大姿态(侧脸、转头等)数字人。目前言犀平台已有 100+ 形象,30+ 音色选择,为电商直播、金融、政务等领域提供媲美真人的服务体验。尤其是电商直播领域,百变的形象、专属的音色,智能脚本实时撰写,丰富的“知识体系”等同于一名金牌销售,推出后已为客户带来显著的 GMV 提升。

  甚至对实体仓库、实体零售店做一个数字孪生。京东物流研发了京东物控 3D Scada 智能仓储数字孪生平台大大提升了仓库作业的效能,相比于传统人工作业的方式效率可以提高3~8 倍;京东也在探索一种具有未来感的零售模式,构建柔性店铺,让店铺的功能随着消费者时间不同、需求不同而实时改变,革新线下零售的购物体验。

  要说 AIGC 如此多的方向中,最有商业价值潜力的是哪个?

  何晓冬还是最看好数字人,加入了视觉形象、人物表情,交互更自然,使用体验有很大提升。

  而且他预测,2023 年 AIGC 一个可能的技术突破方向也在这里。

  AI 绘画最常用的技术是扩散模型,有天马行空的创造力,但是容易失控。超写实数字人常用的是神经辐射场,可以根据物理特性重构三维环境。

如果两者能结合起来,可能把可控性和真实性再提高一个数量级,到时候应用场景也会进一步打开。

  One More Thing

  如何让 AIGC 产生更大价值,是全行业都在关注的热点,相关讨论层出不穷。

  比如在量子位举办的 MEET2023 智能未来大会上,小冰公司 CEO 李笛分享了他对数字人的思考。

  如数字员工会使 toB 和 toC 的界限变得模糊,比如银行的数字客户经理可能会与客户变成朋友。

  未来数字人也将不再隶属于某一平台,人们在客服、手机、汽车场景上与同一个数字人交流,能获得更加无缝、24 小时、持续连贯的服务。

  OpenAI 的 CEO Sam Altman 最近则发表了他对 ChatGPT 进一步发展的想法。

ChatGPT 这样的技术,随着时间推移一定会造成一些重大的破坏……但是不让技术接触现实世界是无法获得改进办法的。

  探索人类认知边界与产生商业价值,2023 年你更期待 AI 在哪方面的进展?