文来咖智库,作者追辛,编辑 G3007
从商业化的角度考量,由于训练数据的不同、算法的不同、法律规范的不同等原因,国内再去做 ChatGPT 一样的产品是比较难的,但垂直类的行业大模型方面,却有着更多发散性的机会。此前,业内就曾预计,未来通用大模型最终只会留存2-3 家,但是垂类大模型会百花齐放,丰富的行业场景才是 ChatGPT 最大的看点。目前,多家教育公司纷纷发布了最新的教育类大模型产品,而教育成为 AI 落地最快的场景之一。我们认为,教育的行业大模型有三大看点:
1、 “教育是 ChatGPT 最容易落地的领域”一语成谶。
2、 在教育行业抢跑大模型的同时,我们也发现了一个新问题:那就是企业涉足大模型业务,到底是采用自研先行一步,还是等成熟后打通接口进行外采?从这国内第一波“百模大战”来看,大厂们基本上都选择了自研的路径。
3、 ChatGPT 风口之下,教育科技存在无限可能。
今天,2023 年全国高考正式拉开大幕。而国内大模型的这场“高考备战”,逐渐进入到了“垂类竞逐”,教育行业已然抢跑。
近一个月来,网易有道、学而思、科大讯飞先后发布了最新的教育类大模型产品。其中有道是基于“子曰”大模型开发的 AI 口语老师,学而思官宣数学大模型 MathGPT 的研发,而科大讯飞是基于星火认知大模型推出的 AI 学习机。最新的消息显示,猿辅导以推出智能硬件——小猿学练机的方式涉足大模型,而作业帮也正在内测基于中国市场的教育大模型,涉及工具类 App、智能硬件、图书等业务。
正如 OpenAI 联合创始人山姆·阿尔特曼曾表示,在 ChatGPT 支持下,会诞生极好的文案业务、教育服务或者其它公司。今天高考命题作文发布之后,就有不少人尝试用 AI 来写高考作文。
那么,在这场百模大战的“高考冲刺”中,教育类企业率先交卷的背后,又有哪些看点?
看点一:“教育是 ChatGPT 最容易落地的领域”一语成谶
自 ChatGPT 发布以来,AI 大模型领域热度持续。今年来,国内各大互联网、人工智能公司甚至学界都接连宣布进军大模型领域。目前,百度、阿里巴巴、商汤科技等公司已相继发布了自己的大模型以及应用场景,但不论是百度的“文心一言”、阿里的“通义千问”、商汤的“商量”,还是复旦大学研发的大模型 moss,这些都属于对话式的通用大模型产品,截至目前都还未开放使用。
相比于通用大模型的高举高打,一些垂类大模型则选择小步快跑、加速落地,比如“教育是 ChatGPT 最容易落地的领域”就成为年初以来热议的话题。今年 2 月,网易有道、科大讯飞、学而思以及作业帮等一众教育类公司均透露了 ChatGPT 相关的产品及技术布局,而最近,这些公司也公布了最新的研发进度和成果。
据媒体报道,5 月 5 日,网易有道展示了基于“子曰”大模型研发的 AI 口语老师视频,AI 口语老师能提供多种练习场景,同时会根据用户需求扮演多种角色,进而引导用户进行多轮对话。随后的 5 月 6 日,科大讯飞发布讯飞星火大模型,并会落地在教育类智能硬件 AI 学习机等产品中。另外,学而思也宣布自研数学大模型名为 MathGPT,作业帮则传出正在内测基于中国市场的教育大模型,包含多学科解题、中英文作文批改、多语言对话方向等多个教育应用场景。
当前“百模大战”激战正酣,并且掀起新一轮创业融资热潮的同时,为什么此次教育行业统一抢跑呢?来咖智库认为主要有三点:
其一、从教育的目的来看,教育本身是人类获取和学习知识的重要方式,而技术的进步能够大大提升这种学习的效率。教育领域需要大量的知识储备和传递,而 ChatGPT 作为一个人工智能模型,可以快速地处理和整合这些信息,同时通过大量数据的训练和学习,积累大量的知识和语言表达能力,最终实现对外的输出。
这就像我们获取知识方式的升级迭代。早期 1.0 阶段,我们主要是通过阅读和教师的讲授,而 2.0 的互联网阶段,带我们进入了信息爆炸的时代,现在以 ChatGPT 为代表的 3.0 横空出世,让信息和知识的获取更高效。从被动灌输到主动获取,再到精准互动,ChatGPT 在教育领域的有着更实际的刚需。
其二、从教育的特点来看,教育本身具有很强的交互性,需要在这个过程中完成传道、授业和解惑。ChatGPT 可以提供更加自然的交流体验,例如语音交互、图像识别等,可以帮助学生更好地理解和记忆知识。比如 AI 口语老师,ChatGPT 可以利用其自然语言处理能力和深度学习算法,分析学生的发音、语调、语速、语音流畅度等方面的问题,提供针对性的建议和训练,帮助学生提高口语水平。而在中文作文批改上,ChatGPT 也可以分析学生的作文内容、语言表达、语法结构等方面的问题,并且提出针对性的建议和指导。
基于这样的行业属性,ChatGPT 与教育有着更强的匹配度。比如有道发布的“AI 口语老师”,从实际的发音体验上,已经不是以往那种 AI 单调的机械发音,而更像是一位真实的“老师”在与学生对话,对话体验真实有趣。当然,ChatGPT 在 AI 口语老师和中文作文批改的应用上,其准确性和可靠性仍然还需要不断地提高和优化。
其三、从教育的发展阶段来看,随着国内教育行业逐渐步入智能学习以及教育数字化的时代,教育类公司也需要找到新的奇点,而 ChatGPT 正是其中的突破口。尤其是以人工智能、大数据、5G 等新一代信息技术为驱动力,推动关键技术和教育场景的不断融合及智能教育的深化发展,在线教育、AI 教育、个性化教育进一步得到普及,这也是各大教育公司加大投入布局的重要原因。
值得注意的是,在国外,ChatGPT 已经开始重塑教育行业。根据国外 Study.com 的调查,国外已经有 21% 的老师开始用 ChatGPT 辅助教学工作了。最近美国教培上市公司 Chegg 也表示,在今年 4 月推出辅助学习平台 CheggMateAI 后,已经影响到其原有业务的用户增长,因为学生对 ChatGPT 兴趣大增,不再需要通过 Chegg 获取相关学习资料。
看点二:自研先行还是外采以待?大模型的新命题
在教育行业抢跑大模型的同时,我们也发现了一个新问题:那就是企业涉足大模型业务,到底是采用自研先行一步,还是等成熟后打通接口进行外采了?
此前,就有不少网友质疑,一些公司蹭着热点率先上线的自有大模型,其实都是基于 OpenAI 发布的 GPT 的基础上推出的,其自研程度存在很大的水分。有知乎网友直言:国内某团队上线的服务似乎是直接大量使用了 ChatGPT 的问答数据来训练自己的网络,输入问题和通过 ChatGPT 得到的回答高度相似。
而在外采模式上,国外的 ChatGPT 已经明确指向 API、订阅制和战略合作(嵌入微软 Bing、Office 等软件)三种方式。比如在教育领域,Duolingo、Quizlet、可汗学院等产品主要和 OpenAI 合作,在 GPT 大模型上做微调和接口调用,增强原有的产品体验。
从这国内第一波“百模大战”来看,大厂们基本上都选择了自研的路径。
对于中国公司都选择自研类 ChatGPT 的产品和技术这个问题,星图比特创始人张炯曾分析表示有三个方面的原因:第一是市场端,目前 ChatGPT 对国内用户是不开放的,国内的用户没法像海外用户一样随心所欲的使用,而从市场层面必然会有一个中国的 ChatGPT 出现;第二是技术端,目前市场上可见的大模型,例如 ChatGPT 的基础模型 GPT-3.5 基本都是英语为母语训练的,中文基准的自然语言处理的效果还是稍逊于英语基准的,所以有个中文基准的模型出现会进一步提升用户效果;第三是数据安全,AI 的内容生成本身是基于大量数据训练的结果,并 OpenAI 已经逐步从一个公益性的项目向市场化转变,未来出于利益等因素可能存在不确定性,还有就是中国大陆要求所有的数据都是本地化保存,这点 OpenAI 在国内又没有团队,数据的本地化保存和维护就很难达到监管要求。
自研是好,但要做到却并不容易。一般来说,通用人工智能的研发需要持续的资金与顶级人才投入,而且受限于算力、数据规格、历史投入、顶尖人才、资金实力等方面的要求。据 Business Insider 估算,目前 ChatGPT 一个月的维护成本在 300 万美元,考虑到人力成本,费用估计还要加倍。OpenAI 的产品用的是微软的 Azure 企业云服务器,有投行分析员估算,一年的成本可能从 2500 万美元到 10 亿美元。与此同时,人工智能还面临着投入周期长、产出时间慢的问题,比如 OpenAI 从公司成立到推出 ChatGPT,其间整整花了 7 年时间。
而和通用型人工智能相比,基于自身在专业领域的积累,垂类人工智能或许可以跑得更快。此次的科大讯飞和有道,就在教育行业的 AIGC 技术自研路径上率先落地,也印证了那句“没有金钢钻,别揽瓷器活”的谚语。
比如,此前科大讯飞研究院院长刘聪就表示,讯飞基于多年来在深度学习算法、大模型技术、行业大数据、知识图谱、多模态感知、系统工程等技术方面的深厚积累,同时依托于国家新一代人工智能开放创新平台、认知智能全国重点实验室、语言及语音信息处理国家工程研究中心三大国家级平台,已具备认知智能大模型综合研发和长期持续突破的底气和能力。
对有道来说,同样如此。一方面是有道已经覆盖了从儿童到少年再到成人教育的终身学习内容,有足够多的学习素材和用户数据;另一方面在于有道本身在 AI 技术和应用的积累,比如拥有神经网络翻译引擎、计算机视觉、智能语音 AI 技术和高性能计算这四大核心技术,应用范围覆盖翻译、教育、语音助理、写作等多个领域,并且已搭载在有道词典笔、学习机等明星产品上。
还有学而思,其是以数学课外辅导起家的,已经积累了 20 年的数学教学经验,积累了庞大的数学相关数据,这些数据是进行 MathGPT 训练的必备物料。还有猿辅导,早在 2014 年就成立了涵盖视觉实验室、自然语言理解实验室、语音实验室、音视频实验室和基础支撑五个实验室的 AI 研究院,这也为其提供了足够的技术支撑。
整体来看,自研和外采都各有优劣。对选择自研路线的企业来说,其最大的优势在于“量身定制”,能够最大程度满足和匹配自身业务的需求,但也要求企业拥有足够强的综合实力和积累,同时还得承担一定的试错成本,这不是一般小企业能玩得起的。而选择外采的企业,其优势在于成本低、选择多,但劣势在于特殊性需求不够灵活、不够定制,可能等自己用上了,同行已经领先一大截了。
可以说,在大语言模型不断进化的浪潮下,不同的技术路线、不同的的应用方式的选择孰优孰劣,目前仍有待讨论和验证,还需要在实践中寻找答案。
看点三:ChatGPT 风口之下,教育科技的无限可能
目前来看,ChatGPT 等相关技术在教育领域的应用,主要集中在中英语口语和作文辅导上。这与 ChatGPT 背后基于海量数据生成的 AI 大模型息息相关,它把能获取的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容,并根据人类反馈强化学习。该技术的突破也使得 ChatGPT 的对话更贴近人类,语段间逻辑关联度显著提升。
而且现阶段的 ChatGPT,还是被限制了实时更新数据能力的,显然还封印了很多可回答问题的领域和规模,随着技术的迭代更新,未来还有着更多的可能,这也给国内的 ChatGPT 提供了新的市场空间。
在教育领域,除了具体的学科练习和知识问答,ChatGPT 还可以帮助学生和教师实现更加个性化、高效和智能化的学习和教学模式,包括智能辅导、智能答题系统、语言学习、聊天机器人、智能导师等应用场景上。
比如,在教学过程中,老师往往会面临跨学科教学,学生的一些问题也需要老师长时间思考才能解答,但如果使用 ChatGPT,它就可以第一时间为学生提供快速简便的问题答案,可以对学习成果进行互动式的“检验”,在线提问,或是随堂小测之类的,通过用户的反馈来评估学习效果,并进一步制定学习计划;同时,一些重复性的问题,ChatGPT 就可以直接代替老师回答,节省了老师大量的时间,让老师在思想创造力上发挥更大价值。
另外,ChatGPT 的应用还可以促进教育创新。传统的教育模式往往是由教师单向传授知识,而 ChatGPT 则可以与学生进行互动,激发学生的学习兴趣,培养学生的自主学习能力。此外,ChatGPT 还可以利用数据分析和人工智能技术,为教师提供更加全面、准确的学生评估服务。这样一来,教育可以更加科学地进行,学生的学习效果也可以更加明显地提高。
值得注意的是,通过这种持续的模型训练,ChatGPT 还能和其他的教育培训来整合在一起的,无论是学前教育、职业教育、考证还是培训,这个模型都能够帮助他们把培训做得更好,把效率做的更高。
总之,以 ChatGPT 为代表的教育科技应用,对于个性化教育、教育公平和教育创新都具有重要的意义。在未来,可以期待 ChatGPT 在教育领域的广泛应用,为学生提供更加智能化、便捷化、个性化的教育服务,同时也为农村地区的学生带来更加公平、便捷的学习机会,逐渐消除这种教育的“数字鸿沟”。