阿里通义上新PPT创作!PC端“效率”功能三合一,听读写一站搞定

  鱼羊衡宇发自凹非寺

  量子位公众号 QbitAI

  这年头,哪有人上班不发疯的(doge)。

  就拿 PPT 来说,赵晓卉“PPTSD”这词儿一出,那真是戳到了打工人心坎上。

  对啊,PPT 是什么高贵的东西啊!都大模型时代了,就没有哪个 AI 能又好又快地帮我搞定这事儿吗!

  还真别说,打工人是会心疼打工人的。就在俺们量子位编辑们孜孜不倦寻找解放双手的大模型工具的日常中,诶嘿,最近还真又挖到了新神器——

  通义直接在网页版里上新了“效率”版块,功能很直给:实时记录、阅读助手,还有 PPT 创作。

  其中,PPT 创作属于是新鲜出炉。

  简单来说,主打一个功能是大模型给的,但并没多大“AI 味”。

  最关键的是,免费

  这咱不得抓紧测试一波——

  拒绝 PPTSD

  具体来说,通义 PPT 创作主要提供了两种 PPT 制作方式。

  • 一句话主题生成 PPT:如果你啥思路没有,只有一句话主题,那么可以把主题当成 Prompt 直接扔给大模型。当然,如果你已经有完整的思路大纲,它也支持最多 10 万字的超长文本输入
  • 上传文件生成 PPT:文档、音视频文件都支持。

  一句话生成 PPT

  那么就,先给又菜又爱玩的手残党同事们,搞一份《黑神话:悟空》攻略(PPT 版)吧。

  提示词很简短,就是:《黑神话:悟空》游戏攻略。

  一份像模像样的 PPT 大纲秒速生成:

  哪里看不顺眼可以上手修改,懒人党也可以直接下一步——选模板。

  在不提供任何背景资料的情况下,通义生成的 PPT 能达到什么样的效果?

  点击“生成 PPT”,等待不到 1 分钟,答案即刻揭晓。

  应该是基于通义大模型的联网搜索能力,生成的游戏介绍里,《黑神话》的制作方、游戏引擎等重点信息都没出错。

  不过大模型本身看上去并没有被“剧透”,在具体游戏内容上,有点脑洞大开。但话术组织,设计排版,还真可圈可点。

  单看这文案,确实没什么 AI 味儿,说得上是言之有物。

  人机协作修改起来也很方便:

  点击文本框既能直接修改文字,也可以一键召唤大模型帮忙一起优化文案。

  配图同样可以交给 AI 生成。

  不会写提示词也没关系,通义 PPT 内置“咒语书”,点击即用,也可以作为参考。

  看样子,日常用来糊弄老板妥妥够用了(不是)。

  上传文件生成 PPT

  咳咳,还是回到正经用途上,如果喂给通义 PPT 更详细的文档资料,它又会表现如何?

  比如,投喂一份量子位的内部培训资料,让通义 PPT 来帮忙搞定培训 PPT。

  效果上 be like:妈妈再也不用担心我开会前做不完 PPT。

  PPT 生成的内容和上传文件关联性很高,基本上把文档重点都划出来了,直接拿来用问题也不大。

  简单总结一下,通义这波上新的 PPT 创作,具有以下几个优点:

  • 言之有物:做到了生成文本更像人话(去 AI 味),并且不是片汤话,能结合用户需求和上传文件输出有信息量的 PPT 内容。
  • 模板丰富:提供了各个不同场景、行业适用的 PPT 模板,设计美观,大学生到上班族都能用。
  • 智能编排:提供了全流程智能编排的能力,可在线实时调整 PPT 模板编排、PPT 配图智能生成、PPT 文本智能改写等。

  量子位进一步扒拉了一下,通义 PPT 背后的基础模型是通义千问大模型 2.5,相比上一版本,Qwen 2.5 的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,性能超越 GPT-4 Turbo。

  在对长文档的支持方面,通义 PPT 支持 1000 万字长文档,包括 PPT、PDF 和网页。

  多模态方面,支持上传最长 6 小时的音频、视频,也可以输入链接导入线上音视频。

  文生图功能,则是引入了通义万相的能力。

  三合一“通义效率”

  值得一提的是,与 PPT 创作共同存在于通义效率版块的,还有另外两个功能:

  实时记录,以及阅读助手

  不说不知道,这两者其实都是通义用户的老朋友。

  实时记录,原通义听悟,是音视频内容方面的 AI 助手。

  应用场景聚焦课堂记录、会议记录,能完成的工作,包括语音转文字、发言人区分、智能总结等。

  界面非常简洁,选择语言(能识别中、英、日三种语言),确定需不需要实时翻译成中文,即可开始在线录音。

  外教课 or 国际会议,不用愁了。

  在通义实时记录,录音是实时的,语音转文字是实时的,英文/日语录音转译成中文是实时的。

  连边转文字边修正错别字,也是实时的。

  是真的很实时(手动狗头)。

  不仅可以很好地区分发言人,根据不同发言人整理核心观点,而且,用户可以边听边选中文段,自己划重点。

  边开会边做会议纪要,不是梦。

  整个界面的右侧板块,是用来写写画画自个儿做笔记的部分。

  当录音结束后,这一板块会划分成三个区域:

  ·导读:对录音内容进行 AI 总结,包括摘要、章节速览、待办事项等;

  ·脑图:根据录音内容整理出思维导图,帮助快速掌握会议要点和脉络;

  ·笔记:顾名思义,是录音过程中用户自己记录下的内容。

  关于实时记录,最后来划个重点:支持每天 20 小时的录制撰写时长,使用免费!还是免!费!

  阅读助手,功能等同于原来的通义智文。

  上来就先告诉你,与实际记录一样,它同样是免费的。

  在阅读助手,各种格式的文档/论文/图书,包括 PDF(含扫描件)、word、图片、HTML、Markdown、EPUB、Mobi,无论是网页链接还是播客链接,都能被精准速读。

  而且,超多格式伴随着超大容量——

  文档,可以是长达 1000 万字的;音频视频,可以是 6 小时起步的。

  非常 Nice。

  上手测试过程中,我们喂给了它两本书,分别是 193 页、英文版的《我们赖以生存的隐喻》,和 500 页、中文版的《埃隆·马斯克传》。

  首先,很关键的一个功能是阅读助手支持全文翻译,翻译速度还很快,几乎不用等。

  对经常读外文文献的朋友们来说,真的非常友好。

  其次,AI 提炼出的导读部分,也会翻译成中文呈现。

  这一部分由全文概述、关键要点、速度导览等组成;如果丢给它的是论文,还会有论文速读(核心要点总结)、论文总结(文章优点、方法创新点、未来展望),帮助用户快速理解内容。

  如果嫌弃导读还是太长?

  没关系,指路旁边的脑图,分分钟厘清主要脉络。

  更有意思的是,在阅读助手里,用户能针对原文划词解读,辅助理解关键点。

  可以选择在板块底部的对话框,问出所有你不明白不理解的文档相关问题。

  这个功能约等于“让死的论文活过来交流探讨”。

  如此这般,实时记录、阅读助手、PPT 创作,形成了三合一的通义效率。

  实时记录功能能够迅速捕捉并保存每一个重要信息;

  阅读助手则是辅助位,帮助在知识中筛选、提炼,让用户短时间内掌握核心要义;

  而 PPT 创作则能借用大模型的 AI 能力将散落的信息整理成富有逻辑性和视觉冲击力的展示材料。

  这三者相辅相成,共同构成了一个从信息整理、阅读理解到内容创作的完整工作学习流程;每一步环环相扣,不管是面对工作还是学习,都能事半功倍。

  大模型应用想卷,得靠技术和体验

  上面提到的三个功能,都可以在 PC 端丝滑使用。

  多说一嘴,除了 PPT 创作,另外两个功能还能在手机端体验。

  “我们希望通过这些工具帮助用户节省时间,提升工作学习效率,激发无限创意。”通义效率产品经理王晓明表示,未来围绕工作学习场景,通义会持续帮用户用 AI 技术提效。

  通义效率背后,正是基于强大的通义大模型

  阿里旗下通义千问大模型聚焦开源路线,家族阵容庞大,是国内的头部梯队玩家,在多个全球评测榜单上也常常名列前茅。

  通义近期发布了全球性能最强的开源模型 Qwen2-72B,该模型提升了代码、数学、推理、指令遵循、多语言理解等能力。多个国内外榜单显示,Qwen2-72B 成为排名第一的中国大模型,也是全球最强的开源模型。

  长期耕耘得来的技术优势,为通义效率提供了源源不断的创新动力。

  而三合一整合后推出的通义效率,精准地围绕工作学习流程,将信息整理、阅读理解到内容创作这三大功能进行了无缝打通,形成了一个高效的工作学习闭环。

  这一闭环不仅能够激发用户的创意思维,还能够显著提升工作效率。

  更为重要的是,通义效率率先将这些功能全部实现在 PC 端,真正做到了“需求在哪里,效率就在哪里发挥作用”

  这种以用户需求为导向的设计理念,使得通义效率在提升用户工作效率的同时,也极大地增强了用户体验。

  当然了,换个视角来看,通义上线“效率”的背后,其实反映了市场的选择和趋势——

  大模型的应用正在朝着智能化、个性化、一站式、高效率、少人工的方向发展。

  这正是大模型在应用层面的本质体现。

  随着大模型日益融入大众的日常生活,用户在入门上手之后,追求的便是更加卓越的体验。

  如果技术不够先进,体验不够优秀,那么就容易被用户和市场所抛弃。

  因此,大模型的应用落地和推广,必须走向更实用、更好用的方向。

  实际上,我们正在见证这一趋势的发生,通义效率的选择,就是最好的证明之一。

  它告诉我们,应用落地和推广,只有真正满足用户需求,提供优质体验的产品,才能在 AI 2.0 的模型与应用大潮中站稳脚跟。