
新智元报道
编辑:倾倾
科研人的深夜噩梦,终于有人来终结了!刚刚,北大联合 Google CloudAI 发布 PaperBanana,直接把论文配图变成了全自动流水线。5 个智能体组团干活,生成的架构图对标 NeurIPS 顶会标准。以后写论文,你只管敲字,画图这事儿,AI 包了。
你有没有过这样的经历:论文写好了,但架构图却让你焦头烂额。
不是配色太土,就是线歪了,要么就是模块大小不协调,简直比写论文还要难。
别担心,有这样焦虑的人不止你一个!数据显示,科研人员有 45% 的时间被浪费在了这种低级的绘图调整上。
但就在今天,科研狗的绘图之神——PaperBanana 出现了。

5 个智能体
治好了 AI 的「视觉精神病」
无论是 Midjourney 还是 DALL-E3,在画科研图表时都像个人工智障。
让 GPT-Image-1.5 直接读取论文画图,它的综合得分只有 11.5 分(满分 100)。
在「忠实度」这一项,甚至只有 4.5 分。

它画出来的图,看起来像那么回事,但该连的线连不上,该有的模块给你瞎编。
PaperBanana 敏锐地发现,既然单个模型会产生幻觉,那我一次性调用 5 个 Agent 协同工作,总不能 5 个一起产生幻觉吧。

1. Retriever(检索):RAG 的抄作业美学
拿到任务后,Retriever 直接发动 RAG 技能,去顶会数据库里打捞 10 张最相关的参考图。
2. Planner(策划师):把人话翻译成「蓝图」
这是系统的「认知核心」。
它负责死磕论文里最晦涩的 Methodology,把那些文字逻辑硬拆解成视觉蓝图。
搞清楚谁连谁,谁包含谁,绝不让逻辑拓扑乱成一锅粥。
3. Stylist(风格智能体):拿捏 NeurIPS 的「高级感」
为了解决「图 Low」的问题,Stylist 会生成一份名为 Aesthetic Guideline 的最高优先级指令。
该指令会强制把 Planner 的指令修正为符合顶会标准,想用 Excel 默认蓝?门都没有!
4. Visualizer&Critic(闭环核心):3 轮循环,甲方炼狱
PaperBanana 能够拿到 60.2 分的关键,秘密,全在这俩货的互撕上:
-
Visualizer:调用 Nano Banana Pro,渲染图片。
-
Critic:这是整个架构的灵魂——专业找茬。
Critic 会拿着原论文跟图比对,一旦发现连线错了、模块少了,直接生成修正指令,打回去重画。这个过程会暴力循环 3 次。

PaperBanana 官方论文中的失败案例
数据显示,正是这 3 轮迭代,将图表的忠实度从不可用的 4.5 提升到了 45.8,在这一指标上直接逼近人类水平(50.0)。
审美降维打击
AI 总结的《NeurIPS 2025 审美黑话》
在 PaperBanana 眼里,美感是一堆冷冰冰的参数。
Stylist Agent 遍历了 NeurIPS 2025 所有论文,搞了一次逆向工程,把审稿人潜意识里的视觉偏好扒了个底掉:

人类手绘原图与 StyleEnhanced(AI 风格化后)的对比
AI 发现,2025 年的顶流审美是科技莫兰迪色。
高饱和度的红蓝撞色(如 Excel 默认色),直接被定义为「业余」。
所以,正确方法是:背景要用 Cream (#F5F5DC)或 PaleBlue (#E6F3FF);功能模块采用中等饱和度配色;高亮色仅限于报错或最终结果。

审美增强案例。上边是原始的粗糙框图,下边是 AI 根据 Guidelines 优化后的成品。
还有 90% 的人都会忽视的细节:混排(Font Mixing)。
系统标签必须用无衬线体,显得现代、干净;凡是涉及数学公式的变量,必须强制切换为 LaTeX 风格衬线斜体。
这种字体的混排,是区分「草图」和「出版级插图」的关键信号。
PaperBanana 甚至懂「圈层文化」
如果你写的是 Agent 论文,Stylist 会主动调用可爱风格的 2D 机器人图标或对话气泡,强调「交互感」;
如果是 CV/3D 论文,它会拒绝卡通元素,强调视锥、点云和热力图,配色偏向 RGB 通道逻辑;
要是纯理论论文,则追求极致极简。黑白灰为主,只保留一个高亮色给拓扑结构。
统计图的「精准谋杀」
告别 Matplotlib 难度
为什么之前的 AI 总是画不好统计图?
因为,扩散模型是右脑思维的艺术家。它懂构图,但它真的不识数。
如下图所示,当让模型直接「画」一个雷达图时,它生成了极具设计感的阴影和线条。但仔细一看——数据点 0.4 被画到了 0.8 的刻度线上;甚至还凭空捏造了几个重复的图例标签。

为了解决这个问题,PaperBanana 做了一个天才般的架构切换。
当系统识别出你要画的是 BarChart 或 Heatmap 时,它会瞬间收起画笔,掏出键盘,从「美术生」切换为「程序员」。
Visualizer 不再生成像素,而是直接生成 Python Matplotlib 代码
Critic 也不再看构图,而是运行代码,检查报错,比对数据。
这个逻辑绕过了图像生成的随机性,直接利用 LLM 强大的 Coding 能力。
以前为了调整一个坐标轴的倾斜角度,得去查半小时;现在,PaperBanana 在后台几秒钟内自己写代码、自己 Debug、自己运行出图。
对比数据非常直观:
-
纯图像生成模式:好看,但瞎编。
-
代码生成模式:精准,且完全可复现。

PaperBanana 官方基准对比:Code 模式(绿色)在忠实度和简洁度碾压纯图像生成(IMG,红色),逼近人类水平
逻辑图走艺术路线,数据图走工程路线。这才是 AI 科学家该有的严谨。
全自动发表的最后一片拼图
在此之前,Auto Figure 等竞品更多是将内容符号化,或者仅仅是简单的图表堆砌。
PaperBanana 是第一个真正引入「设计思维」的智能体系统。
当 AI 开始理解「如何用布局引导读者的视线」,从一个工具,变成一个拥有表达欲的共创者。
在 PaperBanana Bench 的测试中,AI 在简洁性上比现有基线模型提升了 37.2%。
虽然论文的委婉地说是为了「民主化」高质量绘图工具,但我们都懂:当技术的门槛降到0,原来的溢价就消失了。
北大与 Google 的野心很大。
他们不仅发了工具,还开源了 PaperBanana Bench:292 个涵盖各领域的「地狱级」测试用例,摆明了是想做行业裁判。
虽然目前的版本生成的还是位图,但作者也说了,下一步就是开发能操作 Adobe Illustrator 的 GUI Agent。
等那个版本出来,设计师可能真的要关掉 Photoshop 去送外卖了。
工具进化的终极意义,从来不是为了让我们变懒,而是为了让大脑回归纯粹。
未来能活得滋润的科研人,只有两种:一种是极其硬核、能写出 AI 无论如何也理解不了的顶级算法的大神;
另一种,是懂得指挥千军万马的 AI Agent,把自己的思想用最完美的视觉语言铺陈在审稿人面前的「超级个体」。
别让你的思想,死在画不出的图里。
参考资料:
