国思软件 - 论文配图一键封神！北大谷歌开源PaperBanana，5个Agent全包了

　　新智元报道

　　编辑：倾倾

　　科研人的深夜噩梦，终于有人来终结了！刚刚，北大联合 Google CloudAI 发布 PaperBanana，直接把论文配图变成了全自动流水线。5 个智能体组团干活，生成的架构图对标 NeurIPS 顶会标准。以后写论文，你只管敲字，画图这事儿，AI 包了。

　　你有没有过这样的经历：论文写好了，但架构图却让你焦头烂额。

　　不是配色太土，就是线歪了，要么就是模块大小不协调，简直比写论文还要难。

　　别担心，有这样焦虑的人不止你一个！数据显示，科研人员有 45% 的时间被浪费在了这种低级的绘图调整上。

　　但就在今天，科研狗的绘图之神——PaperBanana 出现了。

　　5 个智能体

　　治好了 AI 的「视觉精神病」

　　无论是 Midjourney 还是 DALL-E3，在画科研图表时都像个人工智障。

　　让 GPT-Image-1.5 直接读取论文画图，它的综合得分只有 11.5 分（满分 100）。

　　在「忠实度」这一项，甚至只有 4.5 分。

　　它画出来的图，看起来像那么回事，但该连的线连不上，该有的模块给你瞎编。

　　PaperBanana 敏锐地发现，既然单个模型会产生幻觉，那我一次性调用 5 个 Agent 协同工作，总不能 5 个一起产生幻觉吧。

　　1. Retriever（检索）：RAG 的抄作业美学

　　拿到任务后，Retriever 直接发动 RAG 技能，去顶会数据库里打捞 10 张最相关的参考图。

　　2. Planner（策划师）：把人话翻译成「蓝图」

　　这是系统的「认知核心」。

　　它负责死磕论文里最晦涩的 Methodology，把那些文字逻辑硬拆解成视觉蓝图。

　　搞清楚谁连谁，谁包含谁，绝不让逻辑拓扑乱成一锅粥。

　　3. Stylist（风格智能体）：拿捏 NeurIPS 的「高级感」

　　为了解决「图 Low」的问题，Stylist 会生成一份名为 Aesthetic Guideline 的最高优先级指令。

　　该指令会强制把 Planner 的指令修正为符合顶会标准，想用 Excel 默认蓝？门都没有！

　　4. Visualizer&Critic（闭环核心）：3 轮循环，甲方炼狱

　　PaperBanana 能够拿到 60.2 分的关键，秘密，全在这俩货的互撕上：

Visualizer：调用 Nano Banana Pro，渲染图片。
Critic：这是整个架构的灵魂——专业找茬。

　　Critic 会拿着原论文跟图比对，一旦发现连线错了、模块少了，直接生成修正指令，打回去重画。这个过程会暴力循环 3 次。

　　PaperBanana 官方论文中的失败案例

　　数据显示，正是这 3 轮迭代，将图表的忠实度从不可用的 4.5 提升到了 45.8，在这一指标上直接逼近人类水平（50.0）。

　　审美降维打击

　　AI 总结的《NeurIPS 2025 审美黑话》

　　在 PaperBanana 眼里，美感是一堆冷冰冰的参数。

　　Stylist Agent 遍历了 NeurIPS 2025 所有论文，搞了一次逆向工程，把审稿人潜意识里的视觉偏好扒了个底掉：

　　人类手绘原图与 StyleEnhanced（AI 风格化后）的对比

　　AI 发现，2025 年的顶流审美是科技莫兰迪色。

　　高饱和度的红蓝撞色（如 Excel 默认色），直接被定义为「业余」。

　　所以，正确方法是：背景要用 Cream (#F5F5DC)或 PaleBlue (#E6F3FF)；功能模块采用中等饱和度配色；高亮色仅限于报错或最终结果。

　　审美增强案例。上边是原始的粗糙框图，下边是 AI 根据 Guidelines 优化后的成品。

　　还有 90% 的人都会忽视的细节：混排（Font Mixing）。

　　系统标签必须用无衬线体，显得现代、干净；凡是涉及数学公式的变量，必须强制切换为 LaTeX 风格衬线斜体。

　　这种字体的混排，是区分「草图」和「出版级插图」的关键信号。

　　PaperBanana 甚至懂「圈层文化」

　　如果你写的是 Agent 论文，Stylist 会主动调用可爱风格的 2D 机器人图标或对话气泡，强调「交互感」；

　　如果是 CV/3D 论文，它会拒绝卡通元素，强调视锥、点云和热力图，配色偏向 RGB 通道逻辑；

　　要是纯理论论文，则追求极致极简。黑白灰为主，只保留一个高亮色给拓扑结构。

　　统计图的「精准谋杀」

　　告别 Matplotlib 难度

　　为什么之前的 AI 总是画不好统计图？

　　因为，扩散模型是右脑思维的艺术家。它懂构图，但它真的不识数。

　　如下图所示，当让模型直接「画」一个雷达图时，它生成了极具设计感的阴影和线条。但仔细一看——数据点 0.4 被画到了 0.8 的刻度线上；甚至还凭空捏造了几个重复的图例标签。

　　为了解决这个问题，PaperBanana 做了一个天才般的架构切换。

　　当系统识别出你要画的是 BarChart 或 Heatmap 时，它会瞬间收起画笔，掏出键盘，从「美术生」切换为「程序员」。

　　Visualizer 不再生成像素，而是直接生成 Python Matplotlib 代码

　　Critic 也不再看构图，而是运行代码，检查报错，比对数据。

　　这个逻辑绕过了图像生成的随机性，直接利用 LLM 强大的 Coding 能力。

　　以前为了调整一个坐标轴的倾斜角度，得去查半小时；现在，PaperBanana 在后台几秒钟内自己写代码、自己 Debug、自己运行出图。

　　对比数据非常直观：

纯图像生成模式：好看，但瞎编。
代码生成模式：精准，且完全可复现。

　　PaperBanana 官方基准对比：Code 模式（绿色）在忠实度和简洁度碾压纯图像生成（IMG，红色），逼近人类水平

　　逻辑图走艺术路线，数据图走工程路线。这才是 AI 科学家该有的严谨。

　　全自动发表的最后一片拼图

　　在此之前，Auto Figure 等竞品更多是将内容符号化，或者仅仅是简单的图表堆砌。

　　PaperBanana 是第一个真正引入「设计思维」的智能体系统。

　　当 AI 开始理解「如何用布局引导读者的视线」，从一个工具，变成一个拥有表达欲的共创者。

　　在 PaperBanana Bench 的测试中，AI 在简洁性上比现有基线模型提升了 37.2%。

　　虽然论文的委婉地说是为了「民主化」高质量绘图工具，但我们都懂：当技术的门槛降到0，原来的溢价就消失了。

　　北大与 Google 的野心很大。

　　他们不仅发了工具，还开源了 PaperBanana Bench：292 个涵盖各领域的「地狱级」测试用例，摆明了是想做行业裁判。

　　虽然目前的版本生成的还是位图，但作者也说了，下一步就是开发能操作 Adobe Illustrator 的 GUI Agent。

　　等那个版本出来，设计师可能真的要关掉 Photoshop 去送外卖了。

　　工具进化的终极意义，从来不是为了让我们变懒，而是为了让大脑回归纯粹。

　　未来能活得滋润的科研人，只有两种：一种是极其硬核、能写出 AI 无论如何也理解不了的顶级算法的大神；

　　另一种，是懂得指挥千军万马的 AI Agent，把自己的思想用最完美的视觉语言铺陈在审稿人面前的「超级个体」。

　　别让你的思想，死在画不出的图里。

　　参考资料：

　　https://PaperBanana.org/

　　https://arxiv.org/abs/2601.23265

论文配图一键封神！北大谷歌开源PaperBanana，5个Agent全包了

我们的产品

相关链接

关于我们

联系我们