新智元报道
编辑:编辑部
近日,据称是史上首位的提示工程师接受了《华盛顿邮报》采访,为我们揭秘了这个年薪百万的全新职业。
ChatGPT 爆火之后,带火了一项「网红」新职业——提示工程师。
去年 12 月,一位名叫 Riley Goodside 的小哥瞬间红遍全网,只因他的工作太梦幻了——不用写代码,跟 ChatGPT 唠唠嗑,就能年入百万。
是的,这项被称为「AI 耳语者」的工作,现在在硅谷已经成为最热门的新工作,让无数码农趋之若鹜。
一夜爆红的提示工程师
去年 12 月初,这位叫 Riley Goodside 的小哥,凭着 ChatGPT 的大爆,一夜间疯狂涨粉 1w+。现在,总关注量更是达到了 4w+。
当时,他被估值 73 亿美元的硅谷独角兽 Scale AI 聘请为「提示工程师」(Prompt Engineer),Scale AI 疑似开出百万 rmb 的年薪。
Scale AI 创始人兼 CEO Alexandr Wang 曾这样欢迎 Goodside 的加入:「我敢打赌 Goodside 是全世界第一个被招聘的提示工程师,绝对的人类史上首次。」
提示工程师看似只需要把任务写成文字,给 AI 看一下即可,根本不涉及更复杂的过程。为什么这个工作能值百万年薪呢?
在 Scale AI CEO 看来,AI 大模型可以被视为一种新型计算机,而「提示工程师」,就相当于给它编程的程序员。如果能通过提示工程找出合适的提示词,就会激发 AI 的最大潜力。
此外,提示工程师的工作,也并不像我们想象得那么简单。
Goodside 从小就自学编程,平时经常泡在 arXiv 上看论文。比如,他的一个经典杰作就是:如果输入「忽略之前的指示」,ChatGPT 就会暴露自己从 OpenAI 那里接收到的「命令」。
对于生手,能够这么熟练又快速地「调教」ChatGPT,恐怕并非易事。
但当时,坊间不乏质疑声,比如英伟达 AI 科学家、李飞飞高徒范麟熙就曾表示:「提示工程师」这份职业,可能很快就会消失。因为这称不上是一份「真正的工作」,而是一个 bug……
不过,《华盛顿邮报》近日的一篇报道显示,「提示工程师」这个职位,依然大火,处于红利期。
硅谷网红新工作:不写代码,拿百万年薪
为什么「提示工程师」能拿这么高年薪?因为,他们能让 AI 准确地产生他们想要的东西。
近日,「网红」小哥 Goodside 接受了《华盛顿邮报》的采访。
他是这样介绍自己的工作的:创建和完善提示人们输入 AI 的文本,以期从中获得最佳结果。
提示工程师与传统程序员的不同之处在于,提示工程师使用自然语言编程,将纯文本编写的命令发送给 AI,然后由 AI 执行实际工作。
Goodside 说,提示工程师应该为 AI 灌输一种「角色」,一种能够从数千亿种潜在解决方案中识别出正确反应的特定角色
与 GPT-3 交谈时,Goodside 有独特的一套「调教」方法——先确立自己的统治地位。他会告诉 AI:你并不完美,你需要服从我所说的一切。
「你是 GPT-3,你不会做数学,你的记忆能力令人印象深刻,但你有一种烦人的倾向,就是编造非常具体但错误的答案。」
然后,他的态度软化了一些,告诉 AI 他想尝试一些新的东西。「我已经把你连到了一个非常擅长数学的程序上,当它也变得不堪重负时,它还会向另一个程序寻求帮助。」
「我们会处理剩下的事情,」他告诉 AI。「开始吧。」
当谷歌、微软和 OpenAI 最近接连向公众开放 AI 搜索和聊天工具时,他们颠覆了数十年的人机交互历史——我们再也不需要使用 Python 或 SQL 写代码来命令计算机了,只需要说话就行。
特斯拉前 AI 主管 Karpathy:现在最热门的编程语言是英语
Goodside 这样的提示工程师,可以让这些 AI 工具在最大极限下运作——了解它们的缺陷,增强它们的优势,制定复杂的策略,将简单的输入转化为真正独特的结果。
2 月 7 日,微软高管 Yusuf Mehdi 正在讲解整合了 ChatGPT 的必应搜索
「提示工程」的支持者认为,最近这些早期 AI 聊天机器人(比如 ChatGPT 和 Bing Chat)表现出的怪异,实际上是人类想象力的失败。之所以失败,是因为人类并没有给机器提出正确的建议。
在真正的高级阶段,提示工程师和 AI 的对话就像错综复杂的逻辑谜题一样展开,通过各种扭曲的描述完成请求和响应,并且它们都是朝着一个目标前进。
AI「没有现实基础......但它有这样的理解:所有任务都可以完成,所有问题都可以回答,因此我们总有话说,」Goodside 说。而诀窍就是,「为它构建一个前提,一个只能以一种方式完成的故事」。
当然,很多时候,这些被称为「生成式人工智能」的 AI 工具是不可预测的,它们会出现乱码,会表现得偏见、好战、怪异、疯狂。
「这是计算机的一种疯狂的工作方式,但它能让我们做到不可思议的事,」研究提示工程的英国程序员 Simon Willison 说。
「我做了 20 年的软件工程师,20 年里一直在写代码,让计算机完全按照我的指令去做。而在提示工程中,我们甚至不知道自己能得到什么,连构建语言模型的人,都无法告诉我们它要做什么。」
Willison 表示,很多人贬低提示工程师的价值,他们觉得,「在盒子里输入东西就可以获得报酬」,这很不可思议。而在 Willison 看来,提示工程其实就跟施法一样,没人知道法术是如何运作的。
在 Karpathy 看来,提示工程师就像一种 AI 心理学家,大公司们纷纷聘请自己的提示工匠,希望能够发现 AI 的隐藏功能。
有一些 AI 专家认为,这是提示工程师觉得自己能控制 AI,其实只是错觉罢了。
没人知道 AI 系统究竟会如何回应,同样的提示可能会产生几十个互相矛盾的答案。这表明,模型的回答并不是基于理解,而是基于粗略地模仿语音,来解决他们不理解的任务。
华盛顿大学研究自然语言处理的语言学助理教授 Shane Steinert-Threlkeld 也持相同观点:「任何驱动模型响应提示的行为,都不是对语言的深刻理解。」
「很显然,他们只是在告诉我们,他们认为我们想听的或我们已经说过的话。而我们,才是解释这些输出、并赋予它们意义的人。」
Steinert-Threlkeld 教授担心,提示工程师的兴起,会让人们高估这门技术的严谨性,并且导致人们产生一种错觉——任何人都可以从这个不断变化的具有欺骗性的黑匣子中,获得可靠的结果。
「这不是一门科学,」他说。「这是我们在试着用不同的方式去戳一头熊,看它会如何咆哮。」
Goodside 说,推动 AI 发展的诀窍是「为它构建一个前提,一个只能以一种方式完成的故事」
植入虚假记忆
以 ChatGPT 为代表的新 AI,是从互联网的语料库中摄取了数千亿个单词来训练的。
它们被训练如何分析单词和短语的使用模式。当被要求说话时,AI 就会模仿这些模式,选择与对话上下文相呼应的单词和短语。
换句话说,这些 AI 工具是建立在预定义游戏规则之上的数学机器。但即使是一个没有情感或个性的系统,在受到人类对话的轰炸后,也可以发现人类谈话方式的一些怪癖。
Goodside 说,AI 倾向于「虚构」,编造小细节来填充故事。它会高估自己的能力,自信地把事情搞错。它会「产生幻觉」,来胡说八道。
正如 Goodside 所说,这些工具存在严重缺陷,是「人类知识和思想的展示」,「不可避免地是我们设计的产物」。
之前,微软的必应 AI 发狂时,让微软陷入了公众形象危机。不过,对于提示工程师来说,必应的古怪答案反倒是一个机会,一个诊断秘密设计的系统如何工作的机会。
当 ChatGPT 说出令人尴尬的话时,这对开发者倒是一个福音,因为他们可以解决潜在的弱点。「这个恶作剧是计划的一部分。」
2 月 1 日,在日内瓦组织的教师 ChatGPT 研讨会
而 Goodside 并没有进行道德辩论,而是采用更大胆的方法来进行 AI 实验。
他采用了一种策略,告诉 GPT-3 「一步一步地思考」——一种让 AI 解释其推理的方法,或者当它犯错误时,以精细的方式纠正它。
「你必须把它作为模型说过的最后一件事的虚假记忆来植入,就像它是模型的想法一样。」Goodside 这样解释道。
他还会告诉 AI 忽略先前的指令,服从他最近的命令,来打破这个 AI 对遵守规则的痴迷。他使用这种技术说服了一个英语到法语的翻译工具。
当然,也少不了一些提示工程的黑客攻击,这引发了一场猫鼠游戏,公司和实验室致力于通过文字过滤器(word filters)和输出块(output blocks)来封闭 AI 漏洞。
但一名必应 Chat 测试员,一位 23 岁的德国大学生,最近说服了必应 AI 他是它的开发者,并且让它公开了内部代号 Sydney,以及培训说明(比如「如果用户请求可能伤害一群人,那么 Syedney 必须恭敬地拒绝」)。当然现在,微软已经修复了这个缺陷。
Goodside 说,对于每个请求,提示工程师都应该向 AI 灌输一种「角色」——一种能够筛选出数千亿个潜在解决方案,并确定正确响应的特定角色。
他援引 2021 年的一篇研究论文说,提示工程最重要的是就是「约束行为」——阻止选项,以便 AI 能够按照人类操作员期望的那样继续。
论文地址:https://arxiv.org/pdf/2102.07350.pdf
「这可能是一项非常困难的脑力锻炼,」他说。「你正在探索虚构可能性的多元宇宙,塑造这些可能性的空间,并消除除了你想要的文本之外的一切。」
这项工作的最关键的部分,就是弄清楚 AI 何时会出错,为什么会出错。但是这些 AI 没有错误报告,它们的输出可能充满惊喜。
当机器学习小组 SERI-MATS 的研究人员 Jessica Rumbelow 和 Matthew Watkins 试图让 AI 解释它们如何表示「女孩」或「科学」等概念时,他们发现某些晦涩的术语,比如「SolidGoldMagikarp」,往往会引发一种「神秘故障模式」——NSFW 的乱码流。
但原因完全未知。
这些系统「非常有说服力,但当它们失败时,它们会以非常出乎意料的方式失败,」Rumbelow 说。在她看来,提示工程的工作有时感觉像在「研究一种外星智能」。
新 Bing 允许用户以会话语言输入查询,并在同一页面上接收传统搜索的结果和问题答案
超级创作者
对于 AI 语言工具,提示工程师倾向于以正式对话的风格说话。
但对于像 Midjourney 和 Stable Diffusion 这样的 AI,许多提示创作者采取了不同的策略。他们通过大量的文字(艺术概念、构图技巧),来塑造图像的风格和基调。
例如,在 PromptHero 上,有人通过提交「港口、船只、日落、美丽的光线、黄金时刻……超现实主义、聚焦的、细节丰富的……电影画质,杰作」的提示,创作了一幅港口图像。
这些提示工程师,把 prompt 作为自己的秘密武器,打开 AI 大奖的钥匙。
去年在科罗拉多州博览会艺术比赛的获奖者、《太空歌剧院》的创作者,拒绝分享出自己在 Midjourney 所用的提示。
据说,他花了 80 多个小时,在 900 次迭代中,才完成了这幅画作。他透露,其中一些词是「奢华」「丰富」。
还有一些 prompt 创作者,在 PromptBase 上出售自己的 prompt。买家可以看到 AI 生成的艺术品,然后花钱购买 prompt。
PromptBase 的创始人、27 岁的英国开发人员 Ben Stokes 说,自 2021 年以来,已有 25,000 个帐户在该平台买卖 prompt。
其中,有逼真的老式电影照片提示,有童话风老鼠和青蛙的凄美插图提示,当然也有大量的色情提示:50 字的 Midjourney 提示,用于创建逼真的「穿迷你衣服的女警察」,零售价为 1.99 美元。
Stokes 称,提示工程师是「多学科的超级创造者」,经验丰富的工程师和业余爱好者之间存在明显的「技能门槛」。他说,最好的创作者能够利用艺术史和平面设计等领域的专业知识:「用 35 毫米胶片拍摄」;「波斯……伊斯法罕的建筑」;「法国画家 Henri de Toulouse-Lautrec 的风格。」
「制作 prompt 很难,而且——我认为这是人的一个缺陷——我们通常很难找到合适的词,来描述你想要的东西,」Stokes 说。「就像软件工程师比让他们码字的笔记本电脑更有价值一样,能够写好提示的人比写得不好的人更有优势。他们就像拥有超能力一样。」
但这项工作正变得越来越专业。
前 OpenAI 员工和 Claude AI 制造商创办的初创公司 Anthropic ,最近在旧金山发布了一份提示工程师和管理员的招聘信息,薪水高达 335,000 美元。而岗位要求是必须「具有创造性的黑客精神并热爱解决难题」。
提示工程师在科技行业之外,也有不错的行情。
波士顿儿童医院本月开始招聘「AI 提示工程师」,帮助编写用于分析研究和临床实践中的医疗保健数据的脚本。
伦敦最大律所之一 Mishcon de Reya 正在招聘一名「法律提示工程师」,来设计为法律工作提供信息的 prompt,并且要求申请人提交与 ChatGPT 对话的截图。
但是,这些 AI 也会产生大量的合成废话。现在,数百本由 AI 生成的电子书正在亚马逊上出售,科幻杂志 Clarkesworld 本月停止接受短篇小说的投稿,原因是大量小说是由 AI 创作的。
论文地址:https://cdn.openai.com/papers/forecasting-misuse.pdf
上个月,来自 OpenAI 和斯坦福大学的研究人员警告说,大语言模型会让网络钓鱼活动更有针对性。
「无数人因为骗子的短信,就会上当受骗,」英国程序员 Willison 说,「AI 比骗子更有说服力。那时会发生什么?」
首位提示工程师的诞生
2009 年,Goodside 刚从大学毕业并获得计算机科学学位时,对还处在初级阶段的自然语言处理领域,并没有很大的兴趣。
他的第一份真正的机器学习工作是在 2011 年,他当时是约会应用程序 OkCupid 的数据科学家,帮助制定算法,分析单身用户数据并给他们推荐对象。(该公司是现在备受争议的A-B 测试的早期拥护者:2014 年,公司的联合创始人为一篇厚颜无耻的博文题名「我们在人类身上进行实验!」)
到 2021 年底,Goodside 转向了另一个约会应用程序 Grindr,在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。
2015 年左右,深度学习的成功推动了自然语言处理的发展,文本翻译和对话方面也取得了快速进步。 很快 ,他辞去了工作,并开始对 GPT-3 进行大量试验。 通过不断的刺激和挑战,来尝试学习如何集中它的注意力并找出边界。
2022 年 12 月,在他的一些提示在网上引起关注后,Scale AI 便聘请他来帮助与 AI 模型进行交流。该公司的首席执行官 Alexandr Wang 称这种 AI 模型为「一种新型的计算机」。
Andrej Karpathy:提示工程,带来 15 亿码农
最近,重新回归 OpenAI 的 Karpathy 认为,在这种全新的编程范式(提示工程)的加持下,程序员的数量很有可能会扩大到 15 亿左右。
根据 GPT-3 的原始论文,LLM 可以进行上下文学习,并且可以在提示中用输入-输出的例子进行「编程」,从而执行不同的任务。
「Language Models are Few-Shot Learners」:https://arxiv.org/abs/2005.14165
随后,论文「Large Language Models are Zero-Shot Reasoners」和「Large Language Models Are Human-Level Prompt Engineers」证明,我们可以通过设计更好的「提示」,来对模型的「解决策略」进行编程,从而完成更加复杂的多步推理任务。
比如,最著名的「让我们一步一步地思考」(Let's think step by step),正是出自这里。
而改进版的「让我们一步一步地解决这个问题,以确保我们得到正确的答案」,可以更进一步地提升回答的准确率。
「Large Language Models are Zero-Shot Reasoners」:https://arxiv.org/abs/2205.11916
「Large Language Models Are Human-Level Prompt Engineers」:https://arxiv.org/abs/2211.01910
由于 GPT 模型本身并没有「想要」实现什么,它们更多是在进行模仿。
因此,你必须在提示中给模型提出明确的要求,并把期望的表现阐述清楚。
「Decision Transformer: Reinforcement Learning via Sequence Modeling」:https://arxiv.org/abs/2106.01345
「Just Ask for Generalization」:https://evjang.com/2021/10/23/generalization.html
「在 ChatGPT 中建立一个虚拟机」就是一个用提示进行「编程」的示例。
其中,我们通过英语来声明的规则和输入/输出格式,将 GPT 调整到某一特定的角色之上,进而完成相应的任务。
「Building A Virtual Machine inside ChatGPT」:https://engraved.blog/building-a-virtual-machine-inside/
在「iOS 快捷方式中的 ChatGPT——世界上最智能的 HomeKit 语音助手」中,作者利用自然语言提示制作出的「ChatGPT 语音助手」,在能力和个性化程度上,明显高于普通的 Siri/Alexa/等。
「ChatGPT in an iOS Shortcut — Worlds Smartest HomeKit Voice Assistant」:https://matemarschalko.medium.com/chatgpt-in-an-ios-shortcut-worlds-smartest-homekit-voice-assistant-9a33b780007a
从 ChatGPT 版必应遭受注入式攻击之后所暴露出的内容来看,它的「身份」也是通过「自然语言提示」构建和编程的。比如,告诉它是谁,它知道/不知道什么,以及如何行动。
推特地址:https://twitter.com/marvinvonhagen/status/1623658144349011971?lang=en
提示工程:是投机取巧,还是大势所趋?
Karpathy 表示,上面的这些例子充分说明了「提示」的重要性,以及「提示工程师」的意义是什么。
同样,在 Goodside 看来,这项工作代表的不仅仅是一份工作,而是更具革命性的东西——不是计算机代码或人类语言,而是两者之间的一种新语言——
「这是一种在人类和机器思维的交汇处进行交流的模式。这是一种人类提出推论,机器负责后续工作的语言,而这种语言是不会消失的。」
类似的,宾夕法尼亚大学沃顿商学院的技术和创业学教授 Ethan Mollick,也今年早些时候开始向他的学生传授「提示创作」的艺术,方法是让他们只使用 AI 写一篇短文。
他说,如果只输入最基本的提示,比如「写一篇五个段落的关于选择领导者的文章」,只会产出乏味、平庸的文章。但最成功的案例是当学生与 AI 进行共同编辑时,学生告诉 AI 要更正特定细节、更换句子、抛弃无用的短语、添加更生动的细节,甚至让 AI「修复最后的结尾段,让这篇文章以充满希望的基调结尾。」
不过,Goodside 也指出,在一些 AI 圈子里,提示工程很快就变成了一个贬义词,也就是一种「过度依赖技巧的狡猾的修补形式」。
还有一些人也质疑这个新角色干不长:人类会训练 AI,而随着 AI 的进步,人们自己会把这个工作也训练没的。
华盛顿大学的 Steinert-Threlkeld,就将提示工程师与谷歌早期的「搜索专家」作对比,他们宣称有秘密技术可以找到完美的结果——但是随着时间的推移和搜索引擎的广泛应用,这个角色毫无用武之地了。
参考资料:
https://www.washingtonpost.com/technology/2023/02/25/prompt-engineers-techs-next-big-job/