CMU教授、机器学习系主任空降OpenAI董事会,曾用一句话攻破ChatGPT

  新智元报道

  编辑:耳朵好困

  就在刚刚,CMU 教授 Zico Kolter 正式宣布加入 OpenAI 董事会,并成为安全与安保委员会成员。OpenAI 这是终于要在安全上下功夫了?

  OpenAI 最近人事变动不断,本周三名高层领导人离开了 OpenAI,其中包括联合创始人 John Schulman 和 Greg Brockman。

  今天,OpenAI 正式宣布董事会新增了一位董事:卡内基梅隆大学计算机科学教授、机器学习系主任 Zico Kolter。

  人才流失不断、痛失左膀右臂后,OpenAI 终于迎来一员大将,奥特曼火速在评论区表示热烈欢迎。

  大牛 Karpathy 也送上祝贺:

  OpenAI 研究科学家、CMU 校友 Noam Brown 也在X上赞扬了他的前导师,写道, 「Kolter 是我经常向他寻求研究和职业建议的人。」

  「他深受学生的喜爱,是机器学习领域的世界专家。我很高兴他能加入我们!」

  Kolter 还将与董事 Bret Taylor、Adam D'Angelo、Paul Nakasone、Nicole Seligman 和 Sam Altman 以及 OpenAI 技术专家一起加入董事会安全委员会。该委员会负责对所有 OpenAI 项目的关键安全决策提出建议。

  人工智能安全一直是 OpenAI 的一个大问题。几位专注于安全的 OpenAI 知名高管和员工(包括联合创始人 Ilya Sutskever)纷纷离开公司,超级对齐团队就地解散。

  Kolter 可谓临危受命,作为 OpenAI 董事会中唯一的人工智能研究员,Kolter 的任命会在一定程度上平衡人们对 OpenAI 安全委员会主要由内部员工组成的批评。

  董事会主席 Bret Taylor 在欢迎 Kolter 加入董事会时表示,「Zico 的到来,增加了对人工智能安全性的深刻技术理解,这将有助于我们确保通用人工智能造福全人类。」

  Brown 在接受采访时表示,作为一名研究人员和教育家,Kolter 先生很快就能适应新的工作范式。

  并且,Kolter 专业的技术知识将有助于他了解人工智能系统面临的安全漏洞。

  Zico Kolter 何许人也?

  Zico Kolter 什么来头?怎样级别的大神一来 OpenAI 就是董事会席位?

  Kolter 于 2010 年在斯坦福大学获得计算机科学博士学位,随后在 2012 年在麻省理工学院完成博士后研究。

  Kolter 在卡内基梅隆大学工作了 12 年,目前是计算机科学教授兼机器学习系主任,也是软件与社会系统系、机器人研究所、CyLab 安全与隐私研究所以及工程学院电气与计算机工程系的成员。

  学术斐然

  Kolter 在机器学习领域做出了重要贡献,不仅在 NeurIPS、ICML(荣誉提名)、AISTATS(时间检验奖)、IJCAI、KDD 和 PESGM 上获得过最佳论文奖,而且也是 DARPA 青年教师奖和斯隆研究奖的获得者。

  他的研究涵盖机器学习和优化的多个主题,包括 AI 安全性和稳健性、大语言模型安全性、数据对模型的影响、隐式模型等。

  其研究小组的大部分工作集中在如何让深度学习算法更为稳健和安全,并理解数据如何影响模型的功能,和 OpenAI 安全工作完全匹配。

  Kolter 的研究中最重要的包括开发了第一种具有鲁棒性保证的深度学习模型的方法,开创了使用神经网络层中的经典优化将硬约束嵌入人工智能模型的技术。

  最近,2023 年,他的团队开发了自动评估大型语言模型安全性的创新方法,展示了通过自动优化技术绕过现有模型保护措施的潜力。

  行业活跃

  除了学术追求之外,Zico 在整个职业生涯中还与 AI 行业内密切合作。

  他曾担任 C3.ai 的首席数据科学家,C3.ai 是唯一为企业构建的一站式 AI 软件集合平台,它建立在经过安全验证的 AI 解决方案之上,这些解决方案能够帮助企业处理数十种复杂的业务工作。

  目前,Kolter 还担任博世的首席专家,以及专门从事人工智能安全和安保的初创公司 Gray Swan 的首席技术顾问。

  挑战 ChatGPT 安全漏洞

  在加入 OpenAI 之前,Zico Kolter 和 Matt Frederickson 就挑战过 ChatGPT 的安全问题,或许是此举吸吸引了 OpenAI 的注意力。

  CMU 团队使用一串以眨眼表情开头的简单代码,展示了绕过 ChatGPT 现有安全机制是多么容易。

  一旦解锁,聊天机器人就会很高兴地答应任何数量的不良请求,例如炸弹配方和种族主义笑话。

  并且,该代码也适用于其他聊天机器人,例如 Google 的 Bard 和 Anthropic 的 Claude。

  在发布研究结果之前,研究人员就已经向 OpenAI、谷歌和 Anthropic 通报了该漏洞利用的相关情况。

  这三家公司都引入了阻止论文所述漏洞利用的限制措施,但尚未找到阻止对抗性攻击的通用方法。

  Kolter 向科技媒体《连线》杂志展示了几个对 ChatGPT 和 Bard 都有效的字符串。他表示,「这种字符串我们有成千上万个。」

  「不仅如此,这些模型有时会给你不真实的信息,或者在某些情况下甚至可能故意欺骗你,这是一个长期的安全风险。」CMU 团队的 Andy Zhou 说。

  Frederickson 也表示,人们已经在「手动越狱」ChatGPT,这意味着他们会绕过其安全机制,持续挑战人工智能。

  「人们是否可以操纵数据来造成严重破坏并引发问题?这就是我们想要了解的。」

  OpenAI 也想了解它的安全漏洞,去年,它聘请了一组专家,试图在 GPT-4 公开发布之前对其进行破解。谷歌雇佣了一支「red team」来保护 Bard 免受越狱和其他攻击。

  Kolter 先生对此表示,「这项工作令人鼓舞,但并不能取代独立研究。毕竟,你不能依赖公司自己进行所有的安全审计。」

  参考资料:

  https://openai.com/index/zico-kolter-joins-openais-board-of-directors/