Twitter开源算法到底揭示了什么?其实也没什么,比马斯克承诺的差远了

  4 月 7 日消息,上周推特兑现了埃隆·马斯克(Elon Musk)长期以来的承诺,在 GitHub 上公布了部分推荐算法底层代码。然而,研究人员表示,其中的内容并不详尽,推特省略了“算法到底是如何工作的”等重要细节,使得我们想要弄清推特平台内部运作机制仍然很困难。

  以下是翻译内容

  当马斯克第一次提出要接管推特时,就宣称他接手后的第一件事就是“开源”推特算法。。上周,他终于履行了自己的承诺,推特在 GitHub 上发布了平台上有关“为你推荐”功能的部分底层代码。

  人们很快开始对这些代码进行深挖,没过多久就发现马斯克的推文有特殊类别标记。推特工程师们急忙站出来解释说,这是为了便于“跟踪统计”,其他分析也证实了这一说法。尽管推特几个小时后就从 GitHub 上删除了这段代码,但人们仍然猜测推特工程师们特别优待马斯克所发内容,可能采取了人为措施来提升他的推文曝光量。

  自此之后,推特没有发布更多代码,也没有说明其平台算法的内部运作机制。那些希望通过推特公开代码来探究平台内部运作机制的人可能会感到失望。研究过这些算法的工程师们表示,这是因为推特发布的代码省略了“算法”到底是如何工作的等关键细节。

  据纽约大学研究社交媒体的副教授、前推特员工索尔·梅辛(Sol Messing)称,推特所公开的内容对推特算法进行了“大量编辑”,其中首要问题就是没有涵盖在推特推荐功能中能发挥作用的所有系统。

  推特表示,它没有公开用于处理广告的代码、信任和安全系统,以防止不良行为者利用这些代码进行恶意操作。此外,推特还选择不公布用于训练算法的底层模型,并在一篇博客文章中解释称,这是为了“确保用户的安全和隐私得到保护”。梅辛认为,这个决定甚至更为重要。“算法的最关键部分——驱动模型仍没有开源,”他说,“因此,算法最为核心的部分仍然让人费解。”

  马斯克最初开源推特算法的动机似乎源于他对推特利用算法压制言论自由的担忧。他在去年四月份的 TED 演讲中说:“我认为推特应该开源算法,公开对推文内容的任何更改——无论是推荐还是不推荐——都应该明明白白地呈现出来。这样,任何人都可以看到推特采取了哪些措施,就不会有任何算法或人工的幕后操作。”这一演讲是马斯克确认收购推特后不久做的。

  在推特发布的代码中,没有提供足够的信息来告诉人们这个平台是否存在潜在的偏见,也没有提供内容来说明是否存在马斯克想要公开的那种“幕后操纵”手段。梅辛说:“这只是透明度的做法。”“但是这些内容并没有真正帮助人们深入了解算法的运作,也没有让人真正深入了解为什么有些人的推文排名会下降,而其他人的排名会上升。”

  此外,梅辛还指出,推特最近在调整其应用程序编程接口(API)方面的政策,这基本上切断了绝大多数研究人员访问大量推特平台数据的途径。没有合适的 API 访问权限,研究人员根本无法自行研究推特算法的新细节。梅辛在自己的分析中写道:“在推特公布这些代码的同时,这种做法使得研究人员更难深入分析代码内容。”

  去年,在马斯克首次讨论“开源”推特算法的计划后不久,分布式人工智能研究所(DAIR)研究总监亚历克斯·汉纳(Alex Hanna)也提到了研究人员审查代码的重要性。和梅辛一样,她也认为仅在 GitHub 上发布代码并不足以提高推特运作方式的透明度。

  汉纳说:“如果你真的对公众监督推特算法等事情感兴趣,那就必须采取多种方法。”

  不过,推特在 GitHub 上公开的部分代码确实揭示了推特算法的一些内容。梅辛透露,数据科学家杰夫·艾伦(Jeff Allen)从中挖掘出一份文件,其中的内容揭示推特如何使用“公式”为不同类型的用户参与赋予优先级。梅辛写道:“如果我们从字面上理解,就会发现推特上的 1 个赞相当于半个推文转发。”“一条回复相当于 27 次转发,而 1 条回复再加上推文作者的回应就相当于 75 次转发。”

  虽然这在一定程度上揭示了一些信息,但有关推特平台的运作方式的描述并不完整。梅辛说:“没有实际数据的话,这种分析没有多少意义。”“如今马斯克让学者获取数据的成本高得离谱。如果他们现在真的想研究这个问题,基本上每年需要花费 50 万美元的巨资才能获得大量有意义的数据。”(辰辰)