Twitter 的“开源”算法究竟揭示了什么?
Twitter 的“开源”算法究竟揭示了什么?
当 Elon Musk 第一次提议接管 Twitter 时,他声称他将做出的第一个改变是“开源”推特的算法。上周,Twitter 终于兑现了这一承诺,出版该网站在 GitHub 上的“For You”推荐的底层代码。
很快,Twitter 侦探开始筛选代码,看看他们能挖掘出什么。没过多久,一个令人大跌眼镜的发现就出现了:马斯克的推文有他们的自己的类别(连同民主党人、共和党人和“超级用户”)。Twitter 工程师匆忙解释说这是为了“统计跟踪目的”,此后已得到其他人的证实分析. 虽然推特删除这部分代码在发布后数小时内来自 GitHub,这仍然引发了人们猜测 Twitter 的工程师支付特殊费用注意力为了他们老板的参与,并已采取措施人为地提升他的推文。
但此后很少有关于代码内容或 Twitter 算法工作原理的其他重大披露。任何希望此公开代码能够对 Twitter 内部运作产生新见解的人都可能会失望。据研究它的工程师说,这是因为 Twitter 发布的代码省略了有关“算法”实际工作原理的重要细节。
据称,Twitter 共享的代码是 Twitter 算法的“高度编辑”版本溶胶梅辛,纽约大学社交媒体与政治中心副教授,前 Twitter 员工。首先,它没有包括在 Twitter 的推荐中发挥作用的每个系统。
Twitter 表示,它正在保留处理广告以及信任和安全系统的代码,以防止不良行为者利用它。该公司还选择保留用于训练其算法的基础模型,上周在一篇博客文章中解释说,这是为了“确保用户安全和隐私得到保护”。根据梅辛的说法,这个决定甚至更为重要。“驱动算法最重要部分的模型尚未开源,”他告诉我。“所以算法中最重要的部分仍然难以理解。”
马斯克让算法开源的最初动机似乎源于他认为推特利用该算法压制言论自由。“我认为 Twitter 应该做的一件事是开源算法并对人们的推文进行任何更改——如果他们被强调或不强调——该行动应该显而易见,”马斯克去年 4 月在一次露面时说在 TED在他确认收购要约后不久。“所以任何人都可以看到已经采取的行动,所以没有任何幕后操纵,无论是算法还是手动。”
但 Twitter 发布的代码都没有告诉我们很多关于潜在偏见或马斯克说他想揭示的那种“幕后操纵”。“它具有透明的味道,”梅辛说。“但它并不能真正深入了解算法在做什么。它并没有真正深入了解为什么某人的推文排名可能会下降,而其他人的排名可能会上升。”
Messing 还指出,Twitter 最近的 API 更改基本上隔断绝大多数研究人员访问了大量 Twitter 数据。如果没有适当的 API 访问权限,研究人员将无法进行自己的审计,而这将能够提供有关算法工作原理的新细节。“所以在 Twitter 发布这段代码的同时,这让研究人员审计这段代码变得异常困难,”他在自己的文章中写道分析.
分布式人工智能研究所 (DAIR) 研究主任亚历克斯·汉纳 (Alex Hanna) 在我们去年谈话时也提出了审计的重要性,当时马斯克首次讨论了“开源”Twitter 算法的计划。和 Messing 一样,她怀疑仅仅在 GitHub 上发布代码是否会有意义地提高 Twitter 运作方式的透明度。
“如果你真的对像 Twitter 算法这样的东西进行公众监督感兴趣,那么你实际上需要多种方法来进行监督,”Hanna 说。
不过,GitHub 代码确实揭示了 Twitter 算法的一个方面。Messing指向一个文件出土由数据科学家杰夫·艾伦 (Jeff Allen) 撰写,它揭示了算法如何优先考虑不同类型参与的一种“公式”。“如果我们从表面上看,一个收藏(推特之类的推文)的价值相当于转发一半,”梅辛写道。“一条回复相当于 27 次转发,而来自推文作者的回复值得高达 75 次转发。”
虽然这有点暴露,但它又一次不完整的实际发生的事情的图片。“如果没有实际数据,这并没有多大意义,”梅辛说。“而马斯克只是让学术界获取数据的成本高得离谱。如果他们现在想真正研究这个,你基本上必须获得巨额、大量的资助——每年 50 万美元——以获得有意义的数据来研究正在发生的事情。”