鱼羊 Pine 发自凹非寺
量子位公众号 QbitAI
俄罗斯第一大科技巨头,这回遇上了大麻烦:
44. 7GB 源代码,全被泄露到了网上。
什么概念?
就是这家名为Yandex的公司,几乎所有主要服务的源代码都被挖了个底掉……
要知道,在俄罗斯,Yandex 不仅干着搜索引擎的活儿,还把俄国老百姓购物、打车、订外卖、租车这一连串生活服务都给包圆了。
简单来说,约等于俄版百度+淘宝+美团+滴滴。
这么大个事儿,自然引起了全世界网友的围观。
但就在众人纷纷猜测这又是哪家黑客手笔之际,Yandex 的声明却有些令人大跌眼镜:我们没有被黑,就是被前员工给卖了……
44. 7GB 源代码遭泄露,代码被扒了个底朝天
具体来说,泄密链接最早出现在了一个黑客论坛上。
泄密者称,这份 44.7GB 的 Yandex 代码库,包含该公司 2022 年 7 月以前,除反垃圾邮件规则之外的所有源代码。
这些被泄露出来的代码信息量到底有多大?
看看网友们热火朝天扒出来的细节就知道了……
Yandex 不是以搜索引擎起家,常被称作“俄版百度”/“俄版谷歌”嘛,那就先以搜索引擎部分的代码为例。
一位名叫 Alex Buraks 的老哥就深扒了下 Yandex 搜索引擎的排名规则,还戏称这对理解谷歌 SEO(搜索引擎优化)有很多有用的信息。
毕竟 Yandex 和谷歌的搜索结果有 70% 的匹配度,不少人认为其搜索技术用的就是谷歌同款:如 PageRank、BERT 等。
(掌握了 Yandex 的规则不就相当于透了谷歌排名算法的家底,手动狗头)
目前已经有大批吃瓜群众来围观,甚至 Alex Buraks 的这条线程曾在谷歌搜索“yandex”中排名第8。
有趣的是,在 Yandex 的排名因素中,排在第一个的就是PageRank。
Buraks 还直接列出了 Yandex 的 10 个排名因素:
(1)链接的创建时间;(2)流量和有机流量的百分比;(3)URL 中的数字不利于排名;(4)URL 中的斜杠不利于排名;(5)负面情绪过重的 PageRank=0;(6)主机可靠性;(7)“维基百科”还单独列了一个因素;(8)用户行为:点击率,跳出率等;(9)文件年龄与上次更新日期;(10)所有查询域名的平均位置……
当然这还只是其中的一部分,Buraks 表示后续还会继续分析。
除了 Alex Buraks,也有不少营销大师深扒了 Yandex 的排名因素,甚至有人都详细整理出了完整的1900+个排名因素。
值得一提的是,在各路大神扒代码的过程中,Yandex 搜索引擎的一些“潜规则”也被摆上了台面。
就比如说加拿大黑客 Aubrey Cottle 就在代码中发现了 Yandex 是容忍种族歧视的。
还有网友在代码中发现,Yandex 的广告投放中,普通广告和色情广告是分开计算的。
官方声明:没有被黑,是前员工泄密
这事儿一出,很快还有一份详细的泄密文件目录被整理出来放在了 GitHub 上。
作者是一位名叫 Arseniy Shestakov 的软件工程师。据他评估,这些源代码确实涉及了 Yandex 的所有主要服务。
包括:
- 搜索引擎和索引机器人
- 地图服务
- AI 语音助手
- 打车服务
- 广告服务
- 邮件服务
- 存储服务(类似百度网盘)
- 电商服务(类似淘宝)
- 旅游服务
- 云服务
还包括在线协同办公、支付、数据分析等等业务。
不过,泄露内容并不包括用户数据等敏感信息。
Arseniy Shestakov 总结了几个关键细节:
- 泄露出来的主要是 git 存储库里的源代码,不包含 git 历史记录
- 所有文件日期均可追溯至 2022 年 2 月 24 日
- 大部分软件都没有预先编译好,只有少数例外
- 除了一些例外,没有预先训练好的机器学习模型
△Yandex 办公楼
事情闹得这么大,Yandex 官方也坐不住了,很快发表声明表示:其实我们并没有被黑,是前员工出卖了我们!
Yandex 没有被黑。我们在公共领域发现了泄露自内部存储库的代码片段,但其内容与 Yandex 当前使用的代码版本并不相同。
存储库是用来存储和处理代码的工具。大多数公司都采用这种方式来使用代码。
代码库并未存储个人用户数据。
我们正在进行内部调查,但并没有发现该事件给用户数据和平台性能带来了任何威胁。
Yandex 倒是信誓旦旦,但外部的专业人士却有不同看法。
据 bleepingcomputer 消息,前 Yandex 技术专家 Grigory Bakunov 对此事做出了回应。
他认为,这次代码泄露确实不会对用户的隐私或安全构成直接风险,也不会直接威胁到 Yandex 的专有技术。
不过一些文件仍可能会暴露正在运行的服务,比如说“blacklist.txt”,Bakunov 还称:尽管泄密的部分不涉及敏感数据,但黑客针对性利用代码中的安全漏洞,只是时间问题;
(BTW)虽然 Yandex 官方回应泄露的代码与公司工作服务中使用的当前代码不同,但相似度可能高达 90%。
泄露代码目录:
https://gist.github.com/ArseniyShestakov/53a80e3214601aa20d1075872a1ea989
参考链接:
[2]https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/
[3]https://twitter.com/Kirtaner/status/1619007274202329091
[4]https://twitter.com/dom_woodman/status/1619028740201398274
[5]https://twitter.com/alex_buraks/status/1618988134850785280