【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

44.7 GB !遭前雇员“叛变”,俄版百度 Yandex 几乎所有源代码泄露

  • 2023-01-29
    北京
  • 本文字数:1304 字

    阅读完需:约 4 分钟

44.7 GB !遭前雇员“叛变”,俄版百度Yandex几乎所有源代码泄露

1 月 28 日,据外媒报道,俄罗斯最大的 IT 科技公司之一 Yandex 发生了源代码泄露事故。

Yandex 几乎所有源代码泄露


据称,一名前雇员泄露了 Yandex 的源代码存储库,其中泄露了 Yandex 在其搜索算法中使用的 1,922 个排名因素。


目前,被泄露的 Yandex 源代码存储库已在一个流行的黑客论坛上以 BT 种子的形式泄露。


1 月 26 日,泄密者发布了一个磁力链接,声称这是““Yandex git sources”,其中包含 2022 年 7 月从公司窃取的 44.7 GB 文件。据称,这些代码存储库包含公司除反垃圾邮件规则之外的所有源代码。


软件工程师 Arseniy Shestakov 分析了泄露的 Yandex Git 存储库 ,并表示其中包含有关以下产品的技术数据和代码:


  • Yandex search engine and indexing bot

  • Yandex Maps

  • Alice (AI assistant)

  • Yandex Taxi

  • Yandex Direct (ads service)

  • Yandex Mail

  • Yandex Disk (cloud storage service)

  • Yandex Market

  • Yandex Travel (travel booking platform)

  • Yandex360 (workspaces service)

  • Yandex Cloud

  • Yandex Pay (payment processing service)

  • Yandex Metrika (internet analytics)Shestakov 还在 GitHub 上分享了 泄露文件的目录列表, 供那些想查看哪些源代码被盗的人使用。“至少有一些 API 密钥,但它们可能仅用于测试部署,”Shestakov 谈到泄露的数据时说。

Yandex 否认黑客入侵,将源代码泄露归咎于前员工

在给Bleeping Computer 的一份声明中,Yandex 表示他们的系统没有被黑客入侵,一名前雇员泄露了源代码存储库。


“Yandex 没有被黑。我们的安全服务从公共领域的内部存储库中发现了代码片段,但内容与 Yandex 服务中使用的存储库的当前版本不同。


存储库是用于存储和使用代码的工具。大多数公司在内部通过这种方式使用代码。代码仓库的作用是处理代码,而非存储个人用户数据。我们正在对向公众发布源代码片段的原因进行内部调查,但我们没有发现对用户数据或平台性能有任何威胁。”- Yandex。

增加黑客暴露风险

Yandex 前高级系统管理员、开发副主管兼传播技术总监Grigory Bakunov向 BleepingComputer 评论此次泄密事件表示 ,他对泄露的代码非常熟悉,他曾在 2002 年至 2019 年期间在这家科技巨头工作。


Bakunov认为,数据泄露的动机是政治性的,导致数据泄露的“流氓” Yandex 员工并未试图将代码出售给竞争对手。


这位前高管补充说,泄露不包含任何客户数据,因此不会对 Yandex 用户的隐私或安全构成直接风险,也不会直接威胁和泄露专有技术。


“Yandex 使用名为‘Arcadia’的单一存储结构,但并非公司的所有服务都使用它。此外,即使只是构建服务,也需要大量内部工具和专业知识,因为标准构建程序并不适用。泄露的存储库仅包含代码;另一个重要部分是数据。神经网络的模型权重等关键部分都没有,所以几乎没有用。尽管如此,仍有许多‘有趣’的文件,其名称如“blacklist.txt”可能会暴露正在运行的服务。”


不过 Bakunov 也提醒,泄露的代码使黑客有可能识别安全漏洞并实施有针对性的漏洞利用活动。现在,这只是时间问题。


这位前高管还评论了 Yandex 的声明,称泄露的代码可能与公司工作服务中使用的当前代码不相同,但相似度可能高达 90%。因此,对泄露代码开展全面检查后,恶意黑客很可能会从 Yandex 系统中发现可供利用的缺口。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-01-29 17:265990
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 494.5 次阅读, 收获喜欢 1968 次。

关注

评论 2 条评论

发布
用户头像
嗯,前员工偷的不能算偷
2023-01-30 10:35 · 江苏
回复
用户头像
震惊,吃瓜
2023-01-30 08:18 · 浙江
回复
没有更多了
发现更多内容

V8数据存储(上篇):栈和堆

梁龙先森

大前端 浏览器

5 月 28 日 - 29 日阿里云峰会视频云专场直播预告

阿里云视频云

阿里云 音视频

区块链如何赋能企业数字化转型?

CECBC

week5作业

Geek_2e7dd7

架构实战营

Dubbo 服务治理简介

青年IT男

dubbo

计算社会科学 - DAY 17

Qien Z.

5月日更

人生算法:做好自己这家公司的CEO

石云升

读书笔记 思维模型 5月日更

英特尔院士斯旺:由外而内重塑芯片设计

E科讯

眼观六路耳听八方还不知疲倦?数仓智能运维服务体系是怎么做到的?

华为云开发者联盟

数据库 数据仓库 监控 智能运维 数据库监控

从源码角度研究Java动态代理

叫我阿柒啊

动态代理 代理模式 rmi

Spring Boot Devtools Restarter 原理

sN0wpeak

Java spring

中国数字人民币官方宣传片来袭!DCEP:开启“无现金新时代”!

CECBC

一场“测谎”人机对战背后的故事:度小满的技术进击之路

脑极体

为什么不推荐C++?

实力程序员

MySQL事务处理特性的实现原理

华为云开发者联盟

MySQL 数据库 innodb 事务 隔离

【Flutter 专题】118 图解特殊利器 ShaderMask 着色器

阿策小和尚

5月日更 Flutter 小菜 0 基础学习 Flutter Android 小菜鸟

高可用DevHa实践,告诉你生产环境0性能故障是如何做到的!

TakinTalks稳定性社区

压测 性能调优 全链路压测 系统稳定高可用 性能压测

智慧党建平台搭建,党建干部管理系统,智慧组工平台解决方案

探秘区块链技术在计算机取证过程中的机制与应用

CECBC

Django 之 Models(Models 模型 & 数据表关系)

若尘

django model Python编程 5月日更

用图数据库可视化探索 Chia Network 区块链数据

古思为

区块链 可视化 图数据库

webRTC的标准与发展

anyRTC开发者

音视频 WebRTC RTC

五一假期旅游完突然收到(余额宝)面试,四面成功拿下offer

Java架构师迁哥

5分钟速读之Rust权威指南(十一)

wzx

rust

面向WEB开发人员的Docker(六):使用nginx部署静态网站

devpoint

Docker

代码精进之路学习笔记

escray

学习 极客时间 5月日更

密码学系列之:SAFER

程序那些事

密码学 程序那些事 SAFER

低代码实现传统装饰企业的管理跃迁

华为云开发者联盟

低代码 华为云 计算 低代码开发 AppCube

并发王者课-青铜7:顺藤摸瓜-如何从synchronized中的锁认识Monitor

MetaThoughts

Java 多线程 并发

发布引发的curator报错:instance must be started before calling this method

林一

dubbo zk 优雅停机

CompletableFuture 简单与链式的区别?

码农架构

44.7 GB !遭前雇员“叛变”,俄版百度Yandex几乎所有源代码泄露_AI&大模型_刘燕_InfoQ精选文章