写点什么

ATEC“数星”计划发布,开源亿级工业数据集

  • 2023-09-08
    北京
  • 本文字数:575 字

    阅读完需:约 2 分钟

ATEC“数星”计划发布,开源亿级工业数据集

9 月 8 日,在上海举行的 2023 inclusion·外滩大会《从机器智能到人机智能》论坛上,ATEC 前沿科技探索社区宣布启动 ATEC“数星”计划。


这是业内首个基于真实工业场景的大规模研究性数据集开放计划首批将公开两个脱敏的、超大规模的工业数据集——ATEC2022 赛事数据集“农村金融风险预测”和蚂蚁集团多场景多模态点击率预估数据集(AntM2C)


目前,“数星”计划的数据集可在ATEC官方平台下载。


“农村金融风险预测”中包含了涉农经营者的信贷风险信息及用户的历史多源交互数据。如何利用数字化技术识别农村经营者的经营状况和经营风险,是帮助农村经营者进行融资的基础能力之一。该数据集在遵循国家法律法规及个人隐私保护的前提下,为金融科技领域、特别是农村金融科技领域的行业研究和发展提供了重要的数据支持。


AntM2C 覆盖支付宝内多个业务场景,包含广告、营销、搜索和推荐真实场景中不同类型商品的 CTR 数据,整体数据规模达到 10 亿(第一阶段发布 1700 万规模的数据)。该数据集的发布填补了行业内,多场景多模态点击率预估问题的数据集空白。


清华大学计算机系副系主任、ATEC 前沿科技探索社区发起人徐恪教授指出,“数星”计划是 ATEC 社区在科技赛事、高校实训之后的又一项重要举措。数字技术的研究和发展离不开真实应用的数据土壤,亿级规模工业数据集,将成为人机智能等创新技术的关键燃料,推动机器智能等新一代数字技术的新范式发展。

2023-09-08 15:183796

评论

发布
暂无评论
发现更多内容
ATEC“数星”计划发布,开源亿级工业数据集_工业_蚂蚁集团_InfoQ精选文章