写点什么

ATEC“数星”计划发布,开源亿级工业数据集

  • 2023-09-08
    北京
  • 本文字数:575 字

    阅读完需:约 2 分钟

ATEC“数星”计划发布,开源亿级工业数据集

9 月 8 日,在上海举行的 2023 inclusion·外滩大会《从机器智能到人机智能》论坛上,ATEC 前沿科技探索社区宣布启动 ATEC“数星”计划。


这是业内首个基于真实工业场景的大规模研究性数据集开放计划首批将公开两个脱敏的、超大规模的工业数据集——ATEC2022 赛事数据集“农村金融风险预测”和蚂蚁集团多场景多模态点击率预估数据集(AntM2C)


目前,“数星”计划的数据集可在ATEC官方平台下载。


“农村金融风险预测”中包含了涉农经营者的信贷风险信息及用户的历史多源交互数据。如何利用数字化技术识别农村经营者的经营状况和经营风险,是帮助农村经营者进行融资的基础能力之一。该数据集在遵循国家法律法规及个人隐私保护的前提下,为金融科技领域、特别是农村金融科技领域的行业研究和发展提供了重要的数据支持。


AntM2C 覆盖支付宝内多个业务场景,包含广告、营销、搜索和推荐真实场景中不同类型商品的 CTR 数据,整体数据规模达到 10 亿(第一阶段发布 1700 万规模的数据)。该数据集的发布填补了行业内,多场景多模态点击率预估问题的数据集空白。


清华大学计算机系副系主任、ATEC 前沿科技探索社区发起人徐恪教授指出,“数星”计划是 ATEC 社区在科技赛事、高校实训之后的又一项重要举措。数字技术的研究和发展离不开真实应用的数据土壤,亿级规模工业数据集,将成为人机智能等创新技术的关键燃料,推动机器智能等新一代数字技术的新范式发展。

2023-09-08 15:183695

评论

发布
暂无评论
发现更多内容

为什么推荐将 IoTDB 服务地址配置为 HostName 而非 IP?

Apache IoTDB

免费的集成组件有哪些?

谷云科技RestCloud

ETL 数据集成 ETLCloud

解锁弹框:Python 下的 Playwright 弹框处理完全指南

霍格沃兹测试开发学社

探索车路云深度融合的优化与实践

观测云

人工智能

文档解析与向量化技术加速多模态大模型训练与应用

热爱编程的小白白

知识付费的感想

玄兴梦影

OpenAI 或将推出多模态人工智能数字助理;研究发现部分 AI 系统已学会「说谎」丨 RTE 开发者日报 Vol.203

声网

低代码与AI技术发展:开启数字化新时代

不在线第一只蜗牛

人工智能 AI 低代码

Postgresql查询每个月最后一天的数据||查询每个月数据中的最后一条数据

李爽

postgresql #SQL

虚拟仿真云实训平台:更优质的教育资源服务

3DCAT实时渲染

虚拟仿真 实时渲染 仿真云

国标参编征集 | 关于公开征集《物流企业数字化 第二部分:平台架构》国家标准起草单位的通知

信通院IOMM数字化转型团队

数字化转型 物流

精准记录:使用 Playwright 实现屏幕截图

霍格沃兹测试开发学社

容器技术:优化软件测试流程的利器

霍格沃兹测试开发学社

从零开始:使用 Playwright 脚本录制实现自动化测试

霍格沃兹测试开发学社

9大原因分析贝莱德投资RWA赛道的ONDO 逻辑,内附

股市老人

俄罗斯方块游戏编程

芯动大师

编程 俄罗斯方块游戏 51单片机

F5G-A万兆光网商用启航,挥动FTTR F50星光之翼

脑极体

光网络

字节面试:说说Java中的锁机制?

王磊

Java 面试

【YashanDB知识库】ycm托管数据库时,数据库非OM安装无法托管

YashanDB

yashandb 崖山数据库 崖山DB

我,古希腊掌管「智算」的神!

白洞计划

AI 智算

探索未知:风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国

Zilliz

AI 非结构化数据 Meetup Zilliz

有了1688跨境接口,没有1688代采系统怎么办?

tbapi

1688API接口 1688代采系统

浅谈设计模式

Ethan

Java 设计模式

ATEC“数星”计划发布,开源亿级工业数据集_工业_蚂蚁集团_InfoQ精选文章