50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Hugging Face 推出零代码数据集转换工具 AI Sheets

作者:Robert Krzaczyński

  • 2025-09-15
    北京
  • 本文字数:873 字

    阅读完需:约 3 分钟

大小:424.56K时长:02:24
Hugging Face推出零代码数据集转换工具AI Sheets

Hugging Face 发布开源应用AI Sheets。它提供了类似电子表格的界面,让用户可以使用 AI 模型构建、转换和补充数据集。这个工具既可以在 Hub 上使用,也可以在本地部署,用户无需编写代码即可尝试成千上万的开放模型,包括 OpenAI 的 gpt-oss。

 

该工具的界面类似于传统的电子表格,但可以通过提示生成新列,而不是手动输入公式。例如,用户可以清理文本、分类条目、补充缺失的数据细节,或者使用自然语言描述期望的输出以生成合成行。单元格可以直接编辑或验证,这些操作将指导模型的后续生成。

 

AI Sheets 提供了两个操作入口:通过自然语言描述数据结构从零生成数据集,或导入已有的 CSV、TSV、XLS 或 Parquet 格式的数据集。第一个选项适用于原型设计或合成数据生成,而导入真实数据则能实现大规模的数据转换与增强任务。Hugging Face 强调,用户可以先用小样本数据进行实验,然后再逐步扩展至大型数据管道。

 

该工具还提供了模型比较机制。用户可以创建多个输出列,每个列由不同的模型驱动,甚至可以添加一个单独的列,让另一个大型语言模型(LLM)作为裁判来评估结果。在已发布的示例中,研究人员在一个交互式迷你 Web 应用程序上比较了 Qwen3-Coder 和 gpt-oss 的输出,并自动生成了评估结果。

 

一些早期采用者指出了该工具的潜力和局限性:

 

它是 LLM 驱动的,但相当慢。我想知道为什么有人宁愿选择它而不是 OpenRefine?

 

还有人表达了对数据隐私的担忧

 

可以自己托管这个应用程序吗?听起来很有趣,但抱歉,我绝不会将我的业务数据上传到远程服务器。

 

对此,Hugging Face 机器学习工程师 Daniel Vila Suero确认,该工具支持自托管:

 

是的,你可以使用 Docker 进行自托管。看看我们如何在 Hub Spaces 上部署它。

 

数据集优化完成后,可以直接导出至 Hugging Face Hub 平台。该过程还会生成可复用的配置文件,支持使用 Hugging Face Jobs 扩展管道规模,或将其集成至下游工作流中。

 

现在,用户可以在Hugging Face Hub上免费使用 AI Sheets,无需安装,也可以通过GitHub获取代码进行本地部署。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/09/ai-sheets/

2025-09-15 15:303966

评论

发布
暂无评论

【愚公系列】2022年7月 Go教学课程 013-常量、指针

愚公搬代码

7月月更

zookeeper-集群和zab协议

zarmnosaj

7月月更

分享 15 个 Vue3 全家桶开发的避坑经验

Geek_z9ygea

Vue Vue3

短视频直播系统源码

开源直播系统源码

短视频源码 直播系统源码 开源源码

使用Flutter开发小程序+App)的一种组合思路

Geek_99967b

小程序

试着换个角度理解低代码平台设计的本质

Geek_z9ygea

Vue 前端 React 低代码平台

KUDU1.11 环境安装

怀瑾握瑜的嘉与嘉

7月月更 kudu

C# DataGridView数据导出Excel文件

IC00

C# 7月月更

没有了可用Task slot,Flink新增任务会怎样?

程序员欣宸

Java flink 7月月更

Java中的设计模式

Java学术趴

7月日更

Flink实战:消费Wikipedia实时消息

程序员欣宸

Java flink 7月月更

Qt | QWidget的一些总结

YOLO.

qt 7月月更

python小知识-什么是上下文管理

AIWeker

Python python小知识 7月月更

QT|QLabel显示多行文本过多后显示省略号

中国好公民st

qt 7月月更

小心!正则 test() 匹配的一个“坑”

掘金安东尼

正则 7月月更

Spring系列一:Spring基础篇

叶秋学长

Prometheus 发布 LTS 长期支持版本啦

耳东@Erdong

release Prometheus 7月月更

数据平台的发展历程

奔向架构师

大数据 7月月更

汽车电子行业开发者的内功心法:汽车软件开发V模型(瀑布模型)

不脱发的程序猿

嵌入式开发 瀑布模型 汽车软件开发 V模型

LeetCode-数组中数字出现的次数(单身狗问题)

芒果酱

c++ C语言 数据结构算法 Leet Code 7月月更

C#入门系列(二十五) -- 接口

陈言必行

7月月更

qt 实现日历美化

小肉球

qt 7月月更

Unity3D和Android交互

沃德

程序员 Unity 7月月更

王者荣耀商城异地多活架构

Pengfei

jQuery 请求

Jason199

jquery js post GET 7月月更

系统刷JavaScripit 构建前端体系(语法篇)

程序员海军

JavaScript 7月月更

STM32+DHT11读取温湿度数据显示

DS小龙哥

7月月更

strcat() - 连接字符串

謓泽

7月月更

VLAN再见,我选择用QinQ!1000字带你详细了解QinQ技术

wljslmz

VLAN 网络技术 7月月更 QinQ

读书笔记之数据密集型应用的可维护性

宇宙之一粟

设计数据密集型应用 7月月更

Hugging Face推出零代码数据集转换工具AI Sheets_软件工程_InfoQ精选文章