写点什么

Hugging Face 推出零代码数据集转换工具 AI Sheets

作者:Robert Krzaczyński

  • 2025-09-15
    北京
  • 本文字数:873 字

    阅读完需:约 3 分钟

大小:424.56K时长:02:24
Hugging Face推出零代码数据集转换工具AI Sheets

Hugging Face 发布开源应用AI Sheets。它提供了类似电子表格的界面,让用户可以使用 AI 模型构建、转换和补充数据集。这个工具既可以在 Hub 上使用,也可以在本地部署,用户无需编写代码即可尝试成千上万的开放模型,包括 OpenAI 的 gpt-oss。

 

该工具的界面类似于传统的电子表格,但可以通过提示生成新列,而不是手动输入公式。例如,用户可以清理文本、分类条目、补充缺失的数据细节,或者使用自然语言描述期望的输出以生成合成行。单元格可以直接编辑或验证,这些操作将指导模型的后续生成。

 

AI Sheets 提供了两个操作入口:通过自然语言描述数据结构从零生成数据集,或导入已有的 CSV、TSV、XLS 或 Parquet 格式的数据集。第一个选项适用于原型设计或合成数据生成,而导入真实数据则能实现大规模的数据转换与增强任务。Hugging Face 强调,用户可以先用小样本数据进行实验,然后再逐步扩展至大型数据管道。

 

该工具还提供了模型比较机制。用户可以创建多个输出列,每个列由不同的模型驱动,甚至可以添加一个单独的列,让另一个大型语言模型(LLM)作为裁判来评估结果。在已发布的示例中,研究人员在一个交互式迷你 Web 应用程序上比较了 Qwen3-Coder 和 gpt-oss 的输出,并自动生成了评估结果。

 

一些早期采用者指出了该工具的潜力和局限性:

 

它是 LLM 驱动的,但相当慢。我想知道为什么有人宁愿选择它而不是 OpenRefine?

 

还有人表达了对数据隐私的担忧

 

可以自己托管这个应用程序吗?听起来很有趣,但抱歉,我绝不会将我的业务数据上传到远程服务器。

 

对此,Hugging Face 机器学习工程师 Daniel Vila Suero确认,该工具支持自托管:

 

是的,你可以使用 Docker 进行自托管。看看我们如何在 Hub Spaces 上部署它。

 

数据集优化完成后,可以直接导出至 Hugging Face Hub 平台。该过程还会生成可复用的配置文件,支持使用 Hugging Face Jobs 扩展管道规模,或将其集成至下游工作流中。

 

现在,用户可以在Hugging Face Hub上免费使用 AI Sheets,无需安装,也可以通过GitHub获取代码进行本地部署。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/09/ai-sheets/

2025-09-15 15:304060

评论

发布
暂无评论

安全加密的即时通讯软件,统一门户高效互联

BeeWorks

即时通讯 IM 私有化部署

成为服务台经理需要哪些技能?-ManageEngine卓豪

ServiceDesk_Plus

IT服务管理

Cyble连续第二年被评为样本供应商

财见

北京市科委发布《北京市加快人工智能赋能科学研究高质量发展行动计划》

ModelWhale

政策 科学智能 北京市科委

DS豆包通义BTY王炸组合,我做了个元宵AI视频小程序

BetterYeah AI

BetterYeah 上线自定义MCP | 轻松拓展企业Agent无限边界

BetterYeah AI

用多Agent“组团开挂”是一种什么体验?

BetterYeah AI

Alfred 5 for Mac(苹果效率提升工具)

Geek贝

数据分析与AI丨从传感器到智能决策:数据驱动企业发展与 ESG 创新的全链路实践

Altair RapidMiner

人工智能 AI 数字孪生 仿真 FEKO

开发者说|Aux-Think:为什么测试时推理反而让机器人「误入歧途」?

地平线开发者

自动驾驶 算法工具链 地平线征程6

如何用DeepSeek让你的营销、开发、客服Agent更强大?

BetterYeah AI

干货分享!MCP 实现原理,小白也能看懂

不在线第一只蜗牛

MCP

技术干货丨基于SimLab的耳机充电底座的多角度跌落分析

Altair RapidMiner

仿真 CAE Simlab 跌落仿真 电子消费品

MCP Server 之旅第 5 站:服务鉴权体系解密

阿里巴巴云原生

阿里云 Serverless 云原生 MCP

阿里云 RabbitMQ 可观测性最佳实践

观测云

RabbitMQ

Mistral 开源首个音频模型 Voxtral:转录+音频理解;语音转写工具 Willow 筹资 420 万美元丨日报

声网

内网即时通讯软件BeeWorks,支持私有化局域网使用

BeeWorks

即时通讯 IM 私有化部署

BetterTouchTool for Mac(触控板增强神器)

Geek贝

用一套陪玩系统小程序源码,开启你的游戏陪玩平台创业之路

DUOKE七七

uni-app vue2 MySQL 数据库

BetterYeah AI完成超亿元B轮融资,阿里云领投加码企业级智能体研发

BetterYeah AI

企业agent

Vue3响应式编程三剑客:计算属性、方法与侦听器深度实战指南

量贩潮汐·WholesaleTide

Vue 前端

SMART Utility for mac (磁盘诊断工具)

Geek贝

亲历者复盘:快手前端工程质量诊断平台建设与演进之路

快手技术

前端

专业远程桌面连接工具Microsoft Remote Desktop

Geek贝

行业分享丨从装载机到电动车,多学科求解器平台如何拓展仿真边界

Altair RapidMiner

AI 汽车 仿真 CAE EDEM

面试官:如何实现企业级MCP分布式部署?

王磊

MCP如何赋能一线理财经理在 AI 时代赢得客户的深层信赖

盈米AI开放平台

上线!《指标 + AI 数智应用白皮书》解读:从数据地基到行业落地,袋鼠云揭秘数智化经营实践路径

袋鼠云数栈

AI 指标 指标管理 数智化 数智化转型

7月17日 2025可信数据库发展大会 邀您共探GenAI时代对数据库的挑战与需求

MatrixOrigin

酷开携AI智能体亮相ATC,重塑人车交互新范式

业界

Apache RocketMQ + “太乙” = 开源贡献新体验

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

Hugging Face推出零代码数据集转换工具AI Sheets_软件工程_InfoQ精选文章