
Hugging Face 发布开源应用AI Sheets。它提供了类似电子表格的界面,让用户可以使用 AI 模型构建、转换和补充数据集。这个工具既可以在 Hub 上使用,也可以在本地部署,用户无需编写代码即可尝试成千上万的开放模型,包括 OpenAI 的 gpt-oss。
该工具的界面类似于传统的电子表格,但可以通过提示生成新列,而不是手动输入公式。例如,用户可以清理文本、分类条目、补充缺失的数据细节,或者使用自然语言描述期望的输出以生成合成行。单元格可以直接编辑或验证,这些操作将指导模型的后续生成。
AI Sheets 提供了两个操作入口:通过自然语言描述数据结构从零生成数据集,或导入已有的 CSV、TSV、XLS 或 Parquet 格式的数据集。第一个选项适用于原型设计或合成数据生成,而导入真实数据则能实现大规模的数据转换与增强任务。Hugging Face 强调,用户可以先用小样本数据进行实验,然后再逐步扩展至大型数据管道。
该工具还提供了模型比较机制。用户可以创建多个输出列,每个列由不同的模型驱动,甚至可以添加一个单独的列,让另一个大型语言模型(LLM)作为裁判来评估结果。在已发布的示例中,研究人员在一个交互式迷你 Web 应用程序上比较了 Qwen3-Coder 和 gpt-oss 的输出,并自动生成了评估结果。
一些早期采用者指出了该工具的潜力和局限性:
它是 LLM 驱动的,但相当慢。我想知道为什么有人宁愿选择它而不是 OpenRefine?
还有人表达了对数据隐私的担忧:
可以自己托管这个应用程序吗?听起来很有趣,但抱歉,我绝不会将我的业务数据上传到远程服务器。
对此,Hugging Face 机器学习工程师 Daniel Vila Suero确认,该工具支持自托管:
是的,你可以使用 Docker 进行自托管。看看我们如何在 Hub Spaces 上部署它。
数据集优化完成后,可以直接导出至 Hugging Face Hub 平台。该过程还会生成可复用的配置文件,支持使用 Hugging Face Jobs 扩展管道规模,或将其集成至下游工作流中。
现在,用户可以在Hugging Face Hub上免费使用 AI Sheets,无需安装,也可以通过GitHub获取代码进行本地部署。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:
评论