谷歌推出 LangExtract,一个用于从非结构化文本中提取结构化数据的 Python 库

作者:Daniel Dominguez
  • 2025-08-11
    北京
  • 本文字数:903 字

    阅读完需:约 3 分钟

谷歌推出了LangExtract,这是一个开源的Python库,旨在帮助开发人员使用大语言模型(如 Gemini模型)从非结构化文本中提取结构化信息。该库简化了将自由格式文本(包括临床记录、法律文本和客户反馈等文档)转换为结构化数据的过程。开发人员可以通过自然语言指令和示例数据定义提取任务,使得处理和组织各种非结构化内容中的信息变得更加容易。

 

LangExtract 的一个突出特点是其使用受控生成技术。这确保了提取的信息格式一致,并且能够准确链接到文本中的原始来源。该库突出显示文本的相关部分,提供可追溯性,以便每个提取的实体都与其在原始文档中的确切位置链接。这一特性确保了在提取信息时具有更高的透明度和可靠性。

 

为了处理长而复杂的文档,LangExtract 采用了文本分块并行处理多次提取等高级策略。这些技术有助于提高召回率和准确性,确保该库能够有效地从大量文本中提取信息,同时保持高质量的结果。这使得 LangExtract 适用于从医疗保健到法律文件等多个领域,而无需对底层模型进行广泛的微调。

 

LangExtract 可以与各种大语言模型(LLM)集成,包括基于云的模型如Gemini,以及通过Ollama等平台的本地模型。这种灵活性使其成为跨不同模型工作的开发人员的多功能工具。它使用户能够为广泛的应用定义提取任务,而无需深厚的机器学习专业知识。

 

LangExtract 的发布在开发者社区中引发了热烈的反响。主要贡献者Akshay Goel对发布表示兴奋,并期待看到用户构建的创新应用,反映了项目背后的协作精神,他发帖表示:

 

今天和团队一起发布 LangExtract,期待看到开发者社区用它构建些什么!

 

开发者Kyle Brown将其描述为 AI 透明度的重大进步,将非结构化文本转换为结构化、易于理解的数据。TypeScript 版本的 LangExtract 进一步增强了其势头,扩大了其兼容性,支持 OpenAI 模型和谷歌的 Gemini,展示了社区的积极参与。

 

对于任何感兴趣的人——我将其移植到了 TypeScript,并添加了使用 OpenAI 的能力,而不仅仅是 Gemini。

 

该库在 Apache 2.0 许可下可用,并且可以通过 pip 轻松安装。它为希望在其应用程序中添加信息提取功能的开发人员提供了一个易于访问且强大的工具。

 

原文链接:

https://www.infoq.com/news/2025/08/google-langextract-python/