2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌推出 LangExtract,一个用于从非结构化文本中提取结构化数据的 Python 库

作者:Daniel Dominguez

  • 2025-08-11
    北京
  • 本文字数:903 字

    阅读完需:约 3 分钟

大小:436.05K时长:02:28
谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库

谷歌推出了LangExtract,这是一个开源的Python库,旨在帮助开发人员使用大语言模型(如 Gemini模型)从非结构化文本中提取结构化信息。该库简化了将自由格式文本(包括临床记录、法律文本和客户反馈等文档)转换为结构化数据的过程。开发人员可以通过自然语言指令和示例数据定义提取任务,使得处理和组织各种非结构化内容中的信息变得更加容易。

 

LangExtract 的一个突出特点是其使用受控生成技术。这确保了提取的信息格式一致,并且能够准确链接到文本中的原始来源。该库突出显示文本的相关部分,提供可追溯性,以便每个提取的实体都与其在原始文档中的确切位置链接。这一特性确保了在提取信息时具有更高的透明度和可靠性。

 

为了处理长而复杂的文档,LangExtract 采用了文本分块并行处理多次提取等高级策略。这些技术有助于提高召回率和准确性,确保该库能够有效地从大量文本中提取信息,同时保持高质量的结果。这使得 LangExtract 适用于从医疗保健到法律文件等多个领域,而无需对底层模型进行广泛的微调。

 

LangExtract 可以与各种大语言模型(LLM)集成,包括基于云的模型如Gemini,以及通过Ollama等平台的本地模型。这种灵活性使其成为跨不同模型工作的开发人员的多功能工具。它使用户能够为广泛的应用定义提取任务,而无需深厚的机器学习专业知识。

 

LangExtract 的发布在开发者社区中引发了热烈的反响。主要贡献者Akshay Goel对发布表示兴奋,并期待看到用户构建的创新应用,反映了项目背后的协作精神,他发帖表示:

 

今天和团队一起发布 LangExtract,期待看到开发者社区用它构建些什么!

 

开发者Kyle Brown将其描述为 AI 透明度的重大进步,将非结构化文本转换为结构化、易于理解的数据。TypeScript 版本的 LangExtract 进一步增强了其势头,扩大了其兼容性,支持 OpenAI 模型和谷歌的 Gemini,展示了社区的积极参与。

 

对于任何感兴趣的人——我将其移植到了 TypeScript,并添加了使用 OpenAI 的能力,而不仅仅是 Gemini。

 

该库在 Apache 2.0 许可下可用,并且可以通过 pip 轻松安装。它为希望在其应用程序中添加信息提取功能的开发人员提供了一个易于访问且强大的工具。

 

原文链接:

https://www.infoq.com/news/2025/08/google-langextract-python/

2025-08-11 17:105937

评论

发布
暂无评论
发现更多内容

终于能随时解决信息焦虑了

最新动态

倒计时1天!龙蜥社区开源软件供应链及操作系统安全MeetUp即将在广州召开

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥meetup

软件测试丨全面解析 Allure 2 的安装与运用

测试人

软件测试

快递员上门取件API接口接口Domo下载

快递鸟

快递

天润融通携手挚达科技:AI技术重塑客户服务体验

天润融通

天润融通解决方案:如何避免门店投诉升级为消费者维权

天润融通

开放原子校源行(天津大学站) 即将启幕,龙蜥技术专家分享开源技术与实践

OpenAnolis小助手

操作系统 龙蜥社区

Python脚本消费多个Kafka topic

不在线第一只蜗牛

Python kafka

人类级别语音 AI 路线图丨 Voice AI 学习笔记

RTE开发者社区

作为产品经理,如何分析和管理你的产品需求

易成研发中心

产品需求

CSA GCR 2024 | 百度安全DDoS防护服务荣获安全磐石奖等多项殊荣

百度安全

Apache IoTDB v1.3.3 发布|新增数据订阅,DataNode 主动监听并加载 TsFile 等功能

Apache IoTDB

有哪些ppt一键生成软件?这6个AI不容错过!

职场工具箱

效率工具 职场 PPT 办公软件 AI生成PPT

构建真实可靠指标平台:五大核心特征助力企业深度数智化

Aloudata

指标管理 指标平台 指标开发

【JIT/极态云】技术文档--组织架构简介

武汉万云网络科技有限公司

低代码

喜讯!云起无垠获“中国产业互联网发展联盟IDAC双奖”

云起无垠

选择ETL工具需要注意什么技术性问题?

谷云科技RestCloud

数据分析 ETL 数据集成

软件测试丨JUnit5动态测试与生命周期解析

测试人

软件测试

第三代指标平台相较于前两代的显著优势分析

Aloudata

指标管理 指标平台 指标开发

万字长文带你深入Redis底层数据结构

不在线第一只蜗牛

数据库 redis

HarmonyOS NEXT用户专属装扮免费体验!华为主题内容大焕新!

最新动态

如何设计实施 Git 工作流程以提升软件研发效能?

思码逸研发效能

git DevOps 编程语言 研发效能 研发效能管理

探索OS升级迭代的兼容性和安全性!龙蜥社区走进中科方德MeetUp开始报名

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥meetup

香港 Web3 宣言两周年专访 HashKey Tokenisation 总经理 Anna Liu:探索代币化的未来

TechubNews

ChatGPT 开启「眼睛」,实时摄像头对话来了;昆仑万维推出实时语音助手 Skyo丨 RTE 开发者日报

RTE开发者社区

Redis大Key问题如何排查?如何解决?

王磊

存算分离的过去、现在和未来

Databend

赋能生态系统,Arm 打造全球最大 AI 开发者社区

新消费日报

洞悉数据,守护安全!和鲸助力2024年浙江省交通投资集团数字化主题活动圆满闭幕

ModelWhale

人工智能 交通 数据竞赛

谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库_Google_InfoQ精选文章