10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

谷歌推出 LangExtract,一个用于从非结构化文本中提取结构化数据的 Python 库

作者:Daniel Dominguez

  • 2025-08-11
    北京
  • 本文字数:903 字

    阅读完需:约 3 分钟

大小:436.05K时长:02:28
谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库

谷歌推出了LangExtract,这是一个开源的Python库,旨在帮助开发人员使用大语言模型(如 Gemini模型)从非结构化文本中提取结构化信息。该库简化了将自由格式文本(包括临床记录、法律文本和客户反馈等文档)转换为结构化数据的过程。开发人员可以通过自然语言指令和示例数据定义提取任务,使得处理和组织各种非结构化内容中的信息变得更加容易。

 

LangExtract 的一个突出特点是其使用受控生成技术。这确保了提取的信息格式一致,并且能够准确链接到文本中的原始来源。该库突出显示文本的相关部分,提供可追溯性,以便每个提取的实体都与其在原始文档中的确切位置链接。这一特性确保了在提取信息时具有更高的透明度和可靠性。

 

为了处理长而复杂的文档,LangExtract 采用了文本分块并行处理多次提取等高级策略。这些技术有助于提高召回率和准确性,确保该库能够有效地从大量文本中提取信息,同时保持高质量的结果。这使得 LangExtract 适用于从医疗保健到法律文件等多个领域,而无需对底层模型进行广泛的微调。

 

LangExtract 可以与各种大语言模型(LLM)集成,包括基于云的模型如Gemini,以及通过Ollama等平台的本地模型。这种灵活性使其成为跨不同模型工作的开发人员的多功能工具。它使用户能够为广泛的应用定义提取任务,而无需深厚的机器学习专业知识。

 

LangExtract 的发布在开发者社区中引发了热烈的反响。主要贡献者Akshay Goel对发布表示兴奋,并期待看到用户构建的创新应用,反映了项目背后的协作精神,他发帖表示:

 

今天和团队一起发布 LangExtract,期待看到开发者社区用它构建些什么!

 

开发者Kyle Brown将其描述为 AI 透明度的重大进步,将非结构化文本转换为结构化、易于理解的数据。TypeScript 版本的 LangExtract 进一步增强了其势头,扩大了其兼容性,支持 OpenAI 模型和谷歌的 Gemini,展示了社区的积极参与。

 

对于任何感兴趣的人——我将其移植到了 TypeScript,并添加了使用 OpenAI 的能力,而不仅仅是 Gemini。

 

该库在 Apache 2.0 许可下可用,并且可以通过 pip 轻松安装。它为希望在其应用程序中添加信息提取功能的开发人员提供了一个易于访问且强大的工具。

 

原文链接:

https://www.infoq.com/news/2025/08/google-langextract-python/

2025-08-11 17:105521

评论

发布
暂无评论
发现更多内容

HarmonyOS Development Practice: Enterprise Data Guard Kit 构建教育数据安全防护体系

bianchengyishu

HarmonyOS NEXT

鸿蒙开发实战之Telephony Kit实现教育应用的智能通话管理

bianchengyishu

HarmonyOS NEXT

HarmonyOS开发实战之Status Bar Extension Kit实现学习状态实时提醒

bianchengyishu

HarmonyOS NEXT

同质化的GPU云市场,谁能逃离内卷?

脑极体

AI

鸿蒙开发实战:Data Protection Kit 构建教育数据全生命周期防护体系

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Driver Development Kit 构建教育设备驱动生态

bianchengyishu

HarmonyOS NEXT

HarmonyOS开发实战之User Authentication Kit打造教育应用安全认证体系

bianchengyishu

HarmonyOS NEXT

鸿蒙开发日记之Sensor Service Kit实现智能护眼提醒

bianchengyishu

HarmonyOS NEXT

鸿蒙开发实战之Test Kit保障教育应用质量

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Pen Kit 构建智能笔写教学系统

bianchengyishu

HarmonyOS NEXT

HarmonyOS开发实战之Universal Keystore Kit实现教育数据安全存储

bianchengyishu

HarmonyOS NEXT

HarmonyOS开发笔记:Device Certificate Kit实现教育设备安全认证

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Network Boost Kit 构建教育网络加速系统

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Performance Analysis Kit 构建教育应用性能监测体系

bianchengyishu

HarmonyOS NEXT

鸿蒙开发实战之Remote Communication Kit实现教育题库同步

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: NearLink Kit 构建教育近场交互系统

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Network Kit 构建智慧教育网络平台

bianchengyishu

HarmonyOS NEXT

Windows下版本控制器(SVN)-启动服务器端程序

刘大猫

人工智能 svn 算法 版本控制 tortoiseSVN

世俱杯被“世界第一”霸屏!海信激光显示定义全球百吋电视产业新坐标

新消费日报

HarmonyOS Development Practice: Distributed Service Kit 构建智慧教育协同系统

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Multimodal Awareness Kit 构建教育场景智能感知系统

bianchengyishu

HarmonyOS NEXT

《震惊!这家交易所开发平台竟能实现如此高效交易》

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

HarmonyOS Development Practice: Function Flow Runtime Kit 构建教育智能业务流程

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: MDM Kit 构建校园设备统一管理平台

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Online Authentication Kit 构建教育可信身份体系

bianchengyishu

HarmonyOS NEXT

HarmonyOS开发笔记之Service Collaboration Kit实现智能学习小组功能

bianchengyishu

HarmonyOS NEXT

鸿蒙开发实战之Wear Engine Kit打造智能手表学习伴侣

bianchengyishu

HarmonyOS NEXT

HarmonyOS Development Practice: Device Security Kit 构建教育终端安全防护体系

bianchengyishu

HarmonyOS NEXT

一文揭秘:交易所开发如何在激烈竞争中脱颖而出

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

有了这个AI数字美食顾问,再也不愁今天吃什么

穿过生命散发芬芳

AI编程 Trae Trae Agent

HarmonyOS Development Practice: Input Kit 构建教育场景智能输入系统

bianchengyishu

HarmonyOS NEXT

谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库_Google_InfoQ精选文章