AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

谷歌推出 LangExtract,一个用于从非结构化文本中提取结构化数据的 Python 库

作者:Daniel Dominguez

  • 2025-08-11
    北京
  • 本文字数:903 字

    阅读完需:约 3 分钟

大小:436.05K时长:02:28
谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库

谷歌推出了LangExtract,这是一个开源的Python库,旨在帮助开发人员使用大语言模型(如 Gemini模型)从非结构化文本中提取结构化信息。该库简化了将自由格式文本(包括临床记录、法律文本和客户反馈等文档)转换为结构化数据的过程。开发人员可以通过自然语言指令和示例数据定义提取任务,使得处理和组织各种非结构化内容中的信息变得更加容易。

 

LangExtract 的一个突出特点是其使用受控生成技术。这确保了提取的信息格式一致,并且能够准确链接到文本中的原始来源。该库突出显示文本的相关部分,提供可追溯性,以便每个提取的实体都与其在原始文档中的确切位置链接。这一特性确保了在提取信息时具有更高的透明度和可靠性。

 

为了处理长而复杂的文档,LangExtract 采用了文本分块并行处理多次提取等高级策略。这些技术有助于提高召回率和准确性,确保该库能够有效地从大量文本中提取信息,同时保持高质量的结果。这使得 LangExtract 适用于从医疗保健到法律文件等多个领域,而无需对底层模型进行广泛的微调。

 

LangExtract 可以与各种大语言模型(LLM)集成,包括基于云的模型如Gemini,以及通过Ollama等平台的本地模型。这种灵活性使其成为跨不同模型工作的开发人员的多功能工具。它使用户能够为广泛的应用定义提取任务,而无需深厚的机器学习专业知识。

 

LangExtract 的发布在开发者社区中引发了热烈的反响。主要贡献者Akshay Goel对发布表示兴奋,并期待看到用户构建的创新应用,反映了项目背后的协作精神,他发帖表示:

 

今天和团队一起发布 LangExtract,期待看到开发者社区用它构建些什么!

 

开发者Kyle Brown将其描述为 AI 透明度的重大进步,将非结构化文本转换为结构化、易于理解的数据。TypeScript 版本的 LangExtract 进一步增强了其势头,扩大了其兼容性,支持 OpenAI 模型和谷歌的 Gemini,展示了社区的积极参与。

 

对于任何感兴趣的人——我将其移植到了 TypeScript,并添加了使用 OpenAI 的能力,而不仅仅是 Gemini。

 

该库在 Apache 2.0 许可下可用,并且可以通过 pip 轻松安装。它为希望在其应用程序中添加信息提取功能的开发人员提供了一个易于访问且强大的工具。

 

原文链接:

https://www.infoq.com/news/2025/08/google-langextract-python/

2025-08-11 17:101

评论

发布
暂无评论
发现更多内容

Auto-GPT 迈向智能体的第一步——从信息增强和上下文理解开始

Zilliz

Milvus 向量数据库 autogpt gptcache zillizcloud

点云标注简介及其应用

数据堂

PoseiSwap  参赛,参与斯坦福、Nautilus Chain等联合主办的 Hackathon 活动

股市老人

改变开发的未来 | 探索无服务器与人工智能的协同效应

亚马逊云科技 (Amazon Web Services)

Serverless

PoseiSwap 参赛,参与斯坦福、Nautilus等联合主办的 Hackathon 活动

BlockChain先知

设计模式之订阅发布模式

越长大越悲伤

设计模式 发布订阅模式 spring boot3 订阅发布

深度干货 | 揭秘YashanDB融合存储引擎

YashanDB

数据库 国产数据库 存储引擎 数据库内核

九科信息流程挖掘产品bit-Miner进入复旦大学管理学院MPAcc课程

九科Ninetech

牧云 • 主机管理助手|正式开放应用市场,梦幻联动雷池WAF等多款开源软件

百川云开发者

云计算 防火墙 云主机 waf 主机管理

云服务器虚拟化超分与虚机性能关系分析

天翼云开发者社区

云服务器 虚拟化技术

九章云极DataCanvas公司诚邀您共享AI基础软件前沿技术盛宴

九章云极DataCanvas

国产BI工具崛起,finebi、瓴羊Quick BI优势分析

对不起该用户已成仙‖

数字化转型应该如何去做?(敏捷思维篇)

数字随行

数字化转型

C语言编程—作用域规则

芯动大师

安全可信 | 增强级认定!天翼云政务云通过云计算服务安全评估

天翼云开发者社区

云服务 服务器安全

极光笔记 | EngageLab Push的多时区解决方案

极光GPTBots-极光推送

运营 消息推送 笔记分享 海外

顶满!阿里P8架构师独家分享的微服务实战笔记

小小怪下士

Java 程序员 微服务 微服务实战

PC、手机生态融合:Intel、腾讯一起找到了最好的路子

E科讯

CMake vs Makefile: 如何选择适合你的项目构建工具

小万哥

Linux 程序员 C/C++ 后端开发 cmake

Django笔记三十七之多数据库操作(补充版)

Hunter熊

Python django 多数据库

瓴羊Quick BI连续四年入选Gartner魔力象限ABI报告

流量猫猫头

Zebec生态进展迅速,频被BitFlow、Matryx DAO等蹭热度碰瓷

鳄鱼视界

一文看懂GPT风口,都有哪些创业机会?

引迈信息

人工智能 低代码 ChatGPT JNPF gtp

多模块更新,助力模型训练及应用|ModelWhale 版本更新

ModelWhale

人工智能 云计算 数据标注 在线编程 模型服务

ESG成全球风潮,联想造了一个可持续的“进托邦”

脑极体

数字化进程

2023-05-26:golang关于垃圾回收和析构函数的选择题,多数人会选错。

福大大架构师每日一题

golang 福大大

促进银行业务高质量发展,神州云科亮相亚太银行数字化创新峰会

通明湖

谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库_Google_InfoQ精选文章