写点什么

谷歌推出 LangExtract,一个用于从非结构化文本中提取结构化数据的 Python 库

作者:Daniel Dominguez

  • 2025-08-11
    北京
  • 本文字数:903 字

    阅读完需:约 3 分钟

大小:436.05K时长:02:28
谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库

谷歌推出了LangExtract,这是一个开源的Python库,旨在帮助开发人员使用大语言模型(如 Gemini模型)从非结构化文本中提取结构化信息。该库简化了将自由格式文本(包括临床记录、法律文本和客户反馈等文档)转换为结构化数据的过程。开发人员可以通过自然语言指令和示例数据定义提取任务,使得处理和组织各种非结构化内容中的信息变得更加容易。

 

LangExtract 的一个突出特点是其使用受控生成技术。这确保了提取的信息格式一致,并且能够准确链接到文本中的原始来源。该库突出显示文本的相关部分,提供可追溯性,以便每个提取的实体都与其在原始文档中的确切位置链接。这一特性确保了在提取信息时具有更高的透明度和可靠性。

 

为了处理长而复杂的文档,LangExtract 采用了文本分块并行处理多次提取等高级策略。这些技术有助于提高召回率和准确性,确保该库能够有效地从大量文本中提取信息,同时保持高质量的结果。这使得 LangExtract 适用于从医疗保健到法律文件等多个领域,而无需对底层模型进行广泛的微调。

 

LangExtract 可以与各种大语言模型(LLM)集成,包括基于云的模型如Gemini,以及通过Ollama等平台的本地模型。这种灵活性使其成为跨不同模型工作的开发人员的多功能工具。它使用户能够为广泛的应用定义提取任务,而无需深厚的机器学习专业知识。

 

LangExtract 的发布在开发者社区中引发了热烈的反响。主要贡献者Akshay Goel对发布表示兴奋,并期待看到用户构建的创新应用,反映了项目背后的协作精神,他发帖表示:

 

今天和团队一起发布 LangExtract,期待看到开发者社区用它构建些什么!

 

开发者Kyle Brown将其描述为 AI 透明度的重大进步,将非结构化文本转换为结构化、易于理解的数据。TypeScript 版本的 LangExtract 进一步增强了其势头,扩大了其兼容性,支持 OpenAI 模型和谷歌的 Gemini,展示了社区的积极参与。

 

对于任何感兴趣的人——我将其移植到了 TypeScript,并添加了使用 OpenAI 的能力,而不仅仅是 Gemini。

 

该库在 Apache 2.0 许可下可用,并且可以通过 pip 轻松安装。它为希望在其应用程序中添加信息提取功能的开发人员提供了一个易于访问且强大的工具。

 

原文链接:

https://www.infoq.com/news/2025/08/google-langextract-python/

2025-08-11 17:105681

评论

发布
暂无评论

利用云手机高效运营多个海外社媒账户

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 社媒运营

离散型制造业生产管理MES系统

万界星空科技

制造业 mes 万界星空科技 离散型制造业

离散型制造业的特点与万界星空科技低代码MES系统

万界星空科技

工业互联网 制造业 mes 万界星空科技

走在前、做示范,苏州农商银行携华为云完成超级网银系统改造

华为云开发者联盟

数据库 后端 华为云 华为云GaussDB 华为云开发者联盟

【官宣】2024 DTC数据技术嘉年华全议程发布:汇聚行业精英,共襄年度盛宴

墨天轮

MySQL 数据库 oracle postgresql 国产化

.NET分布式Orleans - 2 - Grain的通信原理与定义

不在线第一只蜗牛

.net 分布式 WPF

数智时代“通关攻略”,开天aPaaS驱动千行万业创新提速

华为云开发者联盟

云计算 华为云 华为云开发者联盟 河图KooMap AppStage

NFTScan | 03.18~03.24 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

DB-GPT:生产级大模型部署的思考与实践

百度开发者中心

人工智能 自然语言处理 大模型

LLM大模型推理加速:技术解析与实践

百度开发者中心

人工智能 大模型 LLM

又一游戏巨头入局 Web3!Footprint Analytics 助力 NHN 旗下 Pebble 实现数字化运营

Footprint Analytics

链游 #Web3

在Python中使用Kafka帮助我们处理数据

技术冰糖葫芦

API 接口 API 测试

低代码平台与传统软件开发方法的比较

天津汇柏科技有限公司

软件开发、 低代码开发 软件开发定制

全栈开发与自动化测试高薪私教班,手把手带你拿到高薪Offer

霍格沃兹测试开发学社

如何应用生成式AI打造制造业增长新引擎

财见

强健“伙伴+华为”体系,释放新信号与新课题

新消费日报

天津等保测评机构公司名单看这里!

行云管家

等保 等级保护 天津

你在测试金字塔的哪一层(下)

禅道项目管理

软件开发 单元测试 集成测试 自动化测试 测试金字塔

TorchAcc:基于 TorchXLA 的分布式训练框架

阿里云大数据AI技术

人工智能 机器学习 分布式 模型训练 大模型

全栈开发与自动化测试高薪私教班,手把手带你拿到高薪Offer

测试人

软件测试

SDN与SD-WAN的定义和区别

Ogcloud

SD-WAN SDN架构 SDN网络 SD-WAN组网 SDWAN

利用云手机技术,开拓海外社交市场

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 社交营销

solana链狙击机器人

区块链技术

Solidigm亮相中国闪存市场峰会: 丰富产品组合打造AI时代存力底座

E科讯

谷歌推出LangExtract,一个用于从非结构化文本中提取结构化数据的Python库_Google_InfoQ精选文章