写点什么

Sigtica X 飞桨文心:以 AI 赋能法律研究,打造智能文档新范式

  • 2025-10-15
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

大小:1.35M时长:07:51
Sigtica X 飞桨文心:以AI赋能法律研究,打造智能文档新范式

2025 年,在一所加拿大高校的图书馆里,沉睡数十年的法律文件正在被重新“唤醒”。


依托百度飞桨与文心大模型,Sigtica 公司打造的法律文档智能系统可在数秒内完成跨语种合同的条款解析与语义检索,使研究者能够从海量档案中迅速获取所需信息。曾经困扰学术界的“数据黑箱”,如今正在被人工智能一点点打破。作为一家源自创始人个人科研挫折经历的创新企业,Sigtica 正以 AI 为钥匙,将复杂的法律文本转化为结构化知识,为法律行业转型以及文档智能化勾勒出更清晰的演进路径。


2025 年 9 月 9 日,WAVE SUMMIT 深度学习开发者大会 2025 的主论坛灯光聚焦在一位来自加拿大的开发者身上。他是 AI 公司 Sigtica 的创始人 Guenther Lomas,他现场讲述了自己如何借力百度飞桨与文心大模型创立 Sigtica,并成长为能够解决全球复杂文档挑战的技术创新者。



大会现场


不谈技术参数,也没有罗列产品成果,他从一段曾经在科研领域受挫的“至暗时刻”讲起。在加拿大多伦多大学攻读博士期间,Guenther 被困在了 6 万份合同格式混乱、中英混杂、条款层层嵌套的扫描版法律合同里。


“我 90%的时间都耗在准备数据,只有 10%的时间在分析。” Guenther 坦言,“这完全颠倒了科研的初衷。”


正是这种痛点,催生了 Sigtica 的使命:“Codify Complexity”。他希望能够通过 AI 技术,处理世界上最复杂的信息并使其变得简单、结构化和有价值,用 AI 让最复杂的文档真正“开口说话”。

AI 破解难题:助力法律文档数字化与智能检索

非结构化数据的清洗与结构化提取


处理非结构化数据的核心挑战是如何将包含大量文本和表格的文档转化为学术界标准的干净、结构化数据集。而传统 OCR 工具在面对跨页表格、条款嵌套和脚注混排时往往效果有限,尤其在双语环境中错误率极高,通常存在无法进行跨文档分析、耗时且易出错、双语复杂性、数据点无法访问等问题。


在尝试了诸多开源项目仍未取得理想效果后,2021 年,Guenther 开始使用 PaddleOCR,在处理英语与法语混合的加拿大法律文件时表现显著优于传统工具。随后,他以 PaddleOCR 为基础创立了 Sigtica,带领团队逐步完成复杂文档版式解析,实现精准检测标题、段落、表格区域并进行层级划分。


  • 版面分析‌:使用飞桨 PP-DocLayout-L 模块,精准检测合同文档中的标题、段落、表格区域,划分内容区块。

  • 文本识别‌:通过飞桨 PP-OCRv4 模型,实现英语与法语文本的同步识别,准确率超 96%。

  • 文档解构:通过飞桨 PP-Structure 解构文档的层级结构,识别章节和条款。

从“识别”到“理解”的跨越


2024 年,Sigtica 引入 ERNIE-4.5-VL 多模态大模型,探索并实现了文档的深度理解,完成了从“识别”到“理解”的跨越。其中,ERNIE 能完成命名实体识别,自动标注合同中的当事方、义务、责任、期限等关键信息,将原始文本转化为丰富且可搜索的“数据库”,这让研究人员能够在数秒内完成过去需耗费数周的人工作业:


  • 语义检索:跨文档查找语义相近的条款,而非仅靠编号比对;

  • 趋势分析:追踪某一条款在数十年、多个行业中的演变轨迹;

  • 可视化呈现:生成条款演变时间轴和数据趋势图,辅助研究和决策;

  • 可分析数据:形成“干净”的数据集,节省数百小时的研究时间。


案例落地:携手加拿大高校打造法律合同数据库


作为一家全球知名的 AI 公司,Sigtica 专注于为全球合作伙伴提供量身定制的文档智能解决方案。目前,其业务范围涵盖金融、法律服务和文化保护等多个领域,并在全球享有盛誉,曾受邀在多伦多大学和哈佛大学等世界顶尖学府进行客座讲座,分享其行业经验。


在近期与加拿大顶尖高校的合作中,Sigtica 正基于近 7 万份跨越近 60 年、涵盖 127 个工业领域的加拿大安大略省公开合同,构建智能化法律研究门户。从人工翻查到智能推演,析提加基于飞桨文字识别开发套件 PaddleOCR,成功为加拿大高校打造了一个高效、精准的法律合同数字化数据库。


基于飞桨与文心双开源技术,该项目目前正在加拿大各地的教师和学生中测试使用,帮助研究人员在几分钟内完成以往需耗时数月的比对和检索,已经颠覆性改变了他们进行研究的方式。正如一位法律研究员所说:“这就像给法律资料库装上了 CT 扫描仪。”一个可搜索、智能化的全国性研究人员平台也正在被全面搭建。多伦多大学研究中心主任 Rafael Gomez 对此评价道:“它能即时搜索和分析数万条法律条款,未来的研究生产力将依赖这样的新技术。”


这一成果既印证了飞桨、文心大模型在 AI 技术领域的深厚积淀,也通过技术赋能助力析提加在文档智能化赛道构建差异化竞争优势,为行业数字化转型提供了可复用的技术标杆与实践范式。


法律文档处理效率跃升的背后,是 AI 技术与行业场景深度融合的缩影。从扫描件“数字化”到内容“知识化”,析提加的解决方案展现了 AI 在垂直领域的精细化落地能力,这种以技术迭代驱动价值延伸的模式也正在为法律行业智能化转型勾勒出清晰的演进路径。

生态共赢:与开源社区共同成长


Guenther 强调,Sigtica 的成功深深根植于百度 AI 技术开放的技术沃土及其生态协同的力量。


在技术层,百度飞桨全栈工具链以“即插即用”的开源范式,为 Sigtica 注入了 PaddleOCR 精准识别、PP-Structure 文档结构解析、ERNIE 大模型的语义理解等核心组件,构建起团队的技术主心骨,让复杂文档的“数字手术刀”得以成型。


在开源社区协作层,飞桨 AI Studio 平台更成为创新加速器——通过开放、共享的代码、模型与数据集等,Sigtica 团队得以在真实场景中快速迭代模型,将原本需数年攻克的文档解析难题压缩至数周实现,这种技术成果的背后,正是开源生态的协同效应。


在 WAVE SUMMIT 深度学习开发者大会 2025 现场,Lomas 特别指出:“开源社区不是简单的工具库,而是创新的‘催化剂’。正是飞桨和文心生态的开放基因与协作网络,让我们这样的小团队也能共享头部企业的技术红利,以‘中国速度’完成从 0 到 1 的突破。”


长期以来,Sigtica 也积极回馈着生态合作:向飞桨社区贡献高价值法律文档数据集、开源关键项目代码;通过国际讲座与案例库分享,将自身经验转化为行业通用解决方案等等。如今,Sigtica 已深度融入百度 AI 技术生态,正式成为百度 AI 技术生态优选级合作伙伴,这不仅是技术赋能的有力见证,更是生态共生、价值共创的典范。



Guenther 参与百度 AI 系列活动


从博士求学期间的学术困境,到全球 AI 解决方案提供商的成长轨迹,Guenther 的故事是大模型生态赋能开发者的缩影。


未来,Sigtica 还将继续携手百度 AI,在小语言模型微调(SLMs)、FastDeploy 加速部署、Agentic RAG 增强检索等技术方向持续推进,致力于为金融、法律等行业提供更智能的文档处理解决方案,打造更强大、更智能的行业解决方案,帮助企业释放数据价值,实现数字化转型。


正如 Guenther 在结语中所说:“基于飞桨和文心大模型,百度 AI 正在赋能更多开发者从研究者迅速成长为行业领导者。”

2025-10-15 16:323681

评论

发布
暂无评论

百度百舸万卡集群的训练稳定性系统设计和实践

百度Geek说

集群 AI 搜索引擎

故障隔离与防护架构设计

FunTester

显存也能叠叠乐,双 Intel Arc A770 显卡低成本部署 DeepSeek R1 32B 蒸馏模型体验

E科讯

这款流行 AI 工具被盗用挖取加密货币,这些隐患你需要知道

阿里巴巴云原生

阿里云 云原生 Higress

Hologres实时湖仓能力入门实践

阿里云大数据AI技术

大数据 数据仓库 OLAP hologres

1周上线,2个月交付!有巢数智如何用 NocoBase 颠覆建筑行业数智化效率

NocoBase

开源 低代码 插件 数智化 建筑业

智慧环保系统(源码+文档+讲解+演示)

深圳亥时科技

智能车间管理系统(源码+文档+讲解+演示)

深圳亥时科技

《Operating System Concepts》阅读笔记:p359-p388

codists

操作系统

数据安全,信息安全解决方案,信息安全实施方案

金陵老街

信息安全 数据安全

AI口语陪练APP的核心功能

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

垂域大模型时代 | 专业数据铸就行业智能底座

数据堂

人工智能 金融 数据集 大模型 垂域模型

什么是有限元分析技术?仿真软件正逐步成为新型科技

思茂信息

仿真 abaqus 有限元分析

数据线良率总上不去?MES系统教你3招把不良率砍半!

万界星空科技

数字化 mes 万界星空科技 制造业工厂 数据线工厂

从协作视角看银行 SRE 转型:与虚拟 IT 组织的创新联动

嘉为蓝鲸

AIOPS SRE 银行运维

Cloud Ace 宣布成为 Langfuse 亚太地区首个代理商,提供 LLM 全链路方案

Cloud Ace 云一

LLM LLMOps 生成式 AI 应用 Langfuse

魔搭×通义灵码:0代码基础、0门槛在线编程做应用

阿里巴巴云原生

阿里云 云原生 通义灵码

1688店铺所有商品列表接口全攻略

tbapi

1688API 1688店铺所有商品接口 1688店铺商品采集

DeepSeek黑科技加持 嘉为蓝鲸WeOps V5.0让运维预见未来

嘉为蓝鲸

智能运维 产品发布 嘉为蓝鲸 #WeOps

特斯拉、宇树、Figure AI 核心供应链企业梳理与商业化壁垒,「汇丰银行」人形机器人研报解读

机器人头条

科技 大模型 人形机器人 具身智能

试验协同管理平台(源码+文档+讲解+演示)

深圳亥时科技

运维人的福音!嘉为蓝鲸OpsPilot V3.2 联网检索功能,让问题解决快人一步!

嘉为蓝鲸

智能运维 产品发布 嘉为蓝鲸 #WeOps

AI口语机器人的功能规划

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

无人值守收入核算,无需下班的“AI收入会计”

用友智能财务

AI 数字化 财务 会计

魔搭×通义灵码:0代码基础、0门槛在线编程做应用

阿里云云效

阿里云 云原生 通义灵码

突破续航瓶颈:数字样机技术引领新能源汽车复合制动新方向

DevOps和数字孪生

AI Day引爆测试圈:你的测试工具该升级了,手工测试到AI智能测试

测试人

人工智能

商家域稳定性建设之原理探索|得物技术

得物技术

Sigtica X 飞桨文心:以AI赋能法律研究,打造智能文档新范式_生成式 AI_飞桨PaddlePaddle_InfoQ精选文章