大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

Sigtica X 飞桨文心:以 AI 赋能法律研究,打造智能文档新范式

  • 2025-10-15
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

大小:1.35M时长:07:51
Sigtica X 飞桨文心:以AI赋能法律研究,打造智能文档新范式

2025 年,在一所加拿大高校的图书馆里,沉睡数十年的法律文件正在被重新“唤醒”。


依托百度飞桨与文心大模型,Sigtica 公司打造的法律文档智能系统可在数秒内完成跨语种合同的条款解析与语义检索,使研究者能够从海量档案中迅速获取所需信息。曾经困扰学术界的“数据黑箱”,如今正在被人工智能一点点打破。作为一家源自创始人个人科研挫折经历的创新企业,Sigtica 正以 AI 为钥匙,将复杂的法律文本转化为结构化知识,为法律行业转型以及文档智能化勾勒出更清晰的演进路径。


2025 年 9 月 9 日,WAVE SUMMIT 深度学习开发者大会 2025 的主论坛灯光聚焦在一位来自加拿大的开发者身上。他是 AI 公司 Sigtica 的创始人 Guenther Lomas,他现场讲述了自己如何借力百度飞桨与文心大模型创立 Sigtica,并成长为能够解决全球复杂文档挑战的技术创新者。



大会现场


不谈技术参数,也没有罗列产品成果,他从一段曾经在科研领域受挫的“至暗时刻”讲起。在加拿大多伦多大学攻读博士期间,Guenther 被困在了 6 万份合同格式混乱、中英混杂、条款层层嵌套的扫描版法律合同里。


“我 90%的时间都耗在准备数据,只有 10%的时间在分析。” Guenther 坦言,“这完全颠倒了科研的初衷。”


正是这种痛点,催生了 Sigtica 的使命:“Codify Complexity”。他希望能够通过 AI 技术,处理世界上最复杂的信息并使其变得简单、结构化和有价值,用 AI 让最复杂的文档真正“开口说话”。

AI 破解难题:助力法律文档数字化与智能检索

非结构化数据的清洗与结构化提取


处理非结构化数据的核心挑战是如何将包含大量文本和表格的文档转化为学术界标准的干净、结构化数据集。而传统 OCR 工具在面对跨页表格、条款嵌套和脚注混排时往往效果有限,尤其在双语环境中错误率极高,通常存在无法进行跨文档分析、耗时且易出错、双语复杂性、数据点无法访问等问题。


在尝试了诸多开源项目仍未取得理想效果后,2021 年,Guenther 开始使用 PaddleOCR,在处理英语与法语混合的加拿大法律文件时表现显著优于传统工具。随后,他以 PaddleOCR 为基础创立了 Sigtica,带领团队逐步完成复杂文档版式解析,实现精准检测标题、段落、表格区域并进行层级划分。


  • 版面分析‌:使用飞桨 PP-DocLayout-L 模块,精准检测合同文档中的标题、段落、表格区域,划分内容区块。

  • 文本识别‌:通过飞桨 PP-OCRv4 模型,实现英语与法语文本的同步识别,准确率超 96%。

  • 文档解构:通过飞桨 PP-Structure 解构文档的层级结构,识别章节和条款。

从“识别”到“理解”的跨越


2024 年,Sigtica 引入 ERNIE-4.5-VL 多模态大模型,探索并实现了文档的深度理解,完成了从“识别”到“理解”的跨越。其中,ERNIE 能完成命名实体识别,自动标注合同中的当事方、义务、责任、期限等关键信息,将原始文本转化为丰富且可搜索的“数据库”,这让研究人员能够在数秒内完成过去需耗费数周的人工作业:


  • 语义检索:跨文档查找语义相近的条款,而非仅靠编号比对;

  • 趋势分析:追踪某一条款在数十年、多个行业中的演变轨迹;

  • 可视化呈现:生成条款演变时间轴和数据趋势图,辅助研究和决策;

  • 可分析数据:形成“干净”的数据集,节省数百小时的研究时间。


案例落地:携手加拿大高校打造法律合同数据库


作为一家全球知名的 AI 公司,Sigtica 专注于为全球合作伙伴提供量身定制的文档智能解决方案。目前,其业务范围涵盖金融、法律服务和文化保护等多个领域,并在全球享有盛誉,曾受邀在多伦多大学和哈佛大学等世界顶尖学府进行客座讲座,分享其行业经验。


在近期与加拿大顶尖高校的合作中,Sigtica 正基于近 7 万份跨越近 60 年、涵盖 127 个工业领域的加拿大安大略省公开合同,构建智能化法律研究门户。从人工翻查到智能推演,析提加基于飞桨文字识别开发套件 PaddleOCR,成功为加拿大高校打造了一个高效、精准的法律合同数字化数据库。


基于飞桨与文心双开源技术,该项目目前正在加拿大各地的教师和学生中测试使用,帮助研究人员在几分钟内完成以往需耗时数月的比对和检索,已经颠覆性改变了他们进行研究的方式。正如一位法律研究员所说:“这就像给法律资料库装上了 CT 扫描仪。”一个可搜索、智能化的全国性研究人员平台也正在被全面搭建。多伦多大学研究中心主任 Rafael Gomez 对此评价道:“它能即时搜索和分析数万条法律条款,未来的研究生产力将依赖这样的新技术。”


这一成果既印证了飞桨、文心大模型在 AI 技术领域的深厚积淀,也通过技术赋能助力析提加在文档智能化赛道构建差异化竞争优势,为行业数字化转型提供了可复用的技术标杆与实践范式。


法律文档处理效率跃升的背后,是 AI 技术与行业场景深度融合的缩影。从扫描件“数字化”到内容“知识化”,析提加的解决方案展现了 AI 在垂直领域的精细化落地能力,这种以技术迭代驱动价值延伸的模式也正在为法律行业智能化转型勾勒出清晰的演进路径。

生态共赢:与开源社区共同成长


Guenther 强调,Sigtica 的成功深深根植于百度 AI 技术开放的技术沃土及其生态协同的力量。


在技术层,百度飞桨全栈工具链以“即插即用”的开源范式,为 Sigtica 注入了 PaddleOCR 精准识别、PP-Structure 文档结构解析、ERNIE 大模型的语义理解等核心组件,构建起团队的技术主心骨,让复杂文档的“数字手术刀”得以成型。


在开源社区协作层,飞桨 AI Studio 平台更成为创新加速器——通过开放、共享的代码、模型与数据集等,Sigtica 团队得以在真实场景中快速迭代模型,将原本需数年攻克的文档解析难题压缩至数周实现,这种技术成果的背后,正是开源生态的协同效应。


在 WAVE SUMMIT 深度学习开发者大会 2025 现场,Lomas 特别指出:“开源社区不是简单的工具库,而是创新的‘催化剂’。正是飞桨和文心生态的开放基因与协作网络,让我们这样的小团队也能共享头部企业的技术红利,以‘中国速度’完成从 0 到 1 的突破。”


长期以来,Sigtica 也积极回馈着生态合作:向飞桨社区贡献高价值法律文档数据集、开源关键项目代码;通过国际讲座与案例库分享,将自身经验转化为行业通用解决方案等等。如今,Sigtica 已深度融入百度 AI 技术生态,正式成为百度 AI 技术生态优选级合作伙伴,这不仅是技术赋能的有力见证,更是生态共生、价值共创的典范。



Guenther 参与百度 AI 系列活动


从博士求学期间的学术困境,到全球 AI 解决方案提供商的成长轨迹,Guenther 的故事是大模型生态赋能开发者的缩影。


未来,Sigtica 还将继续携手百度 AI,在小语言模型微调(SLMs)、FastDeploy 加速部署、Agentic RAG 增强检索等技术方向持续推进,致力于为金融、法律等行业提供更智能的文档处理解决方案,打造更强大、更智能的行业解决方案,帮助企业释放数据价值,实现数字化转型。


正如 Guenther 在结语中所说:“基于飞桨和文心大模型,百度 AI 正在赋能更多开发者从研究者迅速成长为行业领导者。”

2025-10-15 16:323609

评论

发布
暂无评论

低代码表单控件全攻略:4 大类控件 + 属性配置,数据收集高效又精准

引迈信息

如何量化海外达人营销的真实商业价值?

Wolink

跨境电商 电商营销 海外社媒营销 海外营销推广 达人营销

氛围编程:IT领导者须知

码界行者

AI 氛围编程

基于华为云开发者空间-Versatile Agent开发平台构建昇腾C算子开发知识库

华为云开发者联盟

华为开发者空间 Versatile Agent.

2025楼宇对讲行业十大品牌技术亮点汇总 从AI芯片到加密防护核心信息梳理

新消费日报

企业海外营销需要数据驱动

Wolink

跨境贸易 跨境电商 出海企业 海外社媒营销 海外营销推广

现代数据建模:推动人工智能驱动型企业的革命

伤感汤姆布利柏

白鲸开源数据基建平台荣登“创客北京 2025”企业组TOP150,共同助 Agentic AI 行业变革

白鲸开源

AI 开源商业化 白鲸开源 WhaleStudio Agentic AI

90%企业踩坑?超融合采购避雷指南:避开硬件锁链,轻量敏捷未来

智驱前线

2025年海外推广渠道全景图:如何分配预算实现最大化ROI?

Wolink

跨境贸易 电商营销 出海服务商 出海企业 海外营销推广

MaaS满血DeepSeek服务结合云主机搭建私有化数学家Agent

华为云开发者联盟

云主机 华为开发者空间 Chatbox DeepSeek-V3 ModelArts Studio

AI赋能,重塑零售业转型策略

伤感汤姆布利柏

云栖实录 | 理想汽车基于 Hologres + Flink 构建万亿级车联网信号实时分析平台

阿里云大数据AI技术

flink 阿里云 hologres 实时分析 理想汽车

人工智能如何赋能企业出海

Wolink

企业出海 跨境贸易 跨境电商 海外营销推广 达人营销

16 倍性能提升,成本降低 98%! 解读 SLS 向量索引架构升级改造

阿里巴巴云原生

阿里云 云原生 sls

DolphinScheduler依赖机制、Open-Falcon告警推送与监控的优化实践

白鲸开源

大数据 开源 Open-Falcon Apache DolphinScheduler 工作流任务调度

从一次启动失败深入剖析:Spring循环依赖的真相|得物技术

得物技术

Java spring

BOE(京东方)陈炎顺香港论道:从“技术破局”到“战略升维”的全球竞争新思维

爱极客侠

基于华为开发者空间-Versatile Agent开发平台构建旅游规划助手

华为云开发者联盟

华为开发者空间 Versatile Agent.

科研决策AI辅助系统:让科学家“看得更远、想得更深

上海拔俗

国内最好的五个企业出海服务商

Wolink

企业出海 跨境电商 出海服务商 海外营销推广 达人营销

20 万奖金池就位!Higress AI 网关开发挑战赛参赛指南

阿里巴巴云原生

阿里云 云原生

怎么利用海外社交媒体平台做海外推广

Wolink

跨境电商 出海企业 海外社媒营销 海外营销推广 达人营销

超融合方案对比:企业选型必看的长期价值与隐藏成本解析

智驱前线

海外营销怎么做?

Wolink

跨境电商 电商营销 出海企业 海外营销推广 达人营销

基于华为云开发者空间-Versatile Agent开发平台零基础开发购房助手

华为云开发者联盟

Versatile Agent. 华为云开发者空间

基于华为开发者空间-云开发环境(容器)+MaaS实现智语灵犀-AI对话助手

华为云开发者联盟

MaaS DeepSeek v3 华为开发者空间

把握政策新导向,以AI风控赋能健康险创新——暖哇科技助力商业医疗保险高质量发展

暖哇科技

基于华为开发者空间,使用仓颉编程语言实现SQL脚本模板渲染工具

华为云开发者联盟

云主机 华为开发者空间 CodeArts IDE for Cangjie

构建智能化IT服务管理新生态-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

Sigtica X 飞桨文心:以AI赋能法律研究,打造智能文档新范式_生成式 AI_飞桨PaddlePaddle_InfoQ精选文章