写点什么

Sigtica X 飞桨文心:以 AI 赋能法律研究,打造智能文档新范式

  • 2025-10-15
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

大小:1.35M时长:07:51
Sigtica X 飞桨文心:以AI赋能法律研究,打造智能文档新范式

2025 年,在一所加拿大高校的图书馆里,沉睡数十年的法律文件正在被重新“唤醒”。


依托百度飞桨与文心大模型,Sigtica 公司打造的法律文档智能系统可在数秒内完成跨语种合同的条款解析与语义检索,使研究者能够从海量档案中迅速获取所需信息。曾经困扰学术界的“数据黑箱”,如今正在被人工智能一点点打破。作为一家源自创始人个人科研挫折经历的创新企业,Sigtica 正以 AI 为钥匙,将复杂的法律文本转化为结构化知识,为法律行业转型以及文档智能化勾勒出更清晰的演进路径。


2025 年 9 月 9 日,WAVE SUMMIT 深度学习开发者大会 2025 的主论坛灯光聚焦在一位来自加拿大的开发者身上。他是 AI 公司 Sigtica 的创始人 Guenther Lomas,他现场讲述了自己如何借力百度飞桨与文心大模型创立 Sigtica,并成长为能够解决全球复杂文档挑战的技术创新者。



大会现场


不谈技术参数,也没有罗列产品成果,他从一段曾经在科研领域受挫的“至暗时刻”讲起。在加拿大多伦多大学攻读博士期间,Guenther 被困在了 6 万份合同格式混乱、中英混杂、条款层层嵌套的扫描版法律合同里。


“我 90%的时间都耗在准备数据,只有 10%的时间在分析。” Guenther 坦言,“这完全颠倒了科研的初衷。”


正是这种痛点,催生了 Sigtica 的使命:“Codify Complexity”。他希望能够通过 AI 技术,处理世界上最复杂的信息并使其变得简单、结构化和有价值,用 AI 让最复杂的文档真正“开口说话”。

AI 破解难题:助力法律文档数字化与智能检索

非结构化数据的清洗与结构化提取


处理非结构化数据的核心挑战是如何将包含大量文本和表格的文档转化为学术界标准的干净、结构化数据集。而传统 OCR 工具在面对跨页表格、条款嵌套和脚注混排时往往效果有限,尤其在双语环境中错误率极高,通常存在无法进行跨文档分析、耗时且易出错、双语复杂性、数据点无法访问等问题。


在尝试了诸多开源项目仍未取得理想效果后,2021 年,Guenther 开始使用 PaddleOCR,在处理英语与法语混合的加拿大法律文件时表现显著优于传统工具。随后,他以 PaddleOCR 为基础创立了 Sigtica,带领团队逐步完成复杂文档版式解析,实现精准检测标题、段落、表格区域并进行层级划分。


  • 版面分析‌:使用飞桨 PP-DocLayout-L 模块,精准检测合同文档中的标题、段落、表格区域,划分内容区块。

  • 文本识别‌:通过飞桨 PP-OCRv4 模型,实现英语与法语文本的同步识别,准确率超 96%。

  • 文档解构:通过飞桨 PP-Structure 解构文档的层级结构,识别章节和条款。

从“识别”到“理解”的跨越


2024 年,Sigtica 引入 ERNIE-4.5-VL 多模态大模型,探索并实现了文档的深度理解,完成了从“识别”到“理解”的跨越。其中,ERNIE 能完成命名实体识别,自动标注合同中的当事方、义务、责任、期限等关键信息,将原始文本转化为丰富且可搜索的“数据库”,这让研究人员能够在数秒内完成过去需耗费数周的人工作业:


  • 语义检索:跨文档查找语义相近的条款,而非仅靠编号比对;

  • 趋势分析:追踪某一条款在数十年、多个行业中的演变轨迹;

  • 可视化呈现:生成条款演变时间轴和数据趋势图,辅助研究和决策;

  • 可分析数据:形成“干净”的数据集,节省数百小时的研究时间。


案例落地:携手加拿大高校打造法律合同数据库


作为一家全球知名的 AI 公司,Sigtica 专注于为全球合作伙伴提供量身定制的文档智能解决方案。目前,其业务范围涵盖金融、法律服务和文化保护等多个领域,并在全球享有盛誉,曾受邀在多伦多大学和哈佛大学等世界顶尖学府进行客座讲座,分享其行业经验。


在近期与加拿大顶尖高校的合作中,Sigtica 正基于近 7 万份跨越近 60 年、涵盖 127 个工业领域的加拿大安大略省公开合同,构建智能化法律研究门户。从人工翻查到智能推演,析提加基于飞桨文字识别开发套件 PaddleOCR,成功为加拿大高校打造了一个高效、精准的法律合同数字化数据库。


基于飞桨与文心双开源技术,该项目目前正在加拿大各地的教师和学生中测试使用,帮助研究人员在几分钟内完成以往需耗时数月的比对和检索,已经颠覆性改变了他们进行研究的方式。正如一位法律研究员所说:“这就像给法律资料库装上了 CT 扫描仪。”一个可搜索、智能化的全国性研究人员平台也正在被全面搭建。多伦多大学研究中心主任 Rafael Gomez 对此评价道:“它能即时搜索和分析数万条法律条款,未来的研究生产力将依赖这样的新技术。”


这一成果既印证了飞桨、文心大模型在 AI 技术领域的深厚积淀,也通过技术赋能助力析提加在文档智能化赛道构建差异化竞争优势,为行业数字化转型提供了可复用的技术标杆与实践范式。


法律文档处理效率跃升的背后,是 AI 技术与行业场景深度融合的缩影。从扫描件“数字化”到内容“知识化”,析提加的解决方案展现了 AI 在垂直领域的精细化落地能力,这种以技术迭代驱动价值延伸的模式也正在为法律行业智能化转型勾勒出清晰的演进路径。

生态共赢:与开源社区共同成长


Guenther 强调,Sigtica 的成功深深根植于百度 AI 技术开放的技术沃土及其生态协同的力量。


在技术层,百度飞桨全栈工具链以“即插即用”的开源范式,为 Sigtica 注入了 PaddleOCR 精准识别、PP-Structure 文档结构解析、ERNIE 大模型的语义理解等核心组件,构建起团队的技术主心骨,让复杂文档的“数字手术刀”得以成型。


在开源社区协作层,飞桨 AI Studio 平台更成为创新加速器——通过开放、共享的代码、模型与数据集等,Sigtica 团队得以在真实场景中快速迭代模型,将原本需数年攻克的文档解析难题压缩至数周实现,这种技术成果的背后,正是开源生态的协同效应。


在 WAVE SUMMIT 深度学习开发者大会 2025 现场,Lomas 特别指出:“开源社区不是简单的工具库,而是创新的‘催化剂’。正是飞桨和文心生态的开放基因与协作网络,让我们这样的小团队也能共享头部企业的技术红利,以‘中国速度’完成从 0 到 1 的突破。”


长期以来,Sigtica 也积极回馈着生态合作:向飞桨社区贡献高价值法律文档数据集、开源关键项目代码;通过国际讲座与案例库分享,将自身经验转化为行业通用解决方案等等。如今,Sigtica 已深度融入百度 AI 技术生态,正式成为百度 AI 技术生态优选级合作伙伴,这不仅是技术赋能的有力见证,更是生态共生、价值共创的典范。



Guenther 参与百度 AI 系列活动


从博士求学期间的学术困境,到全球 AI 解决方案提供商的成长轨迹,Guenther 的故事是大模型生态赋能开发者的缩影。


未来,Sigtica 还将继续携手百度 AI,在小语言模型微调(SLMs)、FastDeploy 加速部署、Agentic RAG 增强检索等技术方向持续推进,致力于为金融、法律等行业提供更智能的文档处理解决方案,打造更强大、更智能的行业解决方案,帮助企业释放数据价值,实现数字化转型。


正如 Guenther 在结语中所说:“基于飞桨和文心大模型,百度 AI 正在赋能更多开发者从研究者迅速成长为行业领导者。”

2025-10-15 16:323551

评论

发布
暂无评论

直播预告 | KWDB 分布式架构探究

KaiwuDB

数据库 直播预告 KaiwuDB kwdb

AI淘汰歌手又近一步,昆仑万维正式上线Mureka V7

新消费日报

2025可信云大会成功召开,天翼云揽获多项权威认证!

天翼云开发者社区

可信云 天翼云

中烟创新连续两年荣获“软件和信息服务业诚信企业”

中烟创新

见过“秒”级盘点吗?只需3~5秒,RFID盘点通道机让繁琐变得轻松高效!

斯科信息

RFID分拣 斯科信息 RFID技术

2025 AI主战场,连锁门店“变形记”

脑极体

AI

智慧安全,数治风险:灯塔低代码平台赋能烟草行业安全管理体系

中烟创新

首家!AI算力最高评级!

百度Geek说

书本介绍:技术札纪——有限硬件与无限计算的权衡艺术

poemyang

云计算 分布式 高并发 Java虚拟机

大数据-50 Redis Java Lua实现乐观锁、WATCH机制与SETNX分布式锁

武子康

Java 数据库 redis 大数据 缓存

突破连接边界:EMQX 实现 MQTT 和 NATS 协议双向互通

EMQ映云科技

emqx nats

AI Agent 的制胜之道:上下文工程深度解析

十三Tech

户外巨型LED屏幕租赁价格预算

Dylan

商业 活动 户外LED显示屏 虚拟演唱会 LED屏幕

AI口语陪练APP的功能设计

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语学习

基于YOLOv8的桥梁八类缺陷、病害高精度检测项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

使用 Strands Agents 开发并部署生产级架构通用型个人助手

亚马逊云科技 (Amazon Web Services)

区块链预付卡APP的上线流程

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

要不要接着造电车,车企站在十字路口

脑洞汽车

汽车 新能源

AI背单词APP的功能设计

北京木奇移动技术有限公司

AI教育 软件外包公司 AI背单词

AI赋能专卖人员画像与队伍评价,助力烟草行业人才队伍建设

中烟创新

机器人技术:AI之后的新增长极|小奇说

奇点云

自动驾驶 AI 机器人

区块链预付卡APP的开发成本

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

录屏神器camtasia主要功能介绍,camtasia2024软件激活码密钥,Camtasia中文版免费下载

阿拉灯神丁

录屏软件 视频编辑工具 Camtasia Studio2024 视频剪辑软件

1688商品列表API接口指南

tbapi

1688API接口 1688商品列表接口 1688商品数据采集

【苍狮技术团队】打造高效日志系统:Graylog + Docker 快速部署 + Spring Boot 日志集成全攻略

苍狮技术团队

日志管理 Graylog

1688商品详情API接口指南

tbapi

1688商品详情接口 1688数据采集 1688商品详情API

Solo:基于 zkHE 的身份验证协议,构建 Web3 可信匿名身份层

股市老人

从娃哈哈看传统企业转型:宗馥莉 700 亿营收的产品战略有哪些「可复用模型」?

IPD产品研发管理

产品 产品经理 商业

行业热点丨SimLab解决方案如何高效应对3D IC多物理场与ECAD建模挑战?

Altair RapidMiner

芯片设计 仿真 CAE Simlab 多物理场仿真

从频繁告警到平稳发布:服务冷启动 CPU 风暴优化实践

vivo互联网技术

性能优化 后端 服务器 Arthas

Post-Training on PAI (5): PAI-EasyDistill, PAI 自研大模型蒸馏框架

阿里云大数据AI技术

人工智能 大数据 开源 大模型 大模型蒸馏

Sigtica X 飞桨文心:以AI赋能法律研究,打造智能文档新范式_生成式 AI_飞桨PaddlePaddle_InfoQ精选文章