写点什么

Google 开放 HTML5 解析库 Gumbo 的源代码

  • 2013-08-19
  • 本文字数:653 字

    阅读完需:约 2 分钟

Google 已经开放了 Gumbo 的源代码,这是一个用 C 编写的 HTML 解析库。该库符合 HTML 解析算法标准,它通过了所有的 html5lib-0.95 测试,并且已经在 Google 索引的 25 亿个网页上进行过测试。

根据该项目的说明页,Google 发布 Gumbo 的目的是为开发人员提供一个轻量级的 HTML 解析库,它没有外部依赖,而且大多数语言都可调用它。该库可以包含在 Web 页面验证器、静态分析器、模板语言和重构工具等应用中。

Google 认为,Gumbo“对于不够标准的输入,它健壮而有弹性”,但是,由于 ABI 将来可能发生变化,所以不推荐维护指向 Gumbo 的一些内部数据结构的指针。不过,该 API 被认为相当稳定。Gumbo 1.0 会在不久的将来发布,在此之前,项目团队将一直等待开发人员的意见。

下面是一些将来会增加的功能:

  • 支持最近的 HTML5 规范变更,以支持模板标签
  • 支持片段解析
  • 全功能的错误报告
  • 在其它语言中的绑定

在 HTML5 解析算法标准化之前,每个浏览器自主选择如何标记输入页面和如何渲染页面。虽然 HTML 4 对于有效标记有详细说明,但是却没有指出在输入无效时浏览器应该做什么,所以世界上95% 的Web 页面都不能通过 W3C 参考验证器的验证。使用像 Gumbo 这样的工具验证 HTML 页面,可以保证页面在所有主要的浏览器中得到恰当地解析和渲染。

查看英文原文:**** Google Open Sources Gumbo, An HTML5 Parsing Library


感谢马国耀对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2013-08-19 04:085463
用户头像

发布了 256 篇内容, 共 98.2 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

参与 PenPad Season 2 获得勋章,海量 Scroll 生态稀缺权益来袭

石头财经

欢迎加入PenPad Season 2 ,获得勋章以及海量 Scroll 生态权益

BlockChain先知

欢迎加入PenPad Season 2 ,获得勋章以及海量 Scroll 生态权益

股市老人

C++ 引用和指针:内存地址、创建方法及应用解析

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

小米14 Ultra影像私享会在长春万象城成功举办

极客天地

为什么向量数据库在 RAG 中至关重要?

Zilliz

大模型 Zilliz 向量数据库 rag

精彩回顾 | 「AI 驱动增长,研发数智化升级」分享沙龙成功举办

LigaAI

AWS 技术分享 生成式AI 活动回顾 Amazon Bedrock

Kyligence 发布企业级 AI 解决方案,Data + AI 落地迈向新阶段

Kyligence

Pirf-394

Echo!!!

English

在直播间卖云,云厂商终于“疯了”

自象限

《深入浅出计算机网络》PDF

程序员李木子

2024年3月文章一览

codists

codists

运维工具如此割裂,九招帮你统一纳管

观测云

运维‘

Last Call!AWS、Shopee、点石科技专家齐聚 Milvus 老友汇 · 线下

Zilliz

开源社区 Meetup Milvus 向量数据库

嵌入式工程师需要掌握哪些技术?

芯动大师

嵌入式开发

百度Create AI开发者大会剧透丨用好三大AI神器 ,人人都是开发者

herosunly

大模型 百度AI AI神器

Doodle Jump — 使用Flutter&Flame开发游戏真不错!

编程的平行世界

flutter android AI 算法 游戏开发

深入解析C++的auto自动类型推导

爱分享

C++11 C++20 C++ C++自动类型推导 C++ auto

const 使用总结

爱分享

c++ 性能优化 代码规范 C++11 const

Google开放HTML5解析库Gumbo的源代码_开源_Abel Avram_InfoQ精选文章