写点什么

开源 HTML 解析工具包 jsoup 1.3.1 发布

  • 2010-08-26
  • 本文字数:763 字

    阅读完需:约 3 分钟

jsoup 是一款开源的 HTML 解析工具包,采用 Java 语言编写,通过精巧的 API 充分利用 DOM、CSS 和类 jquery 的方法抽取和操作数据。最近,jsoup 1.3.1 正式发布,对上一版(1.2.3)做了重要更新,包括完成自主实现(无外部依赖)、改进 Web 连接方法等。

随着 Web 应用的不断发展,开发人员有时需要通过 HTML 解析功能实现客户需求。读者朋友可能对老牌 HTML Parser Java 库比较熟悉。其实,jsoup 也是为了方便开发人员实现 HTML 解析而刚刚诞生(2010 年初发起)的一款工具包。jsoup 的主要功能包括:

  • 解析,通过 URL、文件或者字符串来分析 HTML 文档。
  • 查找,通过 DOM 遍历或者 CSS 选择器来寻找和抽取数据。
  • 操作,处理 HTML 元素、属性和文本。
  • 检查,通过白名单机制来保护 HTML 内容的安全。

jsoup 1.3.1 的主要更新包括:

  • 完成了自主实现,在之前的版本中,jsoup 依赖于 Apache Commons-Lang 的一些方法,如 HTML 内容解析等。在新版中,这些方法完全自主实现,不再需要外部依赖。一方面减少 JVM 的内存消耗,另一方面有助于开发人员入门。
  • 改进 Web 连接方法,jsoup 现在支持一种方便的 connection 接口,即 Jsoup.connect(String url)。这种方法允许开发人员快捷地创建 HTTP 请求,包括指定用户代理、cookie、超时等等。方法的返回值可以直接被解析成 Document。示例代码如下:

Document doc = Jsoup.connect(“ http://example.com ”)
.data(“query”, “Java”)
.userAgent(“Mozilla”)
.cookie(“auth”, “token”)
.timeout(3000)
.post();

  • 增加了一些便捷方法,如 Element.ownText()、Document.OutputSettings.prettyPrint(boolean) 等。
  • 改进了文档解析的性能
  • 修补了一些 Bug

感兴趣的读者朋友可以下载 jsoup 试用,查看其使用手册文档说明。jsoup 采用 MIT 协议开源,目前在 GitHub 上进行开发和维护,喜欢深究的朋友可以在此查看源代码

2010-08-26 00:354161
用户头像

发布了 501 篇内容, 共 262.8 次阅读, 收获喜欢 61 次。

关注

评论

发布
暂无评论
发现更多内容

推荐8个提高工作效率的IntelliJ插件

风铃架构日知录

后端 开发 Java、 intellij java架构师

一周刷爆LeetCode,字节技术官亲码算法与数据结构刷题宝典真香

Java永远的神

程序员 数据结构 算法 LeetCode 大厂面试

大数据培训班应该如何学习?

小谷哥

火山引擎DataTester为企业降本增效:1个人也能成为一支A/B实验团队

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

消息中间件执行原理

C++后台开发

分布式 中间件 消息队列 后端开发 linux开发

大数据培训机构如何选择?

小谷哥

带你玩转OpenHarmony AI:基于Seetaface2的人脸识别

OpenHarmony开发者

OpenHarmony openha

双币质押挖矿分红模式系统开发技术模式方案

I8O28578624

易观千帆 | 2022年11月银行APP月活跃用户规模盘点

易观分析

App 手机银行 用户分析

边疆水土培养边疆人才,云南大学研究团队借助昇思MindSpore提出智慧医疗创新解决方案

Geek_2d6073

培训班学习完后就业前景怎么样

小谷哥

从源码层面深度剖析Spring循环依赖

京东科技开发者

spring 缓存 循环依赖 spring MV @Bean

8000字详解Thread Pool Executor

华为云开发者联盟

Java 开发 华为云 12 月 PK 榜

贾斯特里尼&布鲁克斯葡萄酒,提升用餐仪式感

联营汇聚

彪悍升级|尚硅谷Hive新版视频教程发布

小谷哥

流量与技术双重加持,小游戏迎来高速增长周期

FinFish

小游戏 小程序游戏 小程序游戏开发 微信小游戏

TDengine 时序数据库与一汽解放携手,助力商用车智能网联

TDengine

数据库 tdengine 时序数据库

揭秘百度智能测试在测试定位领域实践

百度Geek说

百度 测试定位 智能测试 12 月 PK 榜

贾斯特里尼&布鲁克斯酿酒专家帮您区分干红葡萄酒和甜红葡萄酒

联营汇聚

华为云解锁云原生数据库发展新动能

华为云开发者联盟

数据库 后端 华为云 12 月 PK 榜

干货|3DMax优化模型的方法有哪些?

Finovy Cloud

云渲染 3DMAX

云原生安全系列3:5个 Kubernetes API 网络安全访问最佳实践

HummerCloud

云原生 k8s 云原生安全 kubernetes 运维

Iceberg 在袋鼠云的探索及实践

袋鼠云数栈

区块链NFT商城系统开发技术

薇電13242772558

区块链

华为云桌面Workspace带你走进云上办公新时代

爱尚科技

华为云桌面驱动数字内容变革,按下文娱社交行业升级加速键

爱尚科技

华为云桌面能为设计行业提供哪些“黑科技”?

爱尚科技

培训班出来的前端和自学的优势

小谷哥

贾斯特里尼&布鲁克斯葡萄酒,佳节送礼首选

联营汇聚

贾斯特里尼&布鲁克斯,优质葡萄酒都有甄选法则

联营汇聚

【PCB设计】孔间距不可忽视,小心废板!

华秋PCB

工具 PCB PCB设计

开源HTML解析工具包jsoup 1.3.1发布_Java_崔康_InfoQ精选文章