jsoup:一款Java开源HTML解析工具

jsoup 是一个用于解析HTML的Java 类库。它提供了一套非常方便快捷的API,通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 实现了WHATWG HTML5标准,并且能同主流浏览器一样将HTML网页解析成相同的DOM结构。

jsoup

主要功能

  • 从一个URL、文件或者字符串中抓取并解析出HTML网页。
  • 通过遍历DOM或者使用CSS选择器找出并提取数据。
  • 对HTML元素、属性和文本执行操作。
  • 通过定义安全白名单的方式来处理用户提交的内容,以阻止跨站脚本攻击。
  • 输出格式规范且易读的HTML。

示例

抓取Wikipedia 主页解析为DOM,从种选择news栏目存入Element列表(在线示例):

开源

开发资源

官方网站:http://jsoup.org/
开源地址:https://github.com/jhy/jsoup/

2 4 收藏

资源整理者简介:BadCoder

每天进步一点点,就像跑步,哪怕很慢,但只要是跑,终归是要超过走着的大多数人不是么? 个人主页 · 贡献了11个资源 · 1 ·      


直接登录
最新评论

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer