3 资源

网络爬虫

  • Apache Nutch:可扩展可伸缩的Java 网络爬虫

    唐尤华 整理 1

    Nutch是一个非常成熟的产品化网络爬虫。以Apache Hadoop数据结构为依托,提供了良好的批处理支持。 Nutch不仅具备了插件式和模块化优点,还提供了可扩展的功能接口。
    详细介绍 »

  • crawler4j:轻量级多线程网络爬虫

    刘立华 整理 2 2

    crawler4j是Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。
    详细介绍 »

  • jsoup:一款Java开源HTML解析工具

    BadCoder 整理 2 1

    jsoup 是一个用于解析HTML的Java 类库。它提供了一套非常方便快捷的API,通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。
    详细介绍 »

    按分类快速查找

    关于资源导航
    • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
      推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer