Apache Nutch:可扩展可伸缩的Java 网络爬虫

Nutch是一个非常成熟的产品化网络爬虫。Nutch 1.x支持细粒度配置,以Apache Hadoop数据结构为依托,提供了良好的批处理支持。 Nutch不仅具备了插件式和模块化优点,还提供了可扩展的功能接口,比如解析、索引和自定义ScoringFilter实现,像是用Apache Tika进行解析。除此之外,Nutch还为Apache Solr、Elastic Search、SolrCloud等提供了插件式索引。Nutch可以自动发现网页超链接,减少很多维护工作,比如检查坏链接,为所有访问过的页面建立拷贝进行搜索。
Apache Nutch默认支持Solr,极大地简化了Nutch-Solr集成。同时移除了旧版本依赖,比如运行Nutch Web应用需要依赖Apache Tomcat以及索引功能要求的Apache Lucene。只需下载一个二进制文件就可以使用。

apache_nutch

主要功能

  • 默认情况下独立完成获取与解析,大大降低了使用Nutch抓取时解析阶段出错风险。
  • 在移除Lucene依赖之后对插件进行了彻底检查。
  • 对Nutch默认支持的各种文件处理插件进行了优化。Tika已经支持普通文本、XML、OpenDocument(OpenOffice.org)、Microsoft Office (Word、Excel、Powerpoint)、PDF、RTF、MP3(ID3标签)的解析。Nutch自带的解析器插件现在有Feed(RSS/Atom)、HTML、Ext、JavaScript、SWF、Tika & ZIP。
  • MapReduce
  • 分布式文件系统(Hadoop)
  • 链接图数据库
  • NTLM认证

开发资源

官方网站:http://nutch.apache.org/
开源地址:https://github.com/apache/nutch

打赏支持我整理更多优质资源,谢谢!

打赏编辑

打赏支持我整理更多优质资源,谢谢!

任选一种支付方式

1 3 收藏

资源整理者简介:唐尤华

唐尤华:我喜欢程序员,他们单纯、固执、容易体会到成就感;面对压力,能够挑灯夜战不眠不休;面对困难,能够迎难而上挑战自我。他们也会感到困惑与傍徨,但每个程序员的心中都有一个比尔盖茨或是乔布斯的梦想“用智慧开创属于自己的事业”。我想说的是,其实我是一个程序员。 个人主页 · 贡献了108个资源 · 18 ·    


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer