Apache Hadoop:在商用硬件集群上用来进行大规模数据存储的开源软件框架

hadoop

关于Apache Hadoop

Apache™ Hadoop®是一个可靠的、可扩展、分布式计算的开源软件项目。

Apache Hadoop 软件库是一个框架,通过计算机集群使用简单的编程模型对大型数据集进行分布式处理,它的设计目的是能从单服务器扩展到上千台机器,每台服务器提供本地计算和存储,而不是依靠硬件来提供高可用性,其本身被设计成在应用层检测和处理故障,在计算机集群之上提供高度可用的服务,并且能够自动将失败的任务重新分配。

Hadoop项目包含下列模块:

  • Hadoop Common: 通用的功能模块,对Hadoop其它模块提供支持。
  • Hadoop Distributed File System (HDFS™): 一个分布式文件系统,它提供对应用程序数据的高吞吐量访问。
  • Hadoop YARN: 一种作业调度和集群资源管理框架。
  • Hadoop MapReduce: 基于YARN的大型数据集的并行处理系统。

下面是主要功能和改进的概述。

  • Common
    • 改进使用HTTP代理服务器验证,这种通过代理服务器访问WebHDFS时非常有用。
    • 规范工作相关的Hadoop兼容的文件系统(HCFS)。
  • HDFS
    • POSIX风格的文件系统的扩展属性的支持。查看更多细节的用户文档
    • 使用OfflineImageViewer,客户可以通过WebHDFS API浏览fsimage。
    • NFS网关进行了一些保障性的改进和bug修复。Hadoop的端口映射器不再需要运行网关,网关现在可以拒绝非特权端口连接。
    • SecondaryNameNode、JournalNode, 和DataNode等web界面具现代风格的与HTML5和JavaScript相结合。
  • YARN
    • YARN’s REST API已经支持写入/修改操作,用户可以通过REST API来提交和终止应用。
    • YARN的时间线存储,用于存储应用的通用和特定应用信息,支持Kerberos的身份验证。
    • 公平调度器支持动态分级用户队列,运行时可在特定的父队列下动态的创建用户队列。

Hadoop入门

从这里开始:

  1. 通过阅读文档,了解Hadoop。
  2. 从发行页面下载Hadoop。
  3. 在Hadoop的邮件列表中讨论

下载Hadoop

请前往版本页面下载Apache Hadoop的发行版

谁使用Hadoop?

各种各样的公司和组织使用Hadoop进行研究和生产。鼓励Hadoop用户把自己添加到Hadoop的PoweredBy维基页面。

开发文档

常用配置

API

配置

各版本文档

官方网站:http://hadoop.apache.org
开源地址:https://github.com/apache/hadoop

2 2 收藏

资源整理者简介:zhiguo

JAVA程序员一枚。 个人主页 · 贡献了7个资源 · 1 ·  


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer