Apache Spark:一个快速大规模数据处理的通用引擎

apacheSpark1

关于Spark

Apache Spark是一种快速、通用的集群计算系统。它为Java、Scala、Python和 R 提供了高级的API,及优化引擎,支持一般执行图。它还支持一组丰富的高级工具包括 Spark SQL 和结构化数据处理、机器学习MLlib、图形处理 GraphX 和 Spark流

下载Spark

从Spark项目站点下载页面下载Spark。
如果你想自己编译构建Spark, 请参照编译构建Spark

Spark可以运行在Windows和类UNIX系统(如Linux、Mac OS)。很容易地在一台机器上运行——只需要安装java,并设置PATH和JAVA_HOME环境变量。

Spark运行于Java 7+、Python 2.6+/3.4+ 和 R 3.1+。针对Scala API、Spark 2.0.0使用Scala 2.11. 需要使用兼容版本的Scala(2.11.x)。

运行示例和Shell

Spark附带几个示例。Scala、Java、Python 和 R示例都在examples/src/main目录下。运行Java或Scala示例程序, 请使用bin/run-example <class> [params] 在Spark最顶级的目录。如下示例,

也可以通过交互式运行 Spark 修订版的Scala shell。这是一个学习框架的好方法。

参数--master指定 分布式集群的master URL, 或使用 local在本地运行一个线程, 或使用local[N]在本地运行N个线程。可以使用local做本地测试. 查看全部参数选项, 运行Spark shell用--help参数。

Spark也提供Python API。在Python解释器上运行Spark,请使用bin/pyspark:

也提供Python的示例应用。例如,

从Spark 1.4也开始提供实验性的R API(仅包含DataFrames API)。在R解释器上运行Spark,使用bin/sparkR:

也提供R的示例应用。例如,

集群启动

Spark 群模式概述 解释了在集群上运行的关键概念。Spark可以独立运行,或覆盖几个现存的集群管理。目前提供了几种部署选项:

从这里出发

编程指南

API文档

开发向导

  • 集群概述:概念和组件运行在群集时的概述
  • 提交应用:打包和部署应用
  • 开发模式
    • Amazon EC2:通过脚本可以用5分钟在EC2上启动一个集群
    • 独立部署模式:快速启动一个无第三方集群管理的独立集群
    • Mesos:使用Apache Mesos部署一个私有的集群
    • YARN:将Spark部署于Hadoop NextGen(YARN)之上

相关文档

外部资源

官方网站:http://spark.apache.org/

3 4 收藏

资源整理者简介:zhiguo

JAVA程序员一枚。 个人主页 · 贡献了7个资源 · 1 ·  


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer