Spark:大数据处理的快速通用计算引擎

无标题


Spark是专为大规模数据设计的通用而快速的计算引擎,为Scala,java,Python,R提供API和一个优化引擎来支持图形化的数据分析。

功能特性

  • 快速:Spark使用DGA执行引擎,数据处理在内存中速度超过Hadhoop 100倍以上,在硬盘中速度超过10倍
  • 简单:提高很多操作类给Java, Scala, Python, R,便于操作
  • 通用:Spark库包括SQL,Mlib,Graphx,Spark stream,可以很无缝的使用在相同的程序。
  • 可移植性:Spark可以运行在Hadoop,standalone,单机,可使用数据源包括HDFS,Cassandra,Hbase和S3

快速上手

构建Spark

通过Spark的Maven仓库去建立Spark和他实例程序:

Scala对接使用

Scala下输入命令:

使用下面命令进行测试,应当返回1000:

Python对接使用

Python下输入命令:

使用下面命令进行测试,应当返回1000:

项目实例

Spark在examples目录下面放入了一些项目例子,使用命令./bin/run-example <class> [params],例如:

将会运行Pi 例子

你可以设置MASTER环境变量去运行例子;使用 mesos:// or spark:// URL,”yarn” 运行 YARN,并且可以通过 “local” 在本地一个线程中运行, 或者 “local[N]” 本地去运行通过N个线程。你能使用缩写类名在示例包,例如:

 

许多示例程序将打印帮助如果没有附加其他参数。

测试

先构建一个Spark项目,然后使用如下命令

可以参考文档通过如何测试模块或者单独测试

资源地址

github

官网下载

使用许可

许可详细信息参见这里

1 收藏

资源整理者简介:Another_mt

简介还没来得及写 :) 个人主页 · 贡献了4个资源 · 1


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer