Dpark:Python版的Spark

dpark

DPark是一个基于Mesos的集群计算框架(cluster computing framework),是Spark的Python实现版本,类似于MapReduce,但是比其更灵活,可以用Python非常方便地进行分布式计算,并且提供了更多的功能以便更好的进行迭代式计算。

DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有限的可以在计算过程中、从不同机器访问的共享变量类型。这个的目标是为了提供一种类似于global address space programming model的工具,例如OpenMP,但是我们要求共享变量的类型必须是那些很容易在分布式系统当中实现的,当前支持的共享变量类型有只读的数据和支持一种数据修改方式的累加器(accumulators)。DPark具有的一个很重要的特性:分布式的数据集可以在多个不同的并行循环当中被重复利用。这个特性将其与其他数据流形式的框架例如Hadoop和Dryad区分开来。

用户手册

下载源代码和安装指导
  1. 如何下载源代码
  2. 如何安装在mesos上并进行必要的配置
使用DPark
  1. 初识DPark
  2. 如何在本机、多线程、mesos上运行DPark程序
  3. 弹性分布式数据集(RDD)
  4. 共享变量
  5. Examples

开发指南

  1. RDD的原理
  2. DPark的任务调度机制
  3. 共享变量的实现
  4. DPark和Spark的区别

示例

一个word counting程序

上面的脚本可以无修改的在Mesos集群上运行,只需稍微修改一下命令行参数:

1 1 收藏

资源整理者简介:rainbow

(新浪微博:@咖啡z熊) 个人主页 · 贡献了111个资源 · 1


直接登录
最新评论
  • 匿名人士   2014/09/16

    造一个轮子并不是因为对造轮子更感兴趣,而且要理解轮子的工作过程。你开汽车,但是轮子坏了你不会修,你看轮子不顺眼,你不会改造,你想让车跑的更快你不知道如何改良。。。

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer