Dumbo:开发Hadoop程序变得如此简单

Dumbo是一个Python模块,它使得编写和运行Hadoop Streaming程序变得非常简单。
详细文档:http://projects.dumbotics.com/dumbo

示例

假设你要找出Apache访问日志文件中访问量前5的IP,在UNIX下可以这样完成:

Dumbo可以提供另外一个解决方案:

保存以上代码为ipcount.py,执行以下命令:

github主页:https://github.com/klbostee/dumbo/wiki/Short-tutorial

1 收藏

资源整理者简介:rainbow

(新浪微博:@咖啡z熊) 个人主页 · 贡献了111个资源 · 1


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer