Apache Mahout:经典机器学习算法库

apache-mahout

Mahout 是 Apache Software Foundation旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

主要特性

Apache Mahout 运行环境包括

  • 针对分布式的优化
  • 支持Scala API
  • 支持线性代数操作
  • 支持Scalak扩展
  • 支持IScala REPL的交互式shell
  • 集成MLLib库
  • 可以运行在 Spark、H2O和Flink上
  • 支持稀疏矩阵和向量的加速计算
  • 和Apache Zeppelin整合转换矩阵tsv

Apache Mahout Samsara 算法包括

  • 随机矩阵的奇异值分解算法ssvd、dssvd
  • 随机主成分分析算法(spca、dspca)
  • 分布式Cholesky QR(thinQR)
  • 分布式正则化交替最小二乘法(dals)
  • 协同过滤算法::Item和Row的相似性
  • 朴素贝叶斯分类算法
  • 核心分布算法

我们可以使用Maven很方便地使用它:

  1. 从官网下载Maven,解压到本地,并配置环境变量,过程省略。

2. 在eclipse中配置maven

1

3. 新建一个Maven Project

2

4.修改项目的pom.xml,默认已经有junit依赖了,我们只需要添加:

保存后,选择Run As->Maven Clean,大约7s后,相关包下载完成。

3

5.新建一个UserCF类测试基于用户的协同过滤算法:

数据为: item.csv

6.运行输出为:

4

总结:maven在研究开源项目的时候的确很方便,同时要研究推荐算法,还必须对mahout源码进一步研究。

参考文档:http://mahout.apache.org/developers/developer-resources.html

官方网站:http://mahout.apache.org/
开源地址:https://github.com/apache/mahout

1 2 收藏

资源整理者简介:云中游

简介还没来得及写 :) 个人主页 · 贡献了4个资源 · 1


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer