Mallet:NLP工具,支持文档分类、聚类、主题建模

mallet

MALLET是一个Java工具,提供了统计学自然语言处理、文档分类、聚类、主题建模、信息提取和其它机器学习文本应用。

主要功能

文档分类

MALLET为文档分类(新手指南开发指南)提供了丰富的工具:
  • 文本到“feature”转换的高效方法
  • 支持各种算法:朴素贝叶斯、最大熵和决策树
  • 使用通用指标进行分类器性能评估

除了文档分类,MALLET还包含以下功能:

序列标注

序列标注(新手指南开发者指南)提供了诸如从文本提取命名实体等功能。支持的算法:
  • 隐马尔可夫模型
  • 最大熵马尔可夫模型
  • 条件随机字段

这些方法在可扩展系统中实现为有限状态转换器。

主题建模

主题建模(新手指南)对于海量无标签文本分析非常有用。MALLET主题建模工具包含:
  • 基于采样的狄利赫雷分布高效实现
  • 柏青哥分配(Pachinko Allocation)
  • 分层LDA

优化

MALLET中的很多算法依赖数值优化,包括有限存储BFGS的高效实现(开发指南)。

导入数据

除了复杂的机器学习应用,MALLET还提供了将文本高效转换为数值表达的方法,后者处理器来更加高效。
处理过程通过一个灵活的“管道”系统处理独立的任务,比如字符串分词、删除停用词、将序列转换为计数向量。(新手指南开发指南

GRMM

GRMM是MALLET的一个插件,支持图形模型推理,可以用任意的图形结构训练。

安装

Windows安装:解压MALLET后,将环境变量 %MALLET_HOME% 设置为MALLET目录。在所有的命令行例子中,将bin\mallet替换为bin/mallet。

开发版安装:要下载最新的MALLET 2.0,可以从GitHub仓库上下载:

安装Apache ant,打开终端命令行,先切换到mallet目录,然后执行:

编译通过会提示”BUILD SUCCESSFUL”,表示Mallet准备就绪。

编译单独的”mallet.jar”,执行:

可以在dist目录中找到该文件。

使用

安装完成后,可以使用下面命令:

输入 bin/mallet 可以列出所有可用命令列表,使用 --help 可以查看所有参数使用的帮助说明。

开发资源

协议

MALLET 基于CPL(Common Public License)协议开源发布。

官方网站:http://mallet.cs.umass.edu/
开源地址:https://github.com/mimno/Mallet

打赏支持我整理更多优质资源,谢谢!

打赏编辑

打赏支持我整理更多优质资源,谢谢!

任选一种支付方式

1 1 收藏

资源整理者简介:唐尤华

唐尤华:我喜欢程序员,他们单纯、固执、容易体会到成就感;面对压力,能够挑灯夜战不眠不休;面对困难,能够迎难而上挑战自我。他们也会感到困惑与傍徨,但每个程序员的心中都有一个比尔盖茨或是乔布斯的梦想“用智慧开创属于自己的事业”。我想说的是,其实我是一个程序员。 个人主页 · 贡献了108个资源 · 18 ·    


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer