LingPipe:自然语言处理工具包

lingpipe

LingPipe是运用计算机语言学处理文本信息的工具包,可用于如下任务:

  • 在新闻中查找人名、组织或位置。
  • 自动分类Twitter搜索结果。
  • 提供查询的正确拼写建议。

架构

LingPipe的架构是有效的、可扩展的、可重用的、健壮的。亮点包括:

  • Java API源码和单元测试;
  • 多语种、多域、集成型模式;
  • 用新任务的新数据训练;
  • n最优统计的置信度估计输出;
  • 在线训练;
  • 线程安全模型和并发读同步独占写(concurrent-read exclusive-write)解码器;
  • 字符编码敏感的I/O。

教程列表

  • 主题分类
    通过人物语言模型分类新闻文章。
  • 命名实体识别
    介绍如何运行、训练和评估命名实体识别器。
  • 聚类
    单连接和完整连接的层次聚类器图,包括各种聚类评估技术。
  • 词性标注
    介绍如何从语料库用标签解析器和处理器训练词性标注器,如何编译模型到磁盘并读取,如何运行并评估第一次最佳、第n次最佳及置信得分标注器(confidence-scored taggers)。
  • 句子检测
    介绍如何使用分块接口检测语句等。
  • 拼写校正
    类似搜索引擎的拼写检查,介绍如何调整和训练模型。
  • 数据库文本挖掘
    第一部分使用MEDLINE引用JDBC填充MySQL数据库。第二部分运行数据库脚本创建表和实体。第三部分介绍如何通过数据库查询做数据库文本挖掘。
  • 字符串比较
    介绍如何使用距离和接近措施结束字符串,包括加权编辑距离,TF/IDF距离等。
  • 兴趣短语检测
    从一个语料库中统计显著多字词组和相对的“热词”的提取
  • 人物语言建模
    训练和调整人物语言模型。
  • 中文分词
    介绍了如何细分中文字符成不同的话。
  • 连接符和音节
    展示了如何从训练数据字典中训练连字符和音节。例如荷兰语、英语和德语。
  • 情感分析
    使用语言模型的分类做电影评论的情感分析。
  • 语言识别
    语言识别作为分类问题
  • 奇异值分解
    使用奇异值分解因子矩阵。解释了如何处理位置值估算、正规化、调优参数设置。
  • 逻辑回归
    介绍了如何为判别标准估计正规化多项式逻辑回归模型。
  • 期望最大化
    介绍了如何为半监督学习(semi-supervised learning)各种任务使用期望最大化。
  • 词义消歧
    词义消歧是根据一个词的上下文确定一个词的含义的过程,用于分类、搜索、聚类等。
  • Eclipse
    使用Eclipse IDE编译和测试LingPipe的基本说明。

开发文档

官方网站:http://alias-i.com/lingpipe/index.html
开源地址:https://github.com/hvtuananh/lingpipe

打赏支持我整理更多优质资源,谢谢!

打赏编辑

打赏支持我整理更多优质资源,谢谢!

任选一种支付方式

1 收藏

资源整理者简介:刘立华

java开发,技术爱好者,乐于助人。 个人主页 · 贡献了32个资源 · 1 ·  


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1440 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer