Chardet:通用编码检测器

chardet

屏幕快照 2016-07-18 下午10.36.11

支持的语言

  • ASCII、UTF-8、UTF-16(2种变体)、UTF-32(4种变体)
  • Big5、GB2312、EUC-TW、HZ-GB-2312、ISO-2022-CN(中文简体和繁体)
  • EUC-JP、SHIFT_JIS、CP932、ISO-2022-JP(日语)
  • EUC-KR、ISO-2022-KR(韩语)
  • KOI8-R、MacCyrillic、IBM855、IBM866、ISO-8859-5、windows-1251(斯拉夫语)
  • ISO-8859-5、windows-1251(保加利亚语)
  • ISO-8859-1、windows-1252(西欧语系)
  • ISO-8859-7、windows-1253(希腊语)
  • ISO-8859-8、windows-1255(希伯来语)
  • TIS-620(泰语)

注: ISO-8859-2 和windows-1250 (Hungarian) 检测器模型有待重新训练,临时还不可用。

要求Python 2.6及以上版本

安装

示例

命令行工具

库使用

关于

这是对Mark Pilgrim’s chardet的一个延续。 以前,python2.x和python3.x两个版本需要维护。我们最近融合了 Ian Cordasco’s charade 的fork,从而可以同时支持2.6+版本。

开发文档

官方网站:http://chardet.readthedocs.org
开源地址:https://github.com/chardet/chardet

1 收藏

资源整理者简介:beyondwu

简介还没来得及写 :) 个人主页 · 贡献了14个资源 · 1


直接登录

推荐关注

按分类快速查找

关于资源导航
  • 伯乐在线资源导航收录优秀的工具资源。内容覆盖开发、设计、产品和管理等IT互联网行业相关的领域。目前已经收录 1439 项工具资源。
    推送伯乐头条热点内容微信号:jobbole 分享干货的技术类微信号:iProgrammer