昌旭的博客


机器学习、编程和数学


中文分词库

列举一些常用的中文分词库

  • SCWS:基于词频词典的机械中文分词引擎,能将一整段汉字基本正确地分词。
  • ICTCLAS:最早的中文开源分词项目,在国内973专家组组织的评测活动中获得第一名,在第一节国际中文处理研究机构SigHan组织的评测中获得了多项第一。ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD、Windows等系统,支持C/C+、C#、Delphi、Java等主流开发语言
  • HTTPCWS:基于HTTP协议的开源中文分词系统。
  • 庖丁解牛分词:仅支持Java,且提供lucence接口。
  • CC-CEDICT:提供一份以汉语拼音为中文辅助的汉英词典,Chrome中文分词版即使用本库。
  • 结巴(Jieba)中文分词:一个Python中文分词库