Skip to content

A convenient Chinese word segmentation tool 简便中文分词器

License

Notifications You must be signed in to change notification settings

zhupite233/jiojio

 
 

Repository files navigation

jiojio

- 简便中文分词器 a convenient Chinese word segmentation tool

适用场景

  • 基于 CPU高性能持续优化 中文分词器。

功能

  • 基于 C 优化的 Python 接口分词器,单进程运行性能达 5.2 万字/秒多个分词工具性能对比
  • 基于 CRF 算法,精细优化的 字符特征选择,可进行特征增减,节约内存,模型特征说明
  • 将词典加入模型,共同预测分词序列,流程一致性强,词典配置说明
  • 将规则加入模型,有效克服某些类型文本受限于模型处理的情况,分词-添加正则
  • 支持词性标注功能,与 JioNLP 联合实现关键短语抽取新闻地域识别 等功能

安装

  • Git 方式
$ git clone https://github.com/dongrixinyu/jiojio
$ cd jiojio
$ pip install .
  • pip 方式
$ pip install jiojio

使用

  • 基础方式
>>> import jiojio
>>> jiojio.init()
>>> words = jiojio.cut('我爱北京天安门!')
>>> print(words)

# ['我', '爱', '北京', '天安门', '!']

其它参数与设置

关于 jiojio 分词器的一些问答

TODO

  • 开发分词在线版 JioNLP在线版 可快速试用分词功能
  • 对分词器效果做长期优化

About

A convenient Chinese word segmentation tool 简便中文分词器

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Python 87.1%
  • C 12.1%
  • Other 0.8%