- 基于 CPU 的高性能、持续优化 中文分词器。
- 基于 C 优化的 Python 接口分词器,单进程运行性能达 5.2 万字/秒,多个分词工具性能对比
- 基于 CRF 算法,精细优化的 字符特征选择,可进行特征增减,节约内存,模型特征说明
- 将词典加入模型,共同预测分词序列,流程一致性强,词典配置说明
- 将规则加入模型,有效克服某些类型文本受限于模型处理的情况,分词-添加正则
- 支持词性标注功能,与 JioNLP 联合实现关键短语抽取、新闻地域识别 等功能
- Git 方式
$ git clone https://github.com/dongrixinyu/jiojio
$ cd jiojio
$ pip install .
- pip 方式
$ pip install jiojio
- 基础方式
>>> import jiojio
>>> jiojio.init()
>>> words = jiojio.cut('我爱北京天安门!')
>>> print(words)
# ['我', '爱', '北京', '天安门', '!']
- 开发分词在线版 JioNLP在线版 可快速试用分词功能
- 对分词器效果做长期优化