jiojio

- 基于CPU的高性能、持续迭代模型、简便中文分词器

a convenient Chinese word segmentation tool

适用场景

基于 CPU 的高性能、持续优化 中文分词器。

功能

基于 C 优化的 Python 接口分词器，单进程运行性能达 5.2 万字/秒，多个分词工具性能对比
网页版 JioNLP源站，可快速试用分词、词性标注功能
基于 CRF 算法，精细优化的 字符特征工程，模型特征说明
对模型文件的尽力压缩，500万特征参数，模型文件大小30M，方便 pip 安装
将词典静态、动态加入模型，共同预测分词序列，流程一致性强，词典配置说明
将规则加入模型，有效克服某些类型文本受限于模型处理的情况，分词-添加正则
支持词性标注功能，与 JioNLP 联合实现关键短语抽取、新闻地域识别 等功能

安装

pip 方式（稳定版本）

$ pip install jiojio

Git 方式（开发版本）

$ git clone https://github.com/dongrixinyu/jiojio
$ cd jiojio
$ pip install .

使用

基础方式

>>> import jiojio
>>> jiojio.init()
>>> print(jiojio.cut('开源软件应秉持全人类共享的精神，搞封闭式是行不通的。'))

# ['开源', '软件', '应', '秉持', '全人类', '共享', '的', '精神', '，', '搞', '封闭式', '是', '行', '不通', '的', '。']
# 可通过 jiojio.help() 获取基本使用方式说明
# 可通过 print(jiojio.init.__doc__) 获取模型初始化的各类参数

其它参数与设置

关于 jiojio 分词器的一些问答

与jiojio有关的问答

TODO

对分词器效果做标注数据更新，模型长期优化

交流群聊

欢迎加入自然语言处理NLP交流群，搜索wx公众号“一个Bug”，或扫以下码即可入群

Name		Name	Last commit message	Last commit date
Latest commit History 134 Commits
docs		docs
example		example
jiojio		jiojio
test		test
.gitignore		.gitignore
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
TODO.txt		TODO.txt
py_installer.sh		py_installer.sh
requirements.txt		requirements.txt
run_test.sh		run_test.sh
setup.py		setup.py
test.py		test.py
test_speed.sh		test_speed.sh
to_be_fixed_words.txt		to_be_fixed_words.txt
training.py		training.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

jiojio

- 基于CPU的高性能、持续迭代模型、简便中文分词器

a convenient Chinese word segmentation tool

适用场景

功能

安装

使用

关于 jiojio 分词器的一些问答

TODO

交流群聊

About

Releases

Packages

Languages

License

einyboycode/jiojio

Folders and files

Latest commit

History

Repository files navigation

jiojio

- 基于CPU的高性能、持续迭代模型、简便中文分词器

a convenient Chinese word segmentation tool

适用场景

功能

安装

使用

关于 jiojio 分词器的一些问答

TODO

交流群聊

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages