Skip to content

Latest commit

 

History

History
387 lines (302 loc) · 20.6 KB

README.md

File metadata and controls

387 lines (302 loc) · 20.6 KB

词典

与官方词典不同之处会在此列出。若有不妥,可于讨论区商议。

1. danzi(单字)

Note

在官方的基础上补充了大量单字,已与官方差距很大了

由于 chaojizici 定位模糊,已弃用,其收录的绝大部分字已经移入 danzi 中,可参考此讨论

01.danzi.txt 中做了如下改动

微调拆字

点击展开
  • 修改了「嫠」、「釐」、「漦」三字的拆字,拆分为「𠩺」和剩余部分,其中「釐」字是多音字,读 时是「厘」的异体字,故删除该读音,(键道收录了一些其他异体字,单独删除这个异体字不太成立,故恢复)读 时是规范汉字,添加该读音
  • 修改了「夔」的拆字,拆分为上半部和「夂」,可从其小篆看出这样更为合理,也和新增的「夒」字统一
  • 修改了「亶」和「禀」的拆字,拆分为「㐭」和剩余部分
  • 修改了「蓂」字的拆字,拆分为「𫇦」和「昗」,与「蒙」、「荤」等字一致
  • 「枲」拆为「台」和「木」,因为「台」是其声符
  • 微调了一些顺序,避免过多全码的重码
  • 修改「篡」、「纂」拆字,拆分为「𮅕」和剩余部分
  • 修改「彀」、「毂」、「縠」、「觳」的拆字,将「𣪊」或「⿰𡉅殳」视为整体拆分出来,具体规则是只能拆分出「⿰𡉅殳」的字,则拆分「⿰𡉅殳」;若能拆分出「𣪊」的字,左下一横与剩余部分结合更紧密的,依旧拆分出「⿰𡉅殳」,否则拆分出「𣪊」
  • 修改「蠃」、「羸」、「赢」、「嬴」的拆字,将「𣎆」视为整体拆分出来,「𣎆」字本身拆为「吂」+「䏎」
  • 修改「舍」的拆字,拆分为「亼」+「古」
  • 修改「享」、「亨」的拆字,拆分为「⿱亠口」+「子/了」
  • 修改「塍」、「腾」、「縢」、「螣」、「䲢」的拆字,拆分为「𰮤」和剩余部分
  • 修改「甯」的拆字,拆分为「𫲽」+「用」

零星改动

点击展开
  • 删除了「臜」的错误编码 zsuozsuouv
  • 补全了「灀」、「蝠」、「珋」、「螯」、「祂」、「觍」、「碁」、「虵」几字缺失的全码
  • 添加了「㞌」、「蚖」、「述」三字缺失的简码
  • 在规范汉字中,苎 <=> 苧苧 <=> 薴 为两对不同的简繁关系;在简体环境下,「苧」应读作 níng 而非 zhù,故修改其读音编码
  • 「㽏」的编码错误,修复为 gfaivi
  • 「脎」「鹄」「笏」「俫」「嬷」「豗」「这qe」「囍」字简码再减一码,「砯」字简码再减两码(原为空码)
  • 根据 Issue 2 修正了多个单字简码(含 chaojizici 中的字)
  • 修改「蟷」为其简体形式「𬠅(⿰虫当)」(同时修改 cizu 中对应条目),如同「㞞」收录简体形式「𪨊(⿸尸从)」
  • 修正了「僰」字错误全码
  • 「䜣」字在现代汉语中读 xīn,补充该读音(非现代的读音,该字还有 yín 两个,键道收录 而未收 yín,暂不改动,待将来再议)
  • 修正了「鹢」字的形码错误
  • 分别增加了词组「噌吰」两字缺失的单字编码
  • 「衎」全码笔画错误,第二笔应为 u
  • 「琎」字全码笔画错误,末笔应为 v
  • 「斠」字笔画错误,由 iioo 改为 vvoo
  • 「栱」字笔画错误,由 vviu 改为 vvii
  • 「謦」字笔画错误,由 uoov 改为 voov
  • 「鋆」字笔画错误,由 voiv 改为 voio
  • 删除「猹」字 zha 的读音,此字为鲁迅生造,读作 chá,并非多音字
  • 修正「淖」字形码,由 aivi 改为 aivo
  • 修正「𠳐」字形码,由 ovvu 改为 ovvv
  • 「榖」字笔画错误,由 uoua 改为 voua
  • 「瀔」字笔画错误,由 auov 改为 avoo
  • 「臌」字笔画错误,由 uvov 改为 uvoo
  • 依据小篆字形,「夔」字拆为「⿳䒑⿲止自巳八」+「夂」更为合理,形码由 ouui 改为 ouua
  • 「洄」字笔画错误,由 aiav 改为 aiao
  • 「叚」字笔画错误,由 aviv 改为 avav
  • 「澼」字笔画错误,由 aauo 改为 aavu
  • 补充「𫛭」字缺少的飞键 km
  • 「麀」字拆字错误,由 ovai 改为 ovua
  • 「姞」字笔画错误,由 auuo 改为 auvo
  • 「蹐」字笔画错误,由 oiuo 改为 oiov
  • 「䴙」字笔画修正,由 avov 改为 avua
  • 「儦」字笔画错误,由 iova 改为 iovu
  • 「鞁」字笔画错误,由 viai 改为 viau
  • 「烻」字笔画错误,由 ovui 改为 ouui
  • 「掞」字笔画错误,由 iuoo 改为 iuou
  • 「骦」字笔画错误,由 aavi 改为 aavo
  • 「贰」字笔画错误,由 vvao 改为 vvva
  • 「䓬」字读音错误,由 zhao 改为 zhuo
  • 「偾」字笔画错误,由 iuov 改为 iuoi
  • 「喷」字笔画错误,由 ouov 改为 ouoi
  • 「僎」字笔画错误,由 iaaa 改为 iava
  • 「朏」字笔画错误,由 uoai 改为 uaii
  • 「涸」字笔画错误,由 aiav 改为 aiau
  • 「藠」字笔画错误,由 iioi 改为 iiui
  • 「劼」字笔画错误,由 uoau 改为 voau
  • 「儳」字笔画错误,由 ioai 改为 iuao
  • 「录」字笔画错误,由 avao 改为 avaa
  • 「呇」字笔画错误,由 aaoo 改为 aao
  • 「𫑡」字笔画错误,由 oaii 改为 oiai
  • 「腻」字笔画错误,由 uvvi 改为 uvvv
  • 「杻」字笔画错误,由 vavi 改为 vaiv
  • 「峱」字笔画错误,由 uaav 改为 uaai
  • 「玭」字笔画错误,由 vvvi 改为 vvva
  • 「雱」字笔画错误,由 viov 改为 voov
  • 「靬」字笔画错误,由 vavv 改为 vivv
  • 「泅」字笔画错误,由 aiav 改为 aiai
  • 「霨」字笔画错误,由 viav 改为 voav
  • 「嬬」字笔画错误,由 auvi 改为 auvo
  • 「哥」「歌」简码互换顺序
  • 「倓」字笔画错误,由 ioou 改为 ioui
  • 「梼」字笔画错误,由 vvvu 改为 vvvv
  • 「犨」字笔画错误,由 iovu 改为 iouv
  • 「侴」字笔画错误,由 ivav 改为 ivai
  • 「偰」字笔画错误,由 ivvi 改为 ivvv
  • 「𤫉」字笔画错误,由 vvou 改为 vvov
  • 「滫」字笔画错误,由 aiua 改为 aiiu
  • 「棪」字笔画错误,由 voou 改为 voui
  • 「靿」字笔画错误,由 vaaa 改为 viaa
  • 「蠹」字笔画错误,由 viia 改为 vivu
  • 「曾」字的拆分由 + 𭥴 改为 ⿱丷⿴囗⺌ + ,形码由 ouia 改为 ouoi
  • 「梗」「耕」简码互换顺序
  • 删除了「棤」字的错误音码 qh
  • 删除繁体的「軎」,添加其简体「𰹲」

集中改动

  • 根据 Issue 4 整理的表格,将大部分 chaojizici 中的字移入 danzi
  • 将可类推简化的繁体字改为简体字,需用繁体时,可使用简繁转换
  • 根据 Issue 7 所说,补充《新华字典》、《现代汉语词典》的字头

调整字序

  • 修改了「虻」「蠓」「幪」「蟒」「㠓」在 mr 这个声码下的顺序;修改前「蟒」「㠓」两字从未排过首位,修改后仅「蟒」字未排过首位
  • 修改了「蟊」「瞀」的全码顺序,两者都排过首位,因此全码按其简码顺序排序

2. cizu(词组)

cizu_raw.txt 中做了如下改动

音形错误

点击展开
  • 「立传」的音码 lkwt 错误,改为 lkft
  • 「佛科」音码 fjke 错误,且意义不明,予以删除
  • 「粘着」音码 nmzl 两字均错误,予以删除
  • 「的本」应为 dkbn 意思是真本;原拓本
  • 「的卢」应为 dklj
  • 「花札」注音错误,修正为 hqfs
  • 删除「好觉」音码 hzjh
  • 「噌吰」读音应为 chēnghóng,修正声码,并加入两字缺失的单字编码于 danzi 中
  • 删除「俩下」 liǎ xià
  • 删除「他俩」 tā liǎng
  • 「艾叶」读音应为 àiyè,修正其音码
  • 「嘸蝦米」改为规范汉字「呒虾米」,「呒」字表达「没有」之意时读作 ,因此音码改为 xxm
  • 删除「呆板」 ái bǎn
  • 「附赘悬肬」改为「附赘悬疣」
  • 「轧米」「轧差」「轧平」读音应为
  • 「轧膜」「轧光」读音应为
  • 「捧角」读音应为 jué

「血」字读音(xiěxuè)相关错误

Note

「血」字的读音争议颇大,此版若有其他使用者,烦请步入讨论区进行商议

已被键道收录的词语,以《现代汉语词典》为标准,修正明确了读音的词条

词语 正确读音 音码改动 备注
血球 xuè -xdqq +xhqq
血水 xuè -xdeb
血晕 xiě xuè +xhyw
采血 xiě -chxh
出血 xiě xuè +jjxd 单用该词为 xiě,复合词中读 xuè,如「脑出血」、「外出血」
放血 xiě -fpxh +fpxd
换血 xiě -htxh +htxd
咳血 xiě -kexh +kexd
尿血 xiě -ncxh +ncxd
气血 xuè -qkxd
验血 xiě -yfxh

以下是确定可修正的,但在《现代汉语词典》未收录的词条

词语 正确读音 音码改动 备注
加血 xiě -jsxh + jsxd 类似「采血」「放血」「换血」等,理解为 动词 + 血

其他不确定正误,未被《现代汉语词典》收录的词条暂未修改

「粘」(nián)作「黏」用的问题

过去「粘」有两个读音,zhānnián,其中读后者时同「黏」。1955 年《第一批异体字整理表》把「黏」作为「粘」之异体字淘汰,按彼时的标准,所有读 nián 的意项均须使用「粘」字;这样的标准持续到了 1988 年,《现代汉语通用字表》中,重新确认了「黏」为规范汉字,根据《新华字典》、《现代汉语词典》,「粘」读 nián 时有两个意思,一是「旧同“黏”」,二是「姓」,根据前述辞书,「粘」读 nián 表「黏」义为旧时用法,也有学者1认为,「粘」字除姓氏以外读 nián 的情况都应用「黏」。

  • 由「粘」改为「黏」的有「粘虫」、「粘度」、「粘结」、「粘米」、「粘着」(nián zhuó)、「防粘」、「胶粘」、「缠粘」、「粘合剂」、「粘滞」、「粘过」、「粘胶」、「粘聚」、「粘腻」、「粘人」、「粘网」
  • 「粘」「黏」皆存,删除「粘」的有「粘稠」、「粘附」、「粘合」、「粘着」(nián zhe)、「粘膜」、「粘土」、「粘液」、「粘性」

字词错误

点击展开
  • 删除了「港珠奥」、「港珠奥大桥」两个错字词
  • 「酷弊了」修改为「酷毙了」
  • 「唔呣」修改为「唔姆」(日语语气词「うむ」的音译)
  • 通用规范汉字表》发布后,「錢鍾書」的简体之规范写法应为「钱锺书」,予以修正
  • 「杨桃」之正确写法应为「阳桃」,正如「榴莲」之于「榴梿」、「芒果」之于「杧果」,因此添加「阳桃」
  • 「拽文」之正确写法应为「转文」,且「拽」并无上声之读法;有人考证所有读为上声的「拽」似乎均为「转」字之讹2,然以「拽」通「转」(zhuǎi)在如今是通行用法,因此仅补充《现代汉语词典》已收录的「转文」一词,其他词语暂不作修改
  • 「对蹠点」改为「对跖点」,「蹠」为「跖」之异体字
  • 「撅嘴」改为「噘嘴」,《通用规范汉字表》重新确立了「噘」字为规范汉字,不再作为「撅」的异体字
  • 「趟浑水」改为「蹚浑水」,「蹚」不再作为「趟」的异体字
  • 「竖勾」改为「竖钩」,词典解释:钩,汉字的笔画,附在横、竖等笔画的末端,成钩形
  • 「浮赢」改为「浮盈」
  • 「倒饬」改为「捯饬」
  • 「钱缪」 qián miào 改为「钱镠」 qián liú,见维基百科钱镠词条
  • 删除错误词组「模版」
  • 「煎饼果子」之正字为「煎饼馃子」,前者为俗字,添加后者并前置
  • 「傻冒」改为「傻帽」
  • 删除「吉它谱」
  • 删除「桔杆」
  • 「轧带」改为「扎带」,并修正读音错误
  • 修正「肌內效」中「内」字形错误
  • 「尿胞」改为「尿脬」,后者为正确写法
  • 「对的上」改为「对得上」
  • 「磕碜」改为「砢碜」
  • 删除「缏尸」
  • 「说的通」改为「说得通」
  • 「湿溚溚」改为「湿答答」
  • 「象散」改为「像散」
  • 删除「拉粑粑」,已有正确的「拉㞎㞎」
  • 「眼力劲儿」改为「眼力见儿」
  • 删除「针贬时弊」,应使用「针砭时弊」
  • 删除「辈份」,应使用「辈分」

「窜」「蹿」混用的问题

两字在《现代汉语词典》的释义如下

  1. 乱跑;乱逃(用于匪徒、敌军、兽类等):
    流~|抱头鼠~|一眨眼的工夫,这孩子又~到哪儿去了?
  2. 〈书〉放逐;驱逐。
  3. 改动(文字):
    ~改|点~。
蹿
  1. 向上或向前跳:
    身子往上一~把球接住|猫~到树上去了|他一下子~得很远。
  2. 〈方〉喷射:
    鼻子~血。

根据释义及《现代汉语词典》中的词条,修正相关词条如下(带星号为词典中收录的词条)

原词 修正后
窜升 蹿升*
窜红 蹿红*
窜稀 蹿稀

飞键问题

  • 「病兆」缺失 bgqz 音码补全,原有的「并找」删除
  • 「八爪鱼」、「广府」、「凄怆」、「爪哇」、「床褥」、「不折」、「够着 zhe」缺失飞键音码补全
  • 「百褶裙」缺失飞键 bqq,补充飞键并调整词序,置于「不放弃」之后

无谓简码

Issue 8 查看进度

点击展开
  • 「难听」的音码 nftg 并无重码问题,将其由简码 nft 改为全音码 nftg
  • 「早了」的音码 zzle 并无重码问题,将其由简码 zzl 改为全音码 zzle,添加「在做了」到音码 zzl
  • 「没人」有全音码 mwrn,但同时有简码 mwr,删除简码,添加了「没外人」
  • 「哈哈」有全音码 hshs,以及 630 hoi,但同时有简码 hsh,删除简码,添加了「欢送会」(正好词库里也有「欢迎会」)
  • 「负数」无重码问题,但有简码 fje,删除简码,添加了「这就是」(同时补充其飞键 qje 并微调了顺序,放在「这件事」前)
  • 「哪里」有全音码 nslk,以及 630 nia,不应占用简码 nsl,改为「那算了」
  • 「浓了」删除音码 nyl,加入 nyle,并相应调整顺序
  • 「很强」删除音码 hnq
  • 「练习」有 630 编码 lao,删除简码 lmx
  • 「北京」删除 bwj
  • 「高效」删除 gzx
  • 「热爱」删除 rex,替换为「人身险」
  • 「急于」删除 jky,添加 jkyl
  • 「一键」删除 ykj,替换为「一口价」,调整相应词序

冗余编码

  • 删除了「待在」、「含糊其辞」、「小笼包」多余的五码(实际上因为本仓库的 sanity_check.sh 脚本自动删除了靠后的编码,在一开始编写文档时并未意识到)

通过脚本 make_dicts.sh 做出的改动

  • 默认降低了 630 词汇对应全音码词的权重,如「不能」有 630 简码 ba,则降低其全音码 bjnr 的权重至 10(可以在生成词典时,不添加 --deweight 选项来保持原有权重)

另外提供了 cizu_append.txt.incizu_modify.txt.in 作为词典补丁的例子,将其扩展名 .in 删除后,可以通过 Github Actions 生成补丁后的词典,详见词典生成脚本说明

其他

点击展开
  • 原位于 chaojizici 中的「蝜蝂」之简体形式「𮔅蝂」放入 cizu
  • 「烦琐」为推荐词形,放到「繁琐」之前
  • 「号啕」、「号啕大哭」为推荐词形,放到「嚎啕」、「嚎啕大哭」之前
  • 「啰唆」为推荐词形,放到「啰嗦」之前
  • 「泥子」为推荐词形,放到「腻子」前
  • 删除「陆分」,对于大写数字,推荐有需要的用户自行添加
  • 「不高兴」、「不敢想」无意义重码,修改其权重消除重码
  • 「啦啦队」为推荐词形,放到「拉拉队」之前
  • 「隔三岔五」为推荐词形,放到「隔三差五」之前
  • 「破的」 pldi 音码错误,改为 pldk
  • 「蒜蓉」为推荐词形,放在「蒜茸」之前
  • 「宿诺」为推荐词形,放在「夙诺」之前
  • 「贝斯」为推荐词形,放在「贝司」之前
  • 删除繁体的「然後」、「之後」
  • 「吃里爬外」为推荐词形,放在「吃里扒外」之前

私货

  • 添加「仓输入法」,Rime 的 iOS 前端应用
  • 添加「付啸」,此为仓输入法作者名
  • 添加「玉兔毫」,由 AutoHotkey 实现的 Rime 输入法引擎前端

3. fuhao(符号)

03.fuhao.txt 中做了如下改动

  • 整体删除了官方 lianjie(链接)词典,保留了其中几个有用的项目放到 fuhao(符号)词典里,添加了详尽教程的链接
  • 「× ojh」改为「✗ ow」(叉),「√ og」改为「✓ og」(钩)
  • 根据反馈,删除了分号一项
  • 添加了键道图谱一项 otp

4. buchong(补充)

原位于 chaojizici 中的多音节汉字及「橒」字放入此码表(「橒」字已移入 danzi根据opencc-tonggui简化为「枟」而移除)

5. chaojizici(超级字词)

由于 chaojizici 定位模糊,已弃用,可参考此讨论,因此本节提到的修改已经过时。

删除重复

以下汉字在 danzi 中已存在,已删除

汉字 编码 汉字 编码 汉字 编码
mliuiu tsoaai yzvvvv(亦是形码错误)

补全简码

以下汉字简码缺失,已补全

汉字 简码 汉字 简码 汉字 简码 汉字 简码
dcava dfooi dsooi fkuau
geiiv hqvii hzuou jkvaa
jtvu lzuo mzvu nmuai
qciao qhui sloao wfai
wfavi who xbvi 𬘓 xwaau
ybiio ybvvo yeoia yeovu
𪩘 yfiau yfooi zsovi jfiio

简码冲突

  • 「𭎂」(⿰土从)简码与「鬷」冲突,多加一码避重
  • 「甴」(zhá)简码 fsia 与「眨」冲突,多加一码避重
  • 「甴」(yóu)的所有可能简码均与其他单字简码冲突,仅保留全码

简码空闲

  • 「𫫇」字简码再减一码亦无冲突

添加汉字

  • 添加了元素周期表使用的未收录字:「鿔」、「𫟷」、「鿭」、「鿬」、「鿫」

6. 630(原 wxw)

未做改动

Footnotes

  1. “黏”跟“粘”用法不同,(页面存档备份,存于互联网档案馆)

  2. 试说「拽」「转」zhuai 的几个意义,(页面存档备份,存于互联网档案馆)