原始配置和词库由雾凇拼音的 af2480b commit 修改而来。
雾凇词库里的词比较全但也不是非常全,主要的问题是字频和词频不太对,废词有点多,于是重新制作。
主要维护词库、词频。在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。
然后使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。
使用方法同雾凇拼音。
下载本仓库的压缩包Code - Download ZIP(或者下载releases最新的source-code.zip),解压到如下路径即可
- windows:%APPDATA%\Rime
- mac
- 鼠须管路径为~/Library/Rime
- fcitx5-mac版路径为~/.local/share/fcitx5/rime
- linux
- fcitx5-rime路径为~/.local/share/fcitx5/rime
- fcitx5 flatpak版的路径~/.var/app/org.fcitx.Fcitx5/data/fcitx5/rime
- ibus-rime路径为~/.config/ibus/rime
- android
- fcitx5-安卓版路径为 /Android/data/org.fcitx.fcitx5.android/files/data/rime
- 同文路径为 /rime
- ios 仓输入法 目前已内置,也可以通过【输入方案设置 - 右 7503 角加号 - 方案下载 - 覆盖并部署】来更新墨奇音形。
如果会使用git基本操作,可以直接用git管理配置,首次:例如mac可以打开~/Library文件夹,然后git clone --depth 1 https://github.com/gaboolic/rime-frost Rime
后面在Rime文件夹执行git pull
即可
后续todo: 整理分词后词频比较高但词库没有的词加进去
统计中文语料中的英文词频
训练一个智能语言模型
雾凇词库 https://github.com/iDvel/rime-ice 白霜词库的初始词库、绝大部分配置来自雾凇词库
结巴中文分词 https://github.com/fxsjy/jieba
汉字转拼音(pypinyin) https://github.com/mozillazg/python-pinyin
MNBVC超大规模中文语料集 https://github.com/esbatmop/MNBVC 目前已有33TB数据量
kenlm https://github.com/kpu/kenlm 官网https://kheafield.com/code/kenlm/
kenlm教程、python调用 https://github.com/mattzheng/py-kenlm-model
墨奇音形 https://github.com/gaboolic/rime-shuangpin-fuzhuma 墨奇五笔整句 https://github.com/gaboolic/rime-wubi-sentence