10000 GitHub - Mintimate/rime-frost: 白霜词库:蒹葭苍苍,白露为霜。基于雾凇拼音重制的,更纯净、词频准确、智能的词库。使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化。白霜词库是目前rime方案下最好的词库,在不使用智能模型的情况下可以超越使用智能模型的词库方案。目前使用白霜词库的方案有:墨奇音形(双拼辅)https://github.com/gaboolic/rime-shuangpin-fuzhuma 、墨奇五笔整句https://github.com/gaboolic/rime-wubi-sentence
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

白霜词库:蒹葭苍苍,白露为霜。基于雾凇拼音重制的,更纯净、词频准确、智能的词库。使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化。白霜词库是目前rime方案下最好的词库,在不使用智能模型的情况下可以超越使用智能模型的词库方案。目前使用白霜词库的方案有:墨奇音形(双拼辅)https://github.com/gaboolic/rime-shuangpin-fuzhuma 、墨奇五笔整句https://github.com/gaboolic/rime-wubi-sentence

License

Notifications You must be signed in to change notification settings

Mintimate/rime-frost

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

白霜拼音

原始配置和词库由雾凇拼音af2480b commit 修改而来。

雾凇词库里的词比较全但也不是非常全,主要的问题是字频和词频不太对,废词有点多,于是重新制作。

主要维护词库、词频。在雾凇词库的基础上删除了不健康词汇,删除了大量冷僻词(频率==1 且分词器分不出的词),删除/调整了诸如“的吧”、“的了”这种不是词的词。手动大量修改了字频 词频。第一步是做了减法。

然后使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化,以达到更好的输入效果。全拼和双拼都可以使用。

使用方法同雾凇拼音。

如何安装&配置文件路径

下载本仓库的压缩包Code - Download ZIP(或者下载releases最新的source-code.zip),解压到如下路径即可

  • windows:%APPDATA%\Rime
  • mac
  • linux
    • fcitx5-rime路径为~/.local/share/fcitx5/rime
    • fcitx5 flatpak版的路径~/.var/app/org.fcitx.Fcitx5/data/fcitx5/rime
    • ibus-rime路径为~/.config/ibus/rime
  • android
  • ios 仓输入法 目前已内置,也可以通过【输入方案设置 - 右 7503 角加号 - 方案下载 - 覆盖并部署】来更新墨奇音形。

如果会使用git基本操作,可以直接用git管理配置,首次:例如mac可以打开~/Library文件夹,然后git clone --depth 1 https://github.com/gaboolic/rime-frost Rime 后面在Rime文件夹执行git pull即可

无智能模型时的输入效果 alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

alt text

后续todo: 整理分词后词频比较高但词库没有的词加进去

统计中文语料中的英文词频

训练一个智能语言模型

鸣谢

雾凇词库 https://github.com/iDvel/rime-ice 白霜词库的初始词库、绝大部分配置来自雾凇词库

结巴中文分词 https://github.com/fxsjy/jieba

汉字转拼音(pypinyin) https://github.com/mozillazg/python-pinyin

MNBVC超大规模中文语料集 https://github.com/esbatmop/MNBVC 目前已有33TB数据量

kenlm https://github.com/kpu/kenlm 官网https://kheafield.com/code/kenlm/

kenlm教程、python调用 https://github.com/mattzheng/py-kenlm-model

友情链接

墨奇音形 https://github.com/gaboolic/rime-shuangpin-fuzhuma 墨奇五笔整句 https://github.com/gaboolic/rime-wubi-sentence

Star History

Star History Chart

About

白霜词库:蒹葭苍苍,白露为霜。基于雾凇拼音重制的,更纯净、词频准确、智能的词库。使用745396750字的高质量语料,进行分词,重新统计字频、词频,归一化。白霜词库是目前rime方案下最好的词库,在不使用智能模型的情况下可以超越使用智能模型的词库方案。目前使用白霜词库的方案有:墨奇音形(双拼辅)https://github.com/gaboolic/rime-shuangpin-fuzhuma 、墨奇五笔整句https://github.com/gaboolic/rime-wubi-sentence

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Lua 45.8%
  • Python 29.0%
  • Go 25.2%
0