中文盲分词词频统计器

2025-05-10 Rust版已出炉！更快！更小！此版本不再维护。

在我的个人电脑上，约10亿字的中文互联网语料，统计2字词，不加标点符号，大约1分15秒出结果。

语料文件须为UTF-8编码。默认中文范围为4e00-9fff（16进制）。

环境依赖

.NET 9.0运行时

统计原理：

每次进行两轮统计。假设要统计n字词：

第一轮：统计所有相邻的n个汉字组合出现的次数。
第二轮：每(2n-1)个相邻的字为一个滑动窗口，每个窗口中有n个词，滑动步长为n。根据第一轮统计的结果，统计窗口中词频最高的那一个词（最可能是词）。

更新日志

v0.5.1 - 20250127

优化：不使用StringBuilder，直接切片字符串

v0.5.0 - 20241203

优化：升级为.NET 9框架

v0.4.0 - 20240831

优化：经过跑分测试，改用性能最好的StringBuilder
优化：去除不必要的逻辑，去除命令行传参

v0.3.2 - 20240824

修复：一处类型错误
优化：精简代码
优化：整理项目结构

v0.3.0 - 20240619

并行计算，大幅提升性能

v0.2.2 - 20240617

提升性能，漏洞修复

v0.1.0 - 20240617

发布！

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
WordFreqCounter		WordFreqCounter
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
WordFreqCounter.sln		WordFreqCounter.sln

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

中文盲分词词频统计器

2025-05-10 Rust版已出炉！更快！更小！此版本不再维护。

环境依赖

统计原理：

更新日志

v0.5.1 - 20250127

v0.5.0 - 20241203

v0.4.0 - 20240831

v0.3.2 - 20240824

v0.3.0 - 20240619

v0.2.2 - 20240617

v0.1.0 - 20240617

About

Uh oh!

Releases 7

Uh oh!

Languages

License

GarthTB/WordFreqCounter

Folders and files

Latest commit

History

Repository files navigation

中文盲分词词频统计器

2025-05-10 Rust版 已出炉！更快！更小！此版本不再维护。

环境依赖

统计原理：

更新日志

v0.5.1 - 20250127

v0.5.0 - 20241203

v0.4.0 - 20240831

v0.3.2 - 20240824

v0.3.0 - 20240619

v0.2.2 - 20240617

v0.1.0 - 20240617

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 7

Uh oh!

Languages

2025-05-10 Rust版已出炉！更快！更小！此版本不再维护。