2025-05-10 Rust版 已出炉!更快!更小!此版本不再维护。
在我的个人电脑上,约10亿字的中文互联网语料,统计2字词,不加标点符号,大约1分15秒出结果。
语料文件须为UTF-8编码。默认中文范围为4e00-9fff(16进制)。
每次进行两轮统计。假设要统计n字词:
- 第一轮:统计所有相邻的n个汉字组合出现的次数。
- 第二轮:每(2n-1)个相邻的字为一个滑动窗口,每个窗口中有n个词,滑动步长为n。根据第一轮统计的结果,统计窗口中词频最高的那一个词(最可能是词)。
- 优化:不使用StringBuilder,直接切片字符串
- 优化:升级为.NET 9框架
- 优化:经过跑分测试,改用性能最好的StringBuilder
- 优化:去除不必要的逻辑,去除命令行传参
- 修复:一处类型错误
- 优化:精简代码
- 优化:整理项目结构
- 并行计算,大幅提升性能
- 提升性能,漏洞修复
- 发布!