这里用来测试一下word2vec实验
这里的数据我们使用网上下载的四大名著的文本作为我们的训练数据。
数据位于data/corpus目录下。
数据处理脚本为:
输出结果除了gensim实验对应的数据文件为.txt文件外,其余实验对应的数据文件均为对应目录下的.pkl文件,为pickle数据包。
gensim实验脚本如下:
tensorflow的实验脚本如下:
- cbow实验:cbow_tf_exp.py
- skip gram实验:skip_gram_tf_exp.py
- 直接生成实验:trival_tf_exp.py
pytorch的实验脚本如下:
- cbow实验:cbow_torch_exp.py
- skip gram实验:
- 使用内置cross entropy函数:skip_gram_torch_exp_v2.py
- 使用自定义cross entropy函数:skip_gram_torch_exp.py
评测结果可以参考两个notebook文件:
- word2vec测试:模型效果评测.ipynb
- cross entropy测试:CrossEntropy测试.ipynb
更为详细的结论整理可以参考我的博客内容: