本仓库为基于CBLUEbenchmark/CBLUE更改的,对CMeEE-V2数据集进行命名实体识别(NER)任务的代码。更改主要体现在:
- 更换数据集:只保留了对CMeEE数据集进行NER任务的代码,并改为处理CMeEE-V2数据集。
- 传参方式:为了便于调试
run_classifier.py
时不传参,直接写了参数的默认值。并将do_train
与do_predict
的传参逻辑进行了调整。 - 目录结构:调整了
run_classifier.py
文件的位置和data
目录的位置。
├─CBLUEbenchmark_NER
│ │ .gitignore
│ │ README.md
│ │ run_classifier.py
│ │ run_ee.sh
│ ├─cblue
│ └─CBLUEDatasets
│ └─CMeEE-V2
├─data
│ ├─model_data
│ │ └─chinese-wwm-ext-pytorch
│ │ config.json
│ │ pytorch_model.bin
│ │ vocab.txt
│ ├─output
│ └─result_output
python3 / pytorch 1.7 / transformers 4.5.1 / jieba / gensim / sklearn
在准备好所需环境、预训练模型和语料数据集后,调整参数并运行run_classifier.py
即可:
- 方式1,不传参,使用默认参数:直接运行
run_classifier.py
。默认训练、不预测。 - 方式2,传参,覆盖默认参数:在Linux环境下,修改
run_ee.sh
中的参数。运行bash run_ee.sh
训练,或bash run_ee.sh predict
预测。