Koala队(2/964) | 赛题链接
根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。 标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」,话题之间存在父子关系,并通过父子关系组织成一张有向无环图(DAG)。
- data 原始数据目录
- cache 缓存文件路径
- models 模型代码
- train 模型训练脚本
- ensemable 集成模型训练及融合脚本
- utils 数据处理及其他脚本
## 构建线下训练验证集,生成序列文件
python3 ./utils/data_preprocess.py
## 后续即可运行train目录下脚本训练模型