The repository contains the corpus data set required by the IMLIP profiling task.
该数据集由Flickr8k英文数据集翻译后经人工校对而成
- Uighur_train.xlsx 为训练集对应的维语语料
- Uighur_val.xlsx 为验证集对应的维语语料
- Mongol_train.xlsx 为训练集对应的蒙语语料
- Mongol_val.xlsx 为验证集对应的蒙语语料
- Tibetan_train.xlsx 为训练集对应的藏语语料
- Tibetan_val.xlsx 为验证集对应的藏语语料
- 每个txt文件中数据格式
- 文件名#语料类型#编码# 描述文本
- 语料类型
- uyc:维语
- mnc:蒙语
- tic:藏语
英文数据集见链接 提取码:s4be