word2vec-Chinese

a tutorial for training Chinese-word2vec using Wiki corpus

word2vec词向量是NLP领域的基础，如何快速地训练出符合自己项目预期的词向量是必要的。

【注】：本项目主要目的在于快速的构建通用中文word2vec词向量，关于word2vec原理后期有时间再补充（nlp新手，文中不足之处欢迎各位大神批评指正，亦可共同交流学习）。

0. 环境要求

python 3.6
依赖：numpy，gensim，opencc，jieba

1. 获取中文语料库

想要训练好word2vec模型，一份高质量的中文语料库是必要的，目前常用质量较好的中文语料库为维基百科的中文语料库。

维基百科的中文语料库质量高、领域广泛而且开放，其每月会将所有条目打包供大家下载使用，可以点击： https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版（也可以访问：https://dumps.wikimedia.org/zhwiki/ 获取历史版本）。
由于某些的原因，中文维基百科的条目到目前只有91万多条，而百度百科、互动百科都有千万条了（英文维基百科也有上千万了）。尽管中文维基百科语料条数较少，但仍不失为最高质量的中文语料库。（ps：百度百科、互动百科多用爬虫爬取内容，不少记录质量差。）

2. 中文语料库预处理

2.1 将xml的Wiki数据转换为text格式

python的gensim包中提供了WikiCorpus方法可以直接处理Wiki的语料库（xml的baz格式，无需解压），具体可参见脚本parse_zhwiki_corpus.py。
执行以下命令可以将xml的Wiki语料库转换为txt格式：

python parse_zhwiki.py -i zhwiki-latest-pages-articles.xml.bz2 -o corpus.zhwiki.txt

生成的corpus.zhwiki.txt有1.04G，共有32w+的documents（每行为1个doc）。

2.2 中文简繁体转换

Wiki语料库中的文档含有繁体中文，可以利用工具包opencc将繁体转换为简体，具体可参见脚本chinese_t2s.py。
执行以下命令可以将语料库中的繁体中文转化为简体中文：

python chinese_t2s.py -i corpus.zhwiki.txt -o corpus.zhwiki.simplified.txt

得到简体中文的Wiki语料库corpus.zhwiki.simplified.txt。

2.3 去除英文和空格

现在得到的语料库中有许多英文（也有些许日文、德文等），为避免影响所训练的词向量效果，我们将其中的英文以及空格做了删除（其他日文、德文等后续有时间再进行处理），具体可参见脚本remove_en_blank.py。
执行以下命令可以将语料库中的英文以及空格删除：

python remove_en_blank.py -i corpus.zhwiki.simplified.txt -o corpus.zhwiki.simplified.done.txt

得到去除英文和空格的中文语料库corpus.zhwiki.simplified.done.txt。

2.4 中文分词（jieba分词）

想要完成word2vec的训练，语料库需要进行分词处理，这里采用python的jieba分词，具体可参见脚本corpus_zhwiki_seg.py。
执行以下命令可以将语料库中的中文语料进行分词：

python corpus_zhwiki_seg.py -i corpus.zhwiki.simplified.done.txt -o corpus.zhwiki.segwithb.txt

得到分词之后的中文语料库corpus.zhwiki.segwithb.txt。

3. word2vec模型训练

python的gensim模块提供了word2vec训练的函数，极大地方便了模型训练的过程。具体可参考脚本word2vec_train.py。
执行以下命令得到所训练的word2vec模型和词向量：

python word2vec_train.py -i corpus.zhwiki.segwithb.txt -m zhwiki.word2vec.model -v zhwiki.word2vec.vectors -s 400 -w 5 -n 5

得到基于Wiki中文语料库训练好的word2vec模型和词向量：
word2vec模型文件：
(1) zhwiki.word2vec.model
(2) zhwiki.word2vec.model.trainables.syn1neg.npy
(3) zhwiki.word2vec.model.wv.vectors.npy
word2vec词向量文件：
zhwiki.word2vec.vectors

4. word2vec模型测试

模型训练好之后，对模型进行测试，具体可参见脚本word2vec_test.py。
示例代码如下：

from gensim.models import Word2Vec
word2vec_model = Word2Vec.load(zhwiki.word2vec.model)
# 查看词向量
print('北京：', word2vec_model['北京'])
# 查看相似词
sim_words = word2vec_model.most_similar('北京')
for w in sim_words:
print(w)

参考与致谢

https://github.com/zishuaiz/ChineseWord2Vec
https://www.jianshu.com/p/ec27062bd453
https://blog.csdn.net/jdbc/article/details/59483767
ps:参考文献无法一一列举，如有问题请联系我添加！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

word2vec-Chinese

0. 环境要求

1. 获取中文语料库

2. 中文语料库预处理

2.1 将xml的Wiki数据转换为text格式

2.2 中文简繁体转换

2.3 去除英文和空格

2.4 中文分词（jieba分词）

3. word2vec模型训练

4. word2vec模型测试

参考与致谢

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitignore		.gitignore
README.md		README.md
chinese_t2s.py		chinese_t2s.py
corpus_zhwiki_seg.py		corpus_zhwiki_seg.py
parse_zhwiki_corpus.py		parse_zhwiki_corpus.py
remove_en_blank.py		remove_en_blank.py
word2vec_test.py		word2vec_test.py
word2vec_train.py		word2vec_train.py

zhonglin516/word2vec-Chinese

Folders and files

Latest commit

History

Repository files navigation

word2vec-Chinese

0. 环境要求

1. 获取中文语料库

2. 中文语料库预处理

2.1 将xml的Wiki数据转换为text格式

2.2 中文简繁体转换

2.3 去除英文和空格

2.4 中文分词（jieba分词）

3. word2vec模型训练

4. word2vec模型测试

参考与致谢

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages