腾讯word2vec模型缩小版

网友投稿 1119 2022-11-02

腾讯word2vec模型缩小版

腾讯word2vec模型缩小版

TX-WORD2VEC

腾讯开源的word2vec模型。

原版15个G,一般爱好者很难玩出来。

所以做了一些小的。方便大家使用。

5000-small.txt 这个有5000词,可以下下来玩玩

45000-small.txt 这个有4.5w的词,已经能解决很多问题了

70000-small.txt 7w词 133MB https://pan.baidu.com/s/1DprHD8HwEqkWRBG0ss2y1A

100000-small.txt 10w词 190MB https://pan.baidu.com/s/1KqPOwfrw3KoLJqTsCUdriA

500000-small.txt 50w词 953MB https://pan.baidu.com/s/1SGwxpGW8HjYw8HdKQUB8Gw

1000000-small.txt 100w词 1.9GB https://pan.baidu.com/s/1ObstPl7R8o1L98Ag9owGiw

2000000-small.txt 200w词 3.8GB https://pan.baidu.com/s/1hmCiMandgyedjmP520_Aog

再大就自己去-吧

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz

如何使用

读取模型

from gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format("50-small.txt")

把玩模型

model.most_similar(positive=['女', '国王'], negative=['男'], topn=1)model.doesnt_match("上海 成都 广州 北京".split(" "))model.similarity('女人', '男人')model.most_similar('特朗普',topn=10)

深度模式示例

使用LSTM模型,根据豆瓣评论,预测打分。

首先-豆瓣的数据

豆瓣评论数据149M https://pan.baidu.com/s/1WbqoCKsmrnpf6n5ZTV-fKA

然后-库对应的分词包。 https://pan.baidu.com/s/19busyY1yysbOgdYWxIaIQA

代码文件见 Use Tencent Word Embeddings with douban datasets.ipynb

抛转引玉,如果有哪位朋友有功夫更新其他的模型或者数据库,还可以request pull

有问题也可以开issue

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:[小木轮]图片浏览器
下一篇:jsonapi 是 Django 框架中连接数据交换格式(JSON)API 的开发包
相关文章

 发表评论

暂时没有评论,来抢沙发吧~