檔案很大。最小的也有822m。
拿到檔案後,不能直接用在gensim中。還需要增加一行。比如glove.6b.50d.txt 就需要增加 「400000 50」。表示有400000個詞,維度是50。(有部落格說增加400001是錯誤的。我的程式會報錯)
可以使用下面的**修改:
out_file=
open
("g.50.txt"
,"w+"
,encoding=
"utf-8"
)out_file.write(
"40000 50\n"
)with
open
("glove.6b.50d.txt"
,"r"
,encoding=
"utf-8"
)as f:
s=f.readlines(
)for x in s:
out_file.write(x)
out_file.close(
)
修改完成後,就可以直接用gensim的模組來使用glove的向量了。**如下:
import gensim
model = gensim.models.keyedvectors.load_word2vec_format(
"g.50.txt"
)for key in model.similar_by_word(r'brother'
, topn=10)
:print
(key)
結果如下:
(
'son'
,0.944932758808136)(
'cousin'
,0.9340510368347168)(
'father'
,0.9322627782821655)(
'nephew'
,0.9301477670669556)(
'uncle'
,0.9147958755493164)(
'friend'
,0.8713178634643555)(
'elder'
,0.8581332564353943)(
'grandson'
,0.8516241312026978)(
'sons'
,0.8418697118759155)(
'grandfather'
,0.8392235040664673
)
後面會寫一篇使用mittens總結出的中文向量文字。看看是否正確。 史丹福大學與矽谷
1951年,史丹福大學的工程學院院長弗雷德里克 特曼 frederick terman 決定創辦在校園創辦工業園區,將校園的土地租給當時的高科技公司使用,就被認為是這樣乙個瞬間。這一決定不僅奠定了矽谷的基礎,也徹底改變了史丹福大學的格局,他本人也因此被尊稱為 矽谷之父 史丹福大學物理系沈志勳教授,s...
《程式設計方法學》史丹福大學
程式設計方法學 史丹福大學 網易公開課 感悟 1.for 語句,可以使用i,j,k 變數 不需該意使用有意名字的變數 顯示它只是 計算器 一自就明白 2.注釋 一定要加注釋 3.使用長量 列舉 不建議使用全域性變數 4.函式 函式中定義變數和外部變數同名時,內部函式有效 變數名相同,但函式外和函式內...
史丹福大學深度學習開言
歡迎來到深度學習的教程!描述 本教程將教你關於無監督式學習和深度學習的主要思想。在學習它們的過程中,你也將需要實現幾個深度學校的演算法,看著它們為你工作,並且學習怎樣使用或者應用這些思想到新的問題中。本教程假定你有機器學習的基本知識 具體而言,便是熟悉監督學習的思想,邏輯回歸,梯度下降 如果你並不熟...