fasttext使用筆記

2021-09-07 22:51:12 字數 2532 閱讀 8560

這裡記錄使用fasttext訓練word vector筆記

$ gitclone

$ cdfasttext

$ make

make報錯:

原因gcc版本過低

gcc –v

公升級版本:參考(

1.      新增源

首先新增ppa到庫:

sudo add-apt-repository ppa:ubuntu-toolchain-r/test
sudo apt-get update
2.      安裝新版gcc/g++(注意gcc和g++都要更新)

接著就可以選擇安裝gcc-4.9,gcc-5之類的啦!(注意目前gcc-5實際上是5.3.0,沒有5.1或5.2可供選擇)

sudo apt-get install gcc-4.8g++-4.8
sudo apt-get install gcc-4.9g++-4.9
sudo apt-get install gcc-5g++-5
sudo apt-get install gcc-6g++-6
具體希望安裝哪個版本,大家可以自己選擇

3.      重新整理db並locate

接著現在可以考慮重新整理一下, 否則locate等命令是找不到的, 這個也是可選的(非必須)

sudo updatedb && sudo ldconfig
locate gcc | grep -e "/usr/bin/gcc-[0-9]"
4.      切換版本

通過update-alternatives建立檔案關聯

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.620

sudo update-alternatives --install /usr/bin/gcc gcc/usr/bin/gcc-4.8 30

然後在fasttext資料夾下make,成功生成fasttext執行檔案。

接下來就可以愉快的使用了。

fasttext可以可以用於訓練 word represent和text classification,這裡記錄使用fasttext訓練word embedding過程。

1.      首先開啟word-vector-example.s**件

resultdir=result  //結果儲存資料夾

datadir=data     //輸入資料資料夾

mkdir -p"$"

mkdir -p"$"

then

wget -c "$"

unzip "$/enwik9.zip" -d"$"

perl wikifil.pl "$/enwik9"> "$"/fil9

fithen

wget -c -p "$"

unzip "$/rw.zip" -d"$"

fimake

./fasttextskipgram -input "$"/fil9 -output"$"/fil9 -lr 0.025 -dim 100 \

-ws 5 -epoch 1 -mincount 5 -neg 5 -loss ns-bucket 2000000 \

-minn 3 -maxn 6 -thread 4 -t 1e-4-lrupdaterate 100

//這行**為訓練word embedding,輸入為datadir下的fil9,輸出模型儲存在resultdir下fil9。

這些引數是強制性設定的:

- mincount 5:單詞出現少於5就丟棄  -minn 最小長度的字元  -maxn 最長長度的字元 –t 取樣閾值

這些引數是可選的:

-lr 學習率–epoch 迭代次數–neg 負取樣–loss  loss function    ---dim 詞向量維度 –ws 視窗大小

cut -f1,2 "$"/rw/rw.txt | awk '' | tr '\t' '\n'> "$"/queries.txt

cat"$"/queries.txt | ./fasttext print-word-vectors "$"/fil9.bin> "$"/vectors.txt

python eval.py -m "$"/vectors.txt -d"$"/rw/rw.txt

2.      使用自己的語料訓練,這裡我使用維基百科英文語料,處理過程前面有講。

./fasttext cbow –input new_enwiki –output new_enwiki_100_30–epoch 30 –neg 5 –loss ns –dim 100 –ws 5

fasttext 安裝 fasttext使用筆記

這裡記錄使用fasttext訓練word vector筆記 gitclone cdfasttext make make報錯 原因gcc版本過低 gcc v 公升級版本 參考 1.新增源 首先新增ppa到庫 sudo add apt repository ppa ubuntu toolchain r ...

Vim 使用筆記

set hlsearch set nohlsearch 搜尋後清除上次的加亮 nohl nohlsearch 拷貝 很有用的一句話,規定了格式選項,讓它換行不自動空格 set formatoptions tcrqn set fo r set noautoindent 再 shift insert 正...

xemacs使用筆記

xemacs使用筆記 xemacs emacs的下一代,由lucid原創 from debian參考手冊.由於不知道什麼時候刪掉了emacs的乙個重要檔案.每次都沒法安裝好.突然發現了xemacs,於是決定使用看看.本人還是菜鳥,僅供交流 我使用的ubuntu系統,所以就直接apt get inst...