關於scws分詞的一些記錄

2022-02-15 08:52:15 字數 1198 閱讀 9125

測試環境:windows 2003 + php5.3.5 + apache2.2 + scws 1.1.9 

自定義詞庫,words.txt 如下:

1.每行由4個字段組成,依次為「詞語"(由中文字或3個以下的字母合成), "tf", "idf", "詞性", 字段之間用空格或製表符分開,數量不限

(注意,發現如果字段時間用空格隔開,然後用scws官方的php程式將txt詞庫轉換xdb後,詞庫無效,但是txt詞庫有效,所以為了相容性,字段之間最好僅用乙個製表符分隔,且注意txt檔案的編碼要與程式要使用的編碼一致)

2.詞性設為「!「,則表示該詞設為無效,即使在其它核心庫中存在該詞也視為無效

使用自定義詞庫,需要注意載入詞庫**的位置

$txt

= '我就是乙個中國人,我是會c++語言,我有很多t恤衣服';

$sh=scws_open();

//注意,載入詞庫的**放在此處無效,但是按照官方的例子應該是放在這裡

//scws_add_dict($sh, 'd:\apache3w\words.txt', scws_xdict_txt);

scws_send_text($sh, $txt);

//載入詞庫的**必須放在scws_send_text函之後才有效

scws_add_dict($sh, 'd:\apache3w\words.txt', scws_xdict_txt); 

while ($words = scws_get_result($sh)) 

}scws_close($sh);

如果非要將 scws_add_dict 放到 scws_send_text 前面 還可以這樣寫:

$txt = '我就是乙個中國人,我是會c++語言,我有很多t恤衣服';

$sh=scws_open();

//scws_set_dict也可以改為scws_add_dict 

scws_set_dict($sh, 'd:\program files\scws\etc\dict.utf8.xdb', scws_xdict_xdb);

scws_add_dict($sh, 'd:\apache3w\words.txt', scws_xdict_txt);

scws_send_text($sh, $txt);

while ($words = scws_get_result($sh)) 

}scws_close(

$sh);

關於爬蟲的一些記錄

普通的文字型爬蟲就不說了,這裡主要說一下在爬取有js指令碼和驗證碼的一些內容時,遇到的坑。作業系統的選擇 由於爬蟲 資訊分析ai web介面都部屬在centos上,且系統部署的最優選擇還是centos。爬蟲方面,文字型爬蟲是基礎,模擬瀏覽器也是必須的。目前模擬瀏覽器就三樣,firefox chrom...

關於torch的一些記錄

int型tensor from torch.autograd import variable from torch import inttensor var variable inttensor 1,0 0,1 檢視size var.size torch.size 2,2 將var.size 轉換為...

關於死鎖的一些記錄

死鎖是由於併發程序只能按互斥方式訪問臨界資源等多種因素引起的,並且是一種與執行時間和速度密切相關的錯誤現象。死鎖的一般定義 若在乙個程序集合中,每乙個程序都在等待乙個永遠不會發生的事件而形成乙個永久的阻塞狀態,這種阻塞狀態就是死鎖。死鎖的產生條件 1.互斥 mutual exclusion 系統存在...