因程式需要,需要拿到乙個粵語詞典(需要找到任乙個漢字的粵語拼音),但是在網上找來找去都沒有找到現有的詞典。
於是,碼了以下**:
1其實,中間還有一些小細節,比如:using
system;
2using
system.text;
3using
system.net;
4using
system.io;
5using
system.threading;67
namespace
yueyu_dic_crawler8;
1458
//清空緩衝區
59sw.flush();
60//
關閉流61
sw.close();
62fs.close();63}
64}65}
66 }
1、實際上只有一部分組合儲存著資訊,如8000-8fff的組合中,其實只有8140-8ffe有資訊(感謝partner);
2、大約將0000-ffff分成了10塊,分了10次才爬下來,因為即使sleep,伺服器的防護機制有時間也能把你攔住;
3、沒有使用正規表示式,就是用excel簡單處理了一下結果:)以後肯定要使用正規表示式:)
4、多音字,只收錄了它的第一次讀音:)
從昨天中午有這個想法,到今天晚上實現,感觸最深的有兩點:
一是,這個時代學習東西太方便了,知識的互動太便捷了!
二是,網際網路上儲存著多少知識和財富啊!!!!!!!!
過幾天把這個粵語詞典放網上:)應該不犯法吧。。。
小lian
2017/4/15凌晨
爬蟲爬評書吧
執行環境 windows7,python3.7 操作步驟 1.開啟選好的評書主頁面 並調出chrome控制台,找到目錄列表對應的元素。2.點開具體回目,篩選具體的音訊鏈結。單田芳 單田芳 破曉記 37回 001 a.利用相同的原理,再點幾個頁面,我們可以找到乙個規律,這個評書的音訊鏈結命名規則是 單...
python爬蟲吧 Python爬蟲案例集合
urllib2 在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。urllib2 官方文件 urllib2 原始碼 urllib2 在 python3....
Python貼吧小爬蟲
不用登陸,cookie,header 用了一點正規表示式 coding utf 8 created on sun apr 10 14 00 32 2016 author albert import urllib2 import re i 0begin int raw input u 輸入起始頁 en...