這不算爬蟲吧？！

因程式需要，需要拿到乙個粵語詞典（需要找到任乙個漢字的粵語拼音），但是在網上找來找去都沒有找到現有的詞典。

於是，碼了以下**：

1
using
system;
2using
system.text;
3using
system.net;
4using
system.io;
5using
system.threading;67
namespace
yueyu_dic_crawler8;
1458
//清空緩衝區
59sw.flush();
60//
關閉流61
sw.close();
62fs.close();63}
64}65}
66 }

其實，中間還有一些小細節，比如：

1、實際上只有一部分組合儲存著資訊，如8000-8fff的組合中，其實只有8140-8ffe有資訊（感謝partner）；

2、大約將0000-ffff分成了10塊，分了10次才爬下來，因為即使sleep，伺服器的防護機制有時間也能把你攔住；

3、沒有使用正規表示式，就是用excel簡單處理了一下結果：）以後肯定要使用正規表示式：）

4、多音字，只收錄了它的第一次讀音：）

從昨天中午有這個想法，到今天晚上實現，感觸最深的有兩點：

一是，這個時代學習東西太方便了，知識的互動太便捷了！

二是，網際網路上儲存著多少知識和財富啊！！！！！！！！

過幾天把這個粵語詞典放網上：）應該不犯法吧。。。

小lian

2017/4/15凌晨

爬蟲爬評書吧

執行環境 windows7，python3.7 操作步驟 1.開啟選好的評書主頁面並調出chrome控制台，找到目錄列表對應的元素。2.點開具體回目，篩選具體的音訊鏈結。單田芳單田芳破曉記 37回 001 a.利用相同的原理，再點幾個頁面，我們可以找到乙個規律，這個評書的音訊鏈結命名規則是單...

python爬蟲吧 Python爬蟲案例集合

urllib2 在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。urllib2 官方文件 urllib2 原始碼 urllib2 在 python3....

Python貼吧小爬蟲

不用登陸，cookie，header 用了一點正規表示式 coding utf 8 created on sun apr 10 14 00 32 2016 author albert import urllib2 import re i 0begin int raw input u 輸入起始頁 en...

這不算爬蟲吧？！

爬蟲爬評書吧

python爬蟲吧 Python爬蟲案例集合

Python貼吧小爬蟲

相關推薦