這不算爬蟲吧?!

2022-07-15 17:51:10 字數 1000 閱讀 2954

因程式需要,需要拿到乙個粵語詞典(需要找到任乙個漢字的粵語拼音),但是在網上找來找去都沒有找到現有的詞典。

於是,碼了以下**:

1

using

system;

2using

system.text;

3using

system.net;

4using

system.io;

5using

system.threading;67

namespace

yueyu_dic_crawler8;

1458

//清空緩衝區

59sw.flush();

60//

關閉流61

sw.close();

62fs.close();63}

64}65}

66 }

其實,中間還有一些小細節,比如:

1、實際上只有一部分組合儲存著資訊,如8000-8fff的組合中,其實只有8140-8ffe有資訊(感謝partner);

2、大約將0000-ffff分成了10塊,分了10次才爬下來,因為即使sleep,伺服器的防護機制有時間也能把你攔住;

3、沒有使用正規表示式,就是用excel簡單處理了一下結果:)以後肯定要使用正規表示式:)

4、多音字,只收錄了它的第一次讀音:)

從昨天中午有這個想法,到今天晚上實現,感觸最深的有兩點:

一是,這個時代學習東西太方便了,知識的互動太便捷了!

二是,網際網路上儲存著多少知識和財富啊!!!!!!!!

過幾天把這個粵語詞典放網上:)應該不犯法吧。。。

小lian

2017/4/15凌晨

爬蟲爬評書吧

執行環境 windows7,python3.7 操作步驟 1.開啟選好的評書主頁面 並調出chrome控制台,找到目錄列表對應的元素。2.點開具體回目,篩選具體的音訊鏈結。單田芳 單田芳 破曉記 37回 001 a.利用相同的原理,再點幾個頁面,我們可以找到乙個規律,這個評書的音訊鏈結命名規則是 單...

python爬蟲吧 Python爬蟲案例集合

urllib2 在python2.x裡面有urllib和urllib2 在python3.x裡面就把urllib和urllib2合成乙個urllib urllib3是在python3.x了裡面新增的第三方擴充套件。urllib2 官方文件 urllib2 原始碼 urllib2 在 python3....

Python貼吧小爬蟲

不用登陸,cookie,header 用了一點正規表示式 coding utf 8 created on sun apr 10 14 00 32 2016 author albert import urllib2 import re i 0begin int raw input u 輸入起始頁 en...