ZCMS的Web採集 一 千萬級別的網路爬蟲

2021-08-23 15:22:19 字數 970 閱讀 2090

zcms的網頁採集功能介面簡潔,但功能強大,共由五部分組成:

一、乙個大容量的頁面檔案容器。

1.2 該容器能通過url快速訪問檔案(類似於hashmap)

1.3 該容器支援壓縮存放。

1.4 該容器將頁面的概要資訊和內容分開存放。

1.5 該容器的訪問效能不隨訪問檔案數量的增長有大的變化。

2.1 完全支援http 1.0/1.1

2.2 支援cookie

2.3 支援http壓縮

2.4 自動識別網頁字符集

2.5 能夠處理鏈結跳轉,包括302/303跳轉、通過js跳轉以及通過meta的refresh跳轉。

2.6 能夠識別無限url迴圈。

2.8 能夠處理asp.net形式的通過表單回發處理的分頁。

2.11 支援超時設定

2.13 支援多執行緒,可以設定執行緒數

三、乙個完善的url提取器

3.1 能夠從html中正確提取全路徑url

3.2 支援過濾字尾

3.3 為url編碼,但己編碼的url要能自動識別,避免再次編碼

3.4 只有符合指定形式的url才提取

3.5 支援過濾指定形式的url

四、乙個便利的結構化資料提取器

4.1 能夠通過模板方式提取結構化資訊,模板應該簡易,從代表性html中摘取經過簡單修改即可提取(不能使用正規表示式,對於html正規表示式需要轉義的字元過多)

4.2 提取時能夠自動得到乙個二維表

4.3 提取結果支援過濾掉指定形式的內容塊(比如正文中的廣告)

4.5 能夠去掉正文中的超連結

五、乙個準確率較高的正文提取器

5.1 以95%以上的準確率從html中提取文章正文

5.2 自動識別首頁和列表頁,不從其中提取正文

5.3 未成功提取正文時將meta的content中置為正文

將會以較多篇幅逐個介紹各部分的設計原理。

可以通過體驗

Web資料採集(抓取)介紹

什麼是web資料採集?web資料採集 webscraping,也叫web資料抓取 指的是從 上提取資訊的一種計算機軟體技術。web資料抓取程式模擬瀏覽器的行為,能將可以在瀏覽器上顯示的任何資料提取出來,因此也稱為螢幕抓取 screenscraping web資料抓取的最終目的是將非結構化的資訊從大量...

提取自ZCMS的彈出框

file d project zdialog zdialog zdialogdemo.html 代替window.open window.alert window.confirm 提供良好的使用者體驗 水晶質感,設計細膩,外觀漂亮 相容ie6 7 8 firefox2 3 opera 彈出框在ie6...

採集gpu GPU溫度的採集

監控gpu引數通常由以下幾種方式 一 直接檢視windows資源管理器裡面gpu引數。windows資源監控管理器,能看到gpu各種占有率引數,但看不到gpu的溫度,且通過這ui種方式只能在windows系統中檢視,無法將資料傳的傳輸後台監控。同時win7的任務管理器不支援gpu引數顯示。二.gpu...