ZCMS的Web採集一千萬級別的網路爬蟲

zcms的網頁採集功能介面簡潔，但功能強大，共由五部分組成：

一、乙個大容量的頁面檔案容器。

1.2 該容器能通過url快速訪問檔案(類似於hashmap)

1.3 該容器支援壓縮存放。

1.4 該容器將頁面的概要資訊和內容分開存放。

1.5 該容器的訪問效能不隨訪問檔案數量的增長有大的變化。

2.1 完全支援http 1.0/1.1

2.2 支援cookie

2.3 支援http壓縮

2.4 自動識別網頁字符集

2.5 能夠處理鏈結跳轉，包括302/303跳轉、通過js跳轉以及通過meta的refresh跳轉。

2.6 能夠識別無限url迴圈。

2.8 能夠處理asp.net形式的通過表單回發處理的分頁。

2.11 支援超時設定

2.13 支援多執行緒，可以設定執行緒數

三、乙個完善的url提取器

3.1 能夠從html中正確提取全路徑url

3.2 支援過濾字尾

3.3 為url編碼，但己編碼的url要能自動識別，避免再次編碼

3.4 只有符合指定形式的url才提取

3.5 支援過濾指定形式的url

四、乙個便利的結構化資料提取器

4.1 能夠通過模板方式提取結構化資訊，模板應該簡易，從代表性html中摘取經過簡單修改即可提取（不能使用正規表示式，對於html正規表示式需要轉義的字元過多）

4.2 提取時能夠自動得到乙個二維表

4.3 提取結果支援過濾掉指定形式的內容塊（比如正文中的廣告）

4.5 能夠去掉正文中的超連結

五、乙個準確率較高的正文提取器

5.1 以95%以上的準確率從html中提取文章正文

5.2 自動識別首頁和列表頁，不從其中提取正文

5.3 未成功提取正文時將meta的content中置為正文

將會以較多篇幅逐個介紹各部分的設計原理。

可以通過體驗

Web資料採集（抓取）介紹

什麼是web資料採集？web資料採集 webscraping，也叫web資料抓取指的是從上提取資訊的一種計算機軟體技術。web資料抓取程式模擬瀏覽器的行為，能將可以在瀏覽器上顯示的任何資料提取出來，因此也稱為螢幕抓取 screenscraping web資料抓取的最終目的是將非結構化的資訊從大量...

提取自ZCMS的彈出框

file d project zdialog zdialog zdialogdemo.html 代替window.open window.alert window.confirm 提供良好的使用者體驗水晶質感，設計細膩，外觀漂亮相容ie6 7 8 firefox2 3 opera 彈出框在ie6...

採集gpu GPU溫度的採集

監控gpu引數通常由以下幾種方式一直接檢視windows資源管理器裡面gpu引數。windows資源監控管理器，能看到gpu各種占有率引數，但看不到gpu的溫度，且通過這ui種方式只能在windows系統中檢視，無法將資料傳的傳輸後台監控。同時win7的任務管理器不支援gpu引數顯示。二.gpu...

ZCMS的Web採集 一 千萬級別的網路爬蟲

Web資料採集（抓取）介紹

提取自ZCMS的彈出框

採集gpu GPU溫度的採集

相關推薦

ZCMS的Web採集一千萬級別的網路爬蟲