zcms的網頁採集功能介面簡潔,但功能強大,共由五部分組成:
一、乙個大容量的頁面檔案容器。
1.2 該容器能通過url快速訪問檔案(類似於hashmap)
1.3 該容器支援壓縮存放。
1.4 該容器將頁面的概要資訊和內容分開存放。
1.5 該容器的訪問效能不隨訪問檔案數量的增長有大的變化。
2.1 完全支援http 1.0/1.1
2.2 支援cookie
2.3 支援http壓縮
2.4 自動識別網頁字符集
2.5 能夠處理鏈結跳轉,包括302/303跳轉、通過js跳轉以及通過meta的refresh跳轉。
2.6 能夠識別無限url迴圈。
2.8 能夠處理asp.net形式的通過表單回發處理的分頁。
2.11 支援超時設定
2.13 支援多執行緒,可以設定執行緒數
三、乙個完善的url提取器
3.1 能夠從html中正確提取全路徑url
3.2 支援過濾字尾
3.3 為url編碼,但己編碼的url要能自動識別,避免再次編碼
3.4 只有符合指定形式的url才提取
3.5 支援過濾指定形式的url
四、乙個便利的結構化資料提取器
4.1 能夠通過模板方式提取結構化資訊,模板應該簡易,從代表性html中摘取經過簡單修改即可提取(不能使用正規表示式,對於html正規表示式需要轉義的字元過多)
4.2 提取時能夠自動得到乙個二維表
4.3 提取結果支援過濾掉指定形式的內容塊(比如正文中的廣告)
4.5 能夠去掉正文中的超連結
五、乙個準確率較高的正文提取器
5.1 以95%以上的準確率從html中提取文章正文
5.2 自動識別首頁和列表頁,不從其中提取正文
5.3 未成功提取正文時將meta的content中置為正文
將會以較多篇幅逐個介紹各部分的設計原理。
可以通過體驗
Web資料採集(抓取)介紹
什麼是web資料採集?web資料採集 webscraping,也叫web資料抓取 指的是從 上提取資訊的一種計算機軟體技術。web資料抓取程式模擬瀏覽器的行為,能將可以在瀏覽器上顯示的任何資料提取出來,因此也稱為螢幕抓取 screenscraping web資料抓取的最終目的是將非結構化的資訊從大量...
提取自ZCMS的彈出框
file d project zdialog zdialog zdialogdemo.html 代替window.open window.alert window.confirm 提供良好的使用者體驗 水晶質感,設計細膩,外觀漂亮 相容ie6 7 8 firefox2 3 opera 彈出框在ie6...
採集gpu GPU溫度的採集
監控gpu引數通常由以下幾種方式 一 直接檢視windows資源管理器裡面gpu引數。windows資源監控管理器,能看到gpu各種占有率引數,但看不到gpu的溫度,且通過這ui種方式只能在windows系統中檢視,無法將資料傳的傳輸後台監控。同時win7的任務管理器不支援gpu引數顯示。二.gpu...