網頁進行內容採集,整站爬行,批量站點關鍵字**搜尋督查。主要特點如下:
完全免費使用無限制,試用5次後免費**登記註冊;
執行於win32平台,效能遠超指令碼網頁採集程式;
odbc資料鏈結,支援三種資料庫access 、mssql和mysql;
greta,最快速的正規表示式引擎;
windows自帶ie控制項,輕鬆實現登入採集,**採集等;
採集條目自定義,不侷限於標題和正文的採集模式,支援多頁採集;
採集條目預設三種標記匹配模式,不熟悉正規表示式仍可完成採集;
採集內容的過濾,替換新增功能;
批量帶關鍵字整站爬行或抽查,可實現網頁內容督察,離線瀏覽;
整合web server,web介面下檢視和管理採集爬行結果。
網頁資訊採集實現
最近公司需要開發乙個簡歷匯入功能,類似部落格搬家或者郵箱搬家,之前抓取資訊是利用火車採集器,但是簡歷匯入功能需要使用者登陸以後才能獲取簡歷資料,無奈只好自己開發了。首先是遇到的問題是 如何實現模擬登陸?我們知道一般的 都是通過cookies來維護狀態的,我抓的 也是支援利用cookies來驗證使用者...
網頁採集 PDO入庫
採集soho網頁新聞 header頭 header content type text html charset utf8 位址 url 獲取 內容 str file get contents url 轉碼 str iconv gbk utf 8 str pdo連線資料庫 pdo new pdo m...
網頁標題資訊採集
之前做了乙個通過ip來掃瞄 的,以為能掃到所有的 因為ip是能全部遍歷的,但是忘記了很多 是禁止反向解析的。所以更改了寫法,仿照類似爬蟲的方法,抓取乙個網頁的內容,然後遍歷其中的 然後根據其中的 再去遍歷內容,如此做了個簡單的網頁標題資訊採集工具.更新,1.使用多執行緒處理 2.使用快取技術減少db...