定義:
網路爬蟲(web spider),又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取**資訊的程式或者指令碼。
簡介:
網路蜘蛛是乙個很形象的名字。如果把網際網路比喻成乙個蜘蛛網,那麼spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈結位址來尋找網頁,從 **某乙個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個**所有的網頁都抓取完為止。
爬蟲整體流程:
①先由urllib的request開啟url得到網頁html文件
②瀏覽器開啟網頁源**分析元素節點
③通過beautiful soup或則正規表示式提取想要的資料
④儲存資料到本地磁碟或資料庫(抓取,分析,儲存)
詳細步驟
第一步:抓取網頁
搜尋引擎網路爬蟲的基本工作流程如下:
首先選取一部分的種子url,將這些url放入待抓取url佇列;
分析已抓取url佇列中的url,分析其中的其他url,並且將url放入待抓取url佇列,從而進入下乙個迴圈
第二步:資料儲存
搜尋引擎通過爬蟲爬取到的網頁,將資料存入原始頁面資料庫。其中的頁面資料與使用者瀏覽器得到的html是完全一樣的。
搜尋引擎蜘蛛在抓取頁面時,也做一定的重複內容檢測,一旦遇到訪問權重很低的**上有大量抄襲、採集或者複製的內容,很可能就不再爬行。
第三步:預處理
搜尋引擎將爬蟲抓取回來的頁面,進行各種步驟的預處理。
提取文字
中文分詞
索引處理
鏈結關係計算
特殊檔案處理
最後將資料儲存起來以備使用。
本文**於
python小白必看,匿名函式
在函式中使用lambda 語句來生成乙個函式物件,廣泛用於需要函式物件作為引數或比較簡單並且只使用一次的場合。匿名函式 沒有名字的函式,且只有乙個式子,只能做一些簡單的東西 lambda 形參1,形參2,形參n 表示式 lambda 宣告 後接形參 後加 表示式 lambda 引數1 引數2 引數n...
小白必看 Python高階應用
python相信大家並不陌生,身邊有很多的朋友都在學習python,今天就給大家詳細介紹下python高階應用。lambda 函式 lambda 函式是一種比較小的匿名函式 匿名是指它實際上沒有函式名。python 函式通常使用 def a function name 樣式來定義,但對於 lambd...
python小白必看的檔案指標用法
或許有的小白不知道這個檔案指標就會出現以下問題 案例一 含義 寫入三句話,並呼叫兩次read 函式讀取兩次文字 file open c try.txt w encoding utf 8 file write i m the first row.n file write i m the second ...