Python爬蟲的整體流程

2021-09-07 13:39:49 字數 493 閱讀 1364

對於爬蟲小白來說,很多人都感覺不知道怎麼開始學習。從網上查來查去,找到的多是部分的**,但很少有從整體上闡述爬蟲的流程的,因此導致了很多人對於爬蟲的難以理解和無從下手。接下來就介紹一下爬蟲的整體流程。

爬蟲整體上可以分為三個步驟:

獲取網頁就是向乙個**傳送request,然後**返回網頁的資料。

獲取網頁我們可以用selenium來模擬瀏覽器。

解析網頁,通俗的來講就是要如何得到我們所需要的資料。我們在第一步獲取網頁所得到的是整個網頁的資料,但是我們往往只是需要其中的一部分,因此我們需要提取我們所需要的資料。

提取資料我們可以使用正規表示式,但是相對有點複雜;也可以使用beautifulsoup。

資料儲存,顯而易見就是要把資料儲存下來。在第二步我們已經把我們所需要的資料從整個網頁中提取出來,但是我們要把我們所需要的這些資料放在**呢?

通常我們可以把資料儲存在txt文字中,也可以儲存在資料庫中。如果儲存在資料庫中,可以考慮使用mongodb這個強大的資料庫。

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...

python 呼叫 R包 整體流程

path c program files r r 3.5.1 bin x64 path c program files r r 3.5.1 bin x64 r.dll 直接用pip install rpy2有問題 選擇 rpy2 2.9.5 cp36 cp36m win amd64.whl 適應py...

python爬蟲 (2)爬蟲基本流程

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...