Python容易上手的爬蟲專案，特別適合基礎入門

1.確定爬取的目標

開始之前我們需要確定乙個爬取的目標，從上選乙個博主的首頁進入。在這個例子裡面我們要寫乙個爬蟲將博主的文章列表拉出來，儲存在乙個json的檔案裡面。

2. 「種子」的分析，生成爬蟲入口

我用的是pycharm編輯器，按照上述思路進行編碼。

匯入必要的依賴包

from __future__ import unicode_literals
from urllib import request
from pyquery import pyquery as pq
import json
'''更多python學習資料以及原始碼教程資料，可以在群1136201545免費獲取
'''

生成種子頁的http請求

url =
''with request.urlopen(url)
as response:
body = response.read(
)    item =
#1. 先定義乙個空陣列，用於儲存提取結果
with
open
('output.json'
,'wt'
)as f:
# 2 將結果寫入json檔案
f.write(json.dumps(items)
)

上面**中用到了python檔案處理的知識，with語句是用於指定f的作用域，當f.write呼叫完成跳出with子句時就會被關閉，這樣可以防止開啟檔案後忘記呼叫close而鎖住檔案導致其它的程序不能訪問。

還用到了json.dumps方法，將items直接序列化成乙個標準的json字串，最後將這個json字串通過呼叫file物件的write方法寫入到檔案內。

現在需要解決的是如何生成這個items中的物件資料？

首先，需要將body中的內容讀到pyquery中，然後選出所有的文章元素，最後通過迴圈每個元素來處理，將元素的值生成乙個資料項填充到items中。

文章列表的選擇器為.forflow>.day，而這個選擇器一旦執行會返回多個元素的集合，而且我們需要將這個元素集合轉化成乙個item型別的集合，所以用pyquery.map函式完成這一轉換。

根據上面的分析，**如下：

from __future__ import unicode_literals
from urllib import request
from pyquery import pyquery as pq
import json
'''更多python學習資料以及原始碼教程資料，可以在群1136201545免費獲取
'''url =
''defparse_item
(i, e)
:    doc = pq(e)
title = doc(
'.posttitle>a'
).text(
)    parmerlink = doc(
'.posttitle>a'
).attr(
'href'
)    pub_date = doc(
'.daytitle'
).text(
)    summary = doc(
'.postcon'
).text(
)    result =
print
(json.dumps(result)
)return result
with request.urlopen(url)
as response:
body = response.read(
)    doc = pq(body)
items = doc(
'.forflow>.day').
map(parse_item)
with
open
('output.json'
,'wt'
)as f:
f.write(json.dumps(items, ensure_ascii=
false
))

需要說明的是，**中map函式是乙個高階函式，它的引數是另乙個處理函式的指標，所以這裡引用乙個parse_item，這個函式的內部實際上是乙個迴圈，它會將doc(.』forflow>.day』)乙個個傳入到parse_item函式中，當迴圈執行結束後再將多次從parse_item獲取的結果合成為乙個陣列返回。

此外，在**第一行加入 __future__模組，目的是解決json.dumps對字元內容進行unicode編碼的問題，完成後就會發現在當前爬蟲工作目錄中會多乙個名為output.json的檔案，開啟它後的樣子是：

..

.

總結

設計乙個完整爬蟲的思路與過程是：

確定爬取目標，分析種子頁結構

分析承載資料頁面結構，建立資料結構與元素選擇器間的對映關係

設計**流程與編寫思路

乙個特別適合初學爬蟲者的專案，感興趣的小夥伴趕緊執行**看看吧！

Python容易上手的爬蟲專案，特別適合基礎入門

python爬蟲上手筆記 2

急求python爬蟲專案 python爬蟲專案

Python程式設計快速上手實踐專案

Python容易上手的爬蟲專案，特別適合基礎入門

python爬蟲上手 筆記 2

急求python爬蟲專案 python爬蟲專案

Python程式設計快速上手 實踐專案

相關推薦

python爬蟲上手筆記 2

Python程式設計快速上手實踐專案