python3爬蟲快速入門攻略

複製過來的內容

一、什麼是網路爬蟲？

1、定義：網路爬蟲（web spider），又被稱為網頁蜘蛛，是一種按照一定的規則，自動地抓取**資訊的程式或者指令碼。

2、簡介：網路蜘蛛是乙個很形象的名字。如果把網際網路比喻成乙個蜘蛛網，那麼spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈結位址來尋找網頁，從 **某乙個頁面開始，讀取網頁的內容，找到在網頁中的其它鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，這樣一直迴圈下去，直到把這個**所有的網頁都抓取完為止。

3、爬蟲流程：①先由urllib的request開啟url得到網頁html文件——②瀏覽器開啟網頁源**分析元素節點——③通過beautiful soup或則正規表示式提取想要的資料——④儲存資料到本地磁碟或資料庫（抓取，分析，儲存）

from urllib import request
from bs4 import beautifulsoup            #beautiful soup是乙個可以從html或xml檔案中提取結構化資料的python庫
#構造標頭檔案，模擬瀏覽器訪問
url=""
page = request.request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#開啟url,獲取httpresponse返回物件並讀取其resposnebody
# 將獲取到的內容轉換成beautifulsoup格式，並將html.parser作為解析器
soup = beautifulsoup(page_info, 'html.parser')
# 以格式化的形式列印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查詢所有a標籤中class='title'的語句
'''for title in titles:
print(title.string)
print("" + title.get('href'))   
''' 
#open()是讀寫檔案的函式,with語句會自動close()已開啟檔案
with open(r"d:\python\test\articles.txt","w") as file:       #在磁碟以只寫的方式開啟/建立乙個名為 articles 的txt檔案
for title in titles:
file.write(title.string+'\n')
file.write("" + title.get('href')+'\n\n')

python3爬蟲快速入門攻略

python3 爬蟲入門

python3爬蟲入門

Python3快速入門

python3爬蟲快速入門攻略

python3 爬蟲入門

python3爬蟲入門

Python3快速入門

相關推薦