複製過來的內容
一、什麼是網路爬蟲?
1、定義:網路爬蟲(web spider),又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取**資訊的程式或者指令碼。
2、簡介:網路蜘蛛是乙個很形象的名字。如果把網際網路比喻成乙個蜘蛛網,那麼spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的鏈結位址來尋找網頁,從 **某乙個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個**所有的網頁都抓取完為止。
3、爬蟲流程:①先由urllib的request開啟url得到網頁html文件——②瀏覽器開啟網頁源**分析元素節點——③通過beautiful soup或則正規表示式提取想要的資料——④儲存資料到本地磁碟或資料庫(抓取,分析,儲存)
from urllib import request
from bs4 import beautifulsoup #beautiful soup是乙個可以從html或xml檔案中提取結構化資料的python庫
#構造標頭檔案,模擬瀏覽器訪問
url=""
page = request.request(url,headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')#開啟url,獲取httpresponse返回物件並讀取其resposnebody
# 將獲取到的內容轉換成beautifulsoup格式,並將html.parser作為解析器
soup = beautifulsoup(page_info, 'html.parser')
# 以格式化的形式列印html
#print(soup.prettify())
titles = soup.find_all('a', 'title')# 查詢所有a標籤中class='title'的語句
'''for title in titles:
print(title.string)
print("" + title.get('href'))
'''
#open()是讀寫檔案的函式,with語句會自動close()已開啟檔案
with open(r"d:\python\test\articles.txt","w") as file: #在磁碟以只寫的方式開啟/建立乙個名為 articles 的txt檔案
for title in titles:
file.write(title.string+'\n')
file.write("" + title.get('href')+'\n\n')
python3 爬蟲入門
這裡爬取貓眼電影 top100 榜的資訊,作為學習的第乙個demo。今天開始接觸的python,從爬蟲開始。語言相對來說比較簡單,環境配置到是花了不少時間。有個要注意的點是在引入beautifursoup庫的時候會報錯,因為3.x的庫需要引入的是beautifursoup4.到這一步環境配置基本上o...
python3爬蟲入門
pip install requests2 匯入requests import requests 3 requests方法 requests.get 獲取html網頁的主要方法,對應http的get4 獲取流程 url 使用get方法獲取資料,返回包含網頁資料的response響應,超時時間測試 r...
Python3快速入門
趣學python 教孩子學程式設計 學習筆記 這是乙個注釋 print hello,world 這是多行注釋,用三個單引號 這是多行注釋,用三個單引號這是多行注釋,用三個單引號 print hello,world 這是多行注釋,用三個雙引號 這是多行注釋,用三個雙引號 這是多行注釋,用三個雙引號 p...