先寫個demo獲取資料,我不會做太多介紹,基本上都會寫在注釋裡。
url為爬取的鏈結,headers主要是假裝我們不是爬蟲,現在我們就假裝我們是個chrome瀏覽器
response = urllib.request.urlopen(request) #
請求資料
data = response.read() #
讀取返回的資料
data.decode(
"utf-8
") #
設定字元格式為utf-8,可以處理中文
然後我們用beautifulsoup試著解析一下。
先導入beautifulsoup, 一般都是加在最上面
import然後在最後面把 print(data) 那句去掉加上urllib.request
from bs4 import beautifulsoup
soup = beautifulsoup(data, "html.parser") # 把html轉換成beautifulsoup物件,這樣我們就可以用beautifulsoup的方法來解析html控制台輸出如下print(soup) # 列印
然後我們可以
print(soup.title) #控制台輸出, 因為find_all("a") 會找出所有的a標籤,所以輸出很多列印標題
print(soup.find_all("
a")) #
列印所有a標籤
現在就得去了解beautifulsoup更多的知識,以便我們能更加快速得獲取我們想要得資訊。
忘了貼一下完整的**
importurllib.request
from bs4 import
beautifulsoup
header =
url = "
"request = urllib.request.request(url=url, headers=header) #
url為爬取的鏈結,headers主要是假裝我們不是爬蟲,現在我們就假裝我們是個chrome瀏覽器
response = urllib.request.urlopen(request) #
請求資料
data = response.read() #
讀取返回的資料
data.decode(
"utf-8
") #
設定字元格式為utf-8,可以處理中文
soup = beautifulsoup(data, "
html.parser
") #
把html轉換成beautifulsoup物件,這樣我們就可以用beautifulsoup的方法來解析html
print(soup.title) #
列印標題
print(soup.find_all("
a")) #
列印所有a標籤
Python 從0開始寫爬蟲 轉身扒豆瓣電影
豆瓣就比較符合這個 明人不說暗話 的原則。所以我們扒豆瓣,不多說,直接上 from scrapy import import reheader movie url m id re.search 0 9 movie url group 獲取soup物件 utf 8 content soup.find ...
Python從0開始 安裝
進入官網 選擇download downloads 直接選擇最新版本安裝。是exe檔案,直接下一步下一步,要勾選path.我為了方便在台式電腦和筆記本都安裝了 神奇的事情發生了,正常應該顯示 但是我在台式電腦上輸入測試正常,筆記本提示的是如下 python is not recognized as ...
從0開始Python 變數
變數是程式中乙個臨時存放資料的場所。在執行程式的時候變數是可以改變的,並且改變次數是不確定的。需要注意的是變數必須先定義才能使用。我們可以先定義乙個名字為a的變數 a 10 現在我們就定義了乙個名字為a的變數,這個變數所對應的資料為10。現在我們來列印這個變數,並利用type函式來獲取這個變數的資料...