前言
一、爬蟲分析
二、完整**
總結
今天爬取的方式還是正則,但寫法略有不同,**量更少進入後滑鼠右鍵檢視原始碼,看能不能直接看到資料呀可以直接看到,省事,直接正則一套帶走
''# 頭部,偽裝成瀏覽器訪問
headers =
response=requests.get(url=url,headers=headers)
# response.text返回的型別是str
# response.content返回的型別是bytes,可以通過decode()方法將bytes型別轉為str型別
# response.content.decode()的方式獲取相應的html頁面
page_text=response.content.decode(
)# 正則解析,獲取對應的**鏈結和標題
content=re.findall(r'\s*(.*?)',page_text,re.s)
links=
[''+url[0]
for url in content]
titles=
[title[1]
for title in content]
# 呼叫該方法將資料寫入csv檔案,會發現每一行資料後面都自動增加了乙個空行。newline=''是為了去掉空行
with open(
'./top_weibo.csv','w',newline=
'') as csvfile:
writer=csv.writer(csvfile)
writer.writerow(
['鏈結','標題'])
# 遍歷資料
for line in range(len(links)):
# 建立空列表
row=
# 向空列表插入資料))
# 把整合的資料寫入csv檔案
writer.writerow(row)
執行效果如下:
之前經常用response.text,沒用過response.content.decode(),今天試了試,針不戳(真不錯)
用python爬個小說
上下班,地鐵間,用手機在各類 看 時,總會有莫名其妙的彈窗,是不是很煩惱。其實我們可以借助python寫個小工具,將想看的 爬下來。我們可以通過bp 瀏覽器f12也可以,不過不如bp直觀 看一下輸入目錄頁的url之後會看到什麼資訊 該結果是乙個json格式,其中欄位chaptername代表章節名稱...
python爬取B站彈幕學習筆記
然後開啟檢查,選擇net 這個位址就是存放彈幕的檔案 接下來我們之間用request模組去get文字,beautifulsoup去處理獲取文字,然後匯入到詞云 匯入擴充套件庫 import re 正規表示式庫 import collections 詞頻統計庫 import numpy as np n...
用python爬取小說章節內容
在學爬蟲之前,最好有一些html基礎,才能更好的分析網頁.主要是五步 1.獲取鏈結 2.正則匹配 3.獲取內容 4.處理內容 5.寫入檔案 如下 匯入相關model from bs4 import beautifulsoup import requests import re 獲取目標鏈結位址 ur...