python爬蟲入門學習記錄

在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了：

pip install requests

pip install beautifulsoup4

beautifulsoup4使用手冊：

簡單的示列**：

import requests #匯入requests包

url = ''

strhtml = requests.get(url) #get方式獲取網頁資料

strhtml.encoding='utf-8'

print(strhtml.text)

注：這裡面使用requests的get方法來獲取html，具體是get還是post等等要通過網頁頭資訊來查詢（以谷歌瀏覽器為例，在開發者模式下，network，選擇all進行檢視，可能需要重新整理）

通過點取屬性的方式只能獲得當前名字的第乙個標籤，如: soup.body.a

如果想要得到所有的標籤,或是通過名字得到比乙個tag更多的內容的時候,就需要用到 searching the tree 中描述的方法,比如: find_all()

tag.name

tag.name = "black" #修改標籤名

tag['class'] #獲取屬性

tag.attrs #獲取所有屬性

tag['id'] = 1 #修改屬性

del tag['class'] #刪除屬性

tag.string.replace_with('no longer') #tag中包含的字串不能編輯,但是可以被替換成其它的字串,用 replace_with() 方法

tag.string #輸出標籤中的字串

head_tag.contents[3].name #標籤的 .contents 屬性可以將標籤的子節點以列表的方式輸出:

python入門記錄 Python 入門學習記錄

基礎語法縮排縮排表達內容的所屬關係的唯一方式，中縮排的長度必須保持統一。注釋python 使用作為單行注釋標識，作為多行注釋標識。如這是單行注釋這是多行注釋命令保留字命名規則大小寫字元數字下劃線和漢字等字元及組合。大小寫敏感，首字元不能為數字，不能與保留字相同。保留字被程式語...

python小白學習記錄爬蟲requests篇

一引用庫 import requests 二請求訪問url，網頁相應 res requests.get 網頁位址三表明返回內容目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...

爬蟲學習記錄

如何將字串轉換為字典字典推導式 cookies anonymid j3jxk555 nrn0wh r01 1 ga ga1.2.1274811859.1497951251 de bf09ee3a28ded52e6b65f6a4705d973f1383380866d39ff5 ln uact mr ...

python爬蟲入門學習記錄

python入門記錄 Python 入門學習記錄

python小白學習記錄 爬蟲requests篇

爬蟲學習記錄

相關推薦

python小白學習記錄爬蟲requests篇