在使用爬蟲前確保requests和beautifulsoup4模組都已經安裝好了:
pip install requests
pip install beautifulsoup4
beautifulsoup4使用手冊:
簡單的示列**:
import requests #匯入requests包
url = ''
strhtml = requests.get(url) #get方式獲取網頁資料
strhtml.encoding='utf-8'
print(strhtml.text)
注:這裡面使用requests的get方法來獲取html,具體是get還是post等等要通過網頁頭資訊來查詢(以谷歌瀏覽器為例,在開發者模式下,network,選擇all進行檢視,可能需要重新整理)
通過點取屬性的方式只能獲得當前名字的第乙個標籤,如: soup.body.a
如果想要得到所有的標籤,或是通過名字得到比乙個tag更多的內容的時候,就需要用到 searching the tree 中描述的方法,比如: find_all()
tag.name
tag.name = "black" #修改標籤名
tag['class'] #獲取屬性
tag.attrs #獲取所有屬性
tag['id'] = 1 #修改屬性
del tag['class'] #刪除屬性
tag.string.replace_with('no longer') #tag中包含的字串不能編輯,但是可以被替換成其它的字串,用 replace_with() 方法
tag.string #輸出標籤中的字串
head_tag.contents[3].name #標籤的 .contents 屬性可以將標籤的子節點以列表的方式輸出:
python入門記錄 Python 入門學習記錄
基礎語法 縮排縮排表達 內容的所屬關係的唯一方式,中縮排的長度必須保持統一。注釋python 使用 作為單行注釋標識,作為多行注釋標識。如 這是單行注釋 這是多行注釋 命令 保留字 命名規則 大小寫字元 數字 下劃線和漢字等字元及組合。大小寫敏感,首字元不能為數字,不能與保留字相同。保留字 被程式語...
python小白學習記錄 爬蟲requests篇
一 引用庫 import requests 二 請求訪問url,網頁相應 res requests.get 網頁位址 三 表明返回內容 目前返回的response物件有四種屬性 status code 檢查請求是否成功 content 將資料轉換為二進位制資料 text 將資料轉換為字串型資料 en...
爬蟲學習記錄
如何將字串轉換為字典 字典推導式 cookies anonymid j3jxk555 nrn0wh r01 1 ga ga1.2.1274811859.1497951251 de bf09ee3a28ded52e6b65f6a4705d973f1383380866d39ff5 ln uact mr ...