python爬蟲資料解析 css選擇器

2021-10-09 05:15:16 字數 371 閱讀 3413

結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。一般特點是:資料以行為單位,一行資料表示乙個實體的資訊,每一行資料的屬性是相同的。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-jic2h**9-1597472766582)(assets/1560577029244.png)]

非關係模型的、有基本固定結構模式的資料,例如日誌檔案、xml文件、json文件等。

這個也是json檔案。

[外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接上傳(img-wycisbj2-1597472766584)(assets/1560577066541.png)]

能看懂的就是結構化的資料,看不懂的,就是非結構化資料

python爬蟲 資料解析

解析的區域性的文字內容都會在標籤之間或者標籤對應的屬性中進行儲存 使用正規表示式,利用字串匹配篩選出所需要的內容 例 ex re是python中使用正規表示式的庫 page text是爬取到頁面的原始碼 使用上面定義的正則匹配規則進行解析,得到的url img src list re.findall...

python爬蟲 資料解析(正則)

正則解析案例 爬取糗事百科的 糗事百科url 檢視網頁源 發現儲存的位址 import requests import re import os if name main headers 判斷是否存在qiushi資料夾,如果不存在就建立乙個 ifnot os.path.exists qiushi o...

Python 爬蟲 資料解析回顧

定位標籤 提取標籤中儲存的資料 例項化乙個etree的物件且將解析的頁面原始碼資料載入到該物件中 通過xpath方法 返回值 列表 結合者xpath表示式進行資料解析 tagname tagname attr value tagname index text text attrname 例項化乙個b...