方法一:完整解析資訊的標記形式,再提取關鍵資訊。
xml? ? json? ? yaml
需要標記解析器?
eg: bs4庫的標籤樹遍歷
優點: 資訊解析準確
缺點: 提取過程繁瑣,速度慢。
方法二: 無視任何標記形式,直接搜尋關鍵資訊。
搜尋對資訊的文字查詢函式即可。
優點: 提取過程簡潔,速度較快。
缺點:提取結果準確性與資訊內容相關。
融合方法
融合方法: 結合形式解析與搜尋方法,提取關鍵資訊。
xml? ? json? ? yaml?? ? 搜尋
需要標記解析器及文字查詢函式。
例項提取html中所有url鏈結
思路: 1)搜尋到所有標籤
????????? ?2)解析標籤格式,提取href後的鏈結內容。
>>> from bs4 import beautifulsoup
>>> import requests
>>> r = requests.get("")
>>> demo = r.text
>>> soup = beautifulsoup(demo,"html.parser")
>>> for link in soup.find_all('a'):
print(link.get('href')) #在a標籤中獲取它的屬性
>>>
資訊提取的一般方法
完整解析資訊的標記形式,再提取關鍵資訊 需要標記解析器 bs4庫的標籤樹遍歷 優點 資訊解析準確 缺點 提取過程繁瑣,速度慢 結合形式解析與搜尋方法,提取關鍵資訊 需要標記解析器及文字查詢函式 獲取demo源 import requests r requests.get 頁面鏈結 r.text de...
小白學爬蟲筆記8 資訊提取的一般方法
方法二 無視標記形式,直接搜尋關鍵資訊 融合方法 結合形式解析與搜尋方法,提取關鍵資訊 from bs4 import beatifulsoup soup beautifulsoup demo,html.parser for link in soup.find all a print link.ge...
大資料的一般分析流程
大資料分析流程 1 業務理解 判斷分析需求是否可以轉換成資料分析專案 2 資料獲取 抽取的資料必須能夠正確反映業務需求 3 資料清洗 補充部分資料缺失的屬性值 統一資料格式 編碼和質量 檢測和刪除異常資料 4 資料管理 對資料進行分類 編碼 儲存 索引和查詢 經歷了檔案管理 資料庫 資料倉儲 大資料...