爬取資料之後:新聞聚合閱讀器
最漂亮美女網
圖書**對比網
python技術文章大全
設定爬蟲終端:
url 管理器判斷爬取網頁鏈結
流程: 排程器詢問 url 管理器,是否存在要爬取的 url
url 管理器返回 是或否
排程器 從 url 管理器中 取出乙個 url
url 管理器 將 url 傳遞給排程器
解析器解析後傳遞給排程器
此時可以收集價值資料 排程器再將需要爬取的 url 傳遞給 url管理器 一直到沒有需要爬取的 url
url 管理器:
管理待爬取的 url 集合和已經爬取的 url 集合
使用管理器是為了防止重複抓取和防止重複抓取乙個 url
url 功能:
新增新的 url 到待爬取的集合中
確定待新增的 url 是否在 url 中
獲取待爬取的 url
將 url 從待爬取的移動到已爬取的集合中
判斷是否還有待爬取的資料
url 管理器實現方式:
將 待爬取的 和 已爬取的 url 儲存在集合中
set()
將 url 儲存在 關聯式資料庫中,區分 url 是待爬取還是已經爬取
mysql urls(url,is_crawled)
快取資料庫 redis
將 url 對應的網頁轉換為 html 資料
儲存到本地檔案或者記憶體字串中
特殊情景處理器:
需要使用 cookie 訪問時:httpcookieprocessor
需要使用 ** 訪問時:proxyhandler
需要使用 加密 訪問時:httphandler
網頁存在跳轉關係訪問時:httpredirecthandler
網頁解析器:
從網頁提取有價值的資料
html 網頁文件字串
提取出價值資料
提取出新的 url 列表
正規表示式 ->模糊匹配
文件作為字串,直接匹配
html.parser
beautifulsoup ->可以使用 html.parser 和 lxml
從 html 和 xhtml 中提取資料
語法:建立 beautifulsoup 物件
搜尋節點 findall find
訪問節點(名稱,屬性,文字)
lxml
->結構化解析
dom 樹
進行上下級的遍歷
html
head
title
文字body
ahref
文字div
文字爬蟲: 確定目標
分析目標
url 格式
資料的鏈結
資料的格式
網頁編碼
編寫**
執行爬蟲
2020-04-12
爬蟲流程複習3
111.requests.get 方法的流程 r requests.get content.decode utf 8 從狀態碼到 二進位製碼到 utf 8編碼 112.對 soup 物件進行美化 html soup.prettify 113.將內容 string 化 html.xpath strin...
考研複習流程
這個階段就是打基礎 打基礎 打基礎。不要想著去做試卷刷題,先把基礎知識點掌握好。英語多背單詞多閱讀,數學學好知識點,做基礎鞏固習題,政治大致過一遍,對理解性的知識點先理解,不用急著背誦。專業課也是看書為主。6月底,大家需要過一遍基礎,結束第一輪複習。可以考慮全年營或者也有體驗營可以了解下。暑假這一段...
爬蟲學習 爬蟲基本流程
標籤 空格分隔 資料探勘 爬蟲 1 發起請求 2 獲取相應內容 3 解析網路內容 4 儲存資料 結構化儲存 user server request server user response 1 請求方式 get,post,head,put,delete 2 get和post的區別 請求的引數包含的部...