python網路爬蟲入門（二）

可以替代人工從網頁中找到資料並複製貼上到excel中，這種重複性的工作不僅浪費時間還一不留神還會出錯----解決無法自動化和無法實時獲取資料對於這些公開資料的應用價值，我們可以使用kyc框架來理解，know your company(了解你的公司)、know your competitor(了解你的競手)、know your customer(了解你的客戶)。這是理解和進行簡單描述性分析公開資料就可以帶來的價值，進一步講，通過機器學習和統計演算法分析，在營銷領域就可以幫助企業做好4p（產品（product） **（price）渠道（place） **（promotion））

robots協議

主要可以分為三部分：1.獲取網頁；2.解析網頁（提取資料）；3.儲存資料；

1.獲取網頁就是給**傳送乙個請求，該**會返回整個網頁的資料

2.解析網頁就是從整個網頁的資料中提取出想要的資料

3.儲存資料就是把資料儲存下來

三個流程的技術實現

1.獲取網頁

獲取網頁的基礎技術：request、urllib和selenium（模擬瀏覽器）

獲取網頁的高階技術：多程序多執行緒抓取、登入抓取、突破ip封禁和伺服器抓取

2.解析網頁

解析網頁的基礎技術：re正規表示式、beautifulsoup和lxml

解析網頁的高階技術：解決中文亂碼

3.儲存資料

儲存資料的基礎技術：存入txt檔案中和存入csv檔案

儲存資料的高階技術：存入mysql資料庫和存入mongodb資料庫

python網路爬蟲 入門（二）

python網路爬蟲入門（二）

爬蟲二 Python爬蟲入門二

python網路爬蟲入門

相關推薦

python網路爬蟲入門（二）