可以替代人工從網頁中找到資料並複製貼上到excel中,這種重複性的工作不僅浪費時間還一不留神還會出錯----解決無法自動化和無法實時獲取資料 對於這些公開資料的應用價值,我們可以使用kyc框架來理解,know your company(了解你的公司)、know your competitor(了解你的競手)、know your customer(了解你的客戶)。 這是理解和進行簡單描述性分析公開資料就可以帶來的價值,進一步講,通過機器學習和統計演算法分析,在營銷領域就可以幫助企業做好4p(產品(product) **(price) 渠道(place) **(promotion))
robots協議
主要可以分為三部分:1.獲取網頁;2.解析網頁(提取資料);3.儲存資料;
1.獲取網頁就是給**傳送乙個請求,該**會返回整個網頁的資料
2.解析網頁就是從整個網頁的資料中提取出想要的資料
3.儲存資料就是把資料儲存下來
三個流程的技術實現
1.獲取網頁
獲取網頁的基礎技術:request、urllib和selenium(模擬瀏覽器)
獲取網頁的高階技術:多程序多執行緒抓取、登入抓取、突破ip封禁和伺服器抓取
2.解析網頁
解析網頁的基礎技術:re正規表示式、beautifulsoup和lxml
解析網頁的高階技術:解決中文亂碼
3.儲存資料
儲存資料的基礎技術:存入txt檔案中和存入csv檔案
儲存資料的高階技術:存入mysql資料庫和存入mongodb資料庫
python網路爬蟲入門(二)
一 python爬取10頁250條資料中的所有 書單 模組案例方法一 encoding utf 8 import requests from bs4 import beautifulsoup i 25 while i 225 i i 25 c str i resp requests.get c so...
爬蟲二 Python爬蟲入門二
1.認識爬蟲 1.1 什麼是爬蟲 爬蟲 一段自動抓取網際網路資訊的程式,從網際網路上抓取對於我們有價值的資訊。1.2 python的爬蟲架構 網頁解析器 將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式 直觀,將網頁轉成字串...
python網路爬蟲入門
from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...