第1天 12天搞定Python網路爬蟲，吃裡爬外？

人力資源部漂亮的小mm，跑來問我：老陳，資料分析和爬蟲究竟是關係呀？說實在的，我真不想理她，因為我一直認為這個跟她的工作關係不大，可一想到她負責我負責部門的招聘工作，我只好勉為其難地跟她說：資料分析，吃里，爬蟲，爬外，合在一起就是吃裡爬外。

大資料時代，要想進行資料分析，首先要有資料**，單靠公司那幾條毛毛雨(資料)，分析個寂寞都不夠，唯有通過學習爬蟲，從外部(**)爬取一些相關、有用的資料，才能讓老闆進行商業決策時的有據可依，而你，亦是老闆。

一提到老闆，漂亮的小mm，興奮得不得了，馬上大聲問：你們it界，最帥的是不是就是那個搞搜尋引擎的李老闆?

一想到排名賺到的money，李老闆一分都不給我，我就跟人力mm說：好了，不跟你扯犢子了，我要跟我的老鐵說網路爬蟲的原理了，你個吃裡爬外的傢伙，見你的老闆去吧。

說白點，就是用python程式語言模擬瀏覽器，訪問指定**，對其返回結果，按規則進行篩選並提取自己需要的資料，存放起來使用，以供使用。

看過我《第10天 | 12天搞定python，檔案操作》和《第11天 | 12天搞定python，資料庫操作》的老鐵，應該知道，資料常存在檔案或資料庫中。

爬蟲程式設計，指定**，模擬瀏覽器傳送請求(獲取網頁**)->提取有用的資料->存放於檔案或資料庫中。

(1) 用http庫向目標站點發起請求，即傳送乙個request(包含請求頭和請求體等)；

(2) 對伺服器返回的response，用內建的庫(html、json、正規表示式)就進行解析

(3) 將所需資料儲存到檔案或資料庫當中。

在編寫爬蟲**的過程中，經常需要指定爬取的節點或路徑。如果我告訴你，chrome瀏覽器，就可以快速獲取節點或路徑的話，你會不會馬上看一下電腦是否安裝了？

會的話，那就對了，不會的，趕緊去安裝吧。

在頁面中，按下鍵盤f2鍵，可顯示源**。滑鼠選中你要獲取的節點，右鍵【檢查】就可定位到**中，右鍵**，選擇【copy】-【copy selector 】或【copy xpath】便可複製節點或路徑的內容。

#python##網路爬蟲##程式設計師##爬蟲#