python3 x爬取美團資訊

在之前的文章中，筆者有提到，我們要在實踐中去學習python，筆者有天就想著要不要爬點東西呢，躍躍欲試的節奏啊，想來想去，想到美團了，那麼首先筆者想給自己確定乙個目標，就是我要爬什麼樣的資料，我要爬美團的哪些東西。筆者首先確定了筆者想要爬去的界面，就是美團網在北京的**首頁，獲取首頁的**，**專案的介紹，**售價，銷量。

1.首先確定要用的模組，<1.>urrlib,os,re三個模組，

2.要想獲得資料，並且一一對應起來，那麼用到迴圈的巢狀（一開始卡殼，後來諮詢得到啟發），

3.獲取網頁的所有資料，爬去下來

4.分析這些想要或許的模組怎麼找出來，

5.找出相對於的正則來匹配，

6.獲取資料，並且找到對應的數值

7.利用迴圈，並且配合字典的使用，將資料完整的獲取下來，

8.儲存到相應的文件中

9.關閉文件，

10.提示資料儲存成功，結束爬去。

由於這是第一次採取這麼多的資訊，之前只是爬個啥的，所以筆者還是十分小心的去審查每乙個元素，在這裡推薦利用火狐瀏覽器，感覺是真的好用使用firebug外掛程式審查元素。

檢視元素後，可以獲得這個**的編碼形式是utf-8，這對於我們爬取資料也是關鍵的。

在一開始呢，筆者還開啟了一款軟體，fiddler，抓包

這些資訊還是很多的，由於筆者截圖的時候碰到了網路的原因，但是筆者還是找到了自己想要的資訊，這樣可以在自己的**中加入偽裝瀏覽器的資訊，那麼接下來要做的事情就是定位我們想要找的資料。

分析首頁的**資訊，我們可以根據多個來確認這個資訊的唯一識別符號，標籤中並且有class="xtitle"< /span>中間文字，那麼我們的正規表示式就出來了，r'(.+?)'（正則太難，筆者乙個個試出來的）

title_reg=r'(.+?)' #匹配**

jianjie_reg=r'class="short-title">(.+)' #匹配**簡介

sellnum_reg=r'(.+)' #銷售的數量

pire_reg=r'(.+)' #**的售價

title_list = re.findall(title_reg,html)

jianjie_list=re.findall(jianjie_reg,html)

sellnum_list=re.findall(sellnum_reg,html)

pire_list=re.findall(pire_reg,html)

meitu={}

i = 0

for title in title_list:

meitu['**'] =title_list[i]

for jianjie in jianjie_list:

meitu['簡介']=jianjie_list[i]

for sellum in sellnum_list:

meitu['銷量']=sellnum_list[i]

for pire in

python3 x爬取美團資訊

python爬美團美食商家

Python爬取X車之家配置資訊

Python3 x編碼問題

python3 x爬取美團資訊

python爬美團美食商家

Python爬取X車之家配置資訊

Python3 x編碼問題

相關推薦