python簡易爬蟲製作

編譯環境：pycharm 4.5.3

python版本：3.5.1

以knewone為例：

frombs4importbeautifulsoup
importrequests
importtime
url=''web_data=requests.get(url)  #利用requests訪問網頁
soup=beautifulsoup(web_data.text,'lxml') #解析網頁
titles=soup.select(' section.content > h4 > a ') #網頁元素定位
imgs=soup.select('a.cover-inner > img')
fortitle,imginzip(titles,imgs):    #少部分資料可以先用字典封裝，大資料再考慮用資料庫
data=
print(data)

此外，發現knewone的「產品」頁面為乙個非同步載入網頁，那麼，如何爬取一頁所有的資訊呢？

defget_info(url,data=none):
web_data=requests.get(url)
soup=beautifulsoup(web_data.text,'lxml')
titles=soup.select(' section.content > h4 > a ')
imgs=soup.select('a.cover-inner > img')
if(data==none):
fortitle,imginzip(titles,imgs):
data=
print(data)
defget_mor_pages(start,end):
foroneinrange(start,end):
get_info(url+str(one))

Python簡易爬蟲

服務端 from flask import flask,request import os defshow if os.path.exists students.txt st st st fobj open students.txt rt encoding utf 8 while true 讀取一行...

Python的簡易爬蟲

上 coding utf 8 import requests url wd joyful url url wd 獲取鏈結到的頁面 html，就跟你右鍵瀏覽器檢視源差不多 r requests.get url 轉字串 string r.text def find string 定義兩個變數分別表示...

2015 12 25Python 簡易爬蟲

使用python2.7.11版本建立新的python file usr bin env python 指定用什麼直譯器執行指令碼以及直譯器所在的位置 coding utf 8 指定檔案編碼為utf 8 import urrlib2 if name main 提供乙個入口設定 request 的u...

python簡易爬蟲製作

Python簡易爬蟲

Python的簡易爬蟲

2015 12 25Python 簡易爬蟲

相關推薦