編譯環境:pycharm 4.5.3
python版本:3.5.1
以knewone為例:
frombs4importbeautifulsoupimportrequests
importtime
url=''web_data=requests.get(url) #利用requests訪問網頁
soup=beautifulsoup(web_data.text,'lxml') #解析網頁
titles=soup.select(' section.content > h4 > a ') #網頁元素定位
imgs=soup.select('a.cover-inner > img')
fortitle,imginzip(titles,imgs): #少部分資料可以先用字典封裝,大資料再考慮用資料庫
data=
print(data)
此外,發現knewone的「產品」頁面為乙個非同步載入網頁,那麼,如何爬取一頁所有的資訊呢?
defget_info(url,data=none):web_data=requests.get(url)
soup=beautifulsoup(web_data.text,'lxml')
titles=soup.select(' section.content > h4 > a ')
imgs=soup.select('a.cover-inner > img')
if(data==none):
fortitle,imginzip(titles,imgs):
data=
print(data)
defget_mor_pages(start,end):
foroneinrange(start,end):
get_info(url+str(one))
Python簡易爬蟲
服務端 from flask import flask,request import os defshow if os.path.exists students.txt st st st fobj open students.txt rt encoding utf 8 while true 讀取一行...
Python的簡易爬蟲
上 coding utf 8 import requests url wd joyful url url wd 獲取鏈結到的頁面 html,就跟你右鍵瀏覽器檢視源 差不多 r requests.get url 轉字串 string r.text def find string 定義兩個變數 分別表示...
2015 12 25Python 簡易爬蟲
使用python2.7.11版本 建立新的python file usr bin env python 指定用什麼直譯器執行指令碼以及直譯器所在的位置 coding utf 8 指定檔案編碼為utf 8 import urrlib2 if name main 提供乙個入口 設定 request 的u...