用到的基本就是之前提到的執行緒小框架及邏輯
# -*- encoding: utf-8 -*-
import requests
from lxml import etree
import threading
import os
class cnbeta(object):
thread =
#獲取**首頁
def get_url(self,url):
# 如果沒有檔案就建立檔案
if not os.path.exists('cnbeta.html'):
res = requests.get(url)
res1 = res.content.decode("utf-8")
with open('./cnbeta.html','w',encoding='utf-8') as f:
f.write(res1)
return res1
else:
with open('./cnbeta.html',encoding='utf-8') as f:
content = f.read()
return content
# 抓取內頁**
def get_data(self,html):
# 完善html標籤
tree = etree.html(html)
url = tree.xpath("//div[@class='headline-thumb']/a/@href")
for i in url:
# 抓取內頁內容放入檔案
def get_xiang(self,res):
# 動態檔名
name = str(res).split('/')[-1].replace('.htm','')
# 請求列表中的位址
r = requests.get(res)
r1 = r.content.decode('utf-8')
path = './upload/'
with open( path+name+'.html','w',encoding='utf-8' ) as f:
print("*****")
f.write(r1)
if __name__ == "__main__":
cnbeta = cnbeta()
html = cnbeta.get_url("")
# 將請求位址放入列表中
cnbeta.get_data(html)
print(cnbeta.thread)
for i in cnbeta.thread:
a = threading.thread(target=cnbeta.get_xiang,args=(i,))
a.setdaemon(true)
a.start()
a.join()
爬蟲有危險,抓取需謹慎 python抓取簡單頁面資訊
我們最常規的做法就是通過滑鼠右鍵,選擇另存為。但有些滑鼠右鍵的時候並沒有另存為選項,還有辦法就通過就是通過截圖工具擷取下來,但這樣就降低的清晰度。好吧 其實你很厲害的,右鍵檢視頁面源 我們可以通過python 來實現這樣乙個簡單的爬蟲功能,把我們想要的 爬取到本地。下面就看看如何使用 python ...
利用python抓取頁面資料
1 首先是安裝python 注意python3.x和python2.x是不相容的,我們最好用python3.x 安裝方法 安裝python 2 安裝成功後,再進行我們需要的外掛程式安裝。這裡我們需要用到requests和pymssql兩個外掛程式re是自帶的 注 這裡我們使用的是sqlserver所...
Python 簡單網路抓取
我們先簡單的說一下如何抓取乙個網頁的源 其實我們只需要呼叫python中的requests庫中的get方法就可以了。然後解析的話我們可以通過beautifulsoup庫來進行解析。requests比較適合做中小型的網路爬蟲開發,如果是要進行大型的網路爬蟲開發那一般使用的就是scrapy框架了。req...