解除安裝前面:
這是乙個半自動爬蟲,也就是手動的比較多 ,也是個人學習效果展示
如果對看到的人有幫助 ,那再好不過了
# 匯入正規表示式模組和csv模組
import re
import csv
#讀取檔案
with open('source.txt','r',encoding='gbk') as f:
all_str = f.read()
# 每乙個發帖人所佔網頁中一塊
# 正規表示式:
user_block = re.findall(block_str,all_str,re.s) #讀取出每一塊的內容
resulat =
#將三個列表通過迴圈的方式 存入字典
# 正規表示式為
user_n_str = 'username="(.*?)"' # 匹配發帖人姓名
user_m_str = 'd_post_content j_d_post_content " style="display:;">(.*?)<' # 發帖人的內容
user_t_str = 'tail-info">(\d.*?)<' # 使用者發表內容的時間
# 因為是匹配每一塊,所以表示式要用迴圈分別儲存每一塊的內容
for i in user_block:
dic={}
dic['username'] = re.findall(user_n_str,i,re.s)[0]
dic['usermsge'] = re.findall(user_m_str,i,re.s)[0]
dic['usertime'] = re.findall(user_t_str,i,re.s)[0] #使用者發評時間
# 寫入csv檔案
with open('user1.csv','a',encoding='gbk') as f:
writer=csv.dictwriter(f,fieldnames=['username','usermsge','usertime'])
writer.writeheader()
writer.writerows(resulat)
杭州自學python爬蟲 自學PYTHON爬蟲
response urllib2.urlopen urlopen url,data,timeout 第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。第二三個引數是可以不傳送的,data預設為空none,timeout預設為 socket....
python免費自學爬蟲 python爬蟲學習
近日,學習爬蟲基礎,自己寫了乙個小指令碼。目標 每天晚上定時傳送第二天的工作專案到qq郵箱。目的 頭天晚上得到第二天的工作計畫,好決定頭天晚上是否能喝酒過量 是否能麻將通宵等等等等。哈哈!思路 1 從停電申請系統,統計出第二日的工作專案。2 每天晚上定時傳送該專案到qq郵箱。要解決的主要問題 1 從...
python爬蟲自學寶典 引言
1 通過網路向制定的url傳送請求,獲取伺服器的響應。2 使用某種技術 正規表示式,xpath等 提取頁面的資訊。3 高效的識別響應頁面中的鏈結資訊,順著這些鏈結遞迴執行上述第 一 二步。4 使用多執行緒有效的管理網路通訊互動。注 使用正規表示式雖然可以實現核心工作,但是正規表示式的效率沒有xpat...