'''
# -*- coding:utf-8 -*-
@filename: weibo_comment.py
@date : 2018/12/5 13:01
@author : 風夏
@hobby : mi mi 貓
'''import requests
import json
import time
import emoji #pip install emoji
import schedule #pip install schedule
import re
def task():
# with open('comment.txt', 'r') as f:
# file = f.read()
for i in range(1, 3): #微博客戶端**目前只能爬取16頁資料
print('********************第頁********************'.format(i))
header =
if i == 1:
url = ''
else:
url = ''.format(max_id)
cookie =
response = requests.get(url, headers=header, cookies=cookie)
text = json.loads(response.text)['data']
max_id = text['max_id']
comments = text['data']
for j in comments:
comment = emoji.demojize(comment)#去除表情
comment = re.sub(":\s+?:"," ",comment)
# name = emoji.demojize(name)
# name = re.sub(":\s+?:"," ",name)
print(name, created_at, comment)
with open("comment.txt", "a",encoding='utf-8') as f:
f.write(name + " " + created_at + " " + comment + "\n")
# if comment in file:
# pass
# else:
# try:
# with open("1.txt", "a") as f:
# f.write(name + " " + created_at + " " + comment + "\n")
# except:
# pass
time.sleep(2) #防止爬得太快被反爬,進行睡眠2s
# schedule.every(30).minutes.do(job) #定時任務,每隔30分鐘呼叫一次job函式
schedule.every(20).seconds.do(task) #定時任務,每隔20秒呼叫一次job函式
# task()
while true:
# time.sleep(1)
schedule.run_pending()
爬取部落格評論
通過抓包獲取資料 還要找到真實的 url 位址 多數在 networt xhr 中 import requests import json link headers r requests.get link,headers headers print 頁面狀態響應碼 r.status code 此時已...
客戶端爬取 答網友問
客戶端爬取 發布之後,有鮮花也有質疑,也有很多愛智求真 善於思考的同學在點讚之餘,提出了一些有價值或者覺得有必要一答的問題,包括技術層面和道德層面,本文就主要問題作出解答。爬蟲技術 一 一篇文章了解爬蟲技術現狀 爬蟲技術 二 客戶端爬蟲 爬蟲技術 三 客戶端爬取 問題二 客戶端爬蟲應用在什麼場景 需...
android oauth 微博客戶端 架構一
ui層微博中的各個窗體 就是所謂的各個activity logic層 程式的核心控制排程模組,獲取ui傳遞的資料 要執行的任務,呼叫微博介面,獲得網路資料,返回訊息,重新整理 切換 ui 相當於mvc中的control,處理相應的業務邏輯.資料庫操作 以上都是mvc中的model,即使相應資料操作。...