爬蟲分析
文章排名**
import requests
import json
import csv
import time
headers =
def get_info(url):
res = requests.get(url,headers=headers)
# print(res.text)
json_data = json.loads(res.text)
notes = json_data['notes']
for note in notes:
title = note['title']
author_nickname = note['author_nickname']
author_fp = note['author_fp']
voter_fp = note['voter_fp']
fp = note['fp']
print(title,author_nickname,author_fp,voter_fp,fp)
writer.writerow([title,author_nickname,author_fp,voter_fp,fp])
if __name__ == '__main__':
fp = open('article.csv','w+',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(['title','author_nickname','author_fp','voter_fp','fp'])
urls = [''.format(i) for i in range(20181115,20181127)]
for url in urls:
get_info(url)
time.sleep(1)
使用者排名**import requests
import json
import csv
import time
from lxml import etree
headers =
def get_info(url):
path = ''
res = requests.get(url,headers=headers)
# print(res.text)
json_data = json.loads(res.text)
users = json_data['users']
for user in users:
slug = user['slug']
author_url = path + slug
style = jug_vip(author_url)
author_nickname = user['nickname']
author_fp = user['author_fp']
voter_fp = user['voter_fp']
fp = user['fp']
print(author_nickname,author_url,author_fp,voter_fp,fp,style)
writer.writerow([author_nickname,author_url,author_fp,voter_fp,fp,style])
def jug_vip(url):
res = requests.get(url, headers=headers)
html = etree.html(res.text)
infos = html.xpath('//ul[@class="list user-dynamic"]/li')
str = ''
for info in infos:
jug = info.xpath('string(.)').strip()
str = str + jug
else:
return '非會員'
if __name__ == '__main__':
fp = open('user.csv','w+',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(['author_nickname','author_url','author_fp','voter_fp','fp','style'])
urls = [''.format(i) for i in range(20181115,20181127)]
for url in urls:
get_info(url)
time.sleep(1)
文章top10
文章詞云
乾貨相關
使用者top10
如果只是知道文章title規律,我們這種普通人也是很難上榜的。接下來,我們再通過上榜的使用者來分析,看看規律。首先是top10。
這些使用者排行靠前,大家可以看看這些使用者平時的乙個分析作品,學習學習。
霸屏使用者
我總共爬取了12天的資料,通過**發現,很多使用者12天都上榜了,這種霸屏使用者真的是羨慕嫉妒恨。
'思維導圖實戰派_汪志鵬', 'altcoin', '淡月6688', '臨湖風徐徐道來', '小塵2016', '我是四海szw',
'中本蔥老爺爺', 'weiblock', '蔣坤元', '且行且影', '荊白', '蒼天鴨', '臉譜大叔', '肆月初陸',
'幣圈tesla', '無戒', '段維tina', '紫螢石', '陳天宇123', 'jianan嘉楠', '春木sky', '夢之藍色',
'殺個程式猿祭天', '霖山', '雪球薅羊毛', 'carykive', '木木大木木', '大琦有鑽', '李砍柴', '傑夫1',
'寫手圈', '靜夜思007'
python學習筆記簡書 Python學習筆記
1.輸入 輸出 1 輸出 printf aaa printf aa a printf 100 200 100 200 結果為aaa aa a 100 200 300 輸出不輸出回車方法 print end 2 輸入 name intput printf name 結果為mike mike name ...
python學習筆記簡書 python學習筆記
一.list和tuple list是一種有序的集合 可以改變 例如用.insert插入資料 pop刪除資料 可以寫成 user a b c tuple也叫作元組 定義好不可改變 可以寫成 user a b c 定義乙個空的元組 user 可以看出他們的區別是 list用的是,元組用的是 關鍵字引數 ...
python學習筆記簡書 Python學習筆記
本人在廖雪峰的python教程學習python,在此記錄一些筆記,記一些重要的東西,以便查詢及複習。輸入與輸出 用print 在括號中加上字串,就可以向螢幕上輸出指定的文字。print 會依次列印每個字串,遇到逗號 會輸出乙個空格。python提供了乙個input 可以讓使用者輸入字串,並存放到乙個...