python2 spider 今日頭條

2021-08-17 21:08:10 字數 763 閱讀 2146

requests + json

直接上**:

#!/usr/bin/python

# coding=utf-8

import requests

import json

url = ''

wbdata = requests.get(url).text

data = json.loads(wbdata)

news = data['data']['pc_feed_focus']

for n in news:

title = n['title']

print title,

img_url = n['image_url']

#print img_url

url = n['media_url']

print url

#print(url,title,img_url)

執行結果:

$ python toutiao.py

我國首個無人駕駛巴士在東南大**營 可自動避人

中國最美鄉村!江西花3億元打造500個「美麗家園」

張繼科爸爸也關注了景甜,這門親事真的要成了?!

美國隊下月造訪白宮 已有四人公開宣告不去!

武警雲南總隊「魔鬼周」野外極限訓練錘煉特戰尖兵

尷尬!關曉彤曬照**,但她的**餐也太打臉了!

賈靜雯小女兒激萌可愛 霍思燕光腳抱嗯哼跳皮筋累慘

今日頭條站長平台 頭條搜尋爬蟲spider介紹

頭條搜尋的爬蟲ua為 bytespider 首寫字母為大寫。例如 例如 mozilla 5.0 www.cppcns.com linux android 6.0 nexus 5 build mra58n applewebkit 537.36 khtml,like gecko chrome 41.0....

python寫的乙個簡單的spider

1.html parser 繼承sgmlparser類,對html頁面中的正文 tag 和錨點 tag 的內容進行提取 2.spider 用urllib開啟html page,通過myparser提取頁面資訊 正文和錨點 通過關鍵字提取有用資訊 只有包含了關鍵字的資訊才會被保留下來,其他資訊都會被捨...

19 7 31今日所遇python函式

1 time.strftime 顯示的格式 獲取時間 例 import time start time time.strftime y m d h m s time.localtime 2 os.walk dir 用於通過在目錄樹中游走輸出在目錄中的檔名 常見的用法有 for root,dirs,f...