python爬蟲學習(五)藥監局化妝品生產許可

2021-10-01 17:45:58 字數 995 閱讀 4161

這裡面有幾個坑,網頁url是

模擬訪問之後只有首頁標題,沒有資料

然後發現是用了ajax,重新找到url

第二個坑是這個url的資料也不是最終資料只是個統計資料

通過這個url拿到下個url的id再去訪問最終的資料

# -*- coding: utf-8 -*-

import requests

import json

if __name__ == '__main__':

#批量獲取企業id

url = 'itownet/portalaction.do?method=getxkzslist'

headers =

id_list = # 儲存企業id

all_data_list = # 儲存所有的企業詳情資料

for page in range(1,6):

page = str(page)

data=

json_ids=requests.post(url=url,headers=headers,data=data).json()

for dic in json_ids['list']:

#獲取企業詳情資料

post_url = 'itownet/portalaction.do?method=getxkzsbyid'

for id in id_list:

data=

detail_json=requests.post(url=post_url,headers=headers,data=data).json()

# print(detail_json,'--------結束')

#儲存到本地

fp = open('./alldata.json','w',encoding='utf-8')

json.dump(all_data_list,fp=fp,ensure_ascii=false)

print('結束')

python爬蟲學習(五)

目標 破解有道翻譯介面,抓取翻譯結果 結果展示 請輸入要翻譯的詞語 elephant 翻譯結果 大象 請輸入要翻譯的詞語 喵喵叫 翻譯結果 mews實現步驟 1 瀏覽器f12開啟網路抓包,network all,頁面翻譯單詞後找form表單資料 2 在頁面中多翻譯幾個單詞,觀察form表單資料變化 ...

Python爬蟲學習筆記(五)

使用美麗湯爬取三國演義 定位元素和屬性三種方式 beautifulsoup 正則 xpath soup.tagname soup.find soup.find all soup.select import requests from bs4 import beautifulsoup if name ...

python網路爬蟲(五)

資訊標誌的三種形式 xml,json,yaml xml例項 tian cai北京 516002 json例項 yaml例項 firstname tian lastname cai address city 北京 zipcode 516002 xml 最早的通用資訊標記語言,可擴充套件性好,但繁瑣 i...