import requests
if __name__ == "__main__":
url = ''
city = input("enter a city:")
data =
headers =
response = requests.post(url=url,data=data,headers=headers)
page_text = response.text
filename = city+'.html'
with open(filename,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(filename,'儲存成功!!!')
# 批量獲取不同企業的id值
url = "itownet/portalaction.do?method=getxkzslist"
headers =
id_list = #儲存企業id值
all_data_list = #儲存所有企業的詳情資料
# 引數的封裝
for page in range(1,6):
data =
json_ids = requests.post(url = url,data = data,headers = headers).json()
for dic in json_ids['list']:
# 獲取企業詳情資料
post_url = 'itownet/portalaction.do?method=getxkzsbyid'
for id in id_list:
data =
detail_json = requests.post(url = post_url ,data=data,headers = headers).json()
# 持久化儲存all_data_list
fp = open('./alldata.json','w',encoding='utf-8')
json.dump(all_data_list,fp=fp,ensure_ascii=false)
print('over!!')
自學爬蟲 day2
我們匯入了 web 驅動模組 from selenium import webdriver 無形的瀏覽器phantomjs 將 python 物件轉化為 json是這樣的 json.dumps 將json資料轉化為python物件是這樣的 json.loads python從未縮排的非函式非類的 開...
day2 爬蟲實現登入
import requests 爬登入後的頁面第一種方法 登入之後獲取cookie進行登入 獲取登入後的url url 設定響應頭,獲取登入的cookie headers reponse requests.get url url,headers headers print reponse.text ...
機器學習 day2
歸一化 將所有資料轉化到同一標準下,使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到 預設為 0,1 之間 問題 如果資料中異常點過多,會有什麼影響?最大值最小值會受影響。方差考量資料的穩定性。標準化 將所有資料進行變換到平均值為0,標準差為1之間。standardsc...