# encoding=utf-8
import re
import requests
import json
from requests.exceptions import requestexception
def get_open_page(url):
try:
# 請求頭
headers =
#使用localhost作為**伺服器
proxies =
reponse = requests.get(url, headers=headers, timeout=3, proxies=proxies)
# 設定編碼 不設定可能出現亂碼
reponse.encoding = 'utf-8'
if reponse.status_code == 200:
return reponse.text
return none
except requestexception:
return none
def main():
# 爬取排名前100的電影
list =
for i in range(0,10):
url = '';
url = url + str(i*10)
html = get_open_page(url)
# 使用正規表示式篩選
pattern = re.compile('.*?board-index.*?>(.*?).*?name.*?a.*?>(.*?).*?star.*?>\s+(.*?)\s+.*?
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',re.s)
result = re.findall(pattern, html)
dic = {}
for items in result:
dic =
with open('data.json', 'w', encoding="utf-8") as file:
file.write(json.dumps(list, indent=2, ensure_ascii=false))
main()
為使unicode轉化為中文,我們需要知道編碼為utf-8,但僅僅這樣並不能達到預期效果,還需要指定ensure_ascii為false。 python讀取資料中的資料儲存為JSON格式
方法一 這種方式的得到的檔案,雖然開啟檔案後報錯,不要要修改,儲存資料型別 import pymysql import json def source json conn pymysql.connect host 127.0.0.1 port 3306,user root passwd db fin...
python爬蟲基礎 儲存資料
三 儲存 資訊 使用open 函式以 w 寫入的方式開啟乙個txt文件,如果檔案不存在則python會建立乙個新的文件。然後寫入資料即可。file open test.txt w file.write new line file.close 將python儲存為csv文件時,需要使用csv模組,具體...
Python爬蟲 爬蟲獲取資料儲存到檔案
本篇文章 繼續介紹另外兩種方式來實現python爬蟲獲取資料,並將python獲取的資料儲存到檔案中。說明一下我的 環境是python3.7,本地環境是python2.x的可能需要改部分 用python3.x環境的沒問題。coding utf 8 import urllib.requestimpor...