初學python，爬蟲開刀

#-*- coding:utf-8 -*-
import urllib
import json
import csv
import codecs
csvfile = file('pythonsalary.csv', 'wb')
csvfile.write(codecs.bom_utf8)
writer = csv.writer(csvfile)
for i in range(1,100):
response = urllib.urlopen("
%85%a8
%e5%9b
%bd&kd=python&pn="+str(i))
html = response.read()
decoded = json.loads(html)
result = decoded["content"]["result"]
htmldumps = json.dumps(result, sort_keys=true)
resultdump = json.loads(htmldumps)
if i==1:
writer.writerow(resultdump[0].keys())
for j in range(0,len(resultdump)):
writer.writerow(resultdump[j].values())
csvfile.close()

資料暫時儲存到csv中

其中遇到的問題

編碼問題 unicodeencodeerror: 『ascii』 codec can』t encode character u』\u6211』。解決方法為：在python安裝目錄下的lib\site-packages資料夾下新建乙個sitecustomize.py，檔案中的**為：

import sys  
sys.setdefaultencoding('utf-8')

2 檔案寫入後亂碼問題

解決方法如下csvfile.write(codecs.bom_utf8)

初學python爬蟲

上之前先說下這個簡易爬蟲框架的思路排程器爬蟲的入口知道沒有url或爬蟲終端，輸出結果上 1，排程器 from myspider import urls manager,html html paser,html outer class legendspider object def init...

python爬蟲初學

0x01環境搭建 import os import requests from lxml import etree from urllib.parse import urljoin import urllib pip installl 包名字0x02介紹這裡寫了乙個爬的爬蟲指令碼如果不能解決就手...

Python 爬蟲初學

爬取中的1import re 正規表示式庫 2import urllib url鏈結庫34 defgethtml url 5 page urllib.urlopen url 開啟鏈結 6 html page.read 像讀文字一樣讀取網頁內容 7return html89 defgetimg ht...

初學python，爬蟲開刀

初學python爬蟲

python爬蟲初學

Python 爬蟲初學

相關推薦