我寫了乙個爬烏雲漏洞庫的爬蟲,其url形式為公司名稱/page/1,程式最後raw_input處輸入公司名稱即可跑出該公司的漏洞。現在的問題是中文編碼的問題沒解決好,如果公司的名稱是英文如rising就可以,如果是中文就報錯。求各位大大指點
# coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import urllib2
import re
def getpage(pagenum):
try:
url = '' + corpname + '/page/' + str(pagenum)
request = urllib2.request(url)
response = urllib2.urlopen(request)
return response.read().decode('utf-8')
except urllib2.urlerror, e:
if hasattr(e,u"reason"):
print u"error",e.reason
return none
def getcontent(page):
pattern = re.compile('
.*? (.*?).*?
(.*?)',re.s)
items = re.findall(pattern,page)
for item in items:
print item[0],''+item[1],item[2]
def getpagenum(page):
pattern = re.compile('
(.*?)
items = re.findall(pattern,page)
text=items[0]
text=str(text)
m = re.findall('\d+',text)
pagenum=m[1]
return pagenum
def getresultnum(page):
pattern = re.compile('
(.*?)
python中檔案讀取不出來 Python檔案讀取
一檔案讀取 aa.txt 登鸛雀樓 白日依山盡,黃河入海流。欲窮千里目,更上一層樓。1讀取整個檔案 filename e colddemo python src firstday 檔案讀取 aa.txt with open filename as file object contents file ...
python2用什麼支援中文編碼 python2
python 中文編碼 前面章節中我們已經學會了如何用 python 輸出 hello,world 英文沒有問題,但是如果你輸出中文字元 你好,世界 就有可能會碰到中文編碼問題。python 檔案中如果未指定編碼,在執行過程會出現報錯 usr bin python print 你好,世界 以上程式執...
leetcode打家劫社簡單實現 python
給定乙個陣列代表每家的金錢 1,2,0,4,6 不可以搶劫相鄰兩家的金錢,可以搶劫相隔的兩家,求最大值 1 0 6 7 2 4 6 max 7 思路 動態規劃,遍歷陣列,當i 2 時,比較 dp i 2 dp i 和 dp i 1 選擇大的更新dp陣列 def robber arr if len a...