先抓取乙個頁面的內容,以後再慢慢完善。
#中國a股核心題材爬蟲0.1
#import
urllib2
import
urllib
importre#
建立乙個爬蟲的類hexin_spider
class
hexin_spider(object):
"""docstring for 建立乙個爬蟲的類hexin_spider
"""def
__init__
(self, arg):
pass
#初始化好mysql資料庫相關操作
defmydb(self):
pass
#活取核心題材的頁面(上海滬市)
defgetshpage(self):
scode = range(600000,600999)
i =0
while (i myurl = "
"+str(scode[i])
myreq =urllib2.request(myurl)
myresponse =urllib2.urlopen(myreq)
mypage =myresponse.read()
unicodepage = mypage.decode("
utf-8")
myitems = re.findall('
(.*?)
',unicodepage)
if len(myitem) ==0:
break
else
: mydb = mysqldb.connect("
127.0.0.1
","root
","","
pa",use_unicode=true, charset="
utf8")
cursor =mydb.cursor()
sql = "
insert into stock(scode,ticai) values('%d','%s')
" %(scode[i],myitems[0])
cursor.execute(sql)
mydb.commit()
mydb.close()
i = i + 1
defgetszpage(self):
pass
defgetzxpage(self):
pass
defgetchypage(self):
pass
測試執行了一下,總是執行到一半的時候,出錯,資料庫裡面已經有相關資料了,好像一抓取到600365就出錯了,不知道為什麼。繼續查詢問題。
Linux核心分析四 系統呼叫
linux核心分析四 系統呼叫 本文是 linux核心分析 課程的第四次作業,作者劉洋為您奉上。本次課程分別通過c語言和組合語言實現同乙個系統呼叫,來理解linux系統呼叫。作業系統為在使用者態執行的程序與硬體設別之間進行互動提供了一組介面,這種分層的設計能夠帶來很多優點。首先,把使用者從底層硬體開...
核心之旅 簡單分析getsockopt系統呼叫
今天看了個sockopt操作,本想著了解下流程,看看程序是如何獲取opt的。結果前一半順利,後一半坎坷,但是還是堅持了下來。我們知道,此函式為系統呼叫,在 中應該可以找到,參考我之前的blog,但是我這次遇到的是在net ipv4 ip sockglue.c找到的此次問題的答案,具體問題為nginx...
Linux核心分析實驗4 系統呼叫
cpu工作狀態分為核心態與使用者態,他們的執行的指令的許可權不同,使用者態程式不能訪問0xb00000以後的的記憶體 虛擬記憶體 系統核心會提供一些系統呼叫,它們執行一些底層的,有關硬體的功能,出於安全與相容的考慮,使用者態程式無法訪問硬體,需要通過系統呼叫來實現一些功能,如獲取當前事件,在螢幕上顯...