爬蟲第一次

由於面試的需要，昨天看了下爬蟲，python的，原先一直以為很高階，但是才發現大體思路很清晰。。。

1。連線到要抓取的某網，注意import urllib，比如這個樣子

def gethtml(url):

page = urllib.urlopen(url)

html = page.read()

return html

這樣基本就能把這個網頁搞下來了，但是不是所有**這麼搞都能搞下來，所以有的**需要再寫乙個標頭檔案的東西，（看到一句話這麼說：標頭檔案（這種工具很多瀏覽器是自帶的），我用的是firefox的firebug外掛程式。）還不知道啥意思，嗯以後要看下。

2。然後，當然我不是要這個網頁裡的所有東西，所以要正則匹配（import re），還有可以用beautifulsoup這個玩藝（也還沒開始研究。。。）

def getimg(html):

reg = r'()'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

return imglist

比如上面這個就是抓取網頁中所有標籤下的內容，正則匹配是個要熟能生巧的東西，要慢慢練大概解釋一下 r『() 意思是python裡消除我也不知道是什麼的東西，反正加了後正規表示式可以比較正常的用了，然後（.*）是代表任何東西，目前還有個小問題是：怎麼就保留標籤內的東東。

3。再然後，就是把東東存起來了，兩種：存到檔案（我覺得應該很容易。。肯定明白思路）；存到資料庫（沒接觸過，要看。。。）

感覺這是篇廢話~嗯期待不久的將來研究出來點心得。。還要做畢設！ohno