最近由於**需要,用python寫了爬蟲爬取資料。在這個過程中,認識到學習一門語言最好的辦法是動手,別無技巧。在動手程式設計的過程中,遇到了很多意想不到的問題,當然也學習了很多書本上不會講述的知識,感覺這才是真正的學習知識。在這個過程中,遇到的乙個問題讓我花費了很久時間,留下了很深的印象。擔心會隨著時間的流逝,忘記後來是怎麼解決的。因而在這裡寫下原因,就讓這個幫我記一下吧。以後想不起來時,還可以翻來看看。
糾結了大概乙個周的問題是使用beautifulsoup寫爬蟲編碼時,怎麼都獲取不到爬取下來的html內容的指定部分的資訊。最開始以為是沒有爬取下來html,後來檢查發現是獲取到了的。在網上查詢了相關資料,發現有可能是python版本的問題,於是又更換了python版本,最開始的是2.7,後來更新到2.7.5,發現問題還是沒有解決。另外,有人說是因為動態js生成網頁的緣故,於是又研究了怎麼獲取動態網頁爬取的知識。最終,仍然是沒有解決這個問題。時間過得真的是快得沒話說,這個問題一直弄了乙個星期,有些氣餒,有些焦急。但是我不能放棄,因為我實驗需要資料。於是重振旗鼓,我堅信我最後一定能解決的。
最終的最終,問題終於解決了!真是喜天同慶啊!後來的問題是beautifulsoup版本的問題,最先用的是beautifulsoup4.一直沒懷疑過這個會有什麼問題,這個可是最新版本啊。。可是萬萬沒想到啊,就是被這個給坑了。python版本和beautifulsoup版本最好是用python2.7.x和beautifulsoup3的。這個可是乙個星期的代價!
謹以此文,記住我的第乙個爬蟲程式經歷。
再接再厲!
Python學習 爬蟲
在搜尋python知識的時候一直看到爬蟲相關知識,感覺挺好玩的,打算簡單了解一下。1 找到伺服器主機,向伺服器發出乙個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 html js css 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的了。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬...
python爬蟲學習
例如列印當前時間 from datetime import datetime print datetime.now 或者import datetime print datetime.datetime.now html結構 html head body html head a useful page ...
python爬蟲學習
一 beautiful soup庫 1 引用 from bs4 import beautifulsoup from bs4 import beautifulsoup soup beautifulsoup data html.parser 2 beautifulsoup類的基本元素 tag 標籤,最基...