爬蟲小記(2)

2021-08-11 03:10:44 字數 1107 閱讀 8313

自從兩個月前說要學習爬蟲開始,我其實做了好多準備了,只是開始的有點晚了吧。希望後面的進度能夠變的快一點。

使用這些庫就能實現我們想要做的一些基本的功能,包括爬取一些簡單的**的內容,requests庫的功能是我覺得最實用的,只依靠這樣乙個庫我就可以實現解析乙個url,獲得網頁裡的內容,還可以判斷在連線url時是否出現了err,並且可以修正網頁內容的編碼,剩下的應該就只是分析網頁的內容,獲取自己想要的東西了,這是需要做的第一步吧。

另外乙個庫是beautifulsoup庫,利用這個庫我可以獲得html格式的文字裡面的標籤以及標籤裡的內容,可以說這一基礎的部分是我對html的解析所必不可少的,利用這個庫我可以用另外一種方法實現對html文字中我所想要的東西的獲取。

然後應該是re庫,為了弄懂乙個正則庫,還是費了我不少功夫的,我想這個時間也是應該花的吧,正則並不是完全只適合於python的,他還能用在其他的語言上。

我覺得直接去學習這樣一些庫是效率很低的事情吧。我嘗試去找一些事情去做,利用我在做事過程中遇到的困難,同時為了解決問題而去網路上尋找解決辦法,這一過程更像是學習的過程,更能提高我的技能。所以我大概做了兩件事。大概算是拿不出手的事吧。

然後第二件事就是模擬登陸。

這之前我先嘗試了另乙個東西,主要原因是我在這一頁面上看到了這一篇文章,然後我覺得我沒做過,所以我就去學習了一下。

主要內容是爬取網易雲**上的**歌單名稱,以及歌單的作者還有各種位址等等。

所以最後實際上還是有先分析了f12的network的內容,找到了請求的真正連線,更重要的是作者發現了我們的歌單是在乙個document裡面的,所以我們最後需要在f12裡面找到有乙個document的部分,這裡面也顯示了這是乙個playlist,所以我們可以確定這就是我們要的歌單,我 沒有從f12裡找到這個請求的連線,但是從作者的那邊複製的那個是可以用的,我感到很奇怪。

另外一點是儘管找到了鏈結,僅僅使用requets.get方法並不能直接獲取這個html檔案,我後面還用了beautifulsoup庫的解析了一下,保證了最後可以用soup的庫去解析這個html檔案,最後是用了soup的select方法,select方法可以查詢標籤,id,屬性等等,可以是同一級的也可以不是同一級的,不過後面我應該試一下不是同一級的是什麼樣的狀態。

python爬蟲小記

builtins cached doc file loader name package path spec error parse request response request的使用 1.request請求最簡單的操作是用urlopen方法,如下 import urllib.request r...

python爬蟲小記

1 在寫爬蟲的時候,思考 的總體格局,讓 既可以捕捉異常又容易閱讀 2 具有周密的異常處理功能,會讓快速穩定地網路資料採集變得簡單易行。3 面對頁面解析難題 gordian knot 的時候,不假思索地直接寫幾行語句來抽取資訊是非常直接的做法。但是,像這樣魯莽放縱地使用技術,只會讓程式變得難以除錯或...

Python 爬蟲小記

1 背景 需要爬取網上的資訊,ubuntu系統下 使用python完成 使用方法 from bs4 import beautifulsoup requests pip install requests 用python語言基於urllib編寫的,採用的是apache2 licensed開源協議的htt...