今天準備複習一下python爬蟲的知識,準備爬取虎撲nba的相關新聞。剛開始在用scrapy建立專案時就遇到無法建立的錯誤,後面查詢相關部落格才 解決。
其次,在用python爬取資料時,沒有注意爬取的**的型別,本來是動態網頁,但是沒有提前思考,忙了大半天,都寫好完整**了才發現是動態網頁,本來應該很容易想到(新聞怎麼可能是靜態的,那不應該是給一段時間就更新嘛),可是好久沒有複習這方面的知識,看見問題就用解決靜態網頁的方法去做,結果是既浪費了時間又沒有做好任務。
雖然學習要不斷的向前看,但有時需要回頭看看,不然就是猴子掰玉公尺,掰乙個丟乙個。同時學過的知識和常見的問題一定要做好筆記,在之後的某一天可能就會用到,現在這個資訊**的社會,幾天不複習,知識就會遺忘得很快。比如:css和xpath的應用,知識點比較多;scrapy框架資料流的方向。
軟考複習體會
最近一段時間比較自由,任務也相對比較少,主要任務就是軟考。軟考複習進行了乙個多月,軟考的特點就是知識點非常複雜,而且需要一定的實戰經驗。比如說上午題,涉及到了十幾科,比較難的有編譯原理,作業系統,類似的還有計算機組成原理。這些都是計算機比較底層的一些東西,對於我們整天用著vs或者其他一些工具來寫 的...
python基礎整理複習五 爬蟲
1.request來獲取頁面內容 response.text 獲取url內容 soup 格式化的 response.text 獲取url下的頁面內容 defget page url response requests.get url soup beautifulsoup response.text,...
爬蟲流程複習
爬取資料之後 新聞聚合閱讀器 最漂亮美女網 圖書 對比網 python技術文章大全 設定爬蟲終端 url 管理器判斷爬取網頁鏈結 流程 排程器詢問 url 管理器,是否存在要爬取的 url url 管理器返回 是或否 排程器 從 url 管理器中 取出乙個 url url 管理器 將 url 傳遞給...