最近半個月在學習爬蟲,收穫很大,所以來做乙個總結寫了這麼久爬蟲,其實爬蟲的本質就是模仿瀏覽器向服務傳送請求,然後伺服器給我響應的資料,就像是和伺服器交換物品一樣,我先給他乙個,他再給我乙個,只不過我給他的是請求物件,他給我的是響應的資料,僅此而已
爬蟲的難點在於我給他的資料他不要,他告訴我你給的東西不夠,我想要的沒給完,所以我不要你的,我也不會給你,也就是有些關鍵資訊我並沒有給他,那這些資訊在**拿呢?一般情況下網頁原始碼中就會存在,但是一些大的**,網頁原始碼中是不會有的,這時就是需要進行一項工作"js逆向",剛接觸他是因為看到了一篇部落格網易雲**js逆向,他詳細的講解了js逆向
是什麼東西,當時可把我吸引到了,人家**為了混淆**的內容,故意設定了無意義的變數名,不好的**格式,來進行反爬,看完部落格的我覺得好簡單啊,等我自己去實現的時候就一堆bug。哎!
僅針對網易雲的逆向裡面涉及到了兩個加密aes
加密和rsa
加密,看到這些加密時,這是啥?這是什麼加密?之後我就去搜素關於這兩個加密的內容,發現這裡面的水太深了,我把握不住啊。好的,現在我知道有這些東西存在,然後我就想著以後我寫**的時候,我也要加密,用高深的加密,讓你們逆不了的哈哈
python中關於爬蟲方面主要有兩個庫和乙個框架,乙個庫是urllib,另乙個庫是requests,乙個框架是scrapy
在爬蟲的學習中碰到過很多的問題,比如ua反扒,這是最常見的一種爬蟲,我們只需要把ua引數加進請求頭中即可,這就是我前面說的我給它乙個東西,伺服器給我返還乙個東西,如果我給的不夠(沒有ua),它也就不會返還給我東西,我把ua加上之後,它就返還東西給我;還有伺服器返還的響應資料是壓縮過後的,此時就需要我們先將資料解壓之後,才可以進行下一步操作。然後還有乙個就是爬取資料時,在進行多次爬取之後,經常會使訪問的速度變慢,具體原因不清楚,猜測是後台伺服器限制了我的ip(ノ`⊿´)ノ
爬蟲的學習就告一段落吧
之後我要開始我的web開發,早點把我的bugu小站
給弄出來
先總結這麼多吧~~~
ThroughRain第一次衝刺個人總結
團隊名 throughrain 專案確定 餐廳到店點餐系統 熱門的餐廳基本沒有座位,我們需要在外面苦苦等待,不僅顧客煩惱,餐廳管理者也覺得很煩,因為這樣會影響顧客 用餐體驗,帶來不好的口碑。本產品能夠合理化安排餐廳的工作,從顧客進入餐廳點餐到用餐結束,提供一套全面,方便,高效的服務,提高餐廳的管理效...
第一次個人作業
1.先驗概率 prior probability 是指根據以往經驗和分析得到的概率。即沒有考慮原因,在獲得資料和依據之前就對概率進行了猜測,得到了概率。2.似然函式 likelihood function 似然用來描述已知隨機變數輸出結果時,未知引數的可能取值。似然函式關注的是由已知的結果和某固有屬...
第一次個人作業
第一章講了基本概念以及評價指標,了解到了什麼是機器學習,怎樣才算識別效果比較好,以及如何用數學表達。第二章就正式開始講分類的方法了,講述了用距離進行分類,其中用歐式距離要消除特徵之間的相關性,以及量綱的影響,所以就引入了micd分類器,但micd分類器的缺陷是距離相等的時候會選擇方差較大的那一類,也...