為什麼要這樣說呢,因為爬蟲首先是獲得資料,清洗是把非結構化的資料轉換成結果化的資料,這個時候是最考驗人的時候。
如果是國內的**,清洗工作相對比較簡單,因為國內的資料不是那麼的凌亂,有一定的規則,我們清洗的時候需要寫的規則比較少,對於國外的**,由於老外崇尚自由,
在他們的**中最直接的體現就是乙個**可能需要寫多套模板,清洗的時候比較麻煩。有什麼好的方法去做好清洗的工作嗎?
第一:足夠的耐心。清洗的時候我們會遇到各種問題,所有要有耐心去做好這件事情。
第二:明確原始資料和目標資料,我覺得這點很重要的,為什麼? 第一就是原始資料有好多種,如果在前期不知道有哪些原始的資料,當我們寫好**的時候,去執行,這個時候會出現各種報錯,我們還得回頭去修改自己的**,帶來沒必要的麻煩。這個時候可以利用sql語句 group by 去查詢乙個欄位有哪些型別,然後去寫相應的清洗**
第三:使用 re ,replace,if 合理的搭配,提高清洗地效果。
第四:在編寫清洗**的時候,可以讓自己的**跑起來,一遍寫**,一遍去測試自己的清洗**是否有錯誤。我覺得這點很重要,在實際的清洗工作中,這一招是屢試不爽。
不得不說的「跳槽」
現實中不難發現 越是高階人才,適合的機會就越少 的現象。身處金字塔中上層的人員,無論是職位還是薪水,起點都很高,這客觀上造成適合的職位機會少,職業路徑轉換成本過高等問題。我個人認為,it技術高層人士,如果要跳槽,務必要注意三宜和三忌。忌 病急亂投醫 宜 方法得當 公升遷至較高職位的人,大多都多年不找...
關於基礎,不得不說
最近遇到好多問題,都與基本概念相關。忍不住,就想多說幾句。研究生面試,我出了乙個問題,乙個100khz的方波訊號,幅度大約是幾伏的數量級,想測量其有效值,用什麼儀器,怎麼測?多數學生一臉茫然,搞的我不好意思,慚愧題目是不是太難了。我急了,問學生,乙個1.5v的電池,其電壓有效值是多少?學生問我,直流...
ios icon 不得不說的故事
圖示是ios程式包所必需的組成部分。如果你沒有提供程式所需的各種尺寸的圖示,程式上傳發布時可能會無法通過驗證。ios程式為兼顧不同的應用場景,定義了多個不同規格的圖示,並以不同的命名區分 圖示名稱 大小圓角 用途必需 icon.png 57 x 57 10px 用於程式商店和在iphone ipod...