目錄
一、爬蟲篇
二、爬蟲中遇到的問題
三、 基於tensorflow的輿情分類深度學習演算法
四、rpa篇
2023年7月1日,正式入職撼地大資料,激動混雜著傷感的情感說不清。前幾個月還在工地挖隧道,轉眼之間就坐在了夢寐以求的寫字樓裡面敲**,以為自己的人生從此將開啟新的篇章,殊不知,其實只是從乙個圍城跳到另乙個圍城罷了。簡而言之,只是換了乙個新的戰場,只不過這個戰場能看到希望,這段時間最感激的就是我的angie li。
這半個月以來,每天就是讓自己處在高強度學習之中,自己一切重頭來,不敢不學習,只有埋頭苦學。領導給我布置的任務就是讓自己學習(非常感激我們的龍總給了我乙個轉換的機會,並且給了自己足夠的學習的時間),這段時間只是感覺很對不起公司,沒做什麼貢獻。這半個月學到的東西,以及遇到的問題總結如下:
一、爬蟲篇
一開始就是做簡單的單個網頁抓取資料(其中用到的庫有urllib,requests,bs4中的beautifulsoup,lxml,re正規表示式,xpath);
後來開始抓取整個**的資料;
用scrapy框架寫爬蟲程式抓取資料,在這之中學習了分布式爬蟲,多執行緒爬蟲,**ip池,cookie的使用,headers的使用;
二、爬蟲中遇到的問題
1.html中文編碼問題(「utf-8」);
2.爬蟲長時間執行報錯(解決辦法是新增「user-agent」或者更換ip位址);
3.**傳參加密的問題;
目前未解決的問題就是關於爬取速度過快出現的驗證碼驗證問題(解決思路是增加**ip的數量或者短效動態**);
三、基於tensorflow的輿情分類深度學習演算法
1.部署baiduspider mysql**
2.baiduspier**的維護
3.輿情分類深度學習**學習
四、rpa篇
1.前景:目前, 60%的職業 30%的工作可以被完全自動化 ,rpa技術就是用軟體 機械人代替人工在電腦上執行各種重複性的操作;
可以應用到:工程資料的錄入,財務中的核對報表,發票列印,核對薪酬,計算績效,資料自動監測;
2.熟悉了uipath studio,用uipath開發了自動抓取企查查資料並匯出未excel,,資料的錄入,用uipath中的orc識別驗證碼;
人生苦短,我用python。這半個月給自己打60分,學習態度還是挺端正的,也夠拼命;學習方法,學習的心態還有待改進,任重而道遠。一回頭,確實好多東西,不經歷,推不開他的大門,自己在進步,這就是很好的的狀態。
接下來,提高自己的自學能力,更加自信,學會自我管理。全身心投入uipath,爬蟲技術不能丟,適當接觸深度學習。
學習進度總結
學習時間 新增 行 部落格量知識總結 第一周2016年3月3日 4第二週 2016年3月10日 5在學習中還會遇到一些小問題,還要繼續強化基礎知識 第三週2016年3月17日 6通過對本組同學的 複審,繼續提高自己的基礎知識,以及 中的細節。第四周2016年3月24日 四則運算 8完成四則運算基本 ...
菜鳥教程 Redis教程學習總結
redis 完全開源免費的,遵守bsd協議,高效能的key value資料庫。redis與其他key value快取產品相比,有以下特點 支援資料的持久化 redis不僅僅支援簡單的key value型別的資料,同時還提供list,set,zset,hash等資料結構的儲存。redis支援資料的備份...
菜鳥學習nginx之總結雜耍
本篇是對nginx學習最後一篇,若日後工作中對nginx有了更深入了解,會再次寫相關部落格。一 關於nginx幾個典型問題 1.1 為什麼nginx是高效能http?是如何做到高效能?1.優異框架,採用全非同步方式 2.優秀資料結構,例如記憶體池,字串只用指標指向,從不重新建立內容 3.用少量代價換...