總結下這段時間的工作經驗

2022-01-12 21:26:52 字數 2077 閱讀 5750

最近做乙個資料質量分析和主題分析的專案,裡面用到了sqlserver2005的is和as部分,在這個過程中經歷了很多慘痛的教訓,多少吸取了一些經驗,雖然更多的都是」低階失誤」,不過還是希望能記下來,以後避免發生類似的問題:

1.磁碟空間

在團隊中我想來建議把系統盤分配成30g大小,即使你是win2003+vs2005+sqlserver2007+office2007,這些東西裝完後其實也就15g左右,似乎夠用,但經驗上來看,c盤會隨著你的使用逐漸變小,剛開始我分配20g的時候到後來c盤就剩幾兆,尷尬的很.

不過如果是再做類似的專案的話,我倒建議把c盤分得更大些.做is的時候很多要用到快速載入,這個過程需要臨時表來參與,如果空間不夠的話,你導2000萬的資料,前1999萬都沒問題,很有可能到最後1萬的時候空間不足而導致失敗.

當然這裡也可以把資料引擎例項安裝或者配置到其它盤,這個完全可以根據自己所遇到的資料量酌情配置.

這一點,是當你處理大量資料的時候不得不考慮的問題,這個先期要是考慮不到的話,就會像我們一樣任務中途不得不花費不必要的時間來重新安裝或者部署什麼.

2.合理的結構

在處理多維資料集的時候經常遇到處理的步驟停滯在那在那個分割槽的處理上,不往下走.我所遇到這個問題的時候,等了兩個小時,後來被迫終止任務,重新檢查多維資料集結構,發現結構設計的很有問題,明明只用到了其中的乙個維度而把乙個事實表同時也做成了維表,這樣的聚合簡直就是個災難.後來把這個多維資料集重新做完以後,五分鐘的時間多維資料集就處理完了.

當然這裡需要提一下的就是,在團隊成員做好相應的多維資料集之後,最好是能自己再審查一下.這不是因為對團隊成員不信任,而是因為你終究要對過程和質量負責,另外團隊成員的技術水平參差不齊,所以這是注定要做的乙個工作------我之前就遇到過一次,乙個實習生為了得到乙個實施表和維度表的結構,套了五六重檢視.

如果問題是在執行的過程中才發現的話,那麼排除問題可能會花費你更多的時間.

4.資料的備份.

微軟的系統以前死掉是藍屏,現在藍屏少了,取而代之的是不響應你的任何操作.經過這次的慘痛教訓,我十分不建議所有的工作都在一台機器上做.在我們的任務過程當中,etl,多維資料集處理以及各種程式都跑在一台機器上,當初沒有備份的乙個主要原因是因為資料量太大而且過程也比較複雜,但是後來遇到的問題真是有驚無險:這台機器在執行一段時間之後突然死掉了,沒有任何反映,當時是正在處理資料,沒辦法熱啟下機器,啟動後進入登陸介面,輸入完密碼後就是什麼也都不提示.有經驗的兄弟說這是sqlserver在做表修復,沒辦法大家就得等,結果,乙個小時就這麼過去了------要知道我們可是在晚上加班啊.

要是這個時候能有另外一台機器馬上頂上的話,那麼就不至於耽誤這麼多的時間.另外,資料備份出來,如果有能拆接的任務可以分別部署到兩個機器上去跑,從而提高效能(悲哀的是,我們這次任務重每一步都是序列的).

5.網路啊網路

很多情況下可能你所處的網路環境當中,網路管理員對網路的管理不是很好,以至於網路內到處都是攻擊,這往往是很常見的.還記得當年在某一大學的內部網裡,但凡是win2003的系統,只要你不裝sp1,接上網線後就馬上中招,準準的.這個在任何場景下可能都很難避免,而且公司人數越多危險性往往就越大,而更多時候問題往往不是出在你所負責的團隊,而是來自於其它團隊或者專案組的」肉機」所發出的攻擊.你總不想在兩台機器協同處理資料的時候網路突然癱瘓掉吧(我遇到過,任何的兩台機器都無法互相訪問).

這個問題可能說起來有點天方夜譚,但事情往往就是這麼邪門. 所以,安全起見,除了要注意平時的安全外,建議把自己團隊的機器部署到乙個路由器下面,要是發現問題馬上拔路由器上的網線,不要因為公司網路的問題突然影響到你的任務的進展.

其它:與as打交道的團隊成員,無論是做挖掘模型還是做多維資料集,都反應過機器很容易就死掉的這個問題,而這個毛病確實也是屢試不爽.這個時候,除了前面建議的改進挖掘結構或多維資料集結構外,機器的配置要求也是很高的.我們的開發用機器是p4 3.0+2gb這樣的機器,所以要處理as服務的話,如果實在沒有伺服器,還是建議申請配置比較高的機器.

類似這樣的專案,資料的一次處理週期會很長,每個最小粒度的處理單位很有可能都要乙個小時,所以任何乙個地方出了問題,就可能白白的浪費掉了乙個小時,當然這還不算把問題解決掉的時間,而當你發現這個問題是由於系統原因造成的時候而不得不讓你重灌什麼東西的時候,所需要的時間更是無法估算的.

希望本文對你有幫助

------aspnetx

工作經驗總結

場景描述 當前的智慧型音箱專案組由 音箱裝置端 proxy 語音語義及技能 三大系統組成。裝置端負責使用者語音資料的採集 上傳至proxy端,proxy負責資料透傳,語音語義團隊將接收到的音訊資料進行解析並實現相應技能。技能按照相反的順序返回至音箱裝置端。目前的現狀是整個工作流程不可靠,究竟是哪個環...

工作經驗與時間無關

工作經驗和時間無關!總是聽到這樣的說法,我已經工作5年了,我要求得到相對應於5年的收入。這裡要分清楚的是,5年工作經驗和工作了5年時間是沒有必然的關聯的。誠然,很多招聘條件用工作經驗來做硬性要求,這只是為了減輕hr的工作量,對大量的求職簡歷,做一次條件篩選,和限定學歷要求是乙個道理的。畢竟,工作5年...

近期工作經驗總結

最近在android下層做rtp傳送的模組,算是工作以來,最正規的coding mission吧 雖然 不多,但是讓我對於專案的開發略有一些心得.從我的感覺來看,最重要的就是乙個整體的規劃,首先定義與android層的介面,介面呼叫一旦定義下來,那麼後期的coding工作,都將以此為中心,所有功能模...