1.目標和目的清晰
明確資料處理的目的和目標,而後才有針對目的和目標的方法和路徑。
2.設計正確的處理方案,方案需要考慮以下問題:
(1)正確性:
資料執行結果準確無誤,需要做case檢查和統計檢查;
(2)穩定性和魯棒性:
資料能夠穩定的執行,處理過程需要考慮完整的異常處理機制和措施;
(3)可運營
資料處理過程能夠監控到處理的過程和階段性結果;
(4)可快速恢復或重構
出現異常情況,能夠快速的響應和恢復資料;
(5)安全性
測試資料需要保證資料的知曉和使用範圍,盡量做到資料夠用即可;
(6)資料來源
選擇正確的資料來源;
(7)可預期
資料處理的時間可以可靠預估;
(8)可測性:
測試、驗證的方案;測試環境和生產環境的差異帶來的影響;
(9)規範化:
資料處理結果標準化和規範化,需要前置設計資料標準化的方案;
(10)問題域最小化原則:
盡量將問題控制到乙個小的範圍內,避免出現乙個問題導致全域性失效的設計。
(11)部署
資料處理是否需要生產環境部署,部署方案和實施過程如何有效進行。
(12)大規模資料處理通常的方法:
a. 控制資料量範圍,將採用小量代表資料快速驗證和試錯;
b. 在小量資料問題解決完畢後,擴大資料的規模,解決規模帶來的問題;
c. 規模處理的過程需要進行階段或者批次的劃分,將問題影響的範圍進行隔離,避免問題向全域性擴散,也有助於快速區域性重構。
(13)可能遇到的問題和潛在的風險
(14)是否有更好的解決方案,實施的條件是什麼?
資料處理 流資料處理利器
流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...
爬蟲 資料處理 pandas資料處理
使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...
資料處理 pandas資料處理優化方法小結
資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...