1、sow和招標檔案要反覆確認。確保專案的實施範圍。
2、人員要給充分。
3、測試環境和生產環境相關。
測試環境:
1)、測試環境資料測試那個時間段的資料? 建議測試2023年1月到3月資料
2)、大資料平台如何獲取生產資料?是通過dblink、物化檢視、檢視等?
3)、特別敏感的資料可以考慮,由專人處理後,放到中間庫。大資料平台通過中間表獲取資料。
生產環境:
除了以上相同的問題,還需要關注:
1)、獲取資料需要哪些時間段的資料。
2)、上線後生產環境從那個月份,大資料平台獲取資料的時間點是何時?
3)、歷史資料如何處理?還是全部接入到系統,準確性有多高?
大資料 專案流程
1.資料的預處理階段 2.資料的入庫操作階段 3.資料的分析階段 4.資料儲存到資料庫階段 5.資料的查詢顯示階段 reduce driver create table 表名 videoid string,uploader string,age int row format delimited fi...
大資料專案3
gmv 今天提交訂單的金額總和,不管是否支付 全站pv 頁面瀏覽量大砍一次就是乙個pv再重新整理一次又是乙個pv 全站uv 去重的訪客總和set mapreduce.framework.name local 本地 set mapreduce.framework.name yarn yarn set ...
離線大資料專案流程
mapreduce 資料清洗 hive textfile格式 create table 表名 a string b string row format delimited fields terminated by 指定分隔符 stored as textfile load data local in...