最近在做10w以上的excel和txt的匯出,業務邏輯本身的複雜性和表結構的不合理性就不提了,這裡就說下在使用mysql中希望明顯提高效能的要點:
1.如果你使用了儲存過程或其他方式建立了臨時表(temporary table)來充當中間表,記得一定要為臨時表加主鍵(單獨主鍵或是聯合主鍵),
特別是通過creat temporary table xx as select ....方式,此凡是是不帶主鍵的,你可以通過creat temporary table xx(id int primary key , name1 varchar(2)....) as select ....的方式指定主鍵,但如果是聯合主鍵,我不知道如何指定,
所有我推薦後一種:在建立完成後,使用alter table xx add primary key(id1,id2),這樣我也不必再建立臨時表時指定欄位和字段型別了,這裡我必須承認主鍵很重要,在大資料查詢和關聯時效能可以顯著提高
2 不建議使用過多檢視或者說最好不用檢視,大資料查詢一旦複雜點效能顯著下降,我目前沒找到方法給檢視加主鍵,網上說建立的檢視是伴隨著查詢的主鍵繼承來的(無證可尋),我測試如果查詢的集合是後期變化生成的聯合主鍵,就必然無法繼承了,所以沒有主鍵或說沒法指定主鍵的檢視在大資料時效能會下降(我是通過建檢視和建帶主鍵的臨時表測試大資料查詢的得到的結論,效能差距很大)
大資料處理過程的通俗理解
大資料分析 這麼高大上,怎麼講才能最通俗呢,做飯和大資料有什麼關係呢?請聽下面分析 菜地裡的毛菜 原始系統的資料,有錯誤,不精準,毛菜有泥巴,有黃葉子 相當於erp,pdm系統裡面的原始資料。從菜地裡採集到家,分門別類的堆在一起 初步去掉泥巴,黃葉子,分類堆放 相當於從原系統到ods。ods的意思是...
大資料處理
大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...
資料預處理過程
概括起來,統計資料預處理的過程包括資料審查 資料清理 資料轉換和資料驗證四大步驟。一 資料審查 該步驟檢查資料的數量 記錄數 是否滿足分析的最低要求,字段值的內容是否與調查要求一致,是否全面 還包括利用描述性統計分析,檢查各個欄位的字段型別 字段值的最大值 最小值 平均數 中位數等,記錄個數 缺失值...