從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個「語言」統一的過程。
只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話、呼叫、通訊的可能,從而保證使用的都是特定的某乙個方言。
同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線程式、機器、使用者的乙個樞紐,通過標準化讓程式、機器、使用者都明白某乙個詞素的確切含義,如果引入新系統或者新架構時又可以根據資料庫中的資訊進行對照從而確定是否有該詞素,如果沒有進行相應新增或者同義轉換。
建立統一標準後,之後可以通過機器來處理相關詞彙,同時可以針對這樣的詞彙進行一定的分析工作,例如針對某一分類詞分類,同時可以定義在資料探勘或分析過程中的詞素,從而通過「約定俗成「的方式來構建一定的語義含義。同時可以依託於關係型資料庫完成一定的語義分析以及相應的標準判定。
此時,我們就需要認真對待乙個問題——標準詞彙的**。
標準詞彙如果從某乙個系統來,可能會影響其他系統語義效果。所以,從某種意義上來說,標準化詞彙的構建過程可以實現與系統逐漸進行標準的步驟相統一。更明白點來說,在就是你通過標準化詞彙的構建過程發現系統中目前存在的詞彙問題,從而實現對這些詞彙的糾正,同時,盡量使用詞彙中對應詞彙構建系統,從而保證將來發生詞彙含義的變化時,主動發生屬性變化。似乎還是沒有說明詞彙**的問題,其實,上面說的就是乙個資料的標準修正,而標準詞彙又可以看作是元資料描述資料,如果你願意你可以稱之為元元資料。元資料我們可以從領域、行業、國家等標準中獲取,之後根據公司或專案的特點構建或者設計,然後在此基礎上對元資料進行分類,進行描述、拆分,從而獲取標準詞彙。當然在構建具體應用時也可以按需引入自身的詞彙,但此時需要認真進行分析。
資料標準化
特徵縮放 feature scaling 1 也稱為資料的標準化 normalization 是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各...
資料標準化
從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...
資料標準化
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...