大資料技術面臨的三個重要技術問題
大資料一、如何利用資訊科技等手段處理非結構化和半結構化資料
大資料中,結構化資料只佔 15%左右,其餘的
85%都是非結構化的資料,它們大量存在於社交網路、網際網路和電子商務等領域。另一方面,也許有
90%的資料來自開源資料,其餘的被儲存在資料庫中。大資料的不確定性表現在高維、多變和強隨機性等方面。**交易資料流是不確定性大資料的乙個典型例子。
大資料刺激了大量研究問題。非結構化和半結構化資料的個體表現、一般性特徵和基本原理尚不清晰,這些都需要通過包括數學、經濟學、社會學、電腦科學和管理科學在內的多學科交叉來研究和討論。給定一種半結構化或非結構化資料,比如影象,如何把它轉化成多維資料表、物件導向的資料模型或者直接基於影象的資料模型?值得注意的是,大資料每一種表示形式都僅呈現資料本身的側面表現,並非全貌。
如果把通過資料探勘提取 「粗糙知識」 的過程稱為 「一次挖掘」
過程,那麼將粗糙知識與被量化後主觀知識,包括具體的經驗、常識、本能、情境知識和使用者偏好,相結合而產生「智慧型知識」過程就叫做「二次挖掘」。從「一次挖掘」到「二次挖掘」類似事物「量」到「質」
的飛躍。
由於大資料所具有的半結構化和非結構化特點,基於大資料的資料探勘所產生的結構化的
「粗糙知識」(潛在模式)也伴有一些新的特徵。這些結構化的粗糙知識可以被主觀知識加工處理並轉化,生成半結構化和非結構化的智慧型知識。尋求
「智慧型知識」 反映了大資料研究的核心價值。
二、如何探索大資料複雜性、不確定性特徵描述的刻畫方法及大資料的系統建模
這一問題的突破是實現大資料知識發現的前提和關鍵。從長遠角度來看,依照大資料的個體複雜性和隨機性所帶來的挑戰將促使大資料數學結構的形成,從而導致大資料統一理論的完備。從短期而言,學術界鼓勵發展一種一般性的結構化資料和半結構化、非結構化資料之間的轉化原則,以支援大資料的交叉工業應用。管理科學,尤其是基於最優化的理論將在發展大資料知識發現的一般性方法和規律性中發揮重要的作用。
大資料的複雜形式導致許多對 「粗糙知識」
的度量和評估相關的研究問題。已知的最優化、資料報絡分析、期望理論、管理科學中的效用理論可以被應用到研究如何將主觀知識融合到資料探勘產生的粗糙知識的
「二次挖掘」 過程中。這裡人機互動將起到至關重要的作用。
三、資料異構性與決策異構性的關係對大資料知識發現與管理決策的影響
由於大資料本身的複雜性,這一問題無疑是乙個重要的科研課題,對傳統的資料探勘理論和技術提出了新的挑戰。在大資料環境下,管理決策面臨著兩個
「異構性」 問題:「資料異構性」 和
「決策異構性」。傳統的管理決定模式取決於對業務知識的學習和日益積累的實踐經驗,而管理決策又是以資料分析為基礎的。
大資料已經改變了傳統的管理決策結構的模式。研究大資料對管理決策結構的影響會成為乙個公開的科研問題。除此之外,決策結構的變化要求人們去**如何為支援更高層次的決策而去做
「二次挖掘」。無論大資料帶來了哪種資料異構性,大資料中的 「粗糙知識」 仍可被看作 「一次挖掘」 的範疇。通過尋找 「二次挖掘」
產生的 「智慧型知識」
來作為資料異構性和決策異構性之間的橋梁是十分必要的。探索大資料環境下決策結構是如何被改變的,相當於研究如何將決策者的主觀知識參與到決策的過程中。
大資料是一種具有隱藏法則的人造自然,尋找大資料的科學模式將帶來對研究大資料之美的一般性方法的**,儘管這樣的探索十分困難,但是如果我們找到了將非結構化、半結構化資料轉化成結構化資料的方法,已知的資料探勘方法將成為大資料探勘的工具。
IT技術的三個層次
全稱 informationtechnology,即資訊科技 it實際上有三個層次 第一層是硬體,主要指資料儲存 處理和傳輸的主機和網路通訊裝置 第二層是指軟體,包括可用來蒐集 儲存 檢索 分析 應用 評估資訊的各種軟體,它包括我們通常所指的erp 企業資源計畫 crm 客戶關係管理 scm 鏈管理...
NLP分析技術的三個層面
nlp分析技術大致分為三個層面 詞法分析 句法分析和語義分析。詞法分析包括分詞 詞性標註 命名實體識別和詞義消歧。分詞和詞性標註好理解。命名實體識別的任務是識別句子中的人名 地名和機構名稱等等命名實體。每乙個命名實體都是由乙個或多個詞語構成的。詞義消歧是要根據句子上下文語境來判斷出每乙個或某些詞語的...
三個重要的資料結構
struct file operations 儲存字元裝置驅動程式的方法,我的理解是使用該結構可以讓字元裝置認識誰在為自己服務。就像假如每個字元裝置都會有很多助手,有負責穿衣,有負責吃飯等等,那麼這個結構的作用就是具體化誰負責穿衣,誰負責吃飯。struct file 表示乙個開啟的檔案。struct...