該文主要介紹了資料技術的發展現狀和展望,通過對第35屆中國資料庫學術會議的內容整理以及總結而成,希望能夠給以後打算從事資料庫研發或者開發的朋友們指點迷津。本文主要內容包括:1.資料新技術簡介,2.資料質量管理(data cleaning),3.資料分析技術,4.大資料技術的發展,5.資料技術的研究熱點,6.總結。
隨著大資料、機器學習(深度學習)、人工智慧、區塊鏈等相關技術的迅速發展,資料技術發生著巨大的變化。我們通過兩個例子來說明這一點,第乙個例子就拿資料質量管理中的實體識別(entity resolution)來說,對於兩個實體(比如資料庫裡面的兩條記錄),要判斷它們是否是同乙個實體,我們一般的傳統做法是通過定義很多相似度函式(similar function)來生成兩個記錄的相似向量(向量中的每一維代表不同屬性的相似度,因為乙個實體有多個屬性,所以要定義很多相似度函式),再通過對相似向量權值相加算出總體的相似度(標準化,一般滿足[0,1]之間),緊接著設定乙個閾值a,若總體相似度大於a,則實體匹配,否則不匹配,這樣做的效果很不理想。而現在我們通常借助於機器學習的方法來訓練權值以及分類器,或者基於圖計算以及深度學習方法來生成一些非監督分類器演算法,這一些方法與傳統的方法相比,它的效率與準確率有了很大的提公升。第二個例子是資料庫語言的變化,眾所周知現在最流行的查詢語言是sql,但是隨著未來技術的發展,通過自然語言支援資料庫查詢,或者是將機器學習語言納入到資料庫查詢語言將是乙個非常具有發展潛力的研究方向。因而未來的資料庫發展離不開現在熱門的機器學習和人工智慧技術,而機器學習和人工智慧也會借鑑資料庫中的一些知識,完美自己,通過兩者不斷的迭代和相互促進,共同發展。
資料清洗是資料管理中非常重要的乙個方面,資料清洗主要包括錯誤檢測(error detection)和資料修復(data repairing)兩個過程。錯誤檢測主要包括資料丟失(null or n/a)、資料去重(duplicate data)、資料違規(data violation)以及資料錯誤(data error)。資料修復技術主要包括基於限制的(constraint-based)、基於規則(rule-based)、基於統計的(statistical)、基於人機共生(human-in-the-loop)的一些方法。而這些方法越來越多的由機器來完成,因此我們可以發現現在的資料清洗技術充滿著大量的機器學習人工智慧技術。隨著機器學習以及雲計算的發展,未來的研究方向主要包括:生成標準測試集(benchmark)、資料清理和眾包(crowdsourcing)技術的結合、資料清理和深度學習的結合、隱私資料的清理、資料清理與遷移學習的結合。
經過40餘年的發展,當今資訊科技社會正在經歷it時代到dt時代的轉變,大資料技術正在深刻的影響著社會和世界。現在的大資料技術主要包括apache hadoop、apache spark(批處理平台)、spark streaming、apache flink(流處理平台)、apache beam(混合批流處理平台,它緊緊是乙個框架,沒有真正的技術引擎)。隨著技術的發展和需求的增加,未來大資料主要集中在三個方面:第一是批流融合,因為現在還沒有乙個真正意義上的批流融合大資料計算系統,而未來批流融合的現實需求非常巨大(如雙十一),該系統需要統一資料模型、統一操作、計算模型、統一使用者介面等等。第二是跨域處理,我們只需要在自己的節點去分析去計算,然後將計算的結果進行傳輸和融合,而不像現在的將資料集中起來。第三是邊緣計算,利用邊緣計算的能力,例如iot、可穿戴裝置、自動駕駛汽車、無人飛機、ar/vr裝置等,提供高效能和低延時的邊緣大資料計算平台。
未來資料技術主要會集中在圖資料、文字資料、時空資料以及文字資料等型別;機器學習與資料管理技術的結合,如自然語言支援資料庫的查詢、機器學習引入查詢優化(分布式查詢優化)、機器學習技術減少資料庫引數配置的代價、機器學習技術提高資料庫中特有查詢,如近似查詢的效果等等;現有關係型資料庫發展,如海量併發事務管理、新的面向記憶體的架構設計,減少封鎖、io代價等;圖資料管理技術發展,如圖資料探勘、知識圖譜、圖資料應用(異常檢測、應用)、大資料環境下傳統圖問題的新方法(分布式、近似演算法等);資料分析技術發展,如深度學習模型及其在不同資料的應用、時序資料的深度分析與挖掘、基於強化學習的資料分析方法、關聯規則、聚類、異常發現等;人工智慧和深度學習技術,將進一步和資料管理融合,在資料表示、查詢語言、執行優化、生命週期管理等方面提公升資料管理的智慧型化;區塊鏈技術也是乙個很有意義的研究方向。
我們可以看出未來的資料庫技術將與機器學習人工智慧技術息息相關、互相促進、共同繁榮,加之大資料和雲計算的發展,也將促使著資料庫技術的巨大發展(甚至變革),而這些發展都需要我們解決一些底層的課題,這就需要學術界和工業界的深度融合,相互合作,我們堅信未來的資料庫技術是非常有發展潛力的,以及有著豐富多彩的先進知識。
微信的機器學習與人工智慧應用實踐
程式設計師的 8 點技術早餐 編輯 小智 寫在前面 有資料後就是用統計和機器學習的方法去解決問題得出問題的最優解,這步我們叫 inference,不同於學術研究,在實際應用中我們會將多個模型進行組合使用取長補短從而得到更好的效果,稍後我會結合例項說明,在有了 inference 結果之後,實際應用中...
人工智慧機器學習
機器學習是從資料中自動分析獲得規律 模型 並利用規律對未知資料進行 資料處理 首先將所有資料放在一起,然後將其順序打亂。由於順序不是判斷酒水的依據,我們並不期望順序影響到模型學習到的內容。換言之,我們判斷一種酒是紅的還是啤的,並不需要知道前一種或是接下來有什麼酒出現。這時,可以著手繪出視覺化的資料分...
人工智慧 人工智慧與人類智慧型的關係
1.基本概念界定 1.1人工智慧 人工智慧是在20世紀中期以後產生的學科,人工智慧就是用機器模擬人類的智慧型活動,從而用機器代替人類行使某些方面的職能。人工智慧是通過探索人的感覺和思維的規律來模擬人的智慧型活動,電子計算機是人工智慧的媒介和基礎。阿倫 圖靈說 如果一台計算機能騙過人,使人相信它是人而...