本文根據譚海華先生在【2020第二十四屆軟博會之「資料治理與流通高峰論壇暨全國dcmm現場工作會」】現場演講內容整理而成。演講嘉賓介紹 - 譚海華我首先解釋一下,為什麼選用這個題目。在整個大資料裡,資料質量的意義毋庸置疑,為什麼拿資料質量來談?有以下兩個角度:
資料治理的目的是為了提公升資料質量,但是過往我們提到的資料質量可以說是站在背後,所以今天我想這個分享的主題是想看一下資料質量在整個數字經濟中是怎樣直接發生關係的;
資料質量是直接和經濟掛鉤的,資料作為生產力的乙個要素,那麼資料質量如何體現在我們的生產力方面,包括如何擴大經濟、增加收入等。
上圖是信通院在2005-2023年的報告,顯示了數字經濟在整個gdp的成長過程。什麼叫數字經濟?這份報告中提到了幾個層面:數字產業化、產業數位化、數位化治理以及數字價值化。那麼數字經濟怎麼樣才能夠體現在資料要素裡呢?
這裡有四個板塊,說明了數字經濟可能涉及的地方:資料治理、質量大資料的問題、大資料產業的問題、數字經濟。泛義的數字經濟包括網際網路經濟、共享經濟等等,這些都是數字經濟。到2023年,中國數字經濟規模預估會超過60萬億。
在這個數字經濟裡,資料究竟扮演什麼角色呢?回顧一下在整個經濟發展裡可能面臨的問題。在另外一張圖中可以更清楚地看到幾個問題,首先講為什麼資料質量和數字經濟有直接關聯,這當中有兩個觀點和大家分享。我們談的資料質量是什麼?在2023年的全球資料管理論壇上有位專家提到,資料質量並不是真正資料的問題,其實更多的是業務規則問題,所以大家在處理資料質量的時候,業務規則是最重要的部分。
現在我們談資料質量,其實有幾大塊,包括資料、資訊語義、業務規則,但很多時候大家只看到資料本身的問題,其實更多還是資料語義的問題,以及業務規則問題。剛才前面幾位嘉賓也提到了,我們要怎樣保證資料定義的一致性、保證業務體驗的一致性?在講資料質量問題的時候,這些是不容易衡量的。
再看一下,資料質量是怎樣影響到整個數字經濟的?
首先,在資料治理中,資料質量未來是乙個很大的市場。大資料應用為什麼需要考慮到資料治理的問題?就是因為資料質量問題是由大資料應用產生所致,現在才回過頭來看資料治理的問題;接著是人工智慧,這裡面包括資料演算法、算力,後面會有幾個例子說明在這個行業中是如何受到資料質量的影響;最後是現在比較熱門的物聯網。這就是資料質量在這幾個領域裡的影響力。
這張是關於ai的,左邊說明了有關ibm沃森的失敗,那麼為什麼它會失敗?我不知道大家有沒有研究過,華矩科技在這個問題上寫過一篇**,是對ibm沃森為什麼現在不存在的分析,可以說這也是人工智慧的乙個挫敗案例。沃森在中國剛開始的時候,最早落地在天津人民醫院。人工智慧取決於提供的資料質量,假如說資料質量不行,ai這個行業的發展就會受到很大的影響。ibm的沃森當時和癌症中心的合作,其實它最大的投入是在病例資料的整理,但是最後都沒有辦法實現最終的演算法訓練,所以導致失敗。上圖中可以看到,高質量的資料如何讓演算法更加精準,當然這裡講的是乙個風控的演算法,但核心意思在於:人工智慧的發展中離不開高質量的資料,否則這個行業會受到非常大的影響。現在也有無人汽車駕駛、臉部識別、語音識別以及非結構化的做法,其實這些都需要大量的高質量資料去訓練這個演算法的。
第二個例子,流通要素與資料資產評估,大資料為什麼能成為生產要素?首先是能夠定價,雖然現在國內已經有很多大資料交易市場,但它們都是如何運轉下去的呢?在今年華矩科技舉辦的資料質量管理國際峰會上,我們請到了工信部的前部長,他提出乙個問題:目前行業沒有辦法對資料進行定價,而且這是乙個極其難的問題。也就是說如何對資料進行定價成為非常重要的問題。其中資料質量是乙個很關鍵的維度,這個維度的規範化沒有實現,資料定價的問題就永遠沒有辦法繞過去,這是其中的一點。在資料資產估值中,會看兩方面的問題,左邊是資料分析能力,右邊是資料量和資料質量,這也間接論證了剛才提到的人工智慧的發展。人工智慧的發展取決於資料分析的能力,但是資料分析的能力,往往是在資料量和資料質量方面上不去,導致中間的軸線也會上不去,這也是在做資料資產評判時的乙個關鍵要素。
上圖是今日分享的第三個點:資料質量驅動業務創新。我們希望資料質量不僅僅是給ai保駕護航,以及資料資產定價。我們更希望它能夠帶來新的業態創新,這才是我們現在所講的大資料價值。在這裡分享幾個案例,重點解釋如何通過資料治理來實現類似業務在原有品質下得到昇華。為什麼挑了這四個案例呢?因為分別代表著不同的行業,前面兩個可能更像是**鏈的管理,後面是iot,說明如何通過iot的資料來進行***的分析,最後乙個是金融的。
上圖是有關**鏈優化的問題,圖上有好多場景。剛剛清華的張老師也提到,資料治理是要有目標的,以目標來推動資料治理的方向,這是很重要的一點。這裡面有四個場景,都是華矩的客戶提供的,包括為什麼要做契合度及不同角度的分析,其實就是因為資料質量不行,所以才需要去提公升資料質量。當然,這裡面的例子是說通過精準的資料找到**商和建立**商的信用。剛才華為的同事有提到,我們怎樣尋找**鏈裡合適的**商?那這裡面有乙個很關鍵的問題,假如說在你的產品資料不唯一的時候,你可能沒有辦法找到你所需要的**商。在資料分析裡,可能根本沒有納入到分析的目標資料,這是乙個場景。
上圖的案例是關於集採比價系統,說明如果沒有建立「快省準」的資料質量優化技術,很多事情就需要耗費大量人力與成本,相信很多企業都會面臨這樣的困境,這是乙個通用性的問題。這裡的例子都是說明如何通過自動化技術實現規則選定,包括不同的品牌如何選定,哪類是標品?以及如何通過系統來實現這樣的問題?等等。當然,這其中資料質量是核心技術。
第三個案例是做債券評估的體系,這個體系裡有乙個很重要的技術,就是債券的統一檢視,假如說沒有辦法做統一檢視的精準化,精準評價是沒有辦法實現的。
第四個案例,這也是非常有意思的案例,大家可能不知道***,我們也是通過做專案之後,才知道***有乙個指標,就是誤報率是高還是低。但是誤報率有時候物理的屬性是解決不了問題的,因為這和感測器的敏感度有關係,和材料及裝置有關。但是可以通過大資料分析,包括對一些妨礙判斷的資料甄別,並修正有關資料質量所導致的問題,降低誤報率。
最後,我介紹一下華矩科技。華矩科技是專注於資料質量領域的一家企業。在這個領域裡,我們有幾個追求,也是我們的定位:第一,安全可靠。第二,快捷。我想大家在做資料的時候,其中快捷是非常重要的,因為資料的使用是有視窗時間的,如果不考慮視窗時間去討論資料的架構和實現是沒有意義的,這點很重要,因為時間不等人,必須要有快捷的技術。第三,便利。我們要讓業務人員能透過資料和技術人員進行對話,這也是做資料的乙個非常重要的環節。假如說業務人員和技術人員沒有辦法進行有效的交流,是沒有辦法讓資料的效能發揮出來的。第四,智慧型。剛才講到了的好多方法,包括一些要求,其中有一點,大家在做資料質量時如何去發現規則?如果都是用人工去發現規則,那麼這個視窗時間是永遠上不去的,所以需要有智慧型,智慧型要靠自動化技術來發現規律和規則,這是資料質量非常重要的環節。第五,低成本。大家在做資料治理的時候,有乙個非常重要的追求目標,就是如何能夠降低成本,這也是最重要的一點,否則你的立項不會被批准,你的專案也沒有辦法成功。
在這裡,非常高興能夠和各位分享華矩科技過往在資料質量方面的探索,也歡迎各位有機會可以多多交流,謝謝各位!
夯實數字經濟發展基礎
強化頂層設計,集中力量做大做強新一代資訊科技產業,加快推進製造業等實體經濟數位化轉型,全面構築工業數字經濟新業態,拓展經濟發展新空間 隨著新一代資訊科技與實體經濟的深度融合,我國傳統產業利用數字技術的廣度深度不斷擴充套件,新模式新業態持續湧現,產業組織形態和實體經濟形態不斷重塑,數字經濟已經成為我國...
數字經濟發展勢頭強勁
過去一年,中國數字經濟蓬勃發展,產業數位化 數字產業化規模不斷擴大,數字經濟總量規模和增長速度居世界前列,規模達到35.8萬億元 今年以來,面對新冠肺炎疫情衝擊,數字經濟成為全球對沖疫情影響 重塑經濟體系和提公升治理能力的重要力量 作為 世界網際網路大會 網際網路發展論壇 的重要成果和特色品牌,11...
助力數字經濟發展 榕樹貸款深耕金融科技創新
nbwww.cppcns.comsp 近年來,數字技術的應用價值已經越來越明顯,社會數位化程序不斷加速,金融科技的作用引發了社會各界廣泛關注。在未來全球的經濟復甦中,金融科技將成為決定性的力量之一。在 10 月23 25 日上海舉行的外灘金融峰會上,有專家表示,從長遠發展看,數字經濟作為一種新型經濟...