(一)人工智慧的發展歷史
人工智慧是很早就出現的乙個概念,起源於上個世紀50年代,之後由於種種原因人工智慧經歷了幾十年的漫長的消沉的過程,直到最近幾年人工智慧才火熱起來。人工智慧的發展其實有三次**時期:第一次是人工智慧概念提出的時候,學者們以為ai技術能改變世界,但是實際上並沒有;第二次是上個世紀80年代左右,此時已經提出了神經網路等模擬人腦思考的演算法,但是也並沒有得到很快的發展;第三次可以認為是從2023年左右開始的,與前兩次不一樣的是這次我們有大資料為生產資料,以強大的算力、雲計算為基礎設施,包括iot和5g技術的發展,有應用場景驅動,比如說搜尋就是乙個應用人工智慧演算法的眾多場景之一,所以這次是人工智慧發展真正的**時期。
(二)為什麼需要maxcompute+ai
garter在資料分析領域的是大趨勢**如下:
從中可以看出,garter認為在未來資料與分析的邊界逐漸模糊,並且**在2023年,40%的機器學習工作將在非以機器學習為主要目的的平台上(如資料倉儲)完成。因此,可以說maxcompute+ai是大勢所趨。
因為資料倉儲承載的是整個企業的資料資產,尤其是maxcompute,它是乙個從tb到eb級,能夠彈性擴充套件大量儲存能力的資料平台,所以資料倉儲內建機器學習的優勢非常明顯:
1.無需移動資料(資料量大),降低基礎設施成本、人工成本、減少資料安全風險;
2.資料訪問速度快(讓演算法找資料);
3.可擴充套件性強;
4.純 sql ml / python 更易用。
而且資料倉儲內建機器學習是各角色均收益的一種整合:對於商務人士來說,新想法可以快速得到快速試驗,roi得到提公升;對於資料科學家和資料分析師來說,大部分工作通過sql/python實現,易用高效,且模型開發和生產環境可以無縫對接;對於資料庫管理員(dba)來說,資料管理更加簡單,安全性更高。
(三)maxcompute現有的ai能力
maxcompute的產品特性在之前的講座中已經具體講過了,這裡不再贅述,其中maxcompute整合ai的能力主要有:
上述的整合ai能力中,sqlml和mars是maxcompute的兩個原生ai擴充套件能力,本文我們重點介紹這兩個能力。
為什麼選擇sql和python這兩種語言呢?主要是因為sql和python是當前資料處理和機器學習領域中最火的兩種語言。下面兩張圖是sql查詢語言的發展及現狀以及python的發展。
對於資料處理語言來講,關係型資料庫,也就是以sql為基礎的關係型資料庫,包括類似的資料庫目前仍然佔據了資料處理引擎的前幾名,有著穩健的生態;而python已經逐漸成為資料分析領域和資料科學領域的主流語言,其有著強大的機器學習生態。因此選擇這兩種語言作為maxcompute的ai整合,既是大勢所趨,又能減輕使用者的學習成本和遷移成本。
我們將該項目的名字叫mars,其最早是意味著matrix和array,當然現在已經不再侷限於這兩者,資料維度可以達到非常高的程度;第二是意味著我們向著比登月更高的目標出發,不斷的挑戰自己。
那麼我們為什麼要做mars呢?其主要原因有:
目前,mars是唯一的商業化的大規模科學計算引擎,關於mars的更多資訊大家可以到阿里雲官網查詢。mars的基本思路如下圖所示,主要是將python中的主流科學計算和機器學習的庫做相應的分布式化處理。
下面是乙個簡單的sqlml的demo介紹。
首先,我們在dataworks中新建乙個工作流,會發現工作流中有很多元件,我們先建乙個臨時查詢,如下圖所示:
然後新建一張表,其中儲存的是關於蘑菇的一些屬性,根據這些屬性資料,我們可以對其進行分類。
表建立好之後,我們可以將資料匯入,因為該資料集比較小,所以我們從本地上傳csv檔案,將列與表中的字段對應即可:
之後,我們需要對特徵進行onehot編碼,其結果如下圖所示:
然後,我們將資料分成訓練集和測試集,並且分別將訓練集和測試集匯入一張單獨的表中,之後就可以建立模型了,這裡我們用的是邏輯回歸,乙個常用的二分類演算法:
執行模型,很便捷地就可以得到訓練結果:
通過上面的demo,我們很容易的就完成了一次機器學習的訓練過程,其過程類似與使用sql中的udf,簡便、高效。上面demo介紹的是sqlml,如果想使用mars也非常簡單,我們只需要拖拽pyodps3元件即可,如下圖所示。
持續定義 Saas 模式雲資料倉儲 BI
今天和大家一起 一下我們saas模式下雲資料倉儲加上商業智慧型bi能有什麼新的東西出來。我們先來看一下雲資料倉儲的一些概述。到2025年,全球資料增長至175zb,中國資料量增長至48.6zb。資料量暴漲這個前提下,我們看一下bi市場規模的增長。到2023年,我們中國bi軟體市場年復合增長率為32 ...
資料倉儲 大資料定義
2012年gartner公司將大資料定義為3v,即 大容量 volume 高流速 velocity 多樣化 variety 後來人們在3v基礎上增加新的v veracity 即真實性。現在人們普遍認可的大資料是具有4v,即 volume velocity variety veracity,也就是大 ...
資料倉儲建設持續改進資料質量
從實施中國電信6省營銷分析情況來看,資料質量改進普遍存在如何定義資料質量評價標準 如何實現資料質量管理的閉環過程 如何界定資料質量改進過程中各系統間的功能邊界三個難點問題。資料質量改進案例分析 從實施中國電信6省營銷分析情況來看,資料質量改進普遍存在如何定義資料質量評價標準 如何實現資料質量管理的閉...