資料庫與中介軟體和作業系統並列為全球三大基礎軟體技術,也是企業it系統必不可少的核心技術,銀行、電信、製造、網際網路等所有行業都依賴於資料庫技術。由於其技術的高難度,資料庫長期以來被少數公司控制了絕大部分市場份額。據不同的統計口徑,全球資料庫市場在300億美金到600億美金之間,商用資料庫的領導廠商主要是oracle、微軟、ibm和sap。
自2023年ibm推出了第一代資料庫db1以及2023年ibm工程師edgar codd寫下了最早的關係型資料模型構想的**,隨後的30年間出現了著名的資料庫公司oracle(2023年成立)、informix(2023年成立,後被ibm收購)、sybase(2023年成立,後被sap收購)、sybase與微軟合作的sql server(後由微軟接管)等,全球資料庫產業在2023年前後進行了第一次大戰並主要形成ibm、微軟、oracle三巨頭格局。
2023年以後的網際網路和雲計算技術變革,為資料庫技術帶來了「釜底抽薪」的底層計算系統變化,導致了以開源、分布式和雲計算為主導的新資料庫時代。2023年google發布**首次對外介紹了自研的具有劃時代意義的spanner全球分布式資料庫、2023年aws推出了雲原生關係型資料庫aurora、2023年阿里雲推出雲原生關係型資料庫polardb,2023年10月gartner全球資料庫魔力象限的領導者和挑戰者象限出現了7強格局:微軟、oracle、sap、aws、google、ibm和阿里雲。
2023年3月21日的2019阿里雲峰會·北京上,阿里雲發布了polardb的2.0版本,實現了首次相容oracle資料庫,可幫助金融、醫療、製造等大型企業在數小時內完成業務遷移。除阿里雲外,其它國內雲廠商也相繼推出了自研的雲資料庫和分布式資料庫產品。2019新年伊始,資料庫產業50年的第二次「世界大戰」已經硝煙四起。
從gartner的2018全球資料庫魔力象限來看,aws與阿里雲是兩大電商巨頭的對外技術輸出平台,aws與阿里雲都推出了種類豐富的資料庫產品。而google雖然是全球網際網路技術和雲技術的「大牛」,但google內部技術的對外商用化輸出往往晚於市場,cloud spanner就是直到2023年才向市場推出。
過去十年,電商巨頭的技術溢位效應十分明顯。aws目前已經推出的資料庫產品包括amazon dynamodb(非關係型文件和鍵值資料庫)、amazon elasticache (提供redis和memcached開源分布式快取資料庫) 、amazon neptune(圖資料庫)、amazon elastic mapreduce(emr)hadoop發行版,以及amazon relational database service(amazon rds,支援amazon aurora、mariadb、microsoft sql server、mysql、oracle和postgresql等的雲資料庫服務)以及雲原生資料庫amazon aurora for mysql and postgresql等。
而阿里雲已經推出的資料庫產品包括apsaradb for rds(關係型雲資料庫服務,支援mysql即alisql、sql server、postgresql、redis等)、polardb(雲原生資料庫,支援mysql、postgresql、oracle)、hybriddb for mysql and postgresql(雲資料倉儲)、elastic mapreduce for hadoop、hitsdb(時序資料庫)、x-db(分布式資料庫)、graphdb(圖資料庫)等,此外阿里雲apsara stack還支援企業本地化私有雲部署。
無論是aws還是阿里雲,所提供的資料庫及資料服務種類繁多,覆蓋了絕大多數使用者場景,特別是由於電商交易系統的特殊性,aws和阿里雲等開發了支援資料強一致的交易型分布式資料庫,能夠滿足金融類業務的苛刻需求,而成本則遠低於商業資料庫。
為什麼電商企業如此孜孜不倦的鑽研資料庫呢?以阿里雲為例。阿里最早從**、天貓等電商業務發展起來,當時採用的就是ibm db2和oracle商用資料庫,支援了早期**、天貓的快速發展,這是阿里資料庫發展第乙個階段。到了2011和2012的時候,雙11開始上規模,業務高速發展對傳統的oracle企業級資料庫解決方案提出了挑戰,成本太高是首當其衝的挑戰,其次當電商業務邏輯變複雜以後,需要理解oracle資料庫的技術實現,以便從根本上解決業務極限場景的挑戰,但無論是請oracle專家到現場的時間還是成本都無法滿足業務要求,阿里巴巴從2012、2023年後就開始大規模使用開源資料庫,這是阿里資料庫發展的第二階段。第三個發展階段就是雲時代,阿里雲的業務快速發展要求自研雲原生資料庫,這就是polardb的誕生邏輯;以及在阿里集團業務中,傳統用中介軟體進行開源資料庫分為分表的解決方案也不能滿足業務要求,這就是x-db的的誕生邏輯。
簡單來說,電商企業的技術溢位是被業務倒逼的結果。阿里電商雙十一場景,在世界範圍內來看都絕無僅有,這也給了中國電商企業登頂全球基礎軟體技術領導地位的機會。作為全球絕無僅有的高併發挑戰,阿里分布式技術經過雙十一極限流量洪峰的實戰考驗,這也是為什麼阿里雲能夠首次代表中國廠商衝入gartner全球資料庫魔力象限。2023年,美國猶他大學計算機系終身正教授、世界級資料庫系統專家李飛飛,正式加入阿里巴巴,任資料庫產品事業部負責人以及達摩院任資料庫首席科學家,他於2023年底入選了2018 acm傑出科學家。李飛飛門下**遍布全球所有頂尖企業的資料庫部門,但李飛飛自己卻選中了阿里,其主要原因就是阿里的全球獨一無二的業務場景。
(阿里達摩院資料庫首席科學家李飛飛)
2023年是阿里雲十週年、aws進入第13個年頭。雲廠商對於開源技術的集大成,正在進入全新的階段。2023年aws發布amazon aurora的時候,當時稱效能與商用資料庫相當,但成本只有商用資料庫的1/10。而2023年阿里雲推出polardb的時候,在100tb的資料容量上提供了10倍於傳統商業資料庫的價效比,如今效能達到aws aurora的2倍。
不可否認,阿里雲的資料庫發展離不開google和aws等前輩的指引。谷歌最早提出了spanner,可以實現跨資料中心的資料強一致性,這在當時是跨時代的技術,但谷歌其實是巧妙的利用了原子鐘的硬體解決方案;postgresql的xc/xl開源分布式資料庫使用的是gtm(global transaction manager)解決方案。阿里雲的x-db則採用了混合邏輯來解決分布式事務處理和查詢,已經支援了幾乎阿里集團所有海量資料高併發的場景。
如今,阿里雲正在把多個領先的資料庫技術融合起來,以滿足客戶的更多、更高需求。雲原生資料庫polardb採用了儲存計算分離、軟硬體一體化設計,通過高速的rdma網路提供共享儲存的架構,可以快速實現彈性縮擴容,單個例項可擴充套件到1000核計算能力、同時可以橫向擴充套件到100tb儲存空間,滿足大規模業務場景的需求,2.0版本則相容oracle。據了解,polardb與x-db的優勢即將融合成一體,也就是即將推出的polardb分布式版本。
即將推出的polardb分布式版本是在polardb共享儲存、一寫多讀的架構上結合x-db的核心分布式技術,這樣企業就可以利用x-db的分庫分表強一致分布式技術掛起多個polardb例項,支援幾乎無限的水平規模拓展,滿足企業級上百個節點高併發業務需求。polardb分布式版本的推出,將用乙個通用商業資料庫產品來滿足公共雲上大中小企業的需求以及線下企業級超大規模使用者的需求。這款產品最大的好處之一,在於底層接入的不是單節點資料庫,而是分布式共享儲存且單機支援100t,這樣乙個200t的資料庫只需要兩個polardb例項即可,大幅降低了跨分割槽處理的可能性。
polardb分布式版本這樣乙個集大成的通用型全場景覆蓋資料庫產品,當前阿里雲已經儲備了足夠的技術和實踐,現在的主要工作是產品化、標準化,以便能夠快速規模化部署。李飛飛認為,阿里巴巴在分布式資料庫的某些領域和某些維度上,可能超過像谷歌這樣公司在分布式領域的積累,這是因為任何技術都是業務推動衍生出來的,只要有業務場景就能推動其技術從跟隨發展到後發領先。
除了分布式和雲原生資料庫技術外,李飛飛所帶領的團隊還專注於資料庫生態工具庫,也就是開發各種輔助工具幫助客戶用好資料庫。阿里雲的乙個資料庫生態工具就是針對混合資料庫和混合雲之間的資料遷移工具adam,可以大幅減少不同型別資料庫和雲部署之間資料遷移的各種消耗和對業務的衝擊;另乙個工具是混合資料庫管理,可以管理a/b資料庫、雲上和雲下資料庫等混部架構,滿足業務對混部資料庫的訪問和統一控制管理需求。
據了解,阿里雲資料庫很快將在2023年sigmod大會上介紹阿里雲雙十一場景下的分布式資料庫架構。此前,谷歌spanner、aws aurora等都是首先在sidmod會議上發布。而阿里雲將登陸2023年sigmod會議,這也代表了中國技術廠商的成就。
展望未來幾年,全球資料庫市場將迎來50年的第二次巨變。在2018 gartner全球資料庫魔力象限的7強格局中,aws、阿里雲和google為開源技術廠商,微軟、oracle和ibm也大舉支援開源技術。gartner預計,開源資料庫將在2023年佔據20%的資料庫市場份額,而到2023年75%的資料庫都將登陸雲平台。一場資料庫的世紀之戰,已經在所難免。(文/寧川)
2019,資料庫行業迎50年第二次巨變
資料庫與中介軟體和作業系統並列為全球三大基礎軟體技術,也是企業it系統必不可少的核心技術,銀行 電信 製造 網際網路等所有行業都依賴於資料庫技術。由於其技術的高難度,資料庫長期以來被少數公司控制了絕大部分市場份額。據不同的統計口徑,全球資料庫市場在300億美金到600億美金之間,商用資料庫的領導廠商...
Oracle資料庫第二講
在select語句中使用where子句對查詢結果加以限制 只返回符合限定條件的記錄 select from emp where deptno 10 檢索10號部門的所有雇員 select語法擴充 select distinct 表名 表示式 表名 欄位名 as 別名 from 表名 別名 where...
資料庫第二章
關係模式 型 是對關係的描述 是靜態 穩定的 關係 值 關係模式在某一時刻的狀態或內容 動態的 不斷變化的 關係模式和關係往往籠統稱為關係,通過上下文加以區別 關聯式資料庫的型與值 關聯式資料庫的型 關聯式資料庫模式,是對關聯式資料庫的描述 關聯式資料庫的值 關係模式在某一時刻對應的關係的集合,通常...