大資料在2012「一飛沖天」,它將會以一種戲劇性的方式改變資料管理的各個方面。大資料系統已經給機器生成資料管理、連續的etl、操作型bi、動態資料以及基於雲的資料倉儲都帶來了變化。
不 過,隨著大資料發展進入2023年,已經沒有什麼技術能比nosql資料庫和hadoop更活躍了,它們都有著更大的提公升空間。根據 marketanalysis.com 2023年的乙份報告看,單單是hadoop mapreduce市場,預計復合年增長率將達到58%,在2023年將達到22億美元的規模。
nosql和hadoop的出現主要是為應對非結構化資料,比如文字資料或者web日誌。就像apache hadoop一樣,這些技術通常是從開源發起,然後逐漸成為新的商業產品。
judith hurwitz是hurwitz and associates公司的總裁兼ceo,她認為大資料架構和大規模並行處理大大改變了資料應用現狀。她說:「在此之前,即便資料真的對公司很重要,人們 也並不是真正有能力獲取海量資料並實時分析。而現在,原來無法實現的目標已經觸手可及。」
sql陣營的逆襲
這一趨勢背後的推動力是企業希望以更快的速度獲取更多非結構化資料,這樣才能更加依靠資料驅動做決策。習以為常的資料處理方式正在經歷變革,以便更好地融入新的技術。
對於那些傳統的關係型資料庫廠商,過去一年中擁抱大資料以及hadoop的例子也有很多:
大 資料永遠不會存在誰取代誰的問題,sql雖然在過去一年中遭受了衝擊,但是它並不會走向衰落。正相反,一些nosql和hadoop方面比較專業的公司也 在sql方面做了許多努力。乙個典型的例子是hadoop初創公司cloudera,通過impala來提公升hadoop與sql的協作程度。 impala是一款hadoop軟體產品,支援標準sql做互動式查詢。
大資料變革
大資料變革也帶動了資料庫技術的前進,現在我們看到sql與nosql從對立更多地走向了融合。事實上,在大資料早期的討論中,傳統關係型資料庫技術是被忽視的。
流**資料庫廠商sqlstream的副總裁ronnie beggs表示:「在過去的幾年裡,由於大資料的崛起,sql作為主流技術遭受了一定的衝擊。大資料更多地和nosql聯絡在了一起。」
他人為在2023年,我們應該會看到明顯的變化。在最近幾年已經有很多努力在使nosql資料庫更好地適應sql資料庫的風格。
beggs說:「大資料是不斷變化的,我們接下來這一年會看到的是sql歸來,它將作為所有大資料平台的介面。」
hadoop、nosql和sql共存的方式,標誌著大資料在成熟度方面邁進了新的一步。隨著2023年開啟,大資料有可能從乙個熱門話題逐漸轉向落地實踐。
ashland bi研究機構的總裁和創始人colin white表示:「我認為人們正努力通過大資料的炒作,來真正理解其商業價值。在2023年,我認為我們將看到人們從大資料獲得商業價值的更好的例子。這不是關於大資料的問題,而是你用大資料做什麼的問題。」
雖然對新技術有廣泛的興趣,但不同公司對於接受全面大資料系統的速度也會有所不同。
一位系統整合商在金融行業的活動上向techtarget記者表示,銀行作為乙個領域,只有部分涉足了基本的大資料,而不是全部。銀行和其它領域只看到了大資料的數量,而沒有留意到它的非結構性。至少目前還是這樣。
他說:「大資料的含義有兩部分。第一部分是它們的量很大,第二部分是資料是非結構化的。銀行明顯屬於第一部分。但是我們不會去收集tweets這樣的社交資料,至少目前還沒有。我們還在觀望,看金融資料服務市場的其他使用者如何處理它。
大資料常用的SQL語法
資料分析是演算法的基石。而資料分析 如hive spark的dataframe,flink 目前很大部分都依賴於sql資料分析。因此很多機器學習演算法同學,被戲稱為sql boy或者是調參 boy。這裡主要備忘一下在大資料分析常用的一些sql語法,方便隨時檢視。select a.id,a.name,...
sql中的大資料量資料提速
最近做個專案接近千萬條資料,對資料的讀取速度,要求比較高。對此作了乙個簡單的總結。1.sql語句書寫的我們應該注意,盡量少使用in or 和虛擬表。也有高人說,盡量多使用臨時表能夠減少磁碟的i o操作,這個還有待驗證 2.建立索引,通常我們會把,聚集索引建立在使用多,但出現少的字段上。例如 時間 3...
大資料上的流式SQL引擎 StreamCQL
華為在近期的華為開發者大會上宣布開源其流處理平台sql引擎streamcql stream continuous query language 表示歡迎更多的開發者加入社群,並將持續提供新的特性,目前在github 上已能看到其專案 和文件。在最近的一次meetup上,華為實時分析團隊高階技術專家 ...