mapreduce是一套從海量源資料提取分析元素最後返回結果集的程式設計模型。程式設計模型是處理並結構化特定問題的方式。mapreduce程式本質上是並行執行的,由jobtrackers和tasktrackers組成。其優勢在於處理大規模資料集。
將查詢表示成mapreduce作業,過程分為兩個處理階段:map階段和reduce階段。
基於hadoop的開源分布式檔案系統,以google的gfs為原型設計並實現具有高可靠性、高效能、可伸縮、實時讀寫的分布式檔案系統。基於hadoop的開源資料庫,以google的bigtable為原型,設計並實現具有高可靠性、高效能、列儲存、可伸縮、實時讀寫的資料庫系統。
在網上搜尋大資料中介軟體並沒有準確的定義,只有中介軟體的定義,而且還有不同的說法。
中介軟體:我國學術界一般認可的定義是中介軟體是指網路環境下處於作業系統、資料庫等系統軟體和應用軟體之間的一種起連線作用的分布式軟體,主要解決異構網路環境下分布式應用軟體的互連與互操作問題,提供標準介面、協議,遮蔽實現細節,提高應用系統易移植性(北京大學梅巨集)。
中科院軟體所研究員仲萃豪形象地把中介軟體定義為平台+通訊。這個定義限定了只有用於分布式系統中的此類軟體才能被稱為中介軟體,同時此定義還可以把中介軟體與支撐軟體和實用軟體區分開來。
說一下我膚淺的理解,也並不一定正確。
大資料中介軟體:處於作業系統、分布式資料庫(例如hbase)和執行於大資料平台上的應用程式之間,起連線作用使其相互通訊的軟體系統。
一般大資料中介軟體可提供有關資料儲存、查詢、匯入匯出、刪除以及計算分析等工具。
大資料(二)大資料相關的技術
大資料常和雲計算聯絡到一起,因為實時的大型資料集分析需要分布式處理框架來向數 十 數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大資料則是電。雲計算思想的起源是麥卡錫在上世紀 60 年代提出的 把計算能力作為一種像水和電一樣的公用事業提供給使用者。如今,在 goog...
資料探勘的名詞解釋
資料探勘 英語 data mining 又譯為資料 探勘 資料 採礦。它是資料庫知識發現 英語 knowledge discovery in databases,簡稱 kdd 中的乙個步驟。資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關係性 屬於association rule lea...
網路管理中的幾個名詞解釋
網路管理中的幾個名詞解釋 1.什麼是網路管理?網路管理分為兩類。第一類是網路應用程式 使用者帳號 例如檔案的使用 和訪問許可權 許可 的管理。網路管理的第二類是由構成網路的硬體所組成。這一類包括工作站 伺服器 網絡卡 路由器 網橋和集線器等等。通常情況下這些裝置都離你所在的地方很遠。正是由於這個原因...