2020 01 22碎片梳理 關於大資料

2021-10-02 08:30:59 字數 929 閱讀 1817

hadoop:一種檔案系統,我覺得可以模擬win(linux)下的ntfs、fat等;

hive:是基於hadoop的乙個資料倉儲工具,用來進行資料提取、轉化、載入,這是一種可以儲存、查詢和分析儲存在hadoop中的大規模資料的機制。hive資料倉儲工具能將結構化的資料檔案對映為一張資料庫表,並提供sql查詢功能,能將sql語句轉變成mapreduce任務來執行。

hbase:hbase是乙個分布式的、面向列的開源資料庫,該技術**於 fay chang 所撰寫的google**「bigtable:乙個結構化資料的分布式儲存系統」。就像bigtable利用了google檔案系統(file system)所提供的分布式資料儲存一樣,hbase在hadoop之上提供了類似於bigtable的能力。hbase是apache的hadoop專案的子專案。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。另乙個不同的是hbase基於列的而不是基於行的模式。

spark:spark對標的是hadoop中的mapreduce,兩者皆為分布式計算框架,都必須在分布式檔案系統之上執行。spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載,因此在效能上相比於mapreduce具有一定的優越性。hadoop則是一種基礎設施,提供底層的儲存機制(也可以說是資料結構)。

與大資料相關的,也經常提到雲計算。個人覺得雲計算就是一種商業宣傳語,因為只要是部署在伺服器上的都可以稱之為雲~現階段雲計算已經不是一種單純的技術概念,是一種囊括了眾多技術概念(分布式計算、效用計算、負載均衡、平行計算、網路儲存、冷熱備份、虛擬化)的商業性術語

一般的,分為三層架構:

關於索引碎片

整理表碎片.這個很多人都不知道,其實因為表的記錄數變多,在硬碟上佔的容量變大,所以會產生一定量的碎片.如果記錄多,表多的話,碎片也可能會增多.所以要定時的整理碎片.但這個碎片和一般的檔案碎片不一樣,sql server有專門的語句用於表碎片.下樓補上語句 首先,用下面的語句,檢查 修復資料庫 並整理...

關於tensorflow的碎片

1 突然間視覺化tensorflow報錯 importerror cannot import name monitoring 解決 pip uninstall tensorflow estimator pip install iv tensorflow estimator 1.13.02 tenso...

關於Android中的碎片

1.碎片和活動差不多,也包含布局。有自己的生命週期 2.在活動中使用fragment標籤可以將碎片新增到布局中 5個步驟 1.建立待新增的碎片例項 2.獲取fragmentmanager,在活動中可以直接通過呼叫getsupportfragmentmanager 方法得到 3.開啟乙個事務,通過呼叫...