大資料類面試題二

2021-09-26 10:54:36 字數 1108 閱讀 9254

關係型資料庫:mysql,oracle

非關係型資料庫:redis,mongodb,hbase

類sql資料庫:hive

關係型資料庫(mysql和oracle

1.表和表、表和字段、資料和資料存在著關係

優點:

1.資料之間有關係,進行資料的增刪改查的時候是非常方便的

2.關係型資料庫是有事務操作的,保證資料的完整性和一致性。

缺點:

1.因為資料和資料是有關係的,底層是執行了大量的演算法

大量演算法會降低系統的效率,會降低效能

2.面對海量資料的增刪改查的時候會顯的無能為力

3.海量資料對資料進行維護變得非常的無力

應用場景:適合處理一般量級的資料(銀行轉賬和錢)

非關聯式資料庫的(redis和mangdb)

為了處理海量資料,非關聯式資料庫設計之初就是為了替代關係型資料庫的關係

優點:

1.海量資料的增刪改查是可以的

2.海量資料的維護和處理非常輕鬆

缺點:

1.資料和資料沒有關係,他們之間就是單獨存在的

2.非關聯式資料庫沒有關係,沒有強大的事務關係,沒***資料的完整性和安全性

適合處理海量資料,保證效率,不一定安全(統計資料,例如微博資料)

總結:1.關係型資料庫支援sql語句的查詢,增刪改查非常方便,並且支援多表的join操作,相比非關係型資料庫速度比較慢

2.非關係型資料庫讀寫非常快,但是不支援增刪改查的操作

3.hive資料倉儲是元資料和客戶端的形式,將資料儲存在hdfs上的。但是hive 中不支援對資料的改寫和新增,所有的資料都是在載入的時候中確定好的。

4.非關係型資料庫的數是儲存在記憶體中的,關係型資料庫的資料是儲存在磁碟的

參考文獻

關係型資料庫和非關係型資料庫,以及hive資料倉儲的區別

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...

大資料面試題

1.列舉spark 比hadoop 快的原 因 以及現在存在的主要問題 2.描述下使用spark streaming 和 graphx實現實時計算的可行性,以及可能會遇到的問題 3.graphx的pregel api 只支援有向圖遍歷 如何實現無xiang 遍歷,描述思路 4.spark 通過yar...

大資料面試題

1 mapreduce的大致流程 2 列出正確的hadoop集群中hadoop都分別啟動那些程序,他們的作用分別是什麼,盡量詳細些。3 請列出你所知道的hadoop排程器,並簡要說明其工作方法。4.flume不採集nginx日誌,通過logger4j採集日誌,優缺點是什麼?在nginx採集日誌時無法...