1.spark 是類hadoop mapreduce的通用並行框架, 專門用於大資料量下的迭代式計算.
是為了跟 hadoop 配合而開發出來的,不是為了取代 hadoop,
spark 運算比 hadoop 的 mapreduce 框架快的原因:是因為 hadoop 在一次 mapreduce 運算之後,會將資料的運算結果從記憶體寫入到磁碟中,第二次 mapredue 運算時在從磁碟中讀取資料,
所以其瓶頸在2次運算間的多餘 io 消耗.
spark 則是將資料一直快取在記憶體中,直到計算得到最後的結果,再將結果寫入到磁碟,
所以多次運算的情況下, spark 是比較快的. 其優化了迭代式工作負載
2.rdd(resilent distributed datasets)俗稱彈性分布式資料集,是 spark 底層的分布式儲存的資料結構,可以說是 spark 的核心, spark api 的所有操作都是基於 rdd 的. 資料不只儲存在一台機器上,而是分布在多台機器上,實現資料計算的並行化.彈性表明資料丟失時,可以進行重建
python3 day2 基本回顧
1.作用域 1 外層變數可以被內層變更使用 2 內層變更不可以被外層使用 global nonlocal 2.對於python,一切事物都是物件,物件基於類建立 3.練習 有如下值集合 11,22,33,44,55,66,77,88,99,90.將所有大於66的值儲存至字典的第乙個key中,將小於6...
Day3 CSS 引入及基本選擇器
層疊樣式表,為了使網頁元素的樣式更加豐富,內容與樣式拆分開來。html負責結構與內容,表現形式交給css。css注釋 來注釋 css的語法結構 選擇器選擇器 將樣式與頁面元素關聯起來的名稱。css 引用 1 外鏈式 通過link標籤,鏈結到相應的css檔案,寫在head標籤中 day3.css 內容...
關於3G,一些基本面的認識
2009年初,3g牌照正式發放,中國移動得到 td cdma的牌照,聯通獲得wcdma的牌照,電信獲得cdma2000的牌照,3g年代到來。其實4g在國外已經開始商用 華為已經獲得4g的歐洲牌照 中國運營商3g的投資已經無法回頭,因此運營商會通力合作力推3g,把投資賺回來。3g的投資機會就只有這幾年...