這是一本關於機器學習的書,它以scala為重點,介紹了函式式程式設計方法以及如何在spark上處理大資料。九個月前,當我受邀寫作本書時,我的第一反應是:scala、大資料、機器學習,每乙個主題我都曾徹底調研過,也參加了很多的討論,結合任何兩個話題來寫都具有挑戰性,更不用說在一本書中結合這三個主題。這個挑戰激發了我的興趣,於是就有了這本書。並不是每一章的內容都像我所希望的那樣圓滿,但技術每天都在快速發展。我有乙份具體的工作,寫作只是表達我想法的一種方式。
下面先介紹機器學習。機器學習經歷了翻天覆地的變換;它是由人工智慧和統計學發展起來的,於20世紀90年代興起。後來在2023年或稍晚些時候誕生了資料科學。資料科學家有許多定義,但josh wills的定義可能最通俗,我有幸在cloudera工作時和他共事過。這個定義在圖1中有具體的描述。雖然細節內容可能會有爭議,但資料科學確實是幾個學科的交叉,資料科學家不一定是任何乙個領域的專家。據jeff hammerbacher(cloudera的創始人,facebook的早期員工)介紹,第一位資料科學家工作於facebook。facebook需要跨學科的技能,以便從當時大量的社交資料中提取有價值的資訊。雖然我自稱是乙個大資料科學家,但我已經關注這個交叉領域很久了,以至於有太多知識出現混淆。寫這本書就是想使用機器學習的術語來保持對這些領域的關注度。
第1章 探索資料分析
1.1 scala入門
1.2 去除分類欄位的重複值
[1.3 數值字段概述](
1.4 基本抽樣、分層抽樣和一致抽樣
1.5 使用scala和spark的notebook工作
1.6 相關性的基礎
1.7 總結
第2章 資料管道和建模
2.1 影響圖
2.2 序貫試驗和風險處理
2.3 探索與利用問題
2.4 不知之不知
2.5 資料驅動系統的基本元件
2.6 優化和互動
2.7 總結
第3章 使用spark和mllib
3.1 安裝spark
3.2 理解spark的架構
3.3 應用
3.4 機器學習庫
3.5 spark的效能調整
3.6 執行hadoop的hdfs
3.7 總結
《機械人程式設計實戰》一一導讀
preface 機械人新兵訓練營 警示作為機械人程式設計師,我們應確保所從事的程式設計對於公眾和機械人自身都是安全的,這是我們的特殊責任。當對機械人進行程式設計時,首先要考慮機械人與人類 動物 其他機械人或資產互動時的安全。這對於所有型別機械人的程式設計都是適用的,尤其是可程式設計自主機械人,即本書...
《Scala機器學習》一一1 3 數值字段概述
雖然資料集的大多數列可能是類別 categorical 型別或複雜型別,但這裡還是要介紹一下數值資料。通常數值資料會有五種彙總方式,即中位值 均值 四分位數 最小值和最大值。spark執行中位數和四分位數會特別簡單,因此在介紹spark的dataframe時再來介紹這兩種彙總方式。下面是採用scal...
《SAP CRM管理與實施指南》一一導讀
客戶是企業的衣食父母,如何管理好客戶是乙個企業永恆的話題。有業務的地方就有客戶,即使在沒有當今的資訊科技條件下,人們依然在開拓著 經營著自己的客戶。隨著資訊科技的飛速發展,市場風雲變幻,客戶能更容易地接觸到豐富的產品和服務,市場競爭加劇,客戶和機遇稍縱即逝。此時,如何管理好企業的客戶就變得越來越重要...