大資料目前應用廣泛,在我看來,現在社會,資料無處不在。大資料是以資料為核心,是乙個圍繞大資料生命週期不斷迴圈往復的生產過程,但也需要很多行業協作和配合。
資料主要分為:收集、儲存、建模、分析和產品輸出幾個階段。目前,收集是通過各種軟體應用收集或者裝置收集;儲存通過網路,雲計算進行儲存,通過資料科學家或者行業專家進行建模或者加工,最後資料分析得到知識,最終輸出產品,提供給使用者的完整過程。
目前大資料人才主要分為三類:一類是基建和架構;二類是建模與分析;三類是應用實現。
3月份主要閱讀了高揚等編寫的《白話大資料與機器學習》,這本書通俗易懂。學到了:統計與分布相關概念、指標問題、資訊理論相關概念、多維向量空間、回歸問題、聚類問題、分類問題、關聯分析、使用者畫像、推薦演算法、文字挖掘、人工神經網路、了解大資料的框架、大資料的系統架構與調優問題、資料解讀與資料的價值。
4月份主要閱讀了吳軍等編寫的《數學之美》,這本書內容豐富,資訊量足,但是把很多概念都分析出來了。主要內容有:文字和語言講述了數字和資訊關係;統計讓自然語言處理走出了很好的路;描述了統計語言模型;分詞的原則;隱含馬爾科夫模型在語音和語言方面的應用;資訊的度量和作用,為通訊、資料壓縮、自然語言處理、在機器學習演算法決策樹等應用廣泛;布林代數和搜尋引擎的關係;圖論和網路爬蟲,這是離散數學的經典應用。pagerank網頁排名技術及計算方法,背後是大量的矩陣分解與矩陣運算,理解了tf-idf資訊理論的含義;動態規劃和有線狀態機之間的關係;餘弦定理在相似度分析中的廣泛應用;矩陣運算和文字處理中的分類問題(詞袋和主題的作用);資訊指紋及其應用,為我們查詢資訊提供了有效演算法;密碼學基礎;搜尋引擎要注意的問題;最大熵模型和最大熵原理;拼音輸入法建立在統計之上的;布隆過濾器為資訊指紋及其應用;貝葉斯網路;條件隨機場、文法分析;維特比演算法;期望最大化演算法;邏輯回歸和搜尋廣告;分治演算法是mapreduce的基礎;人工神經網路與google大腦。
二 機器學習之路 什麼是機器學習
寫在前面 本部落格所寫內容均為本人自學筆記,如有錯誤之處,還請各位大神多多指教,謝謝。tom mitchell在他的 machine learning 書中給出了乙個簡單明瞭的定義 機器學習這門學科所關注的問題是 電腦程式如何隨著經驗積累自動提高效能。說白了就是一套計算機 在實現乙個功能的過程中,不...
三 機器學習之路 機器學習主要類別
機器學習的主要技術分為以下三個方向 監督學習 無監督學習 強化學習。下面分別來介紹這幾種技術。監督學習 supervised learning 監督學習的問題可以分為兩類 回歸 regression 分類 classification 回歸 regression 回歸問題中,回歸的目標是給定輸入變數...
機器學習之路七 LSTM
rnn訓練與bp演算法 如何簡單的理解lstm lstm的推導與實現 有推導 有實現 詳細,有以下兩處錯誤 愛可可 愛生活 lstm 航班人數 在keras 上實踐lstm例子 字母順序 lstm 航班人數 資料 international airline passengers.csv 基於kera...