行業背景:
快速:apache spark以記憶體計算為核心
通用 :一站式解決各個問題,adhoc sql查詢,流計算,資料探勘,圖計算
完整的生態圈
只要掌握spark,就能夠為大多數的企業的大資料應用場景提供明顯的加速
「猜你喜歡」為代表的推薦系統,從吃穿住行等
專案背景介紹:本專案是乙個基於apache spark 的電影推薦系統,
專案架構:
主要模組:
系統開發的重難點:
拓展:資料倉儲的準備 :spark + hive 資料etl ,zeppelin +hive 資料展示
資料處理:
實時資料處理 : 1.資料實時性,完整性 、一致性 ,
2.保證應用不會崩潰掉,or 崩掉之後及時啟動起來 並 資料一致性處理
1.資料倉儲怎麼理解?兩種東西,其一是ibm微軟資料產品為代表的,其二是hadoop+hive
apache hive™資料倉儲軟體有助於使用sql讀取,寫入和管理駐留在分布式儲存中的大型資料集。
可以將結構投影到已經儲存的資料上。
提供了命令列工具和jdbc驅動程式以將使用者連線到hive。
2.資料來源準備:
data source:movielens open data
/ml-latest.zip
接下來就是開始coding…[root@hadoop001 ml-latest]# pwd
/root/data/ml/ml-latest
[root@hadoop001 ml-latest]# ll -h
總用量 1.9g
-rw-r--r--. 1 root root 1.3m 10月 17 13:41 links.txt
-rw-r--r--. 1 root root 2.8m 10月 17 16:06 movies.txt
-rw-r--r--. 1 root root 725m 10月 17 16:07 ratings.txt
-rw-r--r--. 1 root root 38m 10月 17 16:08 tags.txt
[root@hadoop001 ml-latest]#
spark電影推薦系統的簡單測試
objectmovie users analyzer rddelse if args.length 1 valsc newsparkcontext newsparkconf setmaster masterurl valusersrdd sc.textfile datapath users.dat ...
推薦系統 電影推薦系統(二)
als是交替最小二乘法的簡稱,是2008年以來,用的比較多的協同過濾演算法。它已經整合到spark的mllib庫中,使用起來比較方便。這裡可以想象一下,每個人的性格愛好可以認為是乙個抽象的模型,每個人的模型都有自己的乙個特點。因此,每個人對於商品的評價都有自己的一套規律,als演算法就是可以通過這些...
推薦系統 電影推薦系統(一)
二 電影推薦思路總結 資料儲存部分 離線推薦部分 實時推薦部分 系統初始化部分 離線推薦部分 實時推薦部分 業務系統部分 使用者電影特徵提取時,必須要有對應的資料,電影表,使用者表,使用者評價表。通過als演算法對評價表進行計算,計算出電影的特徵矩陣。通過電影特徵的矩陣計算得出每個電影最相似的幾個電...