gartner定義big data;
《大資料時代》;
大資料生態應用領域;
target一家企業
tesco
婚嫁後推薦(拍婚紗照的價位,品味推後續生活產品)
大資料應用技術
語義網(目的:讓計算機讀懂文件知識)
知識圖譜(給ai裝個大腦,基於圖資料,是圖儲存,優勢是更清晰) 打破元無知
自然語言處理
機器智慧型》gpu處理硬體處理(深度學習,頻繁迭代運算)
歷史和應用:
team 91年發明全球資訊網(就是儲存資料),之後,提出語義網
2023年谷歌發表乙個知識圖譜
facebook知識圖譜
阿里知識圖譜
亞馬遜知識圖譜
美團大腦
汽車之家
反欺詐應用
企業知識圖譜(企查查,天眼)()
問答系統應用
知識圖譜採用三元組模式儲存知識
知識圖譜驗證:不一致性認證
知識圖譜的建立:
最耗時的是資料獲取(爬蟲、深度學習)、資料結構化、資料處理(融合、整理、處理矛盾、判斷同義詞近義詞、全稱簡稱編碼、推理關聯可需要人手動總結、資料更新知識更新)和儲存
知識圖譜的查詢:(用特有語法查詢類似sql)
機器學習有開源**。
機器學習要求分布式計算,特徵工程,調參,模型驗證,誤差分析,上線執行。
硬體發展促進深度學習和神經網路
gpu(圖形處理器,計算單元很多,多人小學生幹活)
cpu(像老教授,)
npu
tpu(張量處理器,定製化晶元)
神經處理器
深度學習(天生分布式計算,不需要大量的引數提取)
神經網路
dmp資料管理平台(使用者畫像)產品:
京東dmp
阿里dmp(達摩盤+阿里媽媽)
今日頭條dmp(人群資料定向+人群洞察+投放(定向or排除))
以京東dmp為例:
9大行業垂直標籤:遊戲人群+母嬰人群+
龍果學院(什麼是畫像?)
多端開發工具
acp agile certified practitioner
大資料相關資源
1,大資料不眠夜 spark核心天機解密 共140講 2,hadoop深入淺出實戰經典 3,spark純實戰公益大講壇 4,scala深入淺出實戰經典 5,docker公益大講壇 6,spark亞太研究院spark公益大講堂 4,spark亞太研究院決勝大資料時代公益大講堂 5,雲計算docker虛...
大資料相關知識
需要了解的內容 1.spark常用函式 transformation和action 2.spark中task的生成 spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。3.spark的job s...
大資料介紹
大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...