大資料相關介紹

2022-06-28 10:33:13 字數 1125 閱讀 6340

gartner定義big data;

《大資料時代》;

大資料生態應用領域;

target一家企業

twitter

tesco

facebook

婚嫁後推薦(拍婚紗照的價位,品味推後續生活產品)

大資料應用技術

語義網(目的:讓計算機讀懂文件知識)

知識圖譜(給ai裝個大腦,基於圖資料,是圖儲存,優勢是更清晰) 打破元無知

自然語言處理

機器智慧型》gpu處理硬體處理(深度學習,頻繁迭代運算)

歷史和應用:

team 91年發明全球資訊網(就是儲存資料),之後,提出語義網

2023年谷歌發表乙個知識圖譜

facebook知識圖譜

阿里知識圖譜

亞馬遜知識圖譜

美團大腦

汽車之家

反欺詐應用

企業知識圖譜(企查查,天眼)()

問答系統應用

知識圖譜採用三元組模式儲存知識

知識圖譜驗證:不一致性認證

知識圖譜的建立:

最耗時的是資料獲取(爬蟲、深度學習)、資料結構化、資料處理(融合、整理、處理矛盾、判斷同義詞近義詞、全稱簡稱編碼、推理關聯可需要人手動總結、資料更新知識更新)和儲存

知識圖譜的查詢:(用特有語法查詢類似sql)

機器學習有開源**。

機器學習要求分布式計算,特徵工程,調參,模型驗證,誤差分析,上線執行。

硬體發展促進深度學習和神經網路

gpu(圖形處理器,計算單元很多,多人小學生幹活)

cpu(像老教授,)

npu

tpu(張量處理器,定製化晶元)

神經處理器

深度學習(天生分布式計算,不需要大量的引數提取)

神經網路

dmp資料管理平台(使用者畫像)產品:

京東dmp

阿里dmp(達摩盤+阿里媽媽)

今日頭條dmp(人群資料定向+人群洞察+投放(定向or排除))

以京東dmp為例:

9大行業垂直標籤:遊戲人群+母嬰人群+

龍果學院(什麼是畫像?)

多端開發工具

acp agile certified practitioner

大資料相關資源

1,大資料不眠夜 spark核心天機解密 共140講 2,hadoop深入淺出實戰經典 3,spark純實戰公益大講壇 4,scala深入淺出實戰經典 5,docker公益大講壇 6,spark亞太研究院spark公益大講堂 4,spark亞太研究院決勝大資料時代公益大講堂 5,雲計算docker虛...

大資料相關知識

需要了解的內容 1.spark常用函式 transformation和action 2.spark中task的生成 spark中關於併發度涉及的幾個概念file,block,split,task,partition,rdd以及節點數 executor數 core數目的關係。3.spark的job s...

大資料介紹

大資料技術的戰略意義不在於掌握龐大的資料量,而在於對這些資料進行專業化處理。資料一直都在以每年50 的速度增長,也就是說每兩年就增長一倍。大資料是由結構化和非結構化資料組成的 10 的結構化資料,儲存在資料庫中 90 的非結構化資料,它們與人類資訊密切相關 資料結構 參閱c語言資料結構 資料結構是計...