深度學習(二)大資料智慧型

2021-07-22 23:25:35 字數 3020 閱讀 4345

1.1.2 連線主義、符號主義

1.1.4 逐層預訓練

1.1.5深度學習用武之地

1.分類 andrew ng (rain, et al.2009)

2.結構分類 實時翻譯 鄧力(socher,et al 2013)(socher,et al.2012)(devlin,et al.2014)

skype translate介紹:

3.回歸

1.2.1 《計算機與人腦》(馮諾依曼)《理想國》《新工具》

1.5 hinton 2006 深度神經網路引數預訓練

vincent et al. 2008 自動編碼器 auto-encoder:

逐層訓練,最後微調(fine tuning),每層都盡量還原上一層的資訊。

統計機器翻譯中的ibm模型:用複雜模型的簡化版本進行訓練,並將簡化版本引數作為複雜模型的初始值。

em迭代方法嚴重依賴初始值。

1.6.1深度學習帶來了什麼

1.強調了資料的抽象

2.強調了特徵的自動學習

3.對連線主義的重現

1.6.2深度學習尚未做到什麼

1.缺少完善的理論

詭異的故事:你得到乙個很好的的模型,然後發現了乙個bug,修復bug以後發現效果明顯不如有bug的模型。

哈哈哈,上帝之手在干涉啊!

1.7回顧

受限波茲曼機

www.cs.toronto.edu/~hinton/

ufldl.stanford.edu./wiki/index.php/ufldl_tutorial

andrew ng寫的關於deep learning的tutorial

deeplearning.net/tutorial bengio組的tutorial

deeplearning.net/deep-learning-research-groups-and-labs 列舉了於深度學習相關的研究機構

2.4.1

實體識別,實體消歧

三元組例項

2.4.4知識表示

transe

bordes,et al. 2013

人類知識型別的探索 tenenbaum et al. 2011

2.6 知識表示,knowledge representation: russell & norvig 2009 了解發展歷程

3.3.1虛擬化技術

lxc docker

google file system(ghemawat et al. 2003) mapreduce(dean & ghemawat 2008)

bigtable(chang, et al. 2008)

yarn yet another resource negotiator

hbase實現bigtable**提出的基於列的分布式儲存

hadoop

zookeeper編寫分布式軟體所需的常用工具

2023年ibm watson 在《危險邊緣》節目中擊敗人類,也算是里程碑的一刻吧。

跟google的alphago擊敗李世乭的意義應該算差不多。

說明人工智慧在某一方面已經有能力碾壓人類了(後兩句是自己yy的)

問答系統的主要組成:

分類體系:平面分類、層次分類(uiuc分類體系、moldovan分類方法)

知識檢索:非結構化資訊檢索、結構化資訊檢索(百科知識)、推理

模板匹配、詞法,句法分析、

答案生成:候選答案定位、答案抽取、答案摘要(設計到搜尋引擎檢索到資訊以後做摘要的部分,提取主要內容)

潛在語義分析(latent semantic analysis lsa)

創新地引入予以維度,語義維度是文件集合上相同、相關資訊的濃縮表示,將 文件->詞彙 表示方法轉變為 文件->語義->詞彙

潛在語義索引(latent semantic indexing lsi):起源在檢索領域。用矩陣 an

m 表示,語料庫n個文件,m個詞.接下來做svd分解a=

tsdt

參差多型乃是幸福之本源—-羅素———–很有道理

2023年美國明尼蘇達大學grouplens研究組推出grouplens系統(resnick,1994)

首次提出基於協同過濾完成推薦任務的思想

為推薦問題建立乙個形式化模型

推薦系統的輸入:

使用者、物品、評價

推薦系統的輸出:

推薦列表(一般)

形式化:

太多種類

三大核心問題:

**、推薦、解釋

推薦演算法的分類:

基於人口統計學的推薦,基於內容的推薦,基於協同過濾的推薦(使用者,物品,矩陣分解),混合型推薦。(跟推薦系統 francesco ricci那本書寫的6中有點區別啊,少了基於知識,基於社群)

推薦問題的冷啟動還是重要問題

後面一部分講了矩陣分解的方法《矩陣論》這門課可以的,或者天大有本書《應用數學基礎》就講了很多矩陣分解的方法!我討厭這門課———–

—–氣死人了,csdn markdown沒有儲存草稿!!!以下內容丟失了。可惡

主要還是人工標記。然後可以通過同現情況發現新詞。word embedding。
隨意看看就過了
這裡有很多組織或者會議、部落格資訊

acl:aclweb.org

nlpers.glogspot.com 部落格了解學術動態

aclweb.org/aclwiki acl自己維護的頁面

中國中文資訊學會 www.cipsc.org.cn 理事名單:www.cipsc.org.cn/lingdao.php

《中文資訊學報》《計算機學報》《軟體學報》

微博尋人系統:xunre.thuir.org

大資料(二)大資料相關的技術

大資料常和雲計算聯絡到一起,因為實時的大型資料集分析需要分布式處理框架來向數 十 數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大資料則是電。雲計算思想的起源是麥卡錫在上世紀 60 年代提出的 把計算能力作為一種像水和電一樣的公用事業提供給使用者。如今,在 goog...

二 大資料的生態體系

自下而上 資料傳輸層 根據資料的結構不同主要分為sqoop flume kafka等 資料儲存層 hadoop中常用的檔案儲存主件就是hdfs,hbase是非關係型資料以鍵值對儲存,kafka可以有1g的快取 資源管理層 yarn資源的管理,負責分配記憶體 網路分配等 資料計算層 分為離線排程和實時...

二 大資料相關的幾個名詞解釋

mapreduce是一套從海量源資料提取分析元素最後返回結果集的程式設計模型。程式設計模型是處理並結構化特定問題的方式。mapreduce程式本質上是並行執行的,由jobtrackers和tasktrackers組成。其優勢在於處理大規模資料集。將查詢表示成mapreduce作業,過程分為兩個處理階...