第一章 資料
信件、**和電子郵件內容、電視廣播、網際網路網頁,以及各種社交產品中由使用者產生的內容都稱為資料。這些資料的共同特點是以文字和語音為載體。建立專門針對語音和文字的語料庫稱為語料庫。
資料和資訊稍有不同,它最大的作用在於承載資訊,但是並非所有的資料都承載了有意義的資訊。資料本身是人造物,因此它們可以被隨意製造,甚至被偽造。沒有資訊的資料沒有太大意義。
資料中隱藏的資訊和知識是客觀存在的,但是只有相關領域的人才能挖掘出來。
獲取資料——>分析資料——>建立模型——>**未知
數學模型:切比雪夫不等式表明乙個隨機變數(比如觀察到的各個年齡段觀眾的比例)和它的數學期望(比如真實情況下所有看電影的觀眾中不同年齡段的比例)之間的誤差可以任意小。只要資料量足夠,就可以用若干個簡單的模型取代乙個複雜的模型,這種方法被稱為資料驅動方法。因為它是先有大量的資料,而不是預設的模型,然後用很多簡單的模型去fit data 。
第二章 大資料和機器智慧型
在有大資料之前,計算機並不擅長與解決人類智慧型的問題,但是今天這個問題可以由智慧型問題變為資料問題。
圖靈測試turing test 讓一台機器和乙個人坐在幕後,讓乙個裁判同時與幕後的人和機器進行交流,如果這個裁判無法判斷自己交流的物件是人還是機器,就說明這台機器有了和人同等的智慧型。實現圖靈所說的智慧型
1、語音識別
2、機器翻譯
3、文字的自動摘要或者寫作
4、戰勝人類的西洋棋冠軍
5、自動回答問題
機器智慧型最重要的是能夠解決人腦所能解決的問題,而不在於是否需要採用和人一樣的方法。
賈里尼克的機器翻譯步驟1、找到數學模型 2、用統計的方法訓練出模型引數
李開復和洪小文一起構建了世界上第乙個大詞彙量、非特定人、連續語音識別系統。
大資料特徵:三v 大量vast 多樣性variety 及時性velocity
第三章 思維的革命
機械思維帶來了工業大發明的時代。機械思維更廣泛的影響力是作為一種準則指導人們的行為,其核心思想可以概括成確定性和因果關係。牛頓可以把所有天體運動的規律用幾個定律講清楚,並且應用到任何場合都是正確的,這就是確定性。類似的,當我們給物體施加乙個外力時,他就獲得乙個加速度,而加速度的大小取決於外力和物體本身的質量,這是一種因果關係。
機械思維的侷限性更多的**於它否認不確定性和不可知性。愛因斯坦的名言:上帝不擲色子,這是他在和量子力學的發明人波爾等人爭論時講的話,今天我們知道,在這場爭論中,波爾等人是正確的,上帝也擲色子。
夏農提出資訊理論最初的目的只是建立通訊 的科學理論,但是資訊理論的作用不止在科學和工程上——它也是一種全新的方**。與機械思維是建立在一種確定性的基礎上截然不同的是,資訊理論完全是建立在不確定性基礎上,而想消除這種不確定性,就要引入資訊。
因果關係轉向接受強相關性。
吳軍《智慧型時代》
最近在學習英語和專業課,抽空看了吳軍老師的一本書 智慧型時代 在沒讀這本書之前,我對大資料的了解也是在概念上,對其了解也是一知半解,這本書讀完讓我了解到基於大資料的機器智慧型是如何發展的,是怎麼樣影響我們生活的方方面面。這本書對我印象比較深的是關於大資料時代我們思維的改變。第一點是關於窮舉法 記得當...
吳軍 智慧型時代
智慧型時代 科學研究發展的四個正規化,大資料是解決不確定性的良藥 用不確定的眼光看待世界,再用資訊來消除這種不確定性 是大資料 解決智慧型問題的本質。吳軍博士在書中提到 了世界的不確定性來自兩 個方面,一是 影響世界的變數太多以至於無法用數學 模型來描述 二是 來自客觀世界本身 不 確定性是我們所在...
吳軍《智慧型時代》(三)
第六章 未來智慧型化產業 現有產業 機器智慧型 新產業 未來農業 以色列農產品單產世界先進水平,極度缺水。例如灌溉使用大量感測器採集資料,自動滴灌系統可以對用水量和產量的關係進行學習,改進灌溉量 droplet家庭院落自動噴水機械人。院落掃瞄一遍,有多少植物和草坪需要灌溉,同時它還測試各處土地的濕度...