六、所有這些資料:資料**
所有電腦化機器和服務所產生的資料曾經都是數位化技術的副產品,計算機科學家已經對資料庫進行了大量研究以有效的儲存和處理海量資料。因為我們不得不儲存資料。過去二十年的某個時候,這些資料變成了一種資源,現在,更多的資料是一件幸事。
例如,想想一家連鎖超市,每天通過全國各地的實體店或是網上虛擬商店,向數以百萬計的顧客銷售成千上萬的商品。數位化的銷售終端記錄了每筆交易的細節:資料,客戶id(通過一些忠誠度計畫),購買的商品和**,花費的總金額等等。商店聯網之後,所有商店的終端資料都可以即時收集到**資料庫中。這樣每天可以積累大量(並且非常新的)資料。
特別是過去二十年左右,人們開始越來越多的思考如何使用這些資料。關注如何使用資料的話,計算機應用的整個方向就顛倒過來了。以前是程式處理資料、產生資料—資料是被動的。而考慮如何使用資料時,資料就開始驅動操作,下一步該做什麼,已經不是由程式設計師而是由資料本身來定義了。
不過這項任務並不是顯而易見的。我們並不十分確切的了解,哪些人可能會購買這種口味的冰淇淋或是這個作者的下一本書,會看這部新電影,會來這座城市旅遊。顧客的行為會隨時間發生變化,也會取決於其所處的地理位置。
但是也並不是沒有希望,因為我們發現顧客的行為並不是完全隨機的。人們並不是隨機去超市購物。他們購買啤酒時也會買薯條;夏天他們購買冰淇淋,冬天購買新增到gluhwein(德國聖誕節傳統的飲料,是一種混合紅酒,即在紅酒中加入丁香、肉桂等香料和糖)中的香料。客戶行為存在一定的模式,這就是資料發揮作用的地方。
雖然我們不了解客戶行為模式,但我們希望可以從收集來的資料中發現它。如果我們可以從過去的資料中發現這些行為模式,那麼在未來,至少不遠的將來,客戶的行為模式不會有太大的變化。我們可以預期這些行為模式將繼續保持下去,並且可以基於這些模式進行一些**。
我們可能無法完全識別這個過程,但是我們可以構建乙個良好、有用的近似值。這種近似值也許無法解釋所有的資料,但仍可能解釋部分資料。我們認為儘管不太可能識別完整的過程,但仍然可以檢測到一些模式。我們可以使用這些模式進行**,這些模式也可能幫助我們理解這個過程。
這種建立近似值的過程被稱作資料探勘。打個比方,大量的泥土和原材料從礦山中挖掘出來,經過處理後,會產生少量非常珍貴的材料。同樣在資料探勘中,通過處理大量資料,構建乙個有使用價值的簡單模型,例如具有高度的**準確性。
資料探勘也是機器學習的一種。我們不知道(客戶行為的)規則,所以無法編寫程式,但是機器-也就是計算機-通過從(客戶交易)資料中提取客戶的行為規則來進行學習。
擁有大量資料而不知資料中的規則,這樣的情況隨處可見。企業中使用計算機和數字技術就意味著各個領域都有大量的資料生成。在日常社交生活中,我們也使用電腦或智慧型機器,所以也會生成大量資料。
學習模型用於模式識別,例如用於識別攝像機捕獲的影象或識別麥克風捕獲的語音。如今,從識別人的行為(使用智慧型手機)到汽車駕駛輔助系統,不同型別的應用場景使用不同的感應器。
科學是資料的另乙個**。隨著我們研發更好的感測器,我們會檢測更多-就是在天文學、生物學、物理學和其他方面獲得更多的資料,我們使用學習演算法來理解越發龐大的資料。網際網路本身就是乙個巨大的資料儲存庫,我們需要智慧型演算法幫助我們尋找想要的東西。
智慧型機器的數量增多,對我們的日常生活幫助很大。
第一章 為什麼我們對機器學習感興趣?(八)
機器學習不只是乙個資料庫或程式設計問題,它也需要人工智慧。處在變化環境中的系統應該具備學習能力,否則,我們很難稱之為智慧型。如果該系統能夠學習並適應這樣的變化,那麼系統設計者就無需預見並為所有可能的情況提供解決方案。對我們來說,系統設計師是進化來的,我們的身形以及內在的直覺和反應已經進化了數百萬年。...
第一章 為什麼我們對機器學習感興趣?(四)
四 移動計算機應用 每十年我們都會發現電腦越來越小。20世紀90年代中期,隨著電池技術的進步,可以使用電池的可攜式電腦或者膝上型電腦開始普及,開啟了移動計算機應用的新時代。此時蜂窩 也開始流行起來。大約在2005年左右,這兩項技術都融入到智慧型手機。智慧型手機既是手機也是電腦。隨著時間的推移,智慧型...
第一章 為什麼我們對機器學習感興趣?(二)
二 計算機資料儲存 計算機的強大之處在於,任何資訊都可以用數位化 也就是位序列 處理任何資訊都可以編寫計算機指令來操作這些位序列。1960年資料庫誕生了,這是數位化帶來的結果之一。資料庫是專門用來儲存和運算元據的電腦程式,或用數位化的形式表示資訊。外圍裝置 如磁帶或磁碟 會把二進位制位儲存起來,這樣...