來自如谷歌和雅虎這樣的公司的頂尖的科學家,和高階學者們一起齊聚在本週在聖地牙哥舉行的第17次計算機械協會(acm)的知識發現和資料探勘(kdd)會議上。他們將要展示從當下產生的鋪天蓋地的資料中尋找洞察力的最新技術,並使各種各樣形式的資訊變得比以往任何時候都更有意義。
二十年前,關心所謂的「大資料」的人只是一些科學團體的成員 — 只有他們有大量的資料集和有動機試圖處理這些資料,計算機械協會(acm)在知識發現和資料探勘方面的特殊利益集團執行主席和雅虎前任的首席資料官usama fayyad說。即使在那時,資料探勘的結果也是引人注目的。「我們能夠解決重大科學問題,立於這個領域30多年,」 fayyad說。
例如, netflix,對可能挖掘出有關它的使用者資訊的任何團隊提供了一筆100萬美元的獎金,並建立了乙個比它已有的乙個建議系統更為精確的系統。像這樣備受矚目的例子只觸及了資料探勘應用系統的表面。
「企業和產業越來越有興趣利用他們通過業務流程獲得的資料,」 ibm的分析研究主任和大會主席chid apte說。他特別指出了醫療保健、社交**和任何發生在**上的事情。
目前,網際網路巨頭從他們收集的使用者資訊和他們通過對其挖掘獲得的洞察力上賺錢。零售商可以訪問複雜的購物者行為模式來幫助他們更有利地對商店進貨。產業研究人員能基於交流擁堵、天氣、一年之間的時間段來**汽車的交通模式,並提供優質的路線。
apte說,社交**可能已開始趨於對這樣圖形的分析,但是網路資料也可以來自其他資料來源 — 例如,來自諸如電網、配水系統、交通管理系統這樣一些複雜的工程系統。這些系統中的分布式感測器網路產生的資料集,在其中位置之間的連線與社交網路中人與人之間的友好關係一樣的重要。理解這些連線是優化系統和使他們得以持續的關鍵,apte說。
人們和圖形資料打交道已有數百年,但目前來自於社交網路或感測器網路規模的圖形規模空前,apte說。「這些是龐大的圖形,」他說。「你正在談論數以萬計的節點和數以千萬計的鏈結。」
要處理這種規模和範圍的圖形,並且對它們運用現代分析工具,就要求更好的演算法與其他創新。apte說,大會的目標之一就是為有意向的企業帶來學術界和產業界研究實驗室的頂尖技術,這樣他們可以更快地應用它們。同時,會議的組織者們希望,學者們將感知到大多數極其需要被考慮到的業務挑戰。
fayyad說資料中的強大商業利益已經改變了資料探勘的領域。他說,科學家主要處理整齊的,結構形式儲存的資料。但大多數企業產生的資料是一種混亂的非結構化的形式。
「當科學家們正很好地避免了那些混亂無結構的資料時,企業卻被迫與它們正面交鋒,」 fayyad說。「這驅使企業開始開發沒有人嘗試過的技術。」
當然,挑戰依然存在,但是fayyad說:「人們可以想出更多的**模型,而且更重要的是評價他們以確定他們工作的如何……它將分析帶入到一種真正超越人類大腦理解能力的水平上。」
引自:
大資料和資料探勘有什麼關係
資料探勘基於資料庫理論,機器學習,人工智慧,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支援向量機,分類回歸樹,和關聯分析的諸多演算法。資料探勘的定義是從海量資料中找到有意義的模式或知識。大資料是今年提出來,也是 忽...
大資料的資料探勘(1)
大資料的特徵 hace 原則 large volume,heterogeneous,autonomous sources with distributed and decentralized control,and seeks to explorecomplex and evolving relat...
資料探勘 相似項的發現
與問題角度不同 把物體看成乙個整體比如 距離 余弦等等。現在把物體拆分,就可以用集合去考慮相似度。比如jaccard相似度。定義集合s和集合t的jaccard相似度為 s t s t 現在我們把目標放在文件上面,如何將文件拆分呢?引入shingle k shingle 文件看做字串,k的意思是任意個...