聽取了火烈鳥公司ceo對資料探勘在企業中的實際應用,我做了分析和總結得出以下感想:
~~~~
~~~~
在企業中應用資料探勘,首先得確立研究動機,考慮實際可行性和帶來的收益**,充分理解業務需求,考慮資料驅動利潤核算,資料驅動使用者運營等,這需要大資料科學家和行業專業,以及客戶的業務專家一起來明確問題。這是整個大資料探勘中最關鍵的一步。如果不理解業務就貿然開做,最後的專案一定是失敗的。當明確了研究動機之後,我們就需要去分析資料,看看到底哪些資料能夠支撐我們的業務,用哪些資料去解決問題。在分析資料這個階段,對資料進行基本處理,首先對原始輸入進行預處理,如調整大小,去除噪音等,其次對預處理輸出的資料提取特徵,進行特徵抽取及特徵選擇的操作,之後再進行特徵降維等,獲得通過特徵向量表示的樣本,使用各種模型進行學習和訓練,最終完成具體任務,如分類,識別等,在此過程中,我們可能發現資料不足,或者資料質量太差,這個時候就可能要尋求第三方資料的幫助,或者規劃如何去採集更多的資料了。
~~~~
~~~~
前兩步都是在做資料探勘前的準備,當業務明略,資料可用時,我們就正式開始資料探勘了。首先我們要對資料進行處理,從資料中提取特徵。這是資料探勘非常關鍵的一步,特徵的好壞直接影響最終模型的效果。在資料探勘過程中,演算法其實並不是最主要的因素,影響效果最直接的因素就是特徵。良好的特徵需要有非常好的區分度,只有這些特徵,才能很好的去解決問題。舉個周志華機器學習中的例子,我們要辨別乙個西瓜是好是壞,可能顏色是乙個特徵,條紋,重量,瓜蒂也是特徵。但是,大家都知道西瓜一般都是綠色的,所以用綠色去作為判別西瓜好壞是沒有區分度的。而條紋,重量,瓜蒂是判別乙個西瓜是好是壞非常重要的因素,因此他們是好特徵。我們在解決不同問題時,所用的特徵是不一樣的。可能在解決某個問題有用的特徵在解決另外乙個問題時就不具備區分度。因此,我們必須緊密的聯絡業務,去選擇合適的特徵。在提取特徵時,因為我們是大資料探勘,所以要使用大資料技術去從原始資料中提取特徵。當特徵提取完畢後,我們就需要去應用演算法建立模型了。在實際的建模過程中,由於資料量過於龐大,演算法訓練過程往往十分緩慢,如何加速演算法計算速度,是乙個非常突出的問題。當模型建立完成之後,我們需要對模型進行評估,來確定模型效果。此時最重要的是建立模型的評價指標。這個評價指標必須是要結合業務來建立的。當模型效果不佳時,我們要回到特徵提取,建模過程來不斷的迭代,甚至可能要重新分析業務和資料。當乙個效果非常好的模型建立完畢了,我們的資料探勘就結束了嗎?傳統的資料探勘軟體往往只做到模型建立這一步,但是在模型建立完成之後還有很多任務作要做。我們如何將模型在生產系統中使用起來,如何去管理、執行、維護、擴充套件模型。
~~~~
~~~~
在建立模型的過程中,火烈鳥公司ceo還提出了以深度學習演算法建立相對與傳統機器學習演算法效果更加良好的模型,首先介紹了深度學習的研究現狀,學術界有nipsicml、aaai、cvpr、icdm等會議,工業界有google,microsoft,ibm等巨頭公司。
~~~~
~~~~
研究過程補充說明了現實中構造特徵向量的做法,需要人為設定一些特徵屬性(如:是否有眼睛),可隨之帶來的缺點是大量資料需要人工標註,人的因素一方面增加了特徵的不確定性,另一方面使得工程和科研投入昂貴並且費時,進一步對於特徵的不確定行的問題,提出測度學習,核學習等方法,在人為構造特徵的基礎上通過線性或非線性 變換得到更適合機器學習模型的特徵表示。深度神經網路以神經元作為單位,通常由前饋神經網路+分類/回歸模型構成。深度學習的主要思想是通過神經網路來模擬人的大腦結構的學習過程,希望通過模仿人的大腦的多層抽象機制來實現對資料的抽象表達。深度學習模型有感知機,支援向量機,深度神經網路等。
~~~~
~~~~
在研究過程中做個技術小結,我們要以全新的角度看待問題,結合現有的機器學習和優化方法,不斷創新建模方法並廣泛應用到新的問題,以建模方法+優化演算法+平行計算結構解決現有存在問題,在經驗方面則需特別注重細節和小技巧。
資料探勘在電子商務中的應用
如何對大量資訊進行有效組織利用,使使用者能夠從大量繁雜的資訊中找出真正有價值的資訊和知識,幫助企業制定更好的營銷策略。資訊處理技術有了新的應用研究課題 資料探勘。1.資料探勘在電子商務中的作用 資料探勘技術之所以可以服務電子商務,是因為它能夠挖掘出活動過程中的潛在資訊以指導電子商務營銷活動。在電子商...
資料探勘在搜尋引擎中的應用
伺服器端 資料探勘 有效的網頁內容獲取和精煉的索引資料庫建立 web資料探勘是從網際網路資源中獲取資料資訊和發現知識的過程,通常人們應用資料探勘獲取網頁有用資料,實現資料抽取。web結構包括頁面之間的結構以及頁面內部的結構。通過挖掘網路站點結構資訊,對於導航使用者瀏覽行為 改進站點整體設計 評價頁面...
資料探勘在電信客戶流失分析中的應用
資料探勘 是近年來伴隨著人工智慧和資料庫技術發展而出現的一門新興技術。它的核心功能是從巨大的資料集或資料倉儲中獲取有用資訊,以供企業分析和處理各種複雜的資料關係。隨著 電信市場競爭的日益加劇,運營商普遍開始向 客戶驅動 管理模式轉變。最近幾年,資料探勘技術以其強大的資料分析功能被普遍應用到電信運營商...