摘自《資料探勘與資料化運營實戰,思路、方法、技巧與應用》
神經網路:通過輸入多個非線性模型以及不同模型之間的加權互聯(加權的過程在隱蔽層完成),最終得到乙個輸出模型。其中,隱蔽層所包含的就是非線性函式。
神經網路作為分類、**問題的重要技術支援、在使用者劃分、行為**、營銷響應等諸多方面具有廣泛的應用前景。以下5個因素對模型結果有重大影響:
1、層數
2、每層輸入變數的數量
3、聯絡的種類
4、聯絡的程度
5、轉換函式
回歸:多元線性回歸:最小二乘法的引數估計;
邏輯斯蒂回歸:最大似然法引數估計
關聯規則:主要目的是找出資料集中的頻繁模式,支援度和置信度是衡量關聯規則強度的兩個重要指標,他們分別反應著所發現規則的有用性和確定性。
apriori演算法:
1、生成所有的頻繁專案集
2、從頻繁專案集中生成所有的可信關聯規則
適用場景:數值型資料集的分析,純文字文件和網頁檔案,如發現單詞間的併發關係以及web的使用模式等。
聚類:劃分的方法(k-means方法)、層次的方法、基於密度的方法、基於網格的方法、基於模型的方法。
貝葉斯分類:主要用來**類成員間關係的可能性。
支援向量機:適合**、分類的場景。
主成分分析:適合資料處理、降維、變數間關係的探索,專題分析。
假設檢驗:適合運營效果的評估場景。
資料探勘技術
關於資料探勘的概念,目前業界沒有統一的定義。首先從技術角度來講,資料探勘就是從大量的 不完全的 有雜訊的 模糊的 隨機的實際應用資料中,提取隱含在其中的人們事先不知道的 但有存在有用的資訊和知識的過程。其次從商業角度來看,它是一種新的商業資訊處理技術,其主要是從商業資料庫中的大量業務資料進行取 轉換...
資料探勘技術
資料探勘技術 1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就...
資料探勘技術簡介
1.引言 資料探勘 data mining 是從大量的 不完全的 有雜訊的 模糊的 隨機的資料中提取隱含在其中的 人們事先不知道的 但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以tb計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需...