資料探勘技術

摘自《資料探勘與資料化運營實戰，思路、方法、技巧與應用》

神經網路：通過輸入多個非線性模型以及不同模型之間的加權互聯（加權的過程在隱蔽層完成），最終得到乙個輸出模型。其中，隱蔽層所包含的就是非線性函式。

神經網路作為分類、**問題的重要技術支援、在使用者劃分、行為**、營銷響應等諸多方面具有廣泛的應用前景。以下5個因素對模型結果有重大影響：

1、層數

2、每層輸入變數的數量

3、聯絡的種類

4、聯絡的程度

5、轉換函式

回歸：多元線性回歸：最小二乘法的引數估計；

邏輯斯蒂回歸：最大似然法引數估計

關聯規則：主要目的是找出資料集中的頻繁模式，支援度和置信度是衡量關聯規則強度的兩個重要指標，他們分別反應著所發現規則的有用性和確定性。

apriori演算法：

1、生成所有的頻繁專案集

2、從頻繁專案集中生成所有的可信關聯規則

適用場景：數值型資料集的分析，純文字文件和網頁檔案，如發現單詞間的併發關係以及web的使用模式等。

聚類：劃分的方法（k-means方法）、層次的方法、基於密度的方法、基於網格的方法、基於模型的方法。

貝葉斯分類：主要用來**類成員間關係的可能性。

支援向量機：適合**、分類的場景。

主成分分析：適合資料處理、降維、變數間關係的探索，專題分析。

假設檢驗：適合運營效果的評估場景。

關於資料探勘的概念，目前業界沒有統一的定義。首先從技術角度來講，資料探勘就是從大量的不完全的有雜訊的模糊的隨機的實際應用資料中，提取隱含在其中的人們事先不知道的但有存在有用的資訊和知識的過程。其次從商業角度來看，它是一種新的商業資訊處理技術，其主要是從商業資料庫中的大量業務資料進行取轉換...

資料探勘技術 1.引言資料探勘 data mining 是從大量的不完全的有雜訊的模糊的隨機的資料中提取隱含在其中的人們事先不知道的但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展，人們積累的資料量急劇增長，動輒以tb計，如何從海量的資料中提取有用的知識成為當務之急。資料探勘就...

1.引言資料探勘 data mining 是從大量的不完全的有雜訊的模糊的隨機的資料中提取隱含在其中的人們事先不知道的但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展，人們積累的資料量急劇增長，動輒以tb計，如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需...