建模技術
建模方法基於使用的使用,即解決特定問題的指示資訊順序。使用特定的演算法可建立這種型別的模型。有三種主要的建模技術類別,ibm® spss® modeler 為每種類別提供了一些示例: 分類
關聯細分(有時稱為「聚類」)
分類模型使用乙個或多個輸入欄位的值來**乙個或多個輸出(或目標)欄位的值。這些技術的一些示例包括:決策樹(c&r 樹、quest、chaid 和 c5.0 演算法)、回歸(線性、logistic、廣義線性和 cox 回歸演算法)、神經網路、支援向量機和貝葉斯網路。
關聯模型查詢您資料中的模式,其中乙個或多個實體(如事件、購買或屬性)與乙個或多個其他實體相關聯。這些模型構建定義這些關係的規則集。資料中的字段可以作為輸入和目標。您可以手動查詢這些關聯,但關聯規則演算法可以更快速地完成,並能探索更多複雜的模式。apriori 和 carma 模型是使用此類演算法的示例。另一種型別的關聯模型是序列檢測模型,後者可以在按時間建立結構的資料中查詢順序模式。
細分模型將資料劃分為具有類似輸入字段模式的記錄段或聚類。細分模型只對輸入字段感興趣,沒有輸出或目標欄位的概念。細分模型的示例為 kohonen 網路、k-means 聚類、二階聚類和異常檢測等。
演算法概括
優缺點k-means
每次從類中求均值作為中心點
用到了em的思想
目標是最小化sum of squared error
要求預設k值
易受噪音和離異點的影響
對不規則形狀的類聚類效果不好
不保證全域性最優
k-means++
目標是找到k個合理的初始種子點給k-means。
1. 隨機挑個隨機點當「種子點」
2. 對於每個點,計算其和最近的「種子點」的距離d(x)並儲存,然後把這些距離加起來得到sum(d(x))。
3. 再取乙個隨機值,用權重的方式來取計算下乙個「種子點」。這個演算法的實現是,先取乙個能落在sum(d(x))中的隨機值random,然後用random -= d(x),直到其<=0,此時的點就是下乙個「種子點」。
4. 重複2和3直到k個中心被選出來
5. 利用這k個初始的聚類中心來執行標準的k-means演算法
k-modes
k-means演算法的擴充套件
對於分型別資料,用mode求中心點
k-prototypes
結合了k-means和k-modes
k-medoids
每次從類中找乙個具體的點來做中心點。目標是最小化absolute error。
pam是一種典型的k-medoids實現。
對噪音和離異點不那麼敏感
然而計算量大很多
clara
先抽樣,再用pam
對於大資料比pam好點
主要是看sample的效果
clarans
每次隨機的抓乙個medoid跟一般點,然後判斷,這兩者如果替換的話,能不能減小absolute-error
融合了pam和clara兩者的優點,是第乙個用於空間資料庫的聚類演算法
數學建模 統計分析
1.正整數頻率表 使用tabulate函式可以得到正整數的頻率表 t ceil 5 rand 1,10 隨機產生一組資料 table tabulate t 得到t的頻率表 t 324 2345 531table 1110 22203 33042 205220tabulate有乙個缺點是,它得到的是正...
r語言與統計分析考試題 R語言與統計分析第四章答案
第四章習題 4.1 xhist x,main c 1000 個引數為 0.3的伯努利分布隨機數 4.2 xhist x,probability t,xlim c min x max x nclass max x min x 1,col lightblue main c 1000 個正態分佈隨機數 l...
統計分析的體會
客戶給了一張基本的資料表,然後讓我做大量的計算,並且動態 靜態的做統計分析報表,經過了長達兩個月的苦戰,終於作完了。體會如下 1 一張存放中間統計結果的表是必要的,如果能夠將客戶的統計分析需要經過計算才能顯示的字段囊括在內是最好不過了,畢竟在查詢的過程中作計算是一件很討厭的事,雖然有資料冗餘,但是簡...