這是個複雜的問題,沒有完美的答案,
對於給定的資料,有兩種設定概率分布函式引數的方法:
在我的經驗中,最近幾年最大似然是首選的,儘管這可能不是每個領域的情況。
這是如何估算r中引數的具體示例。考慮從高斯分布生成的一組隨機點,它均值為0,標準差為1:x = rnorm( n = 100, mean = 0, sd = 1 )
在r中,有乙個標準庫使這非常簡單:library(mass)
params = fitdistr( x,"normal" )
print( params )
這給了我以下輸出:mean sd
-0.17922360 1.01636446
( 0.10163645) ( 0.07186782)
從你的引數中提取日誌可能性,如下所示:print( params$loglik )
[1] -139.5772
當對數可能性接近0時,可能性最大,因此負數越多,資料擬合效果越差。
使用這樣的計算工具,可以很容易地估計分布的引數,請考慮以下示例:x = x[ x >= 0 ]
distributions = c("normal","exponential")
for ( dist in distributions ) {
print( paste("fitting parameters for", dist ) )
params = fitdistr( x, dist )
print( params )
print( summary( params ) )
print( params$loglik )
指數分布不產生負數,所以我在第一行中刪除了它們,輸出(這是隨機)如下所示:[1]"fitting parameters for normal"
mean sd
0.72021836 0.54079027
(0.07647929) (0.05407903)
length class mode
estimate 2 -none- numeric
sd 2 -none- numeric
n 1 -none- numeric
loglik 1 -none- numeric
[1] -40.21074
[1]"fitting parameters for exponential"
rate
1.388468
(0.196359)
length class mode
estimate 1 -none- numeric
sd 1 -none- numeric
n 1 -none- numeric
loglik 1 -none- numeric
[1] -33.58996
克服引數估計中一些問題的乙個技巧是生成大量資料,並將某些資料留給交叉驗證。
Python題庫,怎麼做?
要顯示有很多幀的畫面,json格式給出每一幀的序號 內容及顯示時長。每幀都有解碼時間,解碼完才能顯示。解碼幀最大快取為60幀,超過了暫停解碼。輸入 test.json每一幀的輸入資訊 stdout 執行的輸出資訊 輸出 1.用python按照格式,隨機產生100個frames,儲存成test.jso...
資料探勘怎麼做
理解你的資料探勘要解決什麼業務問題 必須從商業或者從業者的角度去了解專案的要求和最終目的,去分析整個問題涉及的資源 侷限 設想,甚至是風險 意外等情況,從業務來到業務中去 重點 在業務理解的基礎上,對掌握的資料要有乙個清晰明確的認識 了解有哪些資料,那些可能對目標有影響的資料,哪些是冗餘資料 哪些是...
python做爬蟲 python怎麼做爬蟲
python編寫爬蟲的整體思路簡單清晰,下面來說一下具體的步驟 整體思路流程通過url獲取說要爬取的頁面的響應資訊 requests庫的使用 通過python中的解析庫來對response進行結構化解析 beautifulsoup庫的使用 通過對解析庫的使用和對所需要的資訊的定位從response中...