Python中常用的包 sklearn

2022-04-28 13:57:20 字數 2064 閱讀 6506

樸素貝葉斯

該方法的任務是還原訓練樣本資料的分布密度,在多分類中有很好的效果

樸素貝葉斯分類的優缺點

優點:(1) 演算法邏輯簡單,易於實現(演算法思路很簡單,只要使用貝葉斯公式轉化一下即可!)

(2)分類過程中時空開銷小(假設特徵相互獨立,只會涉及到二維儲存)

缺點:理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數比較多或者屬性之間相關性較大時,分類效果不好。

而在屬性相關性較小時,樸素貝葉斯效能最為良好。對於這一點,有半樸素貝葉斯之類的演算法通過考慮部分關聯性適度改進。

k近鄰演算法

k近鄰演算法常常被用作是分類演算法

linearregression(fit_intercept=true,normalize=false,copy_x=true,n_jobs=1)

線性回歸作為一種最簡單,但卻是最常用的方法,將作為第一篇文章進行了解。

fit_intercept:   布林型,預設為true

說明:是否對訓練資料進行中心化。如果該變數為false,則表明輸入的資料已經進行了中心化,在下面的過程裡不進行中心化處理;否則,對輸入的訓練資料進行中心化處理

normalize布林型,預設為false

說明:是否對資料進行標準化處理

copy_x           布林型,預設為true

說明:是否對x複製,如果選擇false,則直接對原資料進行覆蓋。(即經過中心化,標準化後,是否把新資料覆蓋到原資料上)

n_jobs            整型, 預設為1

說明:計算時設定的任務個數(number of jobs)。如果選擇-1則代表使用所有的cpu。這一引數的對於目標個數》1(n_targets>1)且足夠大規模的問題有加速作用。

coef_              陣列型變數, 形狀為(n_features,)或(n_targets, n_features)

說明:對於線性回歸問題計算得到的feature的係數。如果輸入的是多目標問題,則返回乙個二維陣列(n_targets, n_features);如果是單目標問題,返回乙個一維陣列                               (n_features,)。

intercept_        陣列型變數

說明:線性模型中的獨立項。

注:該演算法僅僅是scipy.linalg.lstsq經過封裝後的估計器。

decision_function(x)  對訓練資料x進行**

fit(x, y[, n_jobs])                     對訓練集x, y進行訓練。是對scipy.linalg.lstsq的封裝

get_params([deep]) 得到該估計器(estimator)的引數。

predict(x) 使用訓練得到的估計器對輸入為x的集合進行**(x可以是測試集,也可以是需要**的資料)。

score(x, y[,]sample_weight)   返回對於以x為samples,以y為target的**效果評分。

set_params(**params)            設定估計器的引數

decision_function(x) 和predict(x)都是利用預估器對訓練資料x進行**,其中decision_function(x)包含了對輸入資料的型別檢查,以及當前物件是否存在coef_屬性的檢查,是一種「安全的」方法,而predict是對decision_function的呼叫。

score(x, y[,]sample_weight)    定義為(1-u/v),其中u = ((y_true - y_pred)**2).sum(),而v=((y_true-y_true.mean())**2).mean()

最好的得分為1.0,一般的得分都比1.0低,得分越低代表結果越差。

其中sample_weight為(samples_n,)形狀的向量,可以指定對於某些sample的權值,如果覺得某些資料比較重要,可以將其的權值設定的大一些。

python中常用包(1)

python中常用模組的介紹 calendar time datetime osshutil zipmath string 上述所有模組使用理論上都應該先導入,string是特例 calendar,time,datetime是有所區別 跟日曆相關的模組 calendar 獲取一年的日曆字串 引數 w...

開發中常用的jar包

我在開發中應用的工具jar包,在這裡列出來 常用的框架jar包沒有給出 不斷更新中!1.處理矩陣運算的 jama 1.0.2.jar 美國標準化組織和馬里蘭大學共同開發,能夠處理矩陣的一些常用運算和分解。2.漢語拼音處理jar包 pinyin4j 2.5.0.jar 漢字轉換為拼音,可以很簡單的把中...

python中常用的語法 python常用語法

python抓取資料方式 開始 第一種 response 獲取 data response.text 第二種 requests 獲取 data requests.get link data data.text 第三種 urlopen 獲取 data urlopen link read beautif...