機器學習 hist引數解讀

2021-09-03 09:52:13 字數 3474 閱讀 3744

在對資料進行視覺化時,用hist來檢視單一特徵是很重要的,結合著看多種圖表,有助於獲得對資料的進一步理解。

本篇是對 的翻譯 + 個人筆記。

先從它的定義看起,這個api太常用,所以有必要深入了解一下它的具體構成。

dataframe.hist(column=

none

, by=

none

, grid=

true

, xlabelsize=

none

, xrot=

none

, ylabelsize=

none

, yrot=

none

, ax=

none

, sharex=

false

, sharey=

false

, figsize=

none

, layout=

none

, bins=10,

**kwds)

目的是對dataframe構建乙個直方圖顯示。

舉個例子:

# 匯入資料

filename =

''names =

['crim'

,'zn'

,'indus'

,'chas'

,'nox'

,'rm'

,'age'

,'dis'

,'rad'

,'tax'

,'prtatto'

,'b'

,'lstat'

,'medv'

]data = read_csv(filename, names=names, delim_whitespace=

true

) data.shape # (506, 14)

# 指定檔案的分隔符為空格鍵

data.hist(sharex=

false

, sharey=

false

, xlabelsize=

1, ylabelsize=1)

plt.show(

)

顯示效果如下:

但是上面這些引數具體如何設定,就需要看看api,下面一一解讀。

直方圖是對資料分布的表徵。這個函式會呼叫matplotlib.pyplot.hist(),會在dataframe上的每個列上進行畫圖,也就是前面說的,這是對單個特徵的顯示,資料的每列是乙個特徵,所以畫出來的效果是多個圖。

bins引數進行修改,可以得到更精細的分布圖示:

# 單一特徵圖表

引數解讀

引數名型別

描述datadataframepandas資料物件,儲存資料

columnstring或者sequence如果傳遞了這個引數,則畫圖時只用到資料的乙個子集,具體是誰,由本引數值指定

byobject這就是group by裡的by,會按照分組來繪製直方圖

gridboolean是否顯示座標線

xlabelsizeint如果指定了這個值,則可以改變x-axis的標記尺寸

xrotfloat旋轉x軸的度數

ylabelsizeint如果指定了這個值,則可以改變y-axis的標記尺寸

yrotfloat旋轉y軸的度數

axmatplot axes指定要繪製直方圖的座標系

sharexboolean如果axnone則預設為true否則預設為false。在subplots=true時,會共享x軸並將某個x軸設定為不可見;如果ax傳遞進來了,且sharex=true,會改變所有子圖的x軸的標記。

shareybooelan同理可推導出sharey的功效。

figsizetuple單位是英吋,表示要建立的圖的大小。預設使用在matplotlib.rcparams中定義的數值。

layouttuple(rows, columns),表示繪圖有多少行多少列。

binsint或者sequence預設為10,就是指定顯示多少豎條

**kwds

axes(返回值)

返回乙個matplotlib.axessubplot或者numpy.ndarray物件

案例

>>

參考:

機器學習3 引數學習

原文 1.2.3.對於乙個假設函式,需要一種方法來衡量它如何適應資料。現在我們需要估計假設函式中的引數。這就是漸進下降的地方。想象一下,我們基於它的場 0和 1來繪製我們的假設函式 實際上我們將成本函式繪製為引數估計的函式 我們不是繪製x和y本身,而是我們的假設函式的引數範圍和從選擇一組特定引數導致...

機器學習之超引數

學習器模型中一般有兩種引數 一種引數是可以從學習中得到 一種無法靠資料裡面得到,只能靠人的經驗來設定,這類引數就叫做超引數 超引數定義 超引數是在開始學習過程之前設定值的引數。相反,其他引數的值通過訓練得出。定義關於模型的更高層次的概念,如複雜性或學習能力。不能直接從標準模型培訓過程中的資料中學習,...

機器學習 超引數搜尋

模型中除了在訓練中自己更新的引數,需要在預先設定的引數稱為超引數。大概有如下 bachsize,epoch,learniing rate,四種主要策略可用於搜尋最佳配置 1.babysitting,又名試錯 trial error 2.網格搜尋 grid search 3.隨機搜尋 random s...