在對資料進行視覺化時,用hist
來檢視單一特徵是很重要的,結合著看多種圖表,有助於獲得對資料的進一步理解。
本篇是對 的翻譯 + 個人筆記。
先從它的定義看起,這個api太常用,所以有必要深入了解一下它的具體構成。
dataframe.hist(column=
none
, by=
none
, grid=
true
, xlabelsize=
none
, xrot=
none
, ylabelsize=
none
, yrot=
none
, ax=
none
, sharex=
false
, sharey=
false
, figsize=
none
, layout=
none
, bins=10,
**kwds)
目的是對dataframe
構建乙個直方圖顯示。
舉個例子:
# 匯入資料
filename =
''names =
['crim'
,'zn'
,'indus'
,'chas'
,'nox'
,'rm'
,'age'
,'dis'
,'rad'
,'tax'
,'prtatto'
,'b'
,'lstat'
,'medv'
]data = read_csv(filename, names=names, delim_whitespace=
true
) data.shape # (506, 14)
# 指定檔案的分隔符為空格鍵
data.hist(sharex=
false
, sharey=
false
, xlabelsize=
1, ylabelsize=1)
plt.show(
)
顯示效果如下:
但是上面這些引數具體如何設定,就需要看看api,下面一一解讀。
直方圖是對資料分布的表徵。這個函式會呼叫matplotlib.pyplot.hist()
,會在dataframe
上的每個列上進行畫圖,也就是前面說的,這是對單個特徵的顯示,資料的每列是乙個特徵,所以畫出來的效果是多個圖。
對bins
引數進行修改,可以得到更精細的分布圖示:
# 單一特徵圖表
引數解讀
引數名型別
描述data
dataframe
pandas
資料物件,儲存資料
column
string
或者sequence
如果傳遞了這個引數,則畫圖時只用到資料的乙個子集,具體是誰,由本引數值指定
by
object
這就是group by裡的by
,會按照分組來繪製直方圖
grid
boolean
是否顯示座標線
xlabelsize
int
如果指定了這個值,則可以改變x-axis
的標記尺寸
xrot
float
旋轉x
軸的度數
ylabelsize
int
如果指定了這個值,則可以改變y-axis
的標記尺寸
yrot
float
旋轉y
軸的度數
ax
matplot axes
指定要繪製直方圖的座標系
sharex
boolean
如果ax
為none
則預設為true
否則預設為false
。在subplots=true
時,會共享x軸並將某個x軸設定為不可見;如果ax
傳遞進來了,且sharex=true
,會改變所有子圖的x
軸的標記。
sharey
booelan
同理可推導出sharey
的功效。
figsize
tuple
單位是英吋,表示要建立的圖的大小。預設使用在matplotlib.rcparams
中定義的數值。
layout
tuple
(rows, columns)
,表示繪圖有多少行多少列。
bins
int
或者sequence
預設為10,就是指定顯示多少豎條
**kwds
axes
(返回值)
返回乙個matplotlib.axessubplot
或者numpy.ndarray
物件
案例
>>
參考:
機器學習3 引數學習
原文 1.2.3.對於乙個假設函式,需要一種方法來衡量它如何適應資料。現在我們需要估計假設函式中的引數。這就是漸進下降的地方。想象一下,我們基於它的場 0和 1來繪製我們的假設函式 實際上我們將成本函式繪製為引數估計的函式 我們不是繪製x和y本身,而是我們的假設函式的引數範圍和從選擇一組特定引數導致...
機器學習之超引數
學習器模型中一般有兩種引數 一種引數是可以從學習中得到 一種無法靠資料裡面得到,只能靠人的經驗來設定,這類引數就叫做超引數 超引數定義 超引數是在開始學習過程之前設定值的引數。相反,其他引數的值通過訓練得出。定義關於模型的更高層次的概念,如複雜性或學習能力。不能直接從標準模型培訓過程中的資料中學習,...
機器學習 超引數搜尋
模型中除了在訓練中自己更新的引數,需要在預先設定的引數稱為超引數。大概有如下 bachsize,epoch,learniing rate,四種主要策略可用於搜尋最佳配置 1.babysitting,又名試錯 trial error 2.網格搜尋 grid search 3.隨機搜尋 random s...