1. 資料集基本資訊
df = pd.read_csv()
df.head():前五行;
df.info():
對於非數值型的屬性列
df.describe():程式設計客棧 各個列的基本統計資訊
df.hist(bins=50, figsize=(20, 15)):統計直方圖;
對 df 的每一列進行展示:
train_prices = pd.dataframe()
# train_prices 共兩列,一列列名為 price,一列列名為 log(price+1)
train_prices.hist()
2. 資料集拆分
def split_train_test(data, test_ratio=.3):
shuffled_程式設計客棧indices = np.random.permutation(len(data))
test_size = int(len(data)*test_ratio)
test_indices = shuffled_indices[:test_size]
train_indices = shuffled_indices[test_size:]
return data.iloc[train_indices], data.iloc[test_indices]
3. 資料預處理
>> df['label'] = pd.categorical(df'label']).codes
>> df = pd.get_dummies(df)
>> df.isnull().sum().sort_values(ascending=false).head(程式設計客棧)
# 填充為 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()0總結
Deep Speech 端到端的語音識別
對於傳統的語音識別,通常會分為3個部分 語音模型,詞典,語言模型。語音模型和語言模型都是分開進行訓練的,因此這兩個模型優化的損失函式不是相同的。而整個語音識別訓練的目標 wer word error rate 與這兩個模型的損失函式不是一致的。對於端到端的語音識別,模型的輸入就為語音特徵 輸入端 而...
端到端的文字檢測識別
選自iccv 2017 澳大利亞阿德萊德大學 沈春華老師組的作品 towards end to end text spotting with convolutional recurrent neural networks 是目前為止第一篇提出端到端 ocr文字檢測 識別的文章。文章主要3點貢獻 1 ...
只是拒絕更多的端到端測試
通常,測試人員的工作在測試失敗後即告結束。提交了乙個錯誤,然後是開發人員修復錯誤的工作。然而,為了確定端到端戰略失敗的地方,我們需要在這個框外思考並從第一原則出發解決問題。如果我們 專注於使用者 以及其他所有人都會關注 我們必須問自己,失敗的測試如何使使用者受益。答案如下 失敗的測試不會直接使使用者...