def
segment
(src_dir)
: segment_id =
0 lines =
open
(src_dir,
'r')
.readlines(
) temp = lines[0]
.split(
' ')[1
].split(
'_')[1
] wf =
open
('./segments_new'
,'a'
, encoding=
'utf-8-sig'
)for line in lines:
utt = line.split(
" ")[1
] utt_id = utt.split(
'_')[1
] start = line.split(
" ")[2
] end = line.split(
" ")[3
]if utt_id == temp:
segment_id_str =
"{}_{}"
.format
(utt,
str(segment_id)
.zfill(4)
)print
(segment_id_str,utt,start,end)
segment_id +=
1 wf.write(segment_id_str +
' '+ utt +
' '+ start +
' '+ end +
'\n'
)else
: temp = utt_id
segment_id =
0 segment_id_str =
"{}_{}"
.format
(utt,
str(segment_id)
.zfill(4)
)print
(segment_id_str)
segment_id +=
1 wf.write(segment_id_str +
' '+ utt +
' '+ start +
' '+ end +
'\n'
)segment(
'./segments'
)
處理前:ami中mdm格式的音訊檔案,用kaldi的指令碼處理後得到的segment檔案
處理後:改了第一列的資料,從0000開始,乙個檔案結束後,下個檔案從0000重新開始命名檔案,從左到右分別為:segment_id_str,utt,start,end
用python處理AI資料集
機器學習的核心是處理資料。你的機器學習工具應該與資料的質量一樣好。本文涉及清理資料的各個步驟。你的資料需要經過幾個步驟才能用於 匯入所需的庫 匯入資料集 處理缺失的資料。編碼分類資料。將資料集拆分為測試集和訓練集。特徵縮放。那麼讓我們逐一學習這些步驟。每次我們製作新模型時,都會要求匯入 numpy ...
MNIST資料集的處理
1 mnist資料集介紹 資料格式介紹 2 資料讀取 mnist資料集的讀取比較複雜,這裡給出兩種讀取方式。2.1 struct包讀取資料 nn網路中使用的讀取方法 2.2 torch.version和torch.utils.data.dataloader處理資料 import torch from...
spark RDD處理資料集
package com.hicore.exercise import org.apache.log4j.import org.apache.spark.sparkcontext import org.apache.spark.rdd.rdd import org.apache.spark.sql.s...