處理資料集的python指令碼

2021-09-11 21:43:41 字數 1581 閱讀 5959

def

segment

(src_dir)

: segment_id =

0 lines =

open

(src_dir,

'r')

.readlines(

) temp = lines[0]

.split(

' ')[1

].split(

'_')[1

] wf =

open

('./segments_new'

,'a'

, encoding=

'utf-8-sig'

)for line in lines:

utt = line.split(

" ")[1

] utt_id = utt.split(

'_')[1

] start = line.split(

" ")[2

] end = line.split(

" ")[3

]if utt_id == temp:

segment_id_str =

"{}_{}"

.format

(utt,

str(segment_id)

.zfill(4)

)print

(segment_id_str,utt,start,end)

segment_id +=

1 wf.write(segment_id_str +

' '+ utt +

' '+ start +

' '+ end +

'\n'

)else

: temp = utt_id

segment_id =

0 segment_id_str =

"{}_{}"

.format

(utt,

str(segment_id)

.zfill(4)

)print

(segment_id_str)

segment_id +=

1 wf.write(segment_id_str +

' '+ utt +

' '+ start +

' '+ end +

'\n'

)segment(

'./segments'

)

處理前:ami中mdm格式的音訊檔案,用kaldi的指令碼處理後得到的segment檔案

處理後:改了第一列的資料,從0000開始,乙個檔案結束後,下個檔案從0000重新開始命名檔案,從左到右分別為:segment_id_str,utt,start,end

用python處理AI資料集

機器學習的核心是處理資料。你的機器學習工具應該與資料的質量一樣好。本文涉及清理資料的各個步驟。你的資料需要經過幾個步驟才能用於 匯入所需的庫 匯入資料集 處理缺失的資料。編碼分類資料。將資料集拆分為測試集和訓練集。特徵縮放。那麼讓我們逐一學習這些步驟。每次我們製作新模型時,都會要求匯入 numpy ...

MNIST資料集的處理

1 mnist資料集介紹 資料格式介紹 2 資料讀取 mnist資料集的讀取比較複雜,這裡給出兩種讀取方式。2.1 struct包讀取資料 nn網路中使用的讀取方法 2.2 torch.version和torch.utils.data.dataloader處理資料 import torch from...

spark RDD處理資料集

package com.hicore.exercise import org.apache.log4j.import org.apache.spark.sparkcontext import org.apache.spark.rdd.rdd import org.apache.spark.sql.s...