with open('./cnews/cnews.train.txt', encoding='utf8') as file:
label_list = [k.strip() for k in file.readlines()] #去兩邊的空格
train_label_list = [k.split()[0] for k in label_list] #標籤
train_content_list = [k.split(maxsplit=1)[1] for k in label_list] #內容
with open('./cnews/cnews.vocab.txt', encoding='utf8') as file:
vocabulary_list = [k.strip() for k in file.readlines()]
word2id_dict = dict([(b, a) for a, b in enumerate(vocabulary_list)]) #key是word , value是 數字 ,將列表轉化為字典
content2idlist = lambda content : [word2id_dict[word] for word in content if word in word2id_dict] #乙個函式,將文章中的每個字轉換成id,返回乙個數字的list
train_idlist_list = [content2idlist(content) for content in train_content_list] #每個元素代表一行content,是乙個數字的list
label2id_dict = dict([(b, a) for a, b in enumerate(set(train_label_list))])
train_labelid_list = [label2id_dict[label] for label in train_label_list]
資料處理,數位化,向量化,建詞典 js對資料的一些處理方法(待完善)
1.filter 找指定元素 陣列中物件name值為空的 var data this.bbs.taxonomylist.filter function item 2.過濾陣列重複元素 1.通常方法 2.set const myarr 1,1,3,5,7,6,5,2 const set new set...
select 對數值的一些處理ceil floor
trunc value,precision 按精度 precision 擷取某個數字,不進行捨入操作。2 round value,precision 根據給定的精度 precision 輸入數值。3 ceil value 產生大於或等於指定值 value 的最小整數。4 floor value 與 ...
資料的一些處理
1.int curr pfind parr pstart 指標相減確定下標 printf n curr d curr 同型別相減,自動除以型別 2.寬字元 0佔2個位元組,在寬字元中1個字元占用2個位元組,窄字元 0佔1個位元組,在窄位元組中1個字元占用1個位元組。寬字元只不過是用了乙個大盒子來存放...