# -*- coding: utf-8 -*-
import jieba.posseg
import tensorflow as tf
import pandas as pd
import csv
import math
"""1.必須獲取csv資料夾(id:文字)
2.返回(id:分詞後的文字)
"""flags.define_string("train_file_address","d:/nlpword/cut_word_test/hzytest.csv","新增訓練資料檔案")
flags.define_string("result_file_address","d:/nlpword/cut_word_test/hzytest_result.csv","生成結果資料檔案")
def cut_word(train_data):
"""把資料按照行進行遍歷,然後把結果按照行寫在csv中
:return:分詞結果list
"""jieba.load_userdict("newdict.txt")
with open(flags.result_file_address, "w", encoding='utf8') as csvfile:
writer = csv.writer(csvfile)
for row in train_data.index:
datas = train_data.loc[row].values[1]
if isinstance(datas,str) or not math.isnan(datas):
words = jieba.posseg.cut(datas)
line = ''
for word in words:
line = line + word.word + " "
writer.writerow([train_data.loc[row].values[0], line])
def main(_):
data = pd.read_csv(flags.train_file_address)
cut_word(data)
if __name__ == "__main__":
python中csv檔案處理 讀寫csv檔案
1.讀取csv檔案 import csv with open stock.csv r as fp reader csv.reader fp reader是乙個迭代器,可以進行遍歷 titles next reader for x in reader print x 0 print x 1 print...
hive 空值的處理
hive的使用中不可避免的需要對null 空字串 進行判斷識別。但是hive有別於傳統的資料庫。下面一一說明 1 不同資料型別對空值的儲存規則 int與string型別資料儲存,null預設儲存為 n string型別的資料如果為 儲存則是 另外往int型別的字段插入資料 時,結果還是 n。2 不同...
freemarker空值處理
二 空值處理 如果empty標籤沒有在servlet中新增key或者值為null,會報錯 empty value expression newtag is undefined。有人說這是個好的控制錯誤的機制,但本人不這麼認為,因為空值太常見了,誰知道什麼時候裡面就成空值了?每個變數理論上都有可能。難...