達觀杯文字處理任務
達觀杯文字處理小demo如下圖,訓練資料與測試資料有2g多,在pycharm裡執行demo時一直報錯process finished with exit code -1073740940 (0xc0000374)
,解決辦法:
配置檔案:
# 邏輯回歸
from sklearn.linear_model import logisticregression
# 文字特徵提取 詞彙在文字中出現的頻率
from sklearn.feature_extraction.text import countvectorizer
df_train = pd.read_csv(
'./train_set.csv'
)df_test = pd.read_csv(
'./test_set.csv'
)# inplace為true直接修改原陣列 false將新結果賦給新的陣列
df_train.drop(columns=
['article'
,'id'
], inplace=
true
)df_test.drop(columns=
['article'
], inplace=
true
)vec = countvectorizer(ngram_range=(1
,2), min_df=
3, max_df=
0.9, max_features=
100000
)vec.fit(df_train[
'word_seg'])
x_train = vec.transform(df_train[
'word_seg'])
x_test = vec.transform(df_test[
'word_seg'])
y_train = df_train[
'class']-
1lg = logisticregression(c=
4, dual=
true
)lg.fit(x_train,y_train)
y_test = lg.predict(x_test)
df_test[
'class'
]= y_test.tolist(
)df_test[
'class'
]= df_test[
'class']+
1df_result = df_test.loc[:,
['id'
,'class']]
df_result.to_csv(
'./result.csv'
, index=
false
('完成............'
)
達觀杯文字處理(三) 調優與融合
task4 模型優化 2天 1 進一步通過網格搜尋法對3個模型進行調優 用5000條資料,調參時採用五折交叉驗證的方式 並進行模型評估,展示 的執行結果。可以嘗試使用其他模型 2 模型融合,模型融合方式任意,並結合之前的任務給出你的最優結果。例如stacking融合,用你目前評分最高的模型作為基準模...
shell文字處理
最於檔案的操作以前都是用高階程式語言來操作的。今天恰好需要將乙個目錄中的檔案資訊儲存到sqlite3資料庫中 我用linux中的工具和shell來作為自己畢業設計做原型開發 下面記錄一下這裡用到的部分知識,以作備忘。用ls命令來說明 1.關於shell中的管道和重定向問題。這個知識基礎,這裡不再說了...
WML 文字處理
wml使用xml文件字符集,目前支援unicode 2.0,和hdml不同,wml的所有標籤,屬性和規定的可接收值必須小寫,card的名字和變數也是區分大小寫的。和hdml一樣,對於連續的空字元,只顯示乙個空格。標籤內屬性的值必須用 或者 括起來,屬性名,和值之間不能有空格。對於不成對出現的標籤,必...