達觀杯文字處理任務

2021-08-28 08:44:50 字數 1573 閱讀 6771

達觀杯文字處理任務

​ 達觀杯文字處理小demo如下圖,訓練資料與測試資料有2g多,在pycharm裡執行demo時一直報錯process finished with exit code -1073740940 (0xc0000374),解決辦法:

配置檔案:

# 邏輯回歸

from sklearn.linear_model import logisticregression

# 文字特徵提取 詞彙在文字中出現的頻率

from sklearn.feature_extraction.text import countvectorizer

df_train = pd.read_csv(

'./train_set.csv'

)df_test = pd.read_csv(

'./test_set.csv'

)# inplace為true直接修改原陣列 false將新結果賦給新的陣列

df_train.drop(columns=

['article'

,'id'

], inplace=

true

)df_test.drop(columns=

['article'

], inplace=

true

)vec = countvectorizer(ngram_range=(1

,2), min_df=

3, max_df=

0.9, max_features=

100000

)vec.fit(df_train[

'word_seg'])

x_train = vec.transform(df_train[

'word_seg'])

x_test = vec.transform(df_test[

'word_seg'])

y_train = df_train[

'class']-

1lg = logisticregression(c=

4, dual=

true

)lg.fit(x_train,y_train)

y_test = lg.predict(x_test)

df_test[

'class'

]= y_test.tolist(

)df_test[

'class'

]= df_test[

'class']+

1df_result = df_test.loc[:,

['id'

,'class']]

df_result.to_csv(

'./result.csv'

, index=

false

)print

('完成............'

)

達觀杯文字處理(三) 調優與融合

task4 模型優化 2天 1 進一步通過網格搜尋法對3個模型進行調優 用5000條資料,調參時採用五折交叉驗證的方式 並進行模型評估,展示 的執行結果。可以嘗試使用其他模型 2 模型融合,模型融合方式任意,並結合之前的任務給出你的最優結果。例如stacking融合,用你目前評分最高的模型作為基準模...

shell文字處理

最於檔案的操作以前都是用高階程式語言來操作的。今天恰好需要將乙個目錄中的檔案資訊儲存到sqlite3資料庫中 我用linux中的工具和shell來作為自己畢業設計做原型開發 下面記錄一下這裡用到的部分知識,以作備忘。用ls命令來說明 1.關於shell中的管道和重定向問題。這個知識基礎,這裡不再說了...

WML 文字處理

wml使用xml文件字符集,目前支援unicode 2.0,和hdml不同,wml的所有標籤,屬性和規定的可接收值必須小寫,card的名字和變數也是區分大小寫的。和hdml一樣,對於連續的空字元,只顯示乙個空格。標籤內屬性的值必須用 或者 括起來,屬性名,和值之間不能有空格。對於不成對出現的標籤,必...