clef/ersik 2017
該資料集由887個reddit使用者組成,分為抑鬱症患者(positive)和正常人(negative)兩類。
每個使用者的文字按時間順序排列,並被分成10個chunk。其中chunk1包括最舊的10%的訊息,chunk2包括第二個最舊的10%的資訊,依此類推。
rsdd
該資料集**於公開可用的reddit帖子,其中包含超過9,000名自曝抑鬱症診斷使用者與超過107,000名匹配的對照使用者。
資料採用json格式,每行是代表乙個使用者的陣列,標籤字段包括使用者的標籤(control或depression),posts欄位包含(timestamp,untokenized post)對。
文字識別 文字檢測資料集
1 chinese text in wild ctw 包含平面文字,凸起文字,城市文字,農村文字,低亮度文字,遠處文字,部分遮擋文字。影象大小2048 2048,資料集大小為31gb。8 1 1 比例訓練集 25887張影象,812872個漢字 測試集 3269張影象,103519個漢字 驗證集 3...
pandas文字資料
文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....
如何處理乙個文字資料集
目前有大量的資料集,但是不一定每個資料集對於你來說是一上手就可以使用的。而資料預處理對於乙個文字分類的結果來說,是非常重要的。目前我記錄一下我的資料預處理的一些方式 文字資料集有許多的不同的語種,就目前而言,中文,英文這些相對使用量大的語言,那麼這樣就分為大語種和小語種有不同的處理方式了。大語種的話...