抑鬱檢測用文字資料集

clef/ersik 2017

該資料集由887個reddit使用者組成，分為抑鬱症患者(positive)和正常人(negative)兩類。

每個使用者的文字按時間順序排列，並被分成10個chunk。其中chunk1包括最舊的10％的訊息，chunk2包括第二個最舊的10％的資訊，依此類推。

rsdd

該資料集**於公開可用的reddit帖子，其中包含超過9,000名自曝抑鬱症診斷使用者與超過107,000名匹配的對照使用者。

資料採用json格式，每行是代表乙個使用者的陣列，標籤字段包括使用者的標籤(control或depression)，posts欄位包含(timestamp，untokenized post)對。

文字識別文字檢測資料集

1 chinese text in wild ctw 包含平面文字，凸起文字，城市文字，農村文字，低亮度文字，遠處文字，部分遮擋文字。影象大小2048 2048，資料集大小為31gb。8 1 1 比例訓練集 25887張影象，812872個漢字測試集 3269張影象，103519個漢字驗證集 3...

pandas文字資料

文字資料 string型別的性質 string與object的區別字元訪問方法 string accessor methods，如str.count 會返回相應資料的nullable型別，而object會隨著缺失值的存在而改變返回型別某些series 法不能在string上使如 series....

如何處理乙個文字資料集

目前有大量的資料集，但是不一定每個資料集對於你來說是一上手就可以使用的。而資料預處理對於乙個文字分類的結果來說，是非常重要的。目前我記錄一下我的資料預處理的一些方式文字資料集有許多的不同的語種，就目前而言，中文，英文這些相對使用量大的語言，那麼這樣就分為大語種和小語種有不同的處理方式了。大語種的話...

抑鬱檢測用文字資料集

文字識別 文字檢測資料集

pandas文字資料

如何處理乙個文字資料集

相關推薦

文字識別文字檢測資料集