Kaggle NLP中文資料合集

2021-10-06 23:40:48 字數 909 閱讀 7218

yet another chinese news dataset

包含新聞的標題+內容++url,包含簡體中文和正體中文

~140k條資訊

新聞聯播(chinese official daily news)

包含新聞的時間+分類(國內/國際etc)+標題+內容,簡體中文

~20k條資訊

douban movie short comments dataset

chinesemedicalcollection

包含中文古典醫藥書籍名稱(只有名字)

~700條資訊

pre-trained bert, including scripts

the latest pre-trained bert models, along with the latest code repo

(include bert-base, chinese)

chinese song lyrics

包含歌詞+歌名+歌手+url,簡體中文

~3k首歌曲

social network fake account dataset

看起來實際上是對微博機械人賬戶的統計

~108k條收據

dou ban movie short comments (10377movies)

wsdm - fake news classification

包含新聞+闢謠+新聞英文翻譯+新聞英文闢謠,簡體中文

~70k新聞,140k條闢謠

the national university of singapore sms corpus

a corpus of more than 67,000 sms messages in singapore english & mandarin

31,465 條中文簡訊

機器學習中文資源合集

本文 機器之心 先決條件 機器學習的基礎是數學。數學並非是乙個可選可不選的理論方法,而是不可或缺的支柱。如果你是一名計算機工程師,每天使用 uml orm 設計模式及其他軟體工程工具 技術,那麼請閉眼一秒鐘,忘掉一切。這並不是說這些概念不重要,絕不是!但是機器學習需要一種不同的方法。如今 pytho...

Python資料合集

python學習手冊 python cookbook python程式設計實戰 python源 分析 再加上網上的資料,學習python齊活。入門 可愛的python python基本概念和標準庫的介紹。python學習手冊 看起來很全面。python cookbook 參考書,內容還是比較豐富的。...

eclipse開發資料合集

eclipse 更多 在eclipse中使用hibernate外掛程式 eclipse外掛程式開發如虎添翼 eclipse中使用junit外掛程式測試 eclipse3.1中體驗j2se5.0之注釋型別 eclipse3.1中體驗j2se 5.0之列舉型別 eclipse form設計指南之定製布局...