yet another chinese news dataset
包含新聞的標題+內容++url,包含簡體中文和正體中文
~140k條資訊
新聞聯播(chinese official daily news)
包含新聞的時間+分類(國內/國際etc)+標題+內容,簡體中文
~20k條資訊
douban movie short comments dataset
chinesemedicalcollection
包含中文古典醫藥書籍名稱(只有名字)
~700條資訊
pre-trained bert, including scripts
the latest pre-trained bert models, along with the latest code repo
(include bert-base, chinese)
chinese song lyrics
包含歌詞+歌名+歌手+url,簡體中文
~3k首歌曲
social network fake account dataset
看起來實際上是對微博機械人賬戶的統計
~108k條收據
dou ban movie short comments (10377movies)
wsdm - fake news classification
包含新聞+闢謠+新聞英文翻譯+新聞英文闢謠,簡體中文
~70k新聞,140k條闢謠
the national university of singapore sms corpus
a corpus of more than 67,000 sms messages in singapore english & mandarin
31,465 條中文簡訊
機器學習中文資源合集
本文 機器之心 先決條件 機器學習的基礎是數學。數學並非是乙個可選可不選的理論方法,而是不可或缺的支柱。如果你是一名計算機工程師,每天使用 uml orm 設計模式及其他軟體工程工具 技術,那麼請閉眼一秒鐘,忘掉一切。這並不是說這些概念不重要,絕不是!但是機器學習需要一種不同的方法。如今 pytho...
Python資料合集
python學習手冊 python cookbook python程式設計實戰 python源 分析 再加上網上的資料,學習python齊活。入門 可愛的python python基本概念和標準庫的介紹。python學習手冊 看起來很全面。python cookbook 參考書,內容還是比較豐富的。...
eclipse開發資料合集
eclipse 更多 在eclipse中使用hibernate外掛程式 eclipse外掛程式開發如虎添翼 eclipse中使用junit外掛程式測試 eclipse3.1中體驗j2se5.0之注釋型別 eclipse3.1中體驗j2se 5.0之列舉型別 eclipse form設計指南之定製布局...