在開始深入的學習自然語言處理任務時,我們需要準備一些資料集用來訓練自己的演算法。
在這篇文章中,我們將準備一套標準資料集可以用於你大部分的自然語言處理任務,在你學習深度學習的過程中肯定能用的到。
文字分類
語言模型
影象語義
機器翻譯
問答系統
語音識別
文字摘要
我試圖在這裡提供乙個在學術界受歡迎的資料集,因為這樣你就可以和別人的實驗結果進行對比。
讓我們開始吧。
文字分類是指檔案標籤化,比如電子郵件分類和情感分類。
以下是一些好的初學者文字分類資料集。
更多的資料集,你可以檢視這個部落格。
語言模型就是利用乙個統計模型或者別的模型,來**一句話的下乙個單詞。它在語音識別和機器翻譯等任務中非常有用。
下面是一些比較入門的語言模型的資料集:
還有一些更加正式的語料庫,如下:
影象語義是對給定的影象生成文字描述的任務。
以下是一些比較好的初學者資料集:
機器翻譯是將文字從一種語言翻譯成另一種語言的任務。
以下是一些比較初級的機器翻譯資料集。
這裡還有大量的用於機器翻譯挑戰的標準資料集,如下:
問答系統是乙個比較有意思的任務,給定乙個句子或者文字,然後生成或者從資料庫中挑選乙個句子(文字)作為輸出。
以下是一些比較好的初學問答資料集。
語音識別是將口語的音訊資訊轉換為文字資料。
以下是一些比較適合初學的語音識別資料集。
文字摘要是為更大的文字資料建立乙個簡短並且高度概括的描述任務。
以下是一些比較好的文字摘要資料集。
如果你希望更加的深入分析資料,那麼下面的提供的資料集列表是非常有用的。
自然語言處理常用資料集
最近需要從文字中抽取結構化資訊,收集到很多資料,遂整理了一下,後續會不斷更新。涉及內容包括 中英文敏感詞 語言檢測 中外手機 歸屬地 運營商查詢 名字推斷性別 手機號抽取 身份證抽取 郵箱抽取 中日文人名庫 中文縮寫庫 拆字詞典 詞彙情感值 停用詞 反動詞表 暴恐詞表 繁簡體轉換 英文模擬中文發音 ...
自然語言處理資料集和公開資料集
資料庫 自然語言處理的核心步驟 參考1 自然語言處理的核心步驟 參考2 自然語言處理的核心步驟 參考3 資料集 資料集合 tensorflow實現的深度nlp模型集合 github位址,100 jupter notebook實現 公開語料庫 ldc語料庫 全世界自然語言處理科學家共用的資料庫 多種演...
自然語言處理入門
1 首先,將原文本拆分為句子,在每個句子中過濾掉停用詞 可以不選 並只保留指定詞性的單詞,由此可以得到句子和單詞的集合。2 每個單詞作為pagerank中的乙個節點。設視窗大小為k,假設乙個句子所組成的單詞可以表示為w1,w2,w3,wn.則w1,w2,wk w2,w3,wk 1 w3,w4,wk ...