史上最全中文語料資料集

2021-10-06 19:36:28 字數 813 閱讀 7332

資料集資料概覽

chnsenticorp_htl_all

waimai_10k

某外賣平台收集的使用者評價,正向 4000 條,負向 約 8000 條

online_shopping_10_cats

weibo_senti_100k

simplifyweibo_4_moods

dmsc_v2

yf_dianping

yf_amazon

資料集資料概覽

dh_msra

5 萬多條中文命名實體識別標註資料(包括地點、機構、人物)

資料集資料概覽

ez_douban

5 萬多部電影(3 萬多有電影名稱,2 萬多沒有電影名稱),2.8 萬 使用者,280 萬條評分資料

dmsc_v2

yf_dianping

yf_amazon

資料集資料概覽

保險知道

8000 多條保險行業問答資料,包括使用者提問、網友回答、最佳回答

安徽電信知道

15.6 萬條電信問答資料,包括使用者提問、網友回答、最佳回答

金融知道

77 萬條金融行業問答資料,包括使用者提問、網友回答、最佳回答

法律知道

3.6 萬條法律問答資料,包括使用者提問、網友回答、最佳回答

聯通知道

20.3 萬條聯通問答資料,包括使用者提問、網友回答、最佳回答

農行知道

4 萬條農業銀行問答資料,包括使用者提問、網友回答、最佳回答

保險知道

58.8 萬條保險行業問答資料,包括使用者提問、網友回答、最佳回答

史上最全中文分詞工具整理

一 中文分詞 二 準確率評測 thulac 與代表性分詞軟體的效能對比 我們選擇ltp 3.2.0 ictclas 2015版 jieba c 版 等國內具代表性的分詞軟體與thulac做效能比較。我們選擇windows作為測試環境,根據第二屆國際漢語分詞測評 the secondinternati...

史上最全的機器學習資料(下)

推薦 史上最全的機器學習資料 上 機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。機器學習牽涉的程式...

史上最全講解 oracle資料庫 續

主外來鍵關係 主表 父表 從表 子表 從表中的外來鍵關聯主表中的主鍵字段 當兩張表存在主從表關係,刪除表的時候,需要注意 預設先刪除從表,再刪除主表 cascade constraints 刪除主表的同時級聯刪除主從表之間約束關係 當兩張表存在主從表關係,刪除資料的時候,需要注意 刪除主表中沒有被從...