百萬級經過驗證的分詞詞庫,千萬級Ngram

2021-08-21 06:18:43 字數 403 閱讀 3986

因工作需要,最近在做自然語言處理方面的研究,第一步需要實現中文分詞,市面上有許多開源的分詞元件,本人使用的是word分詞,但這些開源元件中的詞庫都比較小,因此這段時間主要是在網上爬了各種詞庫,並通過xx詞典校驗,挑選在xx詞典中收錄的(耗費相當多的精力)。

彙總詞庫:

驗證過的詞庫:

分類詞庫(根據行業分類):

同音異形詞庫:

分詞演算法ngram需要bigram和trigram,在下根據google_books生成,資料量在千萬級,對於提高分詞的精準性有很大幫助。word分詞在普通機器(16g以下)基本跑不起來的,通過優化word分詞載入資源演算法,能實現在8g記憶體載入2000萬左右的資源。

bigram:

trigram:

優化後的word分詞就不上原始碼啦,有興趣可交流。

千萬級 百萬級資料刪除優化

在mysql上面刪除大量資料 千萬級 由於不是清空資料,故不能使用truncate 語句 有個truncate可參考 mysql delete語句與truncate table語句 在正常delete下,刪除十分緩慢 由於索引的原因,每次刪除都要相應的更新索引,越往後索引碎片越多,即越往後越慢 完整...

千萬級 百萬級資料刪除優化

在mysql上面刪除大量資料 千萬級 由於不是清空資料,故不能使用truncate 語句 有個truncate可參考 mysql delete語句與truncate table語句 在正常delete下,刪除十分緩慢 由於索引的原因,每次刪除都要相應的更新索引,越往後索引碎片越多,即越往後越慢 完整...

關於百萬級甚至千萬級的分頁問題?異樣需求問題

前些日子,在公司碰到了個比較煩的小問題 關於大資料量分頁的問題 有朋友會說了,那不簡單啊,用儲存過程,網上下個,就是你顯示幾頁,查幾頁,在資料庫中分頁,查詢出來結果集,繫結下就ok了。呵呵,我一般情況這樣是可行的,但是我的專案要求,不適合這樣。說說我的這小問題的特點要求吧.首先是,它的訪問量並不很大...