百萬級經過驗證的分詞詞庫，千萬級Ngram

2021-08-21 06:18:43 字數 403 閱讀 3986

因工作需要，最近在做自然語言處理方面的研究，第一步需要實現中文分詞，市面上有許多開源的分詞元件，本人使用的是word分詞，但這些開源元件中的詞庫都比較小，因此這段時間主要是在網上爬了各種詞庫，並通過xx詞典校驗，挑選在xx詞典中收錄的（耗費相當多的精力）。

彙總詞庫：

驗證過的詞庫：

分類詞庫（根據行業分類）：

同音異形詞庫：

分詞演算法ngram需要bigram和trigram，在下根據google_books生成，資料量在千萬級，對於提高分詞的精準性有很大幫助。word分詞在普通機器（16g以下）基本跑不起來的，通過優化word分詞載入資源演算法，能實現在8g記憶體載入2000萬左右的資源。

bigram：

trigram：

優化後的word分詞就不上原始碼啦，有興趣可交流。

千萬級百萬級資料刪除優化

在mysql上面刪除大量資料千萬級由於不是清空資料，故不能使用truncate 語句有個truncate可參考 mysql delete語句與truncate table語句在正常delete下，刪除十分緩慢由於索引的原因，每次刪除都要相應的更新索引，越往後索引碎片越多，即越往後越慢完整...

千萬級百萬級資料刪除優化

在mysql上面刪除大量資料千萬級由於不是清空資料，故不能使用truncate 語句有個truncate可參考 mysql delete語句與truncate table語句在正常delete下，刪除十分緩慢由於索引的原因，每次刪除都要相應的更新索引，越往後索引碎片越多，即越往後越慢完整...

關於百萬級甚至千萬級的分頁問題？異樣需求問題

前些日子，在公司碰到了個比較煩的小問題關於大資料量分頁的問題有朋友會說了，那不簡單啊，用儲存過程，網上下個，就是你顯示幾頁，查幾頁，在資料庫中分頁，查詢出來結果集，繫結下就ok了。呵呵，我一般情況這樣是可行的，但是我的專案要求，不適合這樣。說說我的這小問題的特點要求吧.首先是，它的訪問量並不很大...