為什麼要分詞

2021-04-06 19:47:00 字數 953 閱讀 4070

這裡不討論這個問題,我要說的為什麼要分詞?分詞是什麼!

=================

有人問:「分詞有什麼作用啊?」,某人答:「搜尋引擎要用到中文分詞,所以非常重要」。

這完全是廢話,說了等於沒說。搜尋引擎又為什麼要分詞呢?

=================

其實一般意思上指的分詞是比較狹隘的意思,指中文的詞是怎樣劃分的。因為中文沒有空格,所以要理解一篇文

章,你首先當然要切分一條長句成為乙個個詞了。這樣才能夠在大腦中匹配。

ps:中文沒有分詞功能,真的是很糟糕的,我一直認為中國之所以沒有工業革命,就是因為沒有分詞。對於專業書籍來說,人進行分詞也是非常困難的。至少分的很慢。所以影響了知識的傳播。

=================

但是,搜尋引擎不是因為這個原因而需要分詞的。

即使完全沒有分詞,搜尋引擎一樣可以找到所要找的東西。

人工智慧, 人工 智慧型 ,人 工 智 能 ,對計算機有差別嗎?

沒有差別。

搜尋引擎之所以需要中文分詞,主要是因為,如果 所有文章按照單字來索引,需要的儲存空間和搜尋計算時間就要多的多。

例如,「人」字在所有文章中,會有無數次出現,如果你以人為索引,那麼會需要新增無數條記錄。而「人工」就少的多了,「人工智慧」則更少。

你可以試試,編寫乙個人工分詞軟體,然後比比,單字索引,和詞索引的 索引檔案的大小。

基於這樣的原因,所以搜尋引擎才需要中文分詞。

=================

為什麼我說分詞一般指狹義呢?英文其實也可以在詞的基礎上繼續分詞(分短語),「分詞」,無非是切割語義罷了。

=================

分詞就是這麼乙個簡單的東西,但是要達到人分詞的效果,還是很難。

現在的一般分詞技術,無非是從統計學角度,和從字典角度來處理。

幾十年了,演算法都沒有什麼太大的變化,最多運算過程中有些改進,資料結構變了變。

為什麼要選擇ISP 為什麼要選擇AHD

在影象傳輸中,我們為什麼選擇nextchip?為什麼要選擇isp?為什麼要選擇ahd?為什麼選擇北京冠宇銘通?這個問題我倒著回答各位 一 北京冠宇銘通科技是nextchip目前為止唯一一家正式官方授權 車載產品廠家之一 二 ahd和其他幾種傳輸方式相比,擁有自己的專利,其他幾家有專利的沒有幾個,如果...

為什麼要重構

在現實工作中,重構 更多被用來成為彌補缺陷 增加功能 修改設計等工作,而很多人潛意識裡也認為重構就是修改 重寫 而這往往曲解了重構的本意。重構是乙個過程,是建立在不違背外在行為的前提下,對 進行修改,改進程式的內部結構。重構不等於重新設計,軟體工程裡一定要先進行設計,再進行編碼,而如果你在之後對設計...

為什麼要努力?

幾句喜歡的格言 天行健,君子以自強不息 地勢坤,君子以厚德載物。許上等願,結中等緣,享下等福 擇高處立,就低處坐,向寬處行 樹欲靜而風不止,子欲孝而親不在。海納百川,有容及大 壁立千仞,無欲則剛。王安石 遊褒禪山記 名句 於是餘有嘆焉。古人之觀於天地 山川 草木 蟲魚 鳥獸,往往有得,以其求思之深而...