授課點評 漢語分詞技術

2021-10-11 01:23:11 字數 2247 閱讀 9828

授課講師第一次上課,表現總體不錯,這裡只說問題吧!按照邏輯順序組織科介紹了四種分詞方法,演算法效果逐步提公升,邏輯思路問題不大。但是,作為教學課程來講,也存在較為嚴重的問題。

教學的目的不僅僅是把方法解釋明白,更重要的是要培養學生的思維能力。因此,方法講清楚,僅僅算是教學方法合格,距離優秀的課程還有很大的差距。

課程提出了乙個問題,如何對下面的句子分詞。應該說,這個例子選擇的相當不錯。

問題:對下面的句子進行分詞。

他說的確實在理。

假設用 x1,

x2,.

..,x

6x_1,x_2,...,x_6

x1​,x2

​,..

.,x6

​ 表示漢字之間的空隙,xi=

0x_i = 0

xi​=

0 表示無分隔符,xi=

1x_i=1

xi​=

1 表示有分隔符,上述問題就變成了求 x1,

x2,.

..,x

6x_1,x_2,...,x_6

x1​,x2

​,..

.,x6

​ 的值,使得

他x

1x_1

x1​說x

2x_2

x2​的x

3x_3

x3​確x

4x_4

x4​實x

5x_5

x5​在x

6x_6

x6​理。

對應正確的分詞方案。不難看出,由於 xi∈

x_i \in \

xi​∈

本例子共存在 26=

642^6=64

26=6

4 種可能的方案。

從 64

6464

種可能的方案中選出最好的,需要有乙個合理的量化評價標準。根據機器學習模型的設計經驗,鼓勵學生尋找該問題的 los

sloss

loss

函式。這個環節沒必要著急介紹所謂的常規方法或標準方法。中國式教育就是因為凡事都有所謂的標準答案,扼殺了學生的創造力。這個環節應該鼓勵學生們多加思考,看看能想出多少種評價分詞方案的方法。

對同學們的想法集思廣益,總結出其中優秀的方案,讓課程在不斷發明創新的過程中,逐步完善結論。

最後我們會看到,基於詞典的方法、基於統計的方法、基於隨機過程的方法等課本上的經典方法,未必是不可替代的選擇。同時,通過成熟的理論方法,我們也不斷向學生們展示科學家們的奇思妙想,讓他們領略到其中的技術之美。

在介紹基於概率的方法時,課程在動態規劃問題上耗費了很多時間。實際上,學生們只需要知道可以根據下面的方法比較不同方案之間的優劣就可以了,是否需要轉化成最短路徑問題,並非面臨的唯一選擇。

p (他

)p(說

)p(的

)p(確

實)p(

在理)=

..

.(1)

\tag1 p(他)p(說)p(的)p(確實)p(在理)=...

p(他)p(

說)p(

的)p(

確實)p

(在理)

=...

(1)這個方法並沒有把隱馬爾可夫過程介紹清楚。其實,基於馬爾可夫和隱馬爾可夫方法,還是用不少有啟發性的內容,但是這一部分並沒有充分準備,原本應該出現亮點的內容,沒能有效展示。

比如,可以討論下面的評價方法:

p (∗

→他)p

(他→說

)p(說

→的)p

(的→確

實)p(

確實→在

理)=.

..

(2)\tag2 p(*\to 他)p(他\to說)p(說\to的)p(的\to確實)p(確實\to在理)=...

p(∗→他)

p(他→

說)p(

說→的)

p(的→

確實)p

(確實→

在理)=

...(

2)和(1)式比較,是否更具備優勢?

關於隱馬爾可夫,參見《隱馬爾可夫模型求解三大問題例項剖析》。

這畢竟是中學人工智慧課程,從根本上講,內容需要大幅度縮減,難度需要大幅度降低。無論是詞典、概率、隨機過程方法,必須進一步降低難度,通過具體例子,把詞典、語料庫等具體化,把詞頻、概率的計算具體化,通過解剖麻雀,讓學生認清問題本質。

漢語自動分詞

呼叫 海量智慧型分詞 提供的動態鏈結庫,實現漢語自動分詞,並且搭建圖形介面用於操作和顯示。圖形介面使用mfc搭建,新建基於對話方塊的mfc應用程式,同時要將hlssplit.lib hlsegfunc.h hlpubdef.h拷貝至工程目錄下,將hlssplit.dll hlsplitword.da...

漢語自動分詞小結

中文分詞存在的問題是分詞規範 怎麼才算是乙個詞 和歧義切分 交集型歧義 結合成且為結合 成 結 合成。組合型歧義 他站 起 身 來。他明天 起身 去北京。以及未登入詞,如中文名準確率較高,外文譯名準確率很低,地名可以由詞表解決,組織機構名詞表可以解決部分。分詞方法總的分為基於詞表和基於統計和規則。正...

自然語言處理 漢語分詞

nlpir ictclas 漢語分詞系統 pynlpir 是該漢語分詞系統的 python 封裝版 安裝步驟 pip install pynlpir pynlpir update 官方文件的漢語分詞示例 import pynlpir pynlpir.open str 歡迎科研人員 技術工程師 企事業...