授課點評漢語分詞技術

授課講師第一次上課，表現總體不錯，這裡只說問題吧！按照邏輯順序組織科介紹了四種分詞方法，演算法效果逐步提公升，邏輯思路問題不大。但是，作為教學課程來講，也存在較為嚴重的問題。

教學的目的不僅僅是把方法解釋明白，更重要的是要培養學生的思維能力。因此，方法講清楚，僅僅算是教學方法合格，距離優秀的課程還有很大的差距。

課程提出了乙個問題，如何對下面的句子分詞。應該說，這個例子選擇的相當不錯。

問題：對下面的句子進行分詞。

他說的確實在理。

假設用 x1,

x2,.

..,x

6x_1,x_2,...,x_6

x1,x2

,..

.,x6

表示漢字之間的空隙，xi=

0x_i = 0

xi=

0 表示無分隔符，xi=

1x_i=1

xi=

1 表示有分隔符，上述問題就變成了求 x1,

x2,.

..,x

6x_1,x_2,...,x_6

x1,x2

,..

.,x6

的值，使得

他x

1x_1

x1說x

2x_2

x2的x

3x_3

x3確x

4x_4

x4實x

5x_5

x5在x

6x_6

x6理。

對應正確的分詞方案。不難看出，由於 xi∈

x_i \in \

xi∈

本例子共存在 26=

642^6=64

26=6

4 種可能的方案。

從 64

6464

種可能的方案中選出最好的，需要有乙個合理的量化評價標準。根據機器學習模型的設計經驗，鼓勵學生尋找該問題的 los

sloss

loss

函式。這個環節沒必要著急介紹所謂的常規方法或標準方法。中國式教育就是因為凡事都有所謂的標準答案，扼殺了學生的創造力。這個環節應該鼓勵學生們多加思考，看看能想出多少種評價分詞方案的方法。

對同學們的想法集思廣益，總結出其中優秀的方案，讓課程在不斷發明創新的過程中，逐步完善結論。

最後我們會看到，基於詞典的方法、基於統計的方法、基於隨機過程的方法等課本上的經典方法，未必是不可替代的選擇。同時，通過成熟的理論方法，我們也不斷向學生們展示科學家們的奇思妙想，讓他們領略到其中的技術之美。

在介紹基於概率的方法時，課程在動態規劃問題上耗費了很多時間。實際上，學生們只需要知道可以根據下面的方法比較不同方案之間的優劣就可以了，是否需要轉化成最短路徑問題，並非面臨的唯一選擇。

p (他

)p(說

)p(的

)p(確

實)p(

在理)=

.(1)

\tag1 p(他)p(說)p(的)p(確實)p(在理)=...

p(他)p(

說)p(

的)p(

確實)p

(在理)

=...

(1)這個方法並沒有把隱馬爾可夫過程介紹清楚。其實，基於馬爾可夫和隱馬爾可夫方法，還是用不少有啟發性的內容，但是這一部分並沒有充分準備，原本應該出現亮點的內容，沒能有效展示。

比如，可以討論下面的評價方法：

p (∗

→他)p

(他→說

)p(說

→的)p

(的→確

實)p(

確實→在

理)=.

(2)\tag2 p(*\to 他)p(他\to說)p(說\to的)p(的\to確實)p(確實\to在理)=...

p(∗→他)

p(他→

說)p(

說→的)

p(的→

確實)p

(確實→

在理)=

...(

2)和(1)式比較，是否更具備優勢？

關於隱馬爾可夫，參見《隱馬爾可夫模型求解三大問題例項剖析》。

這畢竟是中學人工智慧課程，從根本上講，內容需要大幅度縮減，難度需要大幅度降低。無論是詞典、概率、隨機過程方法，必須進一步降低難度，通過具體例子，把詞典、語料庫等具體化，把詞頻、概率的計算具體化，通過解剖麻雀，讓學生認清問題本質。

授課點評漢語分詞技術

漢語自動分詞

漢語自動分詞小結

自然語言處理漢語分詞

授課點評 漢語分詞技術

漢語自動分詞

漢語自動分詞小結

自然語言處理 漢語分詞

相關推薦

授課點評漢語分詞技術

自然語言處理漢語分詞