自然語言處理發展,主要存在哪些難點?

2021-09-10 19:12:48 字數 865 閱讀 3607

1.語言不規範,靈活性高

自然語言並不規範,雖然可以找一些基本規則,但是自然語言太靈活了,同乙個意思可以用多種方式來表達,不管是基於規則來理解自然語言還是通過機器學習來學習資料內在的特徵都顯得比較困難。

2.錯別字

在處理文字時,我們會發現有大量的錯別字,怎麼樣讓計算機理解這些錯別字想表達的真正含義,也是nlp的一大難點

3.新詞

我們處在網際網路高速發展的時代,網上每天都會產生大量的新詞,我們如何快速地發現這些新詞,並讓計算機理解也是nlp的難點

4.用詞向量來表示詞依然存在不足

上述,我們講到,我們是通過詞向量來讓計算機理解詞,但是詞向量所表示的空間,它是離散,而不是連續,比如表示一些正面的詞:好,很好,棒,厲害等,在「好」到「很好」的詞向量空間中,你是不能找到一些詞,從「好」連續到「很好」,所以它是離散、不連續的,不連續最大的問題就是不可導.計算機是處理可導的函式非常容易,不可導的話,計算量就上來了。

當然現在也有一些演算法是計算詞向量做了連續近似化,但這肯定伴隨著資訊的損失。總之,詞向量並不是最好的表示詞的方式,需要一種更好的數學語言來表示詞,當然可能我們人類的自然語言本身就是不連續的,或者人類無法建立出「連續」的自然語言。

人工智慧、大資料、雲計算和物聯網的未來發展值得重視,均為前沿產業,有興趣的朋友,可以查閱多智時代,在此為你推薦幾篇優質好文:

自然語言理解過程主要有哪些層次,各層次的功能是怎麼樣?

如何快速入門nlp自然語言處理概述

什麼是人臉識別,主要的應用於哪些場景?

多智時代-人工智慧和大資料學習入門**|人工智慧、大資料、物聯網、雲計算的學習交流**

自然語言處理發展歷程

自然語言處理是包括了電腦科學 語言學心理認知學等一系列學科的一門交叉學科,這些學科性質不同但又彼此相互交叉。因此,梳理自然語言處理的發展歷程對於我們更好地 了解自然語言處理這一學科有著重要的意義。1950 年圖靈提出了著名的 圖靈測試 這一般被認為是自然語言處理思想的開端,20 世紀 50 年代到 ...

自然語言處理NLP發展歷史

2001年 神經語言模型 2008年 多工學習 2013年 word嵌入 2013年 nlp的神經網路 迴圈神經網路 recurrent neural networks 卷積神經網路 convolutionalneural networks 和結構遞迴神經網路 recursive neural ne...

NLP入門之綜述閱讀 自然語言處理發展及應用綜述

4 自然語言處理的技術領域 4.2 自動文摘 5 自然語言處理的 和展望 總結青島理工大學 趙京勝等人 2019年7月 摘要 自然語言處理涉及許多領域,包括詞彙 句法 語義和語用分析,文字分類 情感分析 自動摘要 機器翻譯和社會計算等。隨著通訊和計算機相關技術的發展,自然語言處理的應用需求也越來越大...