自然語言處理與化學的關係

2021-09-24 13:31:08 字數 1301 閱讀 3059

我是一名在校的應用化學專業的本科生,在選修課上得知了自然語言處理這一熱門的技術話題,知道計算機語言更加強調讓計算機懂我們人類要做的事,而不是讓我們去了解計算機本身的語言,結合自身現在的知識,我說一下我的看法。

自然語言處理講究的是計算機能實現與人類日常生活中的對話,而對於化學也是如此,我們也可以用這種技術來對各種化學藥品進行分類以及查詢。比如,在化學裡,naoh以及cuoh等一系列的帶有氫氧根離子的金屬離子化合物我們都稱其為鹼,如果我們在計算機語言上輸入這些與化學相關的語言,查詢某種物質就會變得相對便利一點,做實驗時需要什麼藥品能夠迅速給出我們需要的藥品的資訊以及一系列引數,節約時間和精力,同時對有毒危險物品的分類也能起到很大幫助,如像甲苯,濃硫酸等物質會給我們貼上小心使用的標籤。但我覺得最重要的是這種技術能夠給我們實驗的結果給出乙個合理的**,像做個某種合成實驗,我們輸入我們用作反應物的化學物質以及他們的用量,它能夠給出我們合成後的主要產物化學式以及理論產率,同時可能發生的許多副反應一一羅列出來,讓我們實驗完成後能有乙個做參考的資料,如果像這方面發展我覺得是比較有實用價值的,不管是用在科研實驗中還是工業製造業當中。

但是像許多其他專業方面所遇到的問題一樣,這種技術在這個方面產生的歧義和麻煩也是很難解決的。先說化學式,在化學裡某種物質一般都是用英文本母組合而成的,但是和英文單詞又不一樣,化學裡可以有像二氧化碳(即co2)這種簡單明瞭的化學分子式,也有許多諸如含有配位鍵的配位化合物等很複雜的一系列化學式,不像英語句子裡單詞之間有空格相區分,這些複雜的化學式整個像是擠在一塊的雜糅英文本母,沒有足夠的化學知識很難知道這種物質的真正意義。再者,在有機化學裡,分子的同分異構現象十分普遍,像最普通的乙醇(化學式c2h6o),如果僅僅寫成這種形式,誰也不知道他究竟是很麼物質,他可能是乙醚(化學式結構式ch3och3),但也可能是乙醇(化學結構式ch3ch2oh),所以在這方面又需要計算機具備識別和計算物質結構的的能力,像這種簡單的物質還好,要是遇到包含幾十個碳原子甚至更多的化學式,這會是乙個很龐大的計算量,要在這麼大的計算量裡找到我們需要的那乙個也是乙個很大的問題。同時,化學裡有一種叫做手性碳原子的東西,連線手性碳原子的官能團全部一樣,但是他們就像我們的左右手一樣,對稱卻不重合,但化學結構在書寫時可以說幾乎是一模一樣,但是相互的性質又差得很遠,僅僅依靠自然語言處理要識別這種手性碳原子也是乙個難題。但是在中文裡,由於在中文化學裡的一些簡稱也會造成一些困擾,如純鹼即碳酸鈉並不是鹼,但是在中文名稱裡它卻是有這個「鹼」字,很容易造成誤解,從而把它歸類到鹼這一分類裡面去,造成一些常識性的錯誤;再如水蒸氣也並不是完全的氣體,而是液體水與氣態水處於乙個相互轉化的平衡狀態,如果單純地歸為氣體的話,就很可能在密度計算上出現偏差。

以上就是我對人工自然語言處理與化學之間的關係的一點愚見。

自然語言處理

自然語言處理主要步驟包括 2.詞法分析 對於英文,有詞頭 詞根 詞尾的拆分,名詞 動詞 形容詞 副詞 介詞的定性,多種詞意的選擇。比如diamond,有菱形 棒球場 鑽石3個含義,要根據應用選擇正確的意思。3.語法分析 通過語法樹或其他演算法,分析主語 謂語 賓語 定語 狀語 補語等句子元素。4.語...

自然語言處理

前言 自然語言處理 natural language processing 是計算科學領域與人工智慧領域中的乙個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學 電腦科學 數學於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言...

自然語言處理

一 字串操作 去空格及特殊符號 s hello,world 預設把左右空格去掉 print s.strip print s.lstrip hello,print s.rstrip 查詢字元 0 為未找到 sstr1 strchr sstr2 tr 找到返回目標子串開始下標 npos sstr1.in...