AI研究員收集NLP資料的四種創意方法(大牛分享)

2021-09-10 12:12:51 字數 1755 閱讀 7127

2019-01-31 11:08:13

資料是推動ai發展的催化劑,但如果要收集有效的資料,這就需要ai專家富有創造性了。自然語言處理(nlp)是ai的乙個子域,側重於教計算機如何解析人類語言。在mit的年度自然語言處理實證方法會議(emnlp 2018)中,來自微軟、臉譜網和谷歌等科技公司或組織的ai專家們介紹了一大系列收集資訊的新穎方法,本文主要總結了其中令人印象深刻的四種方法。

1. 混合語言(spanish+english=spanglish)

微軟在多語種nlp的**提出了一種專注於處理「混合語言」的方法,即在夾雜不同語言的文字或語音中自由切換,考慮到世界上超過一半的人口使用多語言,這個對此前未涉及領域的研究非常重要。

研究人員從西班牙語和英語著手,不過他們缺少足量的西班牙語文本來訓練機器。正如混合**,很少能找到包含多語言會話的文字,研究人員編寫了乙個程式克服這個挑戰:把流行英語文字錄入到微軟的必應翻譯器,然後將以片語為單位翻譯的西班牙語譯文轉入源文字,確保交換的單詞和短語具備同樣的意思。通過這種方式,他們能夠建立出足夠多的西班牙式英語。

通過這種方式產生的nlp模型明顯優於之前只用西班牙語或只用英語訓練的模型。研究人員希望他們的工作最終能幫助開發多語言聊天機械人。

2. 食譜

食譜以**並茂和循序漸進的方式教人如何做菜,類似這種的方法也可以被用來訓練機器:用結構資料教會機器同時理解文字和影象。土耳其哈斯特帕大學的研究人員彙編了一套涵蓋兩萬多本插圖烹飪食譜的大型資料集,他們希望將此作為用於訓練機器文字-影象理解效能的基準測試的新資源。

這個所謂的「食譜qa」的資料集是建立在先前的研究基礎之上,此前的研究分別側重機器閱讀理解和視覺理解能力,對於前者,機器必須理解問題和相關段落才能找到答案,而對於後者,機器只能在相關影象中搜尋答案。文字和影象的併排增加了任務的複雜性,因為這會呈現出互補或多餘的資訊。

3. 短句

研究團隊從維基百科豐富的編輯歷史中提取了拆分長句的例項,結果顯示,相比以前的基準資料集,這次任務中發現了60倍不同的句子拆分例子和90倍的詞彙單詞,而且資料集跨越多種語言。

當研究人員用新的資料訓練機器學習模型時,其準確度(這裡的準確度是指句子被重寫後其意義和語法保持正確的比例)高達91%,相比之下,用先前資料進行訓練的模型僅達到32%的準確度,最後,研究人員結合了兩個資料集並用此對第三個模型進行了訓練,準確度達到了95%。因此,研究人員得出結論,可以通過尋找更多的資料**實現更好的效果。

4. 社交**的偏差

相關研究已表明,人類創造的語言是人類種族、性別和年齡很好的乙個**指標,即使這些資訊從未被明確地陳述過。因此,以色列巴伊蘭大學和艾倫ai研究所的研究人員試圖利用ai通過移除這些內嵌指標來消除文字中的偏差。

為了獲取足夠資料代表基於不同人口統計的語言模式,他們轉向了twitter平台,收集了幾組不同使用者的推文,其中的對比組使用者包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34歲和35歲以上。

研究人員採用一種對抗方式將兩個神經網路相互對立,檢視其是否能自動除去推文中內在的人口統計指標。其中乙個神經網路試圖**人口統計學,而另乙個試圖將文字調整到完全中立的狀態,其目的是將第乙個模型的**準確度(或可能性)降低到50%。通過這種方式能顯著減低種族,性別和年齡的指標,但無法完全消除。

四種依戀型別 依戀關係的研究

說到依戀關係,大家都會想到安全型 焦慮型 迴避型,以及這些型別會影響到成年後的人際關係。本文具體羅列一下心理學家研究依戀關係的都做出了怎樣的努力。實驗情境 把小猴放在乙個籠子裡,這個籠子裡同時還放著兩個用不同材料做成的大點的猴子,乙個是用鐵絲網做成的,她的身上掛著裝滿奶的奶瓶,乙個是用絨布做成的,他...

程式設計師的四種境界

it行業可謂現在的熱門行業,程式設計師也是很多人羨慕的工作。薪水高,不用東跑西顛,敲敲鍵盤,看看螢幕,一切工作全都搞定,輕鬆而方便。果真如此嗎?不盡然,實際上,程式設計師的職業生涯也是乙個求道的過程,需要不斷的提高和學習,it行業知識更新之快,常讓程式設計師們有隨時掉隊的危險,無一日不戰戰兢兢,不敢...

程式設計師的四種型別

不是每乙個寫 的都是程式設計師。這裡,我把程式設計師定義為以程式設計為生的人。我認為世界上存在四類程式設計師 計算機 科學家 碼農 專家和工匠。下面我一一介紹自己的觀點。與其說他們是程式設計師,不如說他們是數學家。他們發明了各種理論 演算法和術語,教科書上那冗長的證明和計算也出自他們之手,其他的程式...