NLP基本任務

2021-10-23 22:45:18 字數 2644 閱讀 8484

分詞(word segmentation/tokenization):對沒有明顯邊界的文字進行切分,得到詞序列

新詞發現(new words identification):找出文字中具有新形勢、新意義或是新用法的詞

形態分析(morphological analysis):分析單詞的形態組成,包括詞幹(sterms)、詞根(roots)、詞綴(prefixes and suffixes)等

詞性標註(part-of-speech tagging):確定文字中每個詞的詞性。詞性包括動詞(verb)、名詞(noun)、代詞(pronoun)等

拼寫校正(spelling correction):找出拼寫錯誤的詞並進行糾正

組塊分析(chunking):標出句子中的短語塊,例如名詞短語(np),動詞短語(vp)等

超級標籤標註(super tagging):給每個句子中的每個詞標註上超級標籤,超級標籤是句法樹中與該詞相關的樹形結構

成分句法分析(constituency parsing):分析句子的成分,給出一棵樹由終結符和非終結符構成的句法樹

依存句法分析(dependency parsing):分析句子中詞與詞之間的依存關係,給一棵由詞語依存關係構成的依存句法樹

語言模型(language modeling):對給定的乙個句子進行打分,該分數代表句子合理性(流暢度)的程度

語種識別(language identification):給定一段文字,確定該文字屬於哪個語種

句子邊界檢測(sentence boundary detection):給沒有明顯句子邊界的文字加邊界

詞義消歧(word sense disambiguation):對有歧義的詞,確定其準確的詞義

語義角色標註(semantic role labeling):標註句子中的語義角色類標,語義角色,語義角色包括施事、受事、影響等

抽象語義表示分析(abstract meaning representation parsing):amr是一種抽象語義表示形式,amr parser把句子解析成amr結構

一階謂詞邏輯演算(first order predicate calculus):使用一階謂詞邏輯系統表達語義

框架語義分析(frame semantic parsing):根據框架語義學的觀點,對句子進行語義分析

詞彙/句子/段落的向量化表示(word/sentence/paragraph vector):研究詞彙、句子、段落的向量化方法,向量的性質和應用

命名實體識別(named entity recognition):從文字中識別出命名實體,實體一般包括人名、地名、機構名、時間、日期、貨幣、百分比等

實體消歧(entity disambiguation):確定實體指代的現實世界中的物件

術語抽取(terminology/giossary extraction):從文字中確定術語

共指消解(coreference resolution):確定不同實體的等價描述,包括代詞消解和名詞消解

關係抽取(relationship extraction):確定文字中兩個實體之間的關係型別

事件抽取(event extraction):從無結構的文字中抽取結構化事件

情感分析(sentiment analysis):對文字的主觀性情緒進行提取

意圖識別(intent detection):對話系統中的乙個重要模組,對使用者給定的對話內容進行分析,識別使用者意圖

槽位填充(slot filling):對話系統中的乙個重要模組,從對話內容中分析出於使用者意圖相關的有效資訊

機器翻譯(machine translation):通過計算機自動化的把一種語言翻譯成另外一種語言

文字摘要(text summarization/simplication):對較長文字進行內容梗概的提取

問答系統(question-answering systerm):針對使用者提出的問題,系統給出相應的答案

對話系統(dialogue systerm):能夠與使用者進行聊天對話,從對話中捕獲使用者的意圖,並分析執行

閱讀理解(reading comprehension):機器閱讀完一篇文章後,給定一些文章相關問題,機器能夠回答

自動文章分級(automatic essay grading):給定一篇文章,對文章的質量進行打分或分級

NLP基本任務

1.序列標註 分詞 pos tag ner 語義標註 2.分類任務 文字分類 情感計算 3.句子關係判斷 entailment qa 自然語言推理 4.生成式任務 機器翻譯 文字摘要 詞法分析 lexical analysis 對自然語言進行詞彙層面的分析,是nlp基礎性工作 分詞 word seg...

詳細設計的基本任務

詳細設計的基本任務 1 為每個模組進行詳細的演算法設計。用某種圖形 語言等工具將每個模組處理過程的詳細演算法描述出來。2 為模組內的資料結構進行設計。對於需求分析 概要設計確定的概念性的資料型別進行確切的定義。3 對資料結構進行物理設計,即確定資料庫的物理結構。物理結構主要指資料庫的儲存記錄格式 儲...

資料探勘技術基本任務

定義分類 構造乙個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本對映到預先定義好的類別,分類模型建立在已有類標記的資料集上。建立兩種或兩種以上變數間相互依賴的函式模型,然後進行 或控制。兩步過程 通過訓練集建立 屬性 數值型的 的函式模型 在模型通過檢驗後進行 或控制。實現過程 1 學習步 ...