分詞(word segmentation/tokenization):對沒有明顯邊界的文字進行切分,得到詞序列
新詞發現(new words identification):找出文字中具有新形勢、新意義或是新用法的詞
形態分析(morphological analysis):分析單詞的形態組成,包括詞幹(sterms)、詞根(roots)、詞綴(prefixes and suffixes)等
詞性標註(part-of-speech tagging):確定文字中每個詞的詞性。詞性包括動詞(verb)、名詞(noun)、代詞(pronoun)等
拼寫校正(spelling correction):找出拼寫錯誤的詞並進行糾正
組塊分析(chunking):標出句子中的短語塊,例如名詞短語(np),動詞短語(vp)等
超級標籤標註(super tagging):給每個句子中的每個詞標註上超級標籤,超級標籤是句法樹中與該詞相關的樹形結構
成分句法分析(constituency parsing):分析句子的成分,給出一棵樹由終結符和非終結符構成的句法樹
依存句法分析(dependency parsing):分析句子中詞與詞之間的依存關係,給一棵由詞語依存關係構成的依存句法樹
語言模型(language modeling):對給定的乙個句子進行打分,該分數代表句子合理性(流暢度)的程度
語種識別(language identification):給定一段文字,確定該文字屬於哪個語種
句子邊界檢測(sentence boundary detection):給沒有明顯句子邊界的文字加邊界
詞義消歧(word sense disambiguation):對有歧義的詞,確定其準確的詞義
語義角色標註(semantic role labeling):標註句子中的語義角色類標,語義角色,語義角色包括施事、受事、影響等
抽象語義表示分析(abstract meaning representation parsing):amr是一種抽象語義表示形式,amr parser把句子解析成amr結構
一階謂詞邏輯演算(first order predicate calculus):使用一階謂詞邏輯系統表達語義
框架語義分析(frame semantic parsing):根據框架語義學的觀點,對句子進行語義分析
詞彙/句子/段落的向量化表示(word/sentence/paragraph vector):研究詞彙、句子、段落的向量化方法,向量的性質和應用
命名實體識別(named entity recognition):從文字中識別出命名實體,實體一般包括人名、地名、機構名、時間、日期、貨幣、百分比等
實體消歧(entity disambiguation):確定實體指代的現實世界中的物件
術語抽取(terminology/giossary extraction):從文字中確定術語
共指消解(coreference resolution):確定不同實體的等價描述,包括代詞消解和名詞消解
關係抽取(relationship extraction):確定文字中兩個實體之間的關係型別
事件抽取(event extraction):從無結構的文字中抽取結構化事件
情感分析(sentiment analysis):對文字的主觀性情緒進行提取
意圖識別(intent detection):對話系統中的乙個重要模組,對使用者給定的對話內容進行分析,識別使用者意圖
槽位填充(slot filling):對話系統中的乙個重要模組,從對話內容中分析出於使用者意圖相關的有效資訊
機器翻譯(machine translation):通過計算機自動化的把一種語言翻譯成另外一種語言
文字摘要(text summarization/simplication):對較長文字進行內容梗概的提取
問答系統(question-answering systerm):針對使用者提出的問題,系統給出相應的答案
對話系統(dialogue systerm):能夠與使用者進行聊天對話,從對話中捕獲使用者的意圖,並分析執行
閱讀理解(reading comprehension):機器閱讀完一篇文章後,給定一些文章相關問題,機器能夠回答
自動文章分級(automatic essay grading):給定一篇文章,對文章的質量進行打分或分級
NLP基本任務
1.序列標註 分詞 pos tag ner 語義標註 2.分類任務 文字分類 情感計算 3.句子關係判斷 entailment qa 自然語言推理 4.生成式任務 機器翻譯 文字摘要 詞法分析 lexical analysis 對自然語言進行詞彙層面的分析,是nlp基礎性工作 分詞 word seg...
詳細設計的基本任務
詳細設計的基本任務 1 為每個模組進行詳細的演算法設計。用某種圖形 語言等工具將每個模組處理過程的詳細演算法描述出來。2 為模組內的資料結構進行設計。對於需求分析 概要設計確定的概念性的資料型別進行確切的定義。3 對資料結構進行物理設計,即確定資料庫的物理結構。物理結構主要指資料庫的儲存記錄格式 儲...
資料探勘技術基本任務
定義分類 構造乙個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本對映到預先定義好的類別,分類模型建立在已有類標記的資料集上。建立兩種或兩種以上變數間相互依賴的函式模型,然後進行 或控制。兩步過程 通過訓練集建立 屬性 數值型的 的函式模型 在模型通過檢驗後進行 或控制。實現過程 1 學習步 ...