NLP學習筆記1 2

2021-09-13 14:00:47 字數 2194 閱讀 7973

開始學習nlp的第乙個模組jieba:

import nltk  

>>> setence = 'hello, world!'

>>> token = nltk.word_tokenize(setence)

>>> list(token)

['hello', ',', 'world', '!']

import jieba

# 模糊模式

>>> seg_list = list(jieba.cut('2023年03月21號,我在清華同方a2樓一層的培訓教室中 面試演算法崗位,不知道能不能面上,omg!', cut_all = false))

>>> list(seg_list)

['2019', '年', '03', '月', '21', '號', ',', '我', '在', '清華同方', 'a2', '樓', '一層', '的', '培訓', '教室', '中', '面試', '演算法', '崗位', ',', '不', '知道', '能', '不能', '面上', ',', 'omg', '!']

print("/".join(seg_list))

# 精確模式,預設精確

>>> seg_list = list(jieba.cut('2023年03月21號,我在清華同方a2樓一層的培訓教室中 面試演算法崗位,不知道能不能面上,omg!', cut_all = true))

>>> list(seg_list)

['2019', '年', '03', '月', '21', '號', '', '', '我', '在', '清華', '清華同方', '同方', 'a2', '樓', '一層', '的', '培訓', '教室', '中', '面試', '試算', '演算法', '崗位', '', '', '不知', '知道', '能', '不能', '能面', '面上', '', 'omg', '']

#搜尋引擎模式

>>> seg_list = jieba.cut_for_search('2023年03月21號,我在清華同方a2樓一層的培訓 教室中面試演算法崗位,不知道能不能面上,omg!')

>>> list(seg_list)

['2019', '年', '03', '月', '21', '號', ',', '我', '在', '清華', '同方', '清華同方', 'a2', '樓', '一層', '的', '培訓', '教室', '中', '面試', '演算法', '崗位', ',', '不', '知道', '能', '不能', '面上', ',', 'omg', '!']

import jieba.posseg as psg

content = "現如今,機器學習和深度學習帶動人工智慧飛速的發展,並在處理、語音識別領域取得巨大成功。"

print([(x.word,x.flag) for x in psg.lcut(content)])

[('現如今', 't'), (',', 'x'), ('機器', 'n'), ('學習', 'v'), ('和', 'c'), ('深度', 'ns'), ('學習', 'v'), ('帶動', 'v'), ('人工智慧', 'n'), ('飛速', 'n'), ('的', 'uj'), ('發展', 'vn'), (',', 'x'), ('並', 'c'), ('在', 'p'), ('', 'n'), ('處理', 'v'), ('、', 'x'), ('語音', 'n'), ('識別', 'v'), ('領域', 'n'), ('取得', 'v'), ('巨大成功', 'nr'), ('。', 'x')]

from collections import counter

top5= counter(segs_5).most_common(5)

print(top5)

「」「結果為:

[(',', 2), ('學習', 2), ('現如今', 1), ('機器', 1), ('和', 1)]

txt = "鐵甲網是中國最大的工程機械交易平台。"

print(jieba.lcut(txt))

jieba.load_userdict('user_dict.txt')

print(jieba.lcut(txt))

tf-idf的介紹:

編輯距離/levenshtein距離,是指兩個字串之間, 由乙個轉成另乙個所需要的最少編輯操作次數。

NLP深度學習 CS224學習筆記12

1.2 語法鬆綁su rnn 不同類別輸入的最優w不同。對學習w的工作量加大,但效能提公升。現在模型受輸入的語法類別條件約束。我們決定類別的方法是通過乙個簡單的probabilistic context free grammar pcfg,通過計算penn tree bank的統計摘要習得。例如th...

NLP學習筆記 nlp入門介紹

為什麼計算機難以理解人類的自然語言呢?主要是下面6個特性 詞彙量在自然語言中含有很豐富的詞彙,而程式語言中能使用的關鍵字數量是有限的 結構化自然語言是非結構化的,而程式語言是結構化的,例如類和成員。自然語言是線性字串,要分析它,需要用到分詞 命名實體識別 指代消解和關係抽取等。歧義性我們說話含有大量...

NLP學習筆記 一

可瀏覽 從研究現狀來看,自然語言理解和處理的理論體系尚未真正建立,技術方法仍然十分初步,所以對於什麼是nlp沒有乙個標準的定義,此下幾點為本人收集的關於nlp的概念界定 wiki中的定義 自然語言處理 英語 natural language processing,縮寫作 nlp 是人工智慧和語言學領...