輸入進神經網路前的文字處理

import jieba.posseg
import torch
import gensim
sent='這就類似於人類的視覺注意力機制，通過掃瞄全域性影象，獲取需要重點關注的目標區域，而後對這一區域投入更多的注意力資源，獲取更多與目標有關的細節資訊，而忽視其他無關資訊。通過這種機制可以利用有限的注意力資源從大量資訊中快速篩選出**值的資訊。'
words = jieba.posseg.cut(sent, hmm=true) #分詞
processword=
tagword=
for w in words:
#詞語和對應的詞性做一一對應
texts = [(processword,tagword)]
#使用gensim構建本例的詞彙表
id2word = gensim.corpora.dictionary([texts[0][0]])
#每個詞分配乙個獨特的id
word2id = id2word.token2id
# #使用gensim構建本例的詞性表
# id2tag=gensim.corpora.dictionary([texts[0][1]])
# #為每個詞性分配id
# tag2id=id2tag.token2id
def sen2id(inputs):
return [word2id[word] for word in inputs]
# def tags2id(inputs):
#     return [tag2id[word] for word in inputs]
#根據詞彙表把文字輸入轉換成對應的詞彙表的序號張量
def formart_input(inputs):
return torch.tensor(sen2id(inputs),dtype=torch.long)
# #根據詞性表把文字標註輸入轉換成對應的詞彙標註的張量
# def formart_tag(inputs):
#     return torch.tensor(tags2id(inputs),dtype=torch.long)
print(formart_input([ '全域性', '從', '兩周年', '紀念日', '開始', '，', '在', '每年', '的', '紀念日']))

句子分詞->構建詞彙表->為每個詞分配id->根據詞彙表把句子轉換成對應的張量

self.chars = sorted(list(set(self.raw_text))) 									
self.char_indices = dict((c,i) for	i,c	in	enumerate(self.chars))
self.indices_char = dict((i,c) for	i,c	in	enumerate(self.chars)) 
self.text = [self.char_indices[c] for c in self.raw_text]

簡單的文字處理

這一節我們將介紹這幾個命令tr 注意不是tar col，join，paste。實際這一節是上一節關於能實現管道操作的命令的延續，所以我們依然將結合管道來熟悉這些命令的使用。tr 命令可以用來刪除一段文字資訊中的某些文字。或者將其進行轉換。使用方式 tr option set1 set2 常用的選項有...

簡單的文字處理

本文介紹tr 注意不是tar col，join，paste命令。實際上是管道操作命令的延續，所以我們依然將結合管道來熟悉這些命令的使用。tr命令可以用來刪除一段文字資訊中的某些文字，或者將其進行轉換。使用方式 tr option set1 set2 常用的選項有選項說明 d刪除和set1匹配的字元...

Shell的文字處理

1.grep定義 grep 命令是一種強大的文字搜尋工具,根據使用者指定的模式對目標文字進行匹配檢查,列印匹配到的行由正規表示式或者字元及基本文字字元所編寫的過濾條件 global search regular expression and print out the line 全面搜尋研究...

輸入進神經網路前的文字處理

簡單的文字處理

簡單的文字處理

Shell的文字處理

相關推薦