import jieba.posseg
import torch
import gensim
sent='這就類似於人類的視覺注意力機制,通過掃瞄全域性影象,獲取需要重點關注的目標區域,而後對這一區域投入更多的注意力資源,獲取更多與目標有關的細節資訊,而忽視其他無關資訊。通過這種機制可以利用有限的注意力資源從大量資訊中快速篩選出**值的資訊。'
words = jieba.posseg.cut(sent, hmm=true) #分詞
processword=
tagword=
for w in words:
#詞語和對應的詞性做一一對應
texts = [(processword,tagword)]
#使用gensim構建本例的詞彙表
id2word = gensim.corpora.dictionary([texts[0][0]])
#每個詞分配乙個獨特的id
word2id = id2word.token2id
# #使用gensim構建本例的詞性表
# id2tag=gensim.corpora.dictionary([texts[0][1]])
# #為每個詞性分配id
# tag2id=id2tag.token2id
def sen2id(inputs):
return [word2id[word] for word in inputs]
# def tags2id(inputs):
# return [tag2id[word] for word in inputs]
#根據詞彙表把文字輸入轉換成對應的詞彙表的序號張量
def formart_input(inputs):
return torch.tensor(sen2id(inputs),dtype=torch.long)
# #根據詞性表把文字標註輸入轉換成對應的詞彙標註的張量
# def formart_tag(inputs):
# return torch.tensor(tags2id(inputs),dtype=torch.long)
print(formart_input([ '全域性', '從', '兩周年', '紀念日', '開始', ',', '在', '每年', '的', '紀念日']))
句子分詞->構建詞彙表->為每個詞分配id->根據詞彙表把句子轉換成對應的張量
self.chars = sorted(list(set(self.raw_text)))
self.char_indices = dict((c,i) for i,c in enumerate(self.chars))
self.indices_char = dict((i,c) for i,c in enumerate(self.chars))
self.text = [self.char_indices[c] for c in self.raw_text]
簡單的文字處理
這一節我們將介紹這幾個命令tr 注意不是tar col,join,paste。實際這一節是上一節關於能實現管道操作的命令的延續,所以我們依然將結合管道來熟悉這些命令的使用。tr 命令可以用來刪除一段文字資訊中的某些文字。或者將其進行轉換。使用方式 tr option set1 set2 常用的選項有...
簡單的文字處理
本文介紹tr 注意不是tar col,join,paste命令。實際上是管道操作命令的延續,所以我們依然將結合管道來熟悉這些命令的使用。tr命令可以用來刪除一段文字資訊中的某些文字,或者將其進行轉換。使用方式 tr option set1 set2 常用的選項有 選項說明 d刪除和set1匹配的字元...
Shell的文字處理
1.grep定義 grep 命令是一種強大的文字搜尋工具,根據使用者指定的 模式 對目標文字進行匹配檢 查,列印匹配到的行 由正規表示式或者字元及基本文字字元所編寫的過濾條件 global search regular expression and print out the line 全面搜尋研究...