醫生給的標籤格式
將命名實體和標籤當成jieba分詞中的分詞和詞性,更新到jieba詞典中,然後對病歷文件進行分詞,按照bio標註每個字,每句話結束用空格分開。
按照1:2:12的比例將病歷資料儲存到dev/test/train三個檔案中
1、將資料轉換成bioes標註,增加了es,因為標註資訊變多了特徵會更豐富。
2、給每個char和tag分配乙個id,得到乙個包含所有字的字典dict,以及char_to_id, id_to_char, tag_to_id, id_to_tag, 將其存在map.pkl中
3、將資料按照sentences按長度排序,劃分為若干batch,每批按最長句子的長度進行padding
model_inputs
字元特徵(batchsize,100)通過embedding_lookup字向量字典得到
分詞位置特徵(batchsize,20)通過分詞後字的位置得到
embedding=字元特徵(batchsize,100)+分詞位置特徵(batchsize,20)
embedding=dropout(embedding)
2、idcnn_layer
模型是4個大的相同結構的dilated cnn block拼在一起,每個block裡面是dilation width為1, 1, 2的三層dilated卷積層,卷積核個數100,padding=same
idcnn對輸入句子的每乙個字生成乙個logits,這裡就和bilstm模型輸出logits之後完全一樣
3、logits for tags
idcnn_outputs= [batch_size, num_steps, emb_size]
return= [batch_size, num_steps, num_tags]
4、loss_layer
crf_log_likelihood在乙個條件隨機場裡面計算出每個詞分類的最大似然概率
5、viterbi_decode
維特比解碼出序列概率最大時每個詞對應的標籤
迭代100epoch
每100batch列印一下平均loss,在驗證集上做一次驗證
模型儲存
命名實體識別 NER
什麼是命名實體識別 命名實體識別 named entity recognition,ner 就是從一段自然語言文字中找出相關實體,並標註出其位置以及型別。是資訊提取,問答系統,句法分析,機器翻譯等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位.包含行業,領域專有名詞,如人名...
命名實體識別 NER
一 任務 named entity recognition,簡稱ner。主要用於提取時間 地點 人物 組織機構名。二 應用 知識圖譜 情感分析 機器翻譯 對話問答系統都有應用。比如,需要利用命名實體識別技術自動識別使用者的查詢,然後將查詢中的實體鏈結到知識圖譜對應的結點上,其識別的準確率將會直接影響...
中文命名實體識別NER詳解
中文命名實體識別是在自然語言處理領域有著具足輕重的地位,因為在很多應用中,我們一定要提取出我們話術中的實體,所以說命名實體識別是非常重要的。一般來說,現在網上有很多ner的開源庫,我們通過呼叫api就可以進行人名 地名 時間 機構名等實體的識別,效果也非常不錯。但是這僅僅是限於某一些領域的命名實體識...