主題類entityextractor框架介紹
命名實體識別任務實踐
意圖識別任務實踐
先整理一部分,剩下的後面補充~
本部分任務主要是將使用者輸入問答系統的自然語言轉化成知識庫的查詢語句,因此本文將分成兩部分進行介紹。
問答系統(question answering system,qa system)是用來回答人提出的自然語言問題的系統。根據劃分標準不同,問答系統可以被分為各種不同的型別。
問答系統從實現方式劃分:
query理解 (qu,query understanding),簡單來說就是從詞法、句法、語義三個層面對 query 進行結構化解析。
搜尋 query 理解包含的模組主要有:
介紹:意圖識別是用來檢測使用者當前輸入的意圖,通常其被建模為將一段自然語言文字分類為預先設定的乙個或多個意圖的文字分類任務。
所用方法:和文字分類模型的方法大同小異,主要有:
#!/usr/bin/env python3
# coding: utf-8
import os
import ahocorasick
from sklearn.externals import joblib
import jieba
import numpy as np
class entityextractor:
def __init__(self):
pass
# 構造actree,加速過濾
def build_actree(self, wordlist):
"""構造actree,加速過濾
:param wordlist:
:return:
"""pass
# 模式匹配, 得到匹配的詞和型別。如疾病,疾病別名,併發症,症狀
def entity_reg(self, question):
"""模式匹配, 得到匹配的詞和型別。如疾病,疾病別名,併發症,症狀
:param question:str
:return:
"""pass
# 當全匹配失敗時,就採用相似度計算來找相似的詞
def find_sim_words(self, question):
"""當全匹配失敗時,就採用相似度計算來找相似的詞
:param question:
:return:
"""pass
# 採用dp方法計算編輯距離
def editdistancedp(self, s1, s2):
"""採用dp方法計算編輯距離
:param s1:
:param s2:
:return:
"""pass
# 計算詞語和字典中的詞的相似度
def simcal(self, word, entities, flag):
"""計算詞語和字典中的詞的相似度
相同字元的個數/min(|a|,|b|) + 余弦相似度
:param word: str
:param entities:list
:return:
"""pass
# 基於特徵詞分類
def check_words(self, wds, sent):
"""基於特徵詞分類
:param wds:
:param sent:
:return:
"""pass
# 提取問題的tf-idf特徵
def tfidf_features(self, text, vectorizer):
"""提取問題的tf-idf特徵
:param text:
:param vectorizer:
:return:
"""pass
def other_features(self, text):
""":param text:
:return:
"""pass
# **意圖
def model_predict(self, x, model):
"""**意圖
:param x:
:param model:
:return:
"""pass
# 實體抽取主函式
def extractor(self, question):
pass
學習筆記Task4
趕專案進度,僅了解 神經網路是由具有適應性的簡單單元所組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界所做出的的互動反應。神經網路最基本的成分是神經元模型,當通過神經元的資訊信好超過某乙個閾值,那麼該神經元就會啟用,從而作用於下乙個神經元。在m p神經元模型中,神經元接收到來自n個其...
Task4 三數之和
給定乙個包含 n 個整數的陣列 nums,判斷 nums 中是否存在三個元素 a,b,c 使得 a b c 0 找出所有滿足條件且不重複的三元組。注意 答案中不可以包含重複的三元組。class solution def threesum self,nums list int list list in...
Task4 建模調參
task4 建模調參 學習材料位址 4.4.1 讀取資料 reduce mem usage函式沒看懂 4.4.2 對標籤進行log x 1 變換,使標籤由原來的長尾分布貼近於正態分佈 選用靠前時間的4 5樣本當作訓練集,靠後時間的1 5當作驗證集 l1正則化與l2正則化的區別 l2正則化在擬合過程中...