textblob 實際上是封裝了以下nltk,幾乎所有方法都是呼叫的nltk庫。
#coding=utf-8
import random, nltk
from nltk.corpus import names
from textblob.classifiers import nltkclassifier
from textblob import textblob
def gender_features(word):
'''''提取每個單詞的最後乙個字母作為特徵'''
return
# 先為原始資料打好標籤
labeled_names = (
[(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])
# 隨機打亂打好標籤的資料集的順序,
random.shuffle(labeled_names)
# 從原始資料中提取特徵(名字的最後乙個字母, 參見gender_features的實現)
featuresets = [(gender_features(name), gender) for (name, gender) in labeled_names]
# 將特徵集劃分成訓練集和測試集
train_set, test_set = featuresets[500:], featuresets[:500]
classif=nltkclassifier(train_set)
classif.nltk_class=nltk.*****bayesclassifier;
blob = textblob("man",classifier=classif)
print blob.classify()
新增自己的訓練政策模型
pydial的主要目標便是提供乙個通用的語言統計對話模型,開發者可以方便的向其中新增整合和測試自己的模型.pydial位主要模組都設計了明確定義的通用介面,為了了解這個,我們首先來看一下pydial的整體框架.如上所示,多域功能的對話模型主要使用主題 來進行實現,主題 來識別使用者輸入的主題,可以保...
訓練自己的物體檢測模型
資料集 一般有兩個 使用labelimg自己標註,或者使用網上開源的資料集。本文使用的是開源的voc 2007,總共有20個分類。資料集包括5001張,以及對應的.xml檔案,分別存放在image和annotation資料夾中。本文通過.csv檔案生成.record檔案,如果習慣直接使用.xml檔案...
VGG16模型訓練自己資料集
vgg是由simonyan 和zisserman在文獻 very deep convolutional networks for large scale image recognition 中提出卷積神經網路模型,其名稱 於作者所在的牛津大學視覺幾何組 visual geometry group 的...