我以區分名人資料與非名人資料為例。何為名人資料、非名人資料 ?
名人資料:介紹某位名人的一段(一句)話,例如:raj babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《bodyguard》等。
非名人資料:不是介紹某位名人的一段(一句)話,例如:德國abasag一向致力於促進「企業資源規劃系統」(erp)在中國的發展。
aipnlp是自然語言處理的python sdk客戶端,為使用自然語言處理的開發人員提供了一系列的互動方法。
from aip import aipnlp
api_key = '你的 api key'
secret_key = '你的 secret key'
如果使用者需要配置aipnlp的網路請求引數(一般不需要配置),可以在構造aipnlp之後呼叫介面設定引數,目前只支援以下引數:
介面說明
setconnectiontimeoutinmillis
建立連線的超時時間(單位:毫秒)
setsockettimeoutinmillis
通過開啟的連線傳輸資料的超時時間(單位:毫秒)
詞法分析界面向使用者提供分詞、詞性標註、專名識別三大功能;能夠識別出文字串中的基本詞彙(分詞),對這些詞彙進行重組、標註組合後詞彙的詞性,並進一步識別出命名實體。
""" 呼叫詞法分析 """
client.lexer(text);
詞法分析 請求引數詳情
引數名稱
是否必選
型別說明
text
是string
待分析文字(目前僅支援gbk編碼),長度不超過65536位元組
詞法分析 返回資料引數詳情
引數名稱
型別必需
詳細說明
text
string
是原始單條請求文字
items
array(object)
是詞彙陣列,每個元素對應結果中的乙個詞
+item
string
是詞彙的字串
+nestring
是命名實體型別,命名實體識別演算法使用。詞性標註演算法中,此項為空串
+pos
string
是詞性,詞性標註演算法使用。命名實體識別演算法中,此項為空串
+byte_offset
int是
在text中的位元組級offset(使用gbk編碼)
+byte_length
int是
位元組級length(使用gbk編碼)
+uri
string
否鏈指到知識庫的uri,只對命名實體有效。對於非命名實體和鏈結不到知識庫的命名實體,此項為空串
+formal
string
否詞彙的標準化表達,主要針對時間、數字單位,沒有歸一化表達的,此項為空串
+basic_words
array(string)
是基本詞成分
+loc_details
array(object)
否位址成分,非必需,僅對位址型命名實體有效,沒有位址成分的,此項為空陣列。
++type
string
是成分型別,如省、市、區、縣
++byte_offset
int是
在item中的位元組級offset(使用gbk編碼)
++byte_length
int是
位元組級length(使用gbk編碼)
詞法分析 返回示例
,,,
,]
}]}
詞性縮略說明詞性
含義詞性
含義詞性
含義詞性含義n
普通名詞
f方位名詞
s處所名詞
t時間名詞
nr人名
ns地名
nt機構團體名
nw作品名
nz其他專名
v普通動詞
vd動副詞
vn名動詞
a形容詞
ad副形詞
an名形詞d副詞
m數量詞q量詞
r代詞p介詞
c連詞u助詞
xc其他虛詞
w標點符號
專名識別縮略詞含義
縮略詞含義縮略詞
含義縮略詞
含義縮略詞
含義per
人名loc
地名org
機構名time
時間
from aip import aipnlp
api_key = '你的 api key'
secret_key = '你的 secret key'
然後建立倆個計數器,分別用來計量特徵資料與非特徵資料的個數
# 定義乙個計數器,統計所有的單元數載入我們需要區分的資料counter_all=0
# 定義乙個計數器,統計所有的單元數
counter_need=0
text = 'raj babbar,演員,主要作品有《迷宮下的罪惡2》、《天命玩家》、《bodyguard》'
jsondata = client.lexer(text)
for
each
in jsondata['items']:
ifeach['ne'] in ['per','loc','org','time']:
counter_need+=1
elif each['pos'] in ['nw','nr','t','m']:
counter_need+=1
ifeach['pos'] in ['w']:
pass
else:
counter_all+=1
最後列印名人特徵資料佔比,結果為
print('名人特徵資料佔比為:'+str(counter_need/counter_all))
>>>名人特徵資料佔比為:0.375
名人資料的特徵資料佔比在0.15以上基本就可以確認為名人資料了,名人資料與非名人資料的實際分界線還要參照具體的語料庫。 資料分析(摘自百度)
spss的統計分析教程 http zhibao.swu.edu.cn epcl spss spss.htm 資料分析步驟 1 探索性資料分析,當資料剛取得時,可能雜亂無章,看不出規律,通過作圖 造表 用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示...
百度收錄的分析見解
1,新 3 做好 結構,優化好內鏈,還有seo標題等等。4 暫時不過多做外鏈,要做就做高質量的,且不作弊。原文url 第 一 做內鏈 第 二 增加外鏈 ok,以上就是對付 被收錄後,改標題不被抓取的最實用的方法,其實最簡單的方法,也就是最有效的方法,只要堅持就是勝利 第二 新站老站 如果我們的 檢查...
百度收錄的分析見解
1,新 3 做好 結構,優化好內鏈,還有seo標題等等。4 暫時不過多做外鏈,要做就做高質量的,且不作弊。原文url 第 一 做內鏈 第 二 增加外鏈 ok,以上就是對付 被收錄後,改標題不被抓取的最實用的方法,其實最簡單的方法,也就是最有效的方法,只要堅持就是勝利 第二 新站老站 如果我們的 檢查...