pangu.dll 呼叫方法
在程序啟動時,我們需要對盤古分詞進行初始化,初始化的呼叫**如下:
pangu.segment.init();
這個呼叫將使用和 pangu.dll 同路徑下的 pangu.xml 配置檔案
pangu.segment.init(filename);
filename 為pangu.xml 的完整路徑名,如「c:\pangu.xml」
在某些應用中,pangu.xml 不一定在pangu.dll相同的路徑下,或者無法獲取pangu.dll的當前路徑,這時需要通過這種方式呼叫來讓呼叫者指定盤古分詞所用的配置檔案的絕對路徑。
segment segment = newsegment();
icollection
words = segment.dosegment(text);
或
icollectionwords = segment.dosegment(text, options);
或
icollectionwords = segment.dosegment(text, options, parameters);
其中· text 為需要分詞的文字
· options 為自定義分詞選項,預設為pangu.xml 中指定的分詞選項
· parameters 為分詞引數,預設為pangu.xml 中指定的分詞引數
publicclass
matchoptions
[serializable]public
class
matchparameter
publicclass wordinfo : wordattribute, icomparable
<?xml version="1.0" encoding="utf-8"
?>
<
pangusettings
xmlns:xsi
=""xmlns:xsd
=""xmlns
="">
<
dictionarypath
>..\dictionaries
dictionarypath
>
<
matchoptions
>
<
chinesenameidentify
>true
chinesenameidentify
>
<
frequencyfirst
>false
frequencyfirst
>
<
multidimensionality
>false
multidimensionality
>
<
filterstopwords
>true
filterstopwords
>
<
ignorespace
>true
ignorespace
>
<
forcesingleword
>false
forcesingleword
>
<
traditionalchineseenabled
>false
traditionalchineseenabled
>
<
outputsimplifiedtraditional
>false
outputsimplifiedtraditional
>
<
unknownwordidentify
>true
unknownwordidentify
>
<
filterenglish
>false
filterenglish
>
<
filternumeric
>false
filternumeric
>
<
ignorecapital
>false
ignorecapital
>
<
englishsegment
>false
englishsegment
>
<
synonymoutput
>false
synonymoutput
>
<
wildcardoutput
>false
wildcardoutput
>
<
wildcardsegment
>false
wildcardsegment
>
<
customrule
>false
customrule
>
matchoptions
>
<
parameters
>
<
unknowrank
>1
unknowrank
>
<
bestrank
>5
bestrank
>
<
secrank
>3
secrank
>
<
thirdrank
>2
thirdrank
>
<
singlerank
>1
singlerank
>
<
numericrank
>1
numericrank
>
<
englishrank
>5
englishrank
>
<
englishlowerrank
>3
englishlowerrank
>
<
englishstemrank
>2
englishstemrank
>
<
symbolrank
>1
symbolrank
>
<
simplifiedtraditionalrank
>1
simplifiedtraditionalrank
>
<
synonymrank
>1
synonymrank
>
<
wildcardrank
>1
wildcardrank
>
<
filterenglishlength
>0
filterenglishlength
>
<
filternumericlength
>0
filternumericlength
>
<
customruleassemblyfilename
>customruleexample.dll
customruleassemblyfilename
>
<
customrulefullclassname
>customruleexample.pickupnokia
customrulefullclassname
>
<
redundancy
>0
redundancy
>
parameters
>
pangusettings
>
其中dictionarypath 指明字典所在目錄,可以為相對路徑也可以為絕對路徑。
matchoptions 對應分詞選項
parameters 對於分詞引數
//建立htmlformatter,引數為高亮單詞的前字尾
pangu.highlight.******htmlformatter ******htmlformatter =
new pangu.highlight.******htmlformatter("
", "");
//建立highlighter ,輸入htmlformatter 和盤古分詞物件semgent
pangu.highlight.highlighter highlighter =
newpangu.highlight.highlighter(******htmlformatter,
newsegment());
//設定每個摘要段的字元數
highlighter.fragmentsize = 50;//
獲取最匹配的摘要段
string abstract = highlighter.getbestfragment(keywords, news.content);
記一下今天的面試
稀里糊塗的去面試了一家公司的php職位,記錄一下,不知道會不會有戲,自己還是比較喜歡這個職位的。前後兩撥人面的,剛開始兩個人,問了幾個問題 印象深的是如果乙個頁面訪問量特別大,應該怎麼處理,三言兩語說了一點。然後給了乙份題做,我做到一半,又過來一哥們,問了我幾個問題,主要是兩個問題,php怎麼樣把乙...
記一下leetcode刷題經驗
第一題最簡單的兩數之和,題目長這樣 給定乙個整數陣列 nums 和乙個目標值 target,請你在該陣列中找出和為目標值的那 兩個 整數,並返回他們的陣列下標。思路 一上來直接暴力解法選擇陣列的乙個 x 值,然後逐個遍歷陣列,找到數值等於 target x 的值,記錄下標,返回,但是暴力解法時間複雜...
記一下最近這段時間的生活
下午去看了三國之見龍卸甲,影院效果還是蠻不錯的,就是影片內容太過誇張。本來劉備是從公孫瓚處挖到的趙子龍,在他這裡反倒成了常勝將軍基層鍛鍊,詳細描述了趙工從底層積極努力最後混到五虎將。這種 脫離於歷史,你就別引歷史人物,本來就先入為主了,這種手法不是倒人胃口麼?我想送給他一句影評 大王,請賜死。最近生...