盤古分詞,記靈一下

2021-09-09 04:02:57 字數 4721 閱讀 4896

pangu.dll 呼叫方法

在程序啟動時,我們需要對盤古分詞進行初始化,初始化的呼叫**如下:

pangu.segment.init();

這個呼叫將使用和 pangu.dll 同路徑下的 pangu.xml 配置檔案 

pangu.segment.init(filename);

filename 為pangu.xml 的完整路徑名,如「c:\pangu.xml」

在某些應用中,pangu.xml 不一定在pangu.dll相同的路徑下,或者無法獲取pangu.dll的當前路徑,這時需要通過這種方式呼叫來讓呼叫者指定盤古分詞所用的配置檔案的絕對路徑。

segment segment = new

segment();

icollection

words = segment.dosegment(text);

icollectionwords = segment.dosegment(text, options);

icollectionwords = segment.dosegment(text, options, parameters);

其中· text 為需要分詞的文字

· options 為自定義分詞選項,預設為pangu.xml 中指定的分詞選項

· parameters 為分詞引數,預設為pangu.xml 中指定的分詞引數

public

class

matchoptions

[serializable]

public

class

matchparameter

public

class wordinfo : wordattribute, icomparable

<?

xml version="1.0" encoding="utf-8"

?>

<

pangusettings

xmlns:xsi

=""xmlns:xsd

=""xmlns

="">

<

dictionarypath

>..\dictionaries

dictionarypath

>

<

matchoptions

>

<

chinesenameidentify

>true

chinesenameidentify

>

<

frequencyfirst

>false

frequencyfirst

>

<

multidimensionality

>false

multidimensionality

>

<

filterstopwords

>true

filterstopwords

>

<

ignorespace

>true

ignorespace

>

<

forcesingleword

>false

forcesingleword

>

<

traditionalchineseenabled

>false

traditionalchineseenabled

>

<

outputsimplifiedtraditional

>false

outputsimplifiedtraditional

>

<

unknownwordidentify

>true

unknownwordidentify

>

<

filterenglish

>false

filterenglish

>

<

filternumeric

>false

filternumeric

>

<

ignorecapital

>false

ignorecapital

>

<

englishsegment

>false

englishsegment

>

<

synonymoutput

>false

synonymoutput

>

<

wildcardoutput

>false

wildcardoutput

>

<

wildcardsegment

>false

wildcardsegment

>

<

customrule

>false

customrule

>

matchoptions

>

<

parameters

>

<

unknowrank

>1

unknowrank

>

<

bestrank

>5

bestrank

>

<

secrank

>3

secrank

>

<

thirdrank

>2

thirdrank

>

<

singlerank

>1

singlerank

>

<

numericrank

>1

numericrank

>

<

englishrank

>5

englishrank

>

<

englishlowerrank

>3

englishlowerrank

>

<

englishstemrank

>2

englishstemrank

>

<

symbolrank

>1

symbolrank

>

<

simplifiedtraditionalrank

>1

simplifiedtraditionalrank

>

<

synonymrank

>1

synonymrank

>

<

wildcardrank

>1

wildcardrank

>

<

filterenglishlength

>0

filterenglishlength

>

<

filternumericlength

>0

filternumericlength

>

<

customruleassemblyfilename

>customruleexample.dll

customruleassemblyfilename

>

<

customrulefullclassname

>customruleexample.pickupnokia

customrulefullclassname

>

<

redundancy

>0

redundancy

>

parameters

>

pangusettings

>

其中dictionarypath 指明字典所在目錄,可以為相對路徑也可以為絕對路徑。

matchoptions 對應分詞選項

parameters 對於分詞引數

//

建立htmlformatter,引數為高亮單詞的前字尾

pangu.highlight.******htmlformatter ******htmlformatter =

new pangu.highlight.******htmlformatter("

", "");

//建立highlighter ,輸入htmlformatter 和盤古分詞物件semgent

pangu.highlight.highlighter highlighter =

newpangu.highlight.highlighter(******htmlformatter,

newsegment());

//設定每個摘要段的字元數

highlighter.fragmentsize = 50;//

獲取最匹配的摘要段

string abstract = highlighter.getbestfragment(keywords, news.content);

記一下今天的面試

稀里糊塗的去面試了一家公司的php職位,記錄一下,不知道會不會有戲,自己還是比較喜歡這個職位的。前後兩撥人面的,剛開始兩個人,問了幾個問題 印象深的是如果乙個頁面訪問量特別大,應該怎麼處理,三言兩語說了一點。然後給了乙份題做,我做到一半,又過來一哥們,問了我幾個問題,主要是兩個問題,php怎麼樣把乙...

記一下leetcode刷題經驗

第一題最簡單的兩數之和,題目長這樣 給定乙個整數陣列 nums 和乙個目標值 target,請你在該陣列中找出和為目標值的那 兩個 整數,並返回他們的陣列下標。思路 一上來直接暴力解法選擇陣列的乙個 x 值,然後逐個遍歷陣列,找到數值等於 target x 的值,記錄下標,返回,但是暴力解法時間複雜...

記一下最近這段時間的生活

下午去看了三國之見龍卸甲,影院效果還是蠻不錯的,就是影片內容太過誇張。本來劉備是從公孫瓚處挖到的趙子龍,在他這裡反倒成了常勝將軍基層鍛鍊,詳細描述了趙工從底層積極努力最後混到五虎將。這種 脫離於歷史,你就別引歷史人物,本來就先入為主了,這種手法不是倒人胃口麼?我想送給他一句影評 大王,請賜死。最近生...