年底寫**作實驗搞得頭昏腦脹
, 中午放鬆一下上網看看新聞,,
平常也比較喜歡看詩詞歌賦方面的東西,,
結果搜尋結果讓我感覺**好像不對勁,.
我說的不對勁到不是搜尋結果本身
,而是搜尋結果的存放方式
,這個目錄下面
.比如搜尋」詩經
」,所有返回結果頁面都是
這說明什麼
這個目錄下面
,每個書籍乙個目錄
,每個目錄下面若干頁面
,每個頁面是這個書籍的一部分
.然後我感覺很好奇的是
,目錄名是按照什麼原則命名的呢?比如
」詩經」為什麼是
caabbead呢?
看著這個字串非常有親切感
,好像認識又叫不上名字
,是誰呢?對了
,很像是中文字元的字元編碼
,那到底是不是呢
?做個實驗,把
」詩經」放到
ultraedit
裡面選擇
hex edit
看看編碼發現還真實這麼回事情
,在實驗幾個,比如
」紅樓夢
」,hex edit
編碼: baecc2a5c3ce,
,理論上應該存放在
這個目錄下
,那麼構建
url: guoxue.baidu.com/page/baecc2a5c3ce/1.html看看,
你看到了什麼
?跟我們的預期一樣
,是紅樓夢
,不過不是第一章
,是第二章
,這個出乎我的意料,0
開始計算啊,試試
, guoxue.baidu.com/page/baecc2a5c3ce/0.html,嗯,
是第一章了.:
每個書籍乙個目錄
,目錄名就是書名的字元編碼
,每個章節或者段落是乙個靜態頁面
,目錄頁面是
***x/index.html,
每個書籍都是若干靜態頁面組成的
,所有資料放在
目錄下而且不允許使用者直接訪問這個目錄,,
,呵呵.
那麼後台怎麼處理呢
?這個看來很簡單
,後台應該有三個資料庫
,乙個是人名倒排索引
,記載了作者和作品資訊
,這個是為了支援按照作者查詢的
;乙個是書名倒排索引
,記載出現過數目的頁面
,這個是為了支援按照書名查詢的
,另外乙個是全文倒排索引
,這個是為了按照內容查詢的
,那麼內容索引是怎樣的呢
?建立了
n-gram
索引還是分詞後按照詞彙索引的呢?所謂
n-gram索引,
就是說不考慮分詞
,而按照下面方法建立索引:
比如」」,2-gram
索引記載下面資訊
:」度搜
搜尋」,3-gram就是」
度搜尋」,
依次類推
.使用者輸入」度搜
」作為查詢
,那麼資料庫裡面記載了資訊,就把
」」提取出來了.
n-gram,
比如用」土群」
你是搜不到東西的,而用
」 郴土
」是可以搜尋到
」郴土群山高
」,說明沒有用
n-gram
否則用」土群」
也可以搜尋出這句話的
.在我看來
,國學搜尋這種東西實際的有需求的使用者有多少很難說
,只是具有象徵意義,,
但是從上面分析你可以看出來
,這種搜尋技術上實現起來跟中文又有多少關係呢?.
補充(1月12
日):排序是搜尋引擎的核心
,經過我分析
,tf.idf方法,
排序公式如下
:rank(w)=tf(w)*idf(w)/doclen
tf(w):w
出現在文章中的次數
,如果出現在文章的書名
,那麼權重加大
.idf(w):w
的所有資料庫檔案中多少個檔案出現
(df(w)),
然後求倒數
1/df(w)
doclen:
文章長度.另外
,採用了
cache機制.
如果所有文章資料採取xml 格式整理好的話,對於做搜尋的公司來說,構造這麼乙個檢索系統還是比較花費時間的,我估計得用30分鐘到1天的時間才能完成整個系統-:)
/*.*/
中科院軟體所
張俊林2023年1
月11日
百度國學搜尋探密
中科院軟體所 張俊林 http blog.csdn.net malefactor 2006年1 月11 日年底寫 作實驗搞得頭昏腦脹 中午放鬆一下上網看看新聞,平常也比較喜歡看詩詞歌賦方面的東西,結果搜尋結果讓我感覺 好像不對勁,我說的不對勁到不是搜尋結果本身 而是搜尋結果的存放方式 這個目錄下面 ...
質疑百度的「國學」
也不錯,這些無不在向人們展示 漢語 的魅力和中國文化的底蘊,才可能構成今日 世界有 google,100 認真的做事態度?但是其 國學 問題還是很多 進入 國學 首頁的介面,沒有任何 國學 中國五千年 上起先秦 下至清末歷代文化 的感覺 輸入 蘇軾 有結果,但輸入 sushi 沒有結果,拼音不支援 ...
百度增強搜尋
1 intitle搜尋範圍限定在網頁標題 網頁標題通常是對網頁內容提綱挈領式的歸納。把查詢內容範圍限定在網頁標題中,有時能獲得良好的效果。語法結構 內容 空格intitle 你要查詢的資訊 此資訊會被限定在網頁標題內 例如 web學習 intitle 安全 2 site搜尋範圍限定在特定站點中 您如...