資料探勘在搜尋引擎中的應用

伺服器端：資料探勘----有效的網頁內容獲取和精煉的索引資料庫建立

web資料探勘是從網際網路資源中獲取資料資訊和發現知識的過程，通常人們應用資料探勘獲取網頁有用資料，實現資料抽取。

web結構包括頁面之間的結構以及頁面內部的結構。通過挖掘網路站點結構資訊，對於導航使用者瀏覽行為、改進站點整體設計、評價頁面的重要性等都非常重要。web結構挖掘需要整個站點的全域性資料資訊，所以被應用在個性化搜尋引擎和主題搜尋引擎研究領域。如：搜尋引擎查詢結果排序、相關文件查詢、web頁面重複率計算、站點的主要內容和特徵確定、url爬行的優先順序等。

網頁資訊庫是依據網頁內容蒐集軟體收集得到的網頁，根據web資料探勘的結果即時調整和改進要收集的內容，這對網頁內容蒐集軟體提出了更高的功能要求----能按照資料探勘的結果進行動態更新資訊庫，能按照給定的資料結構進行資料刪選和抽取。在資料探勘中，綜合多種分析方法進行資料探勘，利用關聯分析規則倆挖掘隱藏在web資料間的相互關聯關係；用序列規則方法分析web資料間的前後序列關係；用資訊分類方法分析網頁資訊庫中的web資料，為每個類別做出準確的描述，並建立分析模型或設計出分類規則，然後利用分類規則對其他庫中的資料進行分分類；對網頁資訊庫中的記錄資料進行聚類方法分析，根據設定的分類規則，合理的劃分記錄集合，確定每個記錄所屬類別。利用乙個迴圈的過程，精煉出乙個冗餘度低、整合度高、方便使用的索引資料庫，便於使用者檢索資訊。

客戶端：資料探勘----興趣關聯規則建立及使用者行為**

當使用者進行資料檢索請求時，搜尋引擎在索引資料庫中快速進行文件檢索並查詢使用者的查詢字串，同時進行文件與查詢的相關度評價，對查詢結果按照某種演算法進行排序，並實現使用者相關性反饋機制。

瀏覽器一般都使用頁面快取記憶體技術，快取記憶體中儲存的歷史資料反應了使用者頁面過程中的興趣愛好。利用使用者興趣間的關聯資訊，可以**使用者的行為。高速緩衝區中的頁面間的聯絡可以用www資料模型來描述，並對映到適合**的資料模型中引用。當使用者瀏覽檢索到的web頁時，可以通過一種智慧型web預取技術，加速獲取頁面的速度。在具體方法中，首先選擇合適的網際網路資料模型來表示客戶端瀏覽器緩衝區中的資料，然後利用資料探勘技術提取出客戶端使用者的興趣關聯規則，儲存到興趣關聯知識庫中，作為將來使用者進行行為**的依據。在客戶端，智慧型**負責使用者興趣的挖掘及基於興趣關聯知識庫的web預取，從而在客戶端實現透明的瀏覽器加速。

為了**使用者的行為，必須建立一種可用來描述web頁面的興趣關聯規則色資料模型，資料模型來描述www頁面資料，如：頁面節點和有向邊來表示簡化的www資料模型。

興趣關聯規則可直接表明了興趣間的關聯遞推關係，通過www資料模型表示緩衝區中的資料直接表明了頁面之間的鏈結結構關係，但不能反映興趣間的關聯程度，二資料探勘技術中的關聯分析規則可以用於關聯發現、序列模式發現、及相同時間序列發現。常使用關聯發現分析法類建立興趣關聯規則。

資料探勘在搜尋引擎中的應用

lycos搜尋引擎常用的搜尋引擎都有哪些特點？

solr 搜尋引擎及搜尋推薦應用

搜尋引擎的秘密

資料探勘在搜尋引擎中的應用

lycos搜尋引擎 常用的搜尋引擎都有哪些特點？

solr 搜尋引擎及搜尋推薦應用

搜尋引擎的秘密

相關推薦

lycos搜尋引擎常用的搜尋引擎都有哪些特點？