搜尋引擎已成為人們最普遍使用的資訊檢索的工具 。該工具涉及到資訊檢索 、資料庫、資料探勘、人工智慧 、分布式處理、自然語言處理等多個領域的理論和技術 ,因而具有綜合性和挑戰性 。
根據 web挖掘的物件不同 , web資料探勘分為:web內容挖掘 , web結構挖掘和 web使用記錄挖掘。
web內容挖掘是從文件內容或其描述中抽取有趣知識的一種過程,是一種基於網頁內容元素物件的web挖掘 。這些元素物件既有文字和超文字資料,也有圖形、影象等多**資料;既有來自於資料庫的結構化資料 , 也有用 html或 xml標記的半結構化資料和無結構的自由文字 .
web結構挖掘是從網頁的超級鏈結中發現其結構及其相互關係 。通過找到隱藏在乙個個頁面之後的鏈結結構模型, 就可以利用這個模型對 web頁面重新分類,也可以用於尋找相似的**。基於超級鏈結的拓撲結構, web結構挖掘可以進行網頁分類, 總結網頁和**的結構, 生成諸如**間相似性、**間關係的資訊.
web使用記錄挖掘是從使用者「訪問痕跡 」中獲取有價值的資訊 ,是對 web上日誌資料及相關資料的挖掘。
(2)成本高 :使用者在人工過濾網頁中資訊的時候 ,要花費大量的時間和精力, 同時還需要支付高額的網路使用費用 。
(3)查詢結果顯示順序比較混亂 ,有效性差。另外 ,在查詢方式、個性化服務 、查全率和自然語言理解等方面都存在一些有待解決的問題。
目前,中文個性化搜尋引擎的開發已越來越引起了國人的注意,也吸引了越來越多的有識之士加人其中 ,雖然現在已經有了一定的基礎 , 但它距離成為乙個成熟的產品,道路還很漫長。搜尋引擎的個性化服務使搜尋引擎能夠分析檢索者的瀏覽行為來學習檢索者的需求 ,利用搜尋引擎的現有服務 ,有選擇地為使用者提供個性化服務 ,達到向使用者推送他們真正感興趣的資訊。
web資料探勘為搜尋引擎的個性化服務提供了依據。搜尋引擎一般由搜尋器 、索引器、檢索器和使用者介面四個部分組成,web資料探勘是從大量的、不完全的、有雜訊的 、模糊的 、隨機的 web內容中識別新穎的、有用的以及可理解的知識的過程 。在 web內容挖掘中, 由於 web文件中與搜尋主題相關度低的關鍵字會帶來不相關的檢索資訊, 因此 ,先採用粗糙集方法簡化與搜尋主題無關的屬性 (關鍵字),以減少搜尋空間, 提高搜尋效率 ,然後利用關聯規則挖掘方法對 web內容進行分析 ,挖掘出有價值的知識。
可以通過以下兩種方式
來實現從伺服器端獲取使用者的相關資訊:一般的訪問
模式挖掘和個性化的使用記錄挖掘 。一般的訪問模
式挖掘通過分析使用者使用記錄來了解使用者的訪問模
式和傾向;個性化的使用記錄挖掘則傾向於分析單個使用者的偏好 ,其目的是根據不同使用者的訪問模式, 為每個使用者提供定製的站點。這種方法經常在一些大型的門戶**上被使用,用於跟蹤不同使用者的瀏覽習慣 ,以進行使用者感興趣的網頁內容調查和生成不同編排內容的個性化瀏覽頁面 。
個性化搜尋引擎調研(一)
一 為什麼要做個性化搜尋引擎?每天網上爆發的資訊量已經超過了我們能接受的範圍,只有因人而異的個性化搜尋才能幫助使用者找到所需資訊。傳統資訊檢索具有通用性,檢索系統不可能滿足不同背景 不同目的和不同時期的查詢請求,乙個關鍵字查詢詞對所有使用者呈現的搜尋結果均相同。google的美女副總裁marissa...
利用個性化搜尋引擎查詢需要的個性化資訊
很多人現在都是活在網上的,而在網上搜尋資料更是每日必做的功課。我們最常用的搜尋引擎一般是google 這些主流。但是如果你想搜尋某一型別,例如特定的檔案 報告之類就要用到另類的搜尋引擎了,好好利用乙個搜尋引擎,就能令搜尋資料事半功倍。估計不少人搜東西一般首選 google yahoo等這些搜尋引擎,...
企業版個性化搜尋引擎產品分析報告
1 必要性分析 搜尋引擎現有盈利模式為 依靠在搜尋頁面中的廣告投放。這種方式經過多年發展,增長空間有限。同時這種盈利方式也面臨著以下問題 盈利方式同質化,容易被競爭對手複製。搜尋引擎的使用者可以劃分為個體使用者和企業使用者 2個大類。2個類別分別具有不同的特點。個體使用者 數量龐大,需求多樣 人群分...