問題摘要
針對這樣的情況,下面提出一種機器融合資訊的概念,搜尋結果不僅僅是直接的網頁內容,還應該包含對眾多搜尋結果頁的加工、融合、挖掘、推理,由機器生成一組頁面,把資訊更直觀、全面、立體地展示給使用者。
>> 問題背景
早期的網頁內容,主要由各個**工作人員編輯發布,資訊量比較匱乏,很多時候使用者找不到搜尋問題的答案。隨著使用者將自己原創的內容通過網際網路平台進行展示或者提供給其他使用者的發展,大量使用者生成的內容極大地充實了網際網路的資訊量,但是也導致了如下的問題:一方面,資訊氾濫,根據搜尋引擎現有的排序、篩選技術,使用者難以通過單一的查詢,從眾多搜尋結果中形成對檢索內容立體、全面的了解。
另一方面,在搜尋過程中,使用者的一些查詢可能在網際網路上任何乙個網頁都沒有直接包含答案或不能全面覆蓋答案,但通過資料探勘、資訊融合手段,能夠通過現有網頁整理出完整、全面的答案。
此外,一些網頁對使用者問題的答案可能存在不一致,這就需要系統具備自動過濾和甄別能力,把相對更準確的答案推薦給使用者。
>> 當前的研究和技術現狀
當前有一些知識庫構建技術,著眼於對於詞條的各個屬性字段進行擴充套件補充,形成對詞條全面立體的詮釋,但這種手段對知識**的結構化程度要求較高,限制了知識庫的規模。
>> 技術方案及關鍵點
為了達成資訊融合、建立智慧型知識庫的目標,知識推理過程是必需的。知識推理過程需要以下技術:
1. 詞條同一性分辨技術:在網頁資料中,同一事物可能有多個名稱(如縮略詞、音譯、地域稱謂、年代紀元等),多個事物也可能有相同名稱(如同名人物、同名作品、同名地理位置等)。需要通過周圍資訊進行判斷,將不同名稱、相同事物的相關描述,聚合到一起;把相同名稱、不同事物的相關描述區分開來。
2. 網頁結構化技術:分析網頁反覆出現的一些模式,與已知資訊比對,通過已知資訊在頁面上的分布,解析網頁的排版格式,理解某段文字或某個多**元素的含義。比如,通過**元素與已知資訊的比對,知道每一欄、每一列的含義;通過多個相似頁面,發現網頁某個位置的內容範疇。
3. 評價綜合技術:
b. 使用者印象標籤提取:綜合與某事物共現得最多的描述性詞條,得出網友對該事物的印象。
4. 相悖描述的甄別技術:搜尋結果中可能存在完全相悖的答案,首先要能理解、發現搜尋結果中對使用者問題回答的不一致,其次根據各個網頁的可信程度、包含答案的網頁數量等,選擇相對正確的答案,優先呈現給使用者。
5. 邏輯順序梳理技術:在同一頁面中展示詞條的相關資訊時,需要把這些資訊按一定順序整理起來。比如,整合人物的生平事蹟時,需要按時間先後順序列出;展示地理資訊的周邊設施時,可以按照方位順序呈現。
>> 實現後的價值
提供一種新的搜尋結果呈現方式,把檢索資訊更立體、更清晰、更全面的展示給使用者,使搜尋結果對使用者有更大的參考價值,讓人們更加便捷地獲取資訊、找到所求。
關於 autowire的問題直接獲取bean
在專案中遇到的奇怪的問題,在使用 autowire註解去呼叫乙個方法時出錯,除錯發現 autowire註解下的物件值為null。使用 autowire會將物件注入到當前類 這裡要注意首先類需要在spring的管理下 autowire才會起作用比如在類上加上註解 service componet等 加...
直接獲取類中 非static 成員函式位址的方法
includeusing namespace std class a static void fun2 void fun3 int main 輸出為 1 010d1226 010d1249 試了一下用 printf p n a fun1 能輸出位址。這裡不糾結了。include includeusi...
物件序列化後直接獲取byte 的方法
有一種應用場景 將物件用udp廣播出去。udpclient的send方法引數型別是byte。前天見到有位哥們寫的 居然是將物件序列化成檔案,然後再讀取檔案傳送出去,接受則是反過來,將接受到的byte寫成檔案,然後讀取檔案再反序列化。效率低就不用說了,關鍵是佔空間,如果寫的是pda程式,那裡經得起這樣...