我覺得通過搜尋獲取的資訊在質量上存在下面的問題:
1、過多的重複資訊。
由於不同****同樣的資訊內容,搜尋時可能得到的大部分是重複資訊,而目前搜尋引擎不對重複資訊進行過濾處理。
2、很難辨別資訊的真偽。
由於搜尋引擎只是對資訊進行索引,不能對資訊的真偽進行判斷,所以虛假資訊會與真正資訊一起被顯示出來。
3、難很辨別資訊的權威性。
目前搜尋引擎只對搜尋結果進行排名,而不對資訊的權威性進行評價,一些不合理、不科學、誤導性的資訊也與正常資訊一起顯示,尤其是健康方面的資訊,而且即使有人發現了有問題的資訊,也無法讓搜尋引擎知道,對這些資訊進行過濾。
對於第乙個問題,我覺得只要搜尋引擎調整一下搜尋結果排名演算法,最先幾個發布該資訊的**,排名應該靠前,其餘應該認為是**,排名應該靠後。
對於第二個問題,我覺得可以通過舉報制度,減少虛假資訊的概率,假如使用者在搜尋時發現虛假資訊,可以向搜尋引擎舉報,如果某條資訊被不同使用者舉報的次數達到一定數量就可以認為這是虛假資訊,然後在搜尋結果可以提醒使用者或直接從搜尋結果中排除。
對於第三個問題,我覺得搜尋引擎可以對**的權威性進行評價(或者通過第三方機構),然後根據資訊****的權威值,計算資訊的權威值,再結合舉報制度,將一些有問題的資訊過濾。
《實體解析與資訊質量》 創作動力
實體解析 er 和資訊質量 iq 是資訊科學領域的兩門新興學科。我寄望這本書能夠為該領域不斷增長的知識儲備做出一定的貢獻。我覺得參與發起一門新興學科是一件很有意義的事情,籍此來組織資訊質量學科的第乙個研究生學位課程,則猶如一段令人興奮的旅程。這其中的乙個重要挑戰,便為學生們尋找合適的書籍和學習資源,...
《實體解析與資訊質量》 1 2 6 總結
實體解析就是對引用做出判斷,它是否指相等是向現實世界的實體。鏈結是乙個附加的共通的例項引用以此標識他們是等價的。身份識別,記錄鏈結,記錄匹配,記錄去重,合併清除,還有實體解析這些都代表了er的特定形式或方面。廣義地來說,er包含五個主要步驟 實體引用抽取,實體引用準備,實體引用解析,實體身份管理,和...
資訊領域熱詞分析 質量屬性
可測試性戰術的目標是允許在完成軟體開發的乙個增量後,輕鬆的對軟體進行測試。測試的目標是發現錯誤。具有可測試性的 有什麼特點?1.控制性。控制性是指測試者給在被測試的軟體提供固定的輸入資料的方便程度。換句話說就是軟體本身接受定義明確的引數,並且這些引數可由測試者靈活的傳入,軟體在接受到這些引數後通過一...