搜尋引擎是指根據一定的策略、運用特定的電腦程式從網際網路上蒐集資訊,在對資訊進行組織和處理後,為使用者提供檢索服務,將使用者檢索相關的資訊展示給使用者的系統。當使用者在搜尋框輸入乙個關鍵字後,我們應該給使用者返回什麼內容呢?
一、搜尋引擎原理和使用者使用習慣
1.1 搜尋引擎是乙個可供所有人檢索的資料庫
圖1:搜尋引擎簡單的人機互動過程
其中:1)被檢索的資料庫即搜尋引擎所抓取的網頁資料。
通過蜘蛛爬取到原始資料後,搜尋引擎會對其進行處理後才入庫。即搜尋引擎的搜尋演算法,比如大家熟知名字(當然是名字啦,內容原理是最高機密)的google的pagerank。
2)搜尋引擎是高度簡化後的產品。
使用者需要做的即是輸入想要檢索的關鍵詞,確定,檢視結果。這裡有個需要說明的是,使用者連搜尋條件都不需要輸入。而對搜尋引擎來講,不僅要在海量資料中快速找到相關結果,還要揣測使用者的期望並提取正確的內容給使用者,內部的機制已經不能用繁瑣來形容了。
這個難度就好比在大量圖書中快速準確找出某乙個未知問題的答案一樣。
圖2:剛拍攝的國家圖書館,使用了濾鏡。
1.2 搜尋引擎資料處理過程
搜尋引擎是乙個超級複雜的系統,內部具體的處理規則和技術原理不可能是簡單的闡述清楚。我們通過產品的思維來理解一下這個過程即可。拿寫**的例子分析即可,**在成文之前材料的整理過程大致如下:
1)從網路、圖書館、書籍雜誌、講座等等收集大量原始資料
2)排除相關重複內容
3)排除跟主題關聯性不大的內容
4)根據主題、邏輯順序、優先順序等進行人為的計算、分析、排版、處理等。這個過程是最為繁瑣和耗時的,使用的**便是史上最牛逼的工具:人腦!!!
5)成文輸入結果
忍不住再重申一下:所有的產品其實都是在模仿人類的實際社會活動。。。明白這個對於產品經理很重要哦。
搜尋引擎資料處理流程基本類似(想要了解的可以自行搜尋相關資料),唯一的也是搜尋引擎想消除的區別:
乙個是有感情有邏輯的人腦在分析,乙個是機器按照一定規則來分析。
所以,想要搜尋結果更精準,那就讓它像人腦一樣分析輸入資料並輸入結果。
恩,我也覺得不怎麼現實,但是可以想辦法讓他比較精準。
二、獲取資訊的方式
我們還是先從日常行為的來入手然後再推導產品的操作方式。
2.1 通常,我們從周圍環境如下獲取資訊:
1、 已知獲取途徑和方法
如想獲知今天美元對人民幣的匯率抑或北京飛青島的機票**和時刻表,因為途徑已知,此類資訊只要按圖索驥即可。差別在於不同途徑的成本。匯率可通過網路查詢、**諮詢、銀行網點詢問等,顯然第一種方法更便捷。(的確是廢話)。
這些資訊都是規則化,概念明確的。
2、了解核心關鍵需要整理的
如剛才提到的**寫作,假設題目為弱關係社群設計,我們就需要去詢問什麼弱關係,和強關係有什麼區別,已有的設計案例是什麼。
這些資訊的獲取建立在人為分析的前提下。
2.2 提問方式
還khsgfsws是舉兩個例子。
1、 在形成完整的序言邏輯前,小孩子提問的方式是最簡單的關鍵詞,大人們要做的便是通過他的咿呀來理解孩子的需求。一般大人都能準確**,原因在於其非常了解孩子的習慣、行為、方式、特徵等。
2、有了完整的語言邏輯後,我們一般選擇直接提問:今天的匯率是什麼?北京飛青島的票價多少,都是幾點的?人腦也完全可以處理這些問題。當然,人是複雜的感情動物,好多東西還不能完全通過字面意思去理解。說乙個不是很恰當的例子:約會中,女孩提問你覺得現在的房價如何。字面意思是www.cppcns.com房價,潛在意思是你的購房能力如何。
2.3 搜尋引擎該這麼處理
假設搜尋引擎具有跟我們一樣的大腦的話,那他處理問題的方式應該是這樣的:
1、分析所查詢的問題是檢索關鍵詞還是提問
2、結果分為三種,
答案已知直接輸出結果;
途徑已知,輸www.cppcns.com入解決途徑;
提供最符合使用者預期的排序結果共使用者挑選
3、不同的情況下會出現相互組合。當搜尋引擎對關鍵詞理解越充分時,結果越準確。
三、改進方法和策略
再總結一下使用者的操作行為:
3.1 當使用者輸入的為關鍵詞時:
1)已知使用者的特徵,根據其特徵對搜尋結果進行符合其本身的排序
2)未知使用者特徵,則視為普通的查詢。提供結構話的搜尋結果,即具有相關性的提示,相關性越高,結果越靠前。
3.2 當使用者進行提問時:
1)分析提問的語義,簡單的語義輸出結果或途徑
2) 無法分析確切的語義,提供多個結果給使用者,同時根據使用者的反饋不斷調整結果。這也是使用者特徵的一部分。
3.3 搜尋結果出現交叉時,痛癢還是需要參考使用者的行為特徵來對結果排序。
有幾個名詞,感興趣的可再去搜尋一下:baidu-框計算;google-知識圖譜;facebook-社交圖譜搜尋;siri-語義搜尋;概率-馬爾可夫模型。
說白了,就是
搜尋引擎對使用者的搜尋意圖越理解,資料庫越完備,輸出的結果越精準。
還是舉個例子來佐證一下:同樣乙個問題,好朋友的解答一般比陌生人要好,因為好朋友更了解你提問的動機,背景甚至期望得到的答案。
問題來了,計算機畢竟不是生物,他執行的僅僅是規則。能做的便是收集你的一些行為和特徵來推斷你的喜好:
1、個人資訊:姓名、性別、籍貫、職業、行業、興趣愛好、使用偏好等。
2、個人行為:搜尋記錄、瀏覽記錄、社交行為等
3、處理方法:聚類、分類、資料探勘
如何使用搜尋引擎
搜尋引擎的高階技巧 大多數搜尋引擎,除了直接搜尋關鍵字,都還會提供一些高階功能,常用的包括 示例 在搜尋框中搜尋 python site 就可以把搜尋結果限定在知乎內。對於一些沒有站內搜尋或站內搜尋不好的 來說很有用。示例 在搜尋框中搜尋 matching query does not exist ...
如何快速讓搜尋引擎收錄新站
對於新站朋友來說,也許有一些朋友會苦惱新站如何讓各大搜尋引擎快速收錄,而不是要等上半個月甚至乙個月的樣子,今天我舉例來跟大家一起分析下,希望能幫到大家。首先,新站做好之後,我們要對 整體進行修改 包括 title,keywordhqnbos,description,站點地圖,機械人,今天我就不詳細的...
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...