搜尋引擎創新論
整理:ackarlix
挨踢網【中文it技術社群】
前段時間作者寫過一篇《論搜尋引擎的創新》(以下簡稱《創新》),現在看來,文中的一些觀點尚未過時,所以筆者打算進一步深化《創新》中的思想,當然,並不是文中所有內容現在仍堅持不變。筆者認為,理論應該與時俱進,這是理論務必要保持的一種可貴品質。
現實的創新,是搜尋引擎創新的現實。筆者曾把搜尋引擎的創新劃分為兩種型別:一種稱之為「模式創新」,這種創新體現了搜尋引擎發展的質的飛躍。另一種創新是「形式創新」,這種創新是量的變化或積累,而不是質的改變。目前,大公司推出的搜尋在創新型別上,基本都停留在「形式創新」階段。比如,
的searchmash
最近的變化,以及一些搜尋引擎頁面顏色的變化(最近的,如中搜和
bbmao
)。了解馬克思主義哲學的人,會發現我以上所劃分的型別是運用唯物辯證法的質量變原理作為方**指導的。
我在研究搜尋引擎創新的過程中遇到了一些問題和一系列疑難,其中以下問題最為典型:
1.錯誤地高估了搜尋公司的創新能力(搜尋公司有資金和技術上的能力,但因為非技術問題,影響了創新)。
2.搜尋公司內部和外部所處的社會關係影響甚至能決定創新的方向和創新的速度。
3.讓搜尋引擎更加智慧型化或人性化需要突破語言上的技術障礙。
1.增加按時間排序的功能。這項功能需要包括正序和倒序,正序遇到的問題是:搜尋結果的相關性降低了,但能保證時間上的最近性。倒序的特點是:由於網路上資訊重複率高,藉由這個功能我們能知道眼前的資訊最早出現在哪個時間段。我以為倒序也是有一定實用性的。
2.增加同義詞搜尋功能。我以為同義詞不應只限於字典裡的同義詞,應該盡量和日常語言接軌,否則會削弱語言本身的豐富性。比如
「頭皮屑
」的同義詞是「頭屑
」,「頭皮糠疹
」也是頭皮屑的同義詞,再如
「洗髮水
」的同義詞是
「洗髮露」、
「洗髮精」、
「洗髮劑
」等。玩過現在流行的網遊跑跑卡丁車的人會知道,「水泡
」是「水炸彈」3.
在社群化產品方面應繼續增強使用者之間的互動,在社群的內容上,增加一些知識性的內容。長期泛娛樂化,會摧毀人的審美能力。長期處於娛樂內容的包圍中,恐怕人們真的會幸福地變成傻瓜。
4.人工智慧。社會化搜尋原本是與個性化搜尋相對應的概念,但現在不知為什麼,竟然與人工智慧相對,這恐怕是概念上的錯位。因為人工智慧與社會化搜尋根本不是同一層面上的。順便提一下,據說
aisou
已經具備人工智慧。
本文的重點在同義詞搜尋上,同義詞在搜尋時只是理論上的狀態,在實際搜尋中,人們最常接觸和使用的是短語。我們為什麼不能像建立同義詞詞庫那樣,也建立「同義短語」語庫呢?同義詞詞庫也好,同義短語語庫也好,和中文分詞一樣,是基礎性的、人工性的、積累性的。
有的時候,客觀趨勢是以總裁、經理們的主觀秘密決定表現出來的。因為他們掌管著強大的**部門,相比之下,**對其有一定的依賴性。其實我們的總裁老爺們不相信任何客觀發展趨勢,只有使用者才接受毋庸置疑的搜尋引擎發展趨勢。也可以說,使用者對於未來搜尋引擎的發展趨勢除了相信之外,無能為力。
資訊哲學也好、人工智慧哲學也好,本質上是哲學而不是技術。由於學科之間的壁壘和分類,筆者深感能力有限,有時候也不得不產生懷疑,努力是不是真的有價值。希望在將來,各個學科之間的結合能更加緊密。
搜尋引擎 索引
正排索引 文件編號,單詞編號,單詞的數量,單詞出現的位置。倒排索引 1,單詞詞典,儲存單詞以及統計資訊,單詞在記錄表中的便宜,可常駐記憶體,用雜湊表儲存。2,記錄表,單詞對應的文件集合,記錄單詞出現的數目 位置。文件採用差分變長編碼。其中文件可按編號公升序排列 可利用差分編碼 也可按出現次數排列,可...
MySQL搜尋引擎程式 mysql搜尋引擎
mysql是我們比較常用的一種資料庫軟體。它有著諸多的優點,如開源的,免費的等等。其實它還有乙個很好的特點,那就是有多種引擎可以供你選擇。如果賽車手能根據不同的路況,地形隨手更換與之最適宜的引擎,那麼他們將創造奇蹟。然而目前他們還做不到那樣便捷的更換引擎,但是我們卻可以 所謂知己知彼方可百戰不殆,要...
搜尋引擎 倒排索引
本節通過引入簡單例項,介紹與搜尋引擎索引有關的一些基礎概念,了解這些基礎概念對於後續深入了解索引的工作機制非常重要。3.1.1單詞 文件矩陣 單詞 文件矩陣是表達兩者之間所具有的一種包含關係的概念模型,圖3 1展示了其含義。圖3 1的每列代表乙個文件,每行代表乙個單詞,打對勾的位置代表包含關係。圖3...