搜尋引擎和搜尋引擎優化(seo)一直是一對矛盾,合理的優化有助於搜尋引擎對**內容的識別,有助於**的推廣。然而有正面,就有反面,一些seoers通過各種欺騙手段來欺騙搜蘇引擎,以期達到增加頁面收錄數和頁面排名的目的。
早期的關鍵字堆砌spam作弊方式之一,是將中文詞庫中的單詞直接用軟體拼湊成文章,這樣的文章沒有實際的意義,只能給搜尋引擎看。那麼對於這樣的文章,搜尋引擎是通過什麼方式來識別的呢?
對於關鍵字堆砌作弊方式的識別,搜尋引擎一般採用統計分析的方法進行。
搜尋引擎首先將網頁進行分詞,分詞完成後可以得到詞的數量n和文章長度l,從大量文章的統計中發現文章的長度l和詞的數量n兩個數字之間存在一定的分布關係,一般而言l/n界於4至8之間,均值大約在5-6之間。也就是說一篇長度為1000位元組的文章中,應該有125-250個分詞,由於中文和英文的詞的組成不一致,因此在英文和中文中這個比值的範圍會有所不同。如果搜尋引擎發現l/n特別大,那麼這篇文章就存在就存在關鍵字堆砌現象了,如果l/n特別小,則可能是這篇文章是由一些詞所組成的沒有意義的文章。
進一步,通過大量正常文章統計發現,文章中密度最高的幾個關鍵字出現的次數之和與n/l存在一定的分布關係,搜尋引擎就可以通過網頁中的分布與統計結果的分布圖進行比較得出文章是否存在關鍵字堆砌的現象。
此外,搜尋引擎還將從停止字的比例來判定文章是否為自然文章。停止字就是如「的」「我」「是」等在文章中普遍使用的字或詞,如果文章中停止字的比例在正常的比例範圍之外,這個網頁應提交到網頁質量監控部門審核。
所謂魔高一尺、道高一丈,有些作弊者已經放棄了單詞的組成文章的作弊方式,而改用句子組成文章的作弊方式,作弊者通過爬蟲或其它方式獲得網上文章的句子,並用軟體將數十篇文章的某幾句拼湊成一篇文章。這就需要搜尋引擎做語義的分析來判斷是否作弊了,然而目前關於語義分析的研究還處於研究階段,這也是下一代智慧型搜尋引擎的方向。
然而我們仍然不能將自動文章生成一棍子打死,基於人工智慧的文章生成仍然是人類研究自身語言以及自身智慧型的乙個重要方向。作弊與反作弊,將能促使人類對人工智慧的研究。
如果到最後,軟體能生**類能夠理解的文章,這是spam還是精華?你能肯定地說目前存在的智慧型化程度還不夠高的rss聚合文章一定是spam嗎?然而,如果這樣的文章海量的出現,我們又該如何去面對這個現象?
分析搜尋引擎關鍵字
根據中國網際網路資訊中心的第14次中國網際網路發展狀況的調查報告,截止到2004年6月30日,中國的上網使用者已達到8700萬,在使用者使用的各種網路服務中,搜尋引擎列第二位,其被使用的頻率僅次於電子郵件 1 這一資料顯示搜尋服務市場有巨大的潛在商業利益。從使用者的角度來說,使用者不管是在雅虎 新浪...
C 獲得搜尋引擎 關鍵字
using system using system.collections using system.configuration using system.data using system.linq using system.web using system.web.security using ...
如何選擇我的搜尋引擎關鍵字?
三大搜尋引擎帳戶均已開通,終於要開始激動人心的廣告設定,為什麼要激動人心?倘若你不是單純專注於技術本身的話,在我看來這個過程將是對你綜合經驗的考驗,需要你對產品行業的專業 網路營銷技術的專業及對品牌在網路競爭的敏感,如果你希望你的投資能夠獲得最大回報率,請認真走好這重要的一步。特別要提醒的是不可操之...