01
搜尋引擎基本概念:爬取、索引、召回、粗排、精排、重排
爬取 & 索引
搜尋引擎爬取全網海量頁面 → 進行基本的質量評分 → 過濾出小部分質量較佳的網頁 → 建立倒排索引(能夠通過關鍵詞查詢文件)
召回使用者發起搜尋請求 → 搜尋引擎先對關鍵詞進行糾錯處理 → 拆成多個詞項 → 去索引中查詢能夠命中這些詞項的文件,可能就是這個數
粗排但是文件的實在數量太多了,一股腦的都推給使用者顯然很二逼,使用者不可能都看完,只會看其中極小的一部分,另外也沒法保證質量。
所以要從海量召回的文件中,刪除其中內容高度重複的文件,並篩選與搜尋詞最相關的760個文件,展現給使用者。
這個環節屬於海選,需要大量計算,為了不讓使用者等待過長,一般用快捷優先且相對簡單的處理方式,比如bm25、tf-idf、lda,具體還有啥咱也不知道。
精排之後就是對760篇文件排序的過程,最終的目的是讓排序結果最大概率符合使用者預期的結果,這樣使用者才更有可能點進去了解詳情,從而提公升搜尋的業務價值。
這部分比海選要複雜的多,涉及一大堆資料探勘、機器學習、使用者行為分析、使用者意圖識別等演算法,大概包括:
上述過程,對應著搜尋引擎中,爬取、索引、召回、粗排、精排的幾個階段,屬於搜尋引擎系統入門級的常識。
重排現在精排後面,還有重排,根據使用者的搜尋場景(網路、裝置、近期點選行為等)和**熱點,實時調整排序,比如:
02如何研究排名(一家之言)
研究收錄 vs 研究排名
在16年以前,本渣覺得研究「排名」是最難的,後來搞了一堆單頁站群、泛站群、資訊站群和少數幾個單站,大概前後10萬網域名稱出頭,發現「搞定收錄」其實比「搞定排名」麻煩的多,甚至應付廣告主沒事總tm程式設計客棧扣量、跑路不結算、網域名稱被停止解析....,我覺得都比研究排名麻煩。
因為在16年以前,本渣接觸的都是大站,日uv百萬級的,所以收錄的問題不大,一般就是某個目錄收錄率低,但不存在完全不收錄,或收錄極其緩慢的問題。
畢竟,大站參與760名排序的概率很大的,but一堆海量小站,參與召回的機會都沒有。
研究大站 vs 研究小站
所以,本渣覺得,大站與小站,研究排名,是兩種路線:
大站研究的是,做的詞怎樣上首頁。
小站研究的是,做哪些詞能上首頁。
研究的方法有兩種:正推 和 逆推
03正推
正推就是假設一堆條件,挨個去測試,能否達到自己預期的結果。比如快排的開發,大部分都是正推的,需要大量測試
逆推就是通過分析已有的結果,找出其中共同的規律,需要大量觀察
僅研究百度seo排名規律上,正推的門檻極高。
比如,很久以前,本渣抓了1000個詞(同乙個詞根)的搜尋結果,把每個詞的760個結果對應的網頁全弄下來,最後我記得就不到40萬篇,接近50%的搜尋結果都是重複的。
然後我把這批網頁匯入到xunsearch(乙個開源的搜尋引擎,並不是說這個好,而是本渣當時只會這個,還不知道有elasticsearch這個東西)並建立倒排索引。
同時我還把預設詞庫整理了下,讓這部分行業詞分詞更準確。
我的想法是:
第一步:在xunsearch和baidu,同時搜尋乙個詞,通過調整xunsearch搜尋引數,調整出跟百度很接近的結果,比如top10文件大部分一樣,只是順序略有差別。
第二步:我就修改自己網頁的內程式設計客棧容,推到xunsearch更新下索引,再次xunsearch搜尋下,如果top10能出來,線上網頁就按本次修改的上線。如果沒出來,就修改其他地方,直到能在top10出現。
理想豐滿,現實骨感。
反正第一步始終沒出來,畢竟商業搜尋引擎,和開源搜尋引擎,很多地方是不同的。
但是這只能代表百度,因為其他搜尋入口,如研究微信搜一搜、知乎、小紅書的排名規律就容易的多,首先這些平台不存在收錄的問題,內容不違規即是收錄,二是影響排序的因子比百度少很多。
anyway,正推我是放棄了
04逆推
下面說說當時做的逆推的思路,相對來講,逆推比正推省事很多。
長尾關鍵詞
long long time ago,在做站群的時候,當時開發的還不是泛解析程式,能承載無限個關鍵詞的。是庫里有多少詞,這個程式就生成多少對應數量的頁面,或二級網域名稱。
這意味著,如果庫裡面塞了一堆根本不可能排在首頁的關鍵詞,這是浪費系統資源的,畢竟新網域名稱收錄有限,自然希望收錄的頁面,都是大概率能上排名的頁面。
乙個流量詞呢,在搜尋結果表現,有4種特徵:
第一種可能這個詞競爭度很大,或者本身是比較敏感的詞,比如醫療養生類的,所以百度特意分流給了一些信任度高的大站
第二種可能這個詞是違禁的,但百度有沒來得發現,也可能這個詞還沒被很多人發現。這個可以根據搜尋結果的標題,是否完全命中關鍵詞來判斷,能命中是前者,不能命中是後者
第三種是這個詞是違禁的,且已經被百度發現刪除
第四種是正常的詞,比如不算熱門的**、漫畫名啥的
已排名優先的清洗關鍵詞措施,是找出第1種和第3種詞,然後刪除掉。
所以當時找詞,比如從愛站匯出來的競品**關鍵詞,會先按如上方法洗詞,洗完之後在上線。同等網域名稱數量的情況下,能多出25%的流量。
以上是研究長尾詞能夠大概率上首頁的問題,下面來聊聊核心詞的排名。
獨立核心詞排名
以前有一種刷詞方法,比如核心詞是「seo」,會去同時刷創造出來的新詞,比如「seo流量販子」,同時title也改成這個詞。
經過 「恰如其分的刷量比例 & 時間拉長」,「seo」與「seo流量販子」會產生關聯,「seo流量販子」是「seo」搜尋意圖中的一種
這樣「seo流量販子」排名到首頁後,在加大「seo」的點選,這樣核心詞「seo」上首頁的概率,比直接硬點概率要大一些。
所以之前,seo這個詞,在百度指數的下拉,或百度搜尋框的下來,總有一些爛七八糟的詞
判斷網頁與核心詞的真實相關性(排除點選加權)
當然,這個不是絕對,同時也跟百度認為網頁本身與核心詞有多大相關性有關。
比如很多刷快排的站,網頁做的亂七八糟,可以說不符合seo友好性,存在排名很大程度是點選加權,而非相關性,這樣快排有點波動就容易被幹。
識別這種情況,可以在搜尋詞後加個無關緊要的符號,比如「華為工資 。」
搜尋引擎對使用者的query,會先糾錯在分詞召回,糾錯過程就包含去除爛七八糟的符號,之後再排序。
but,「華為工資 。」這個詞的排序沒有點選加權因素在裡面,因為沒人點選這個詞,同時這個符號對核心詞「華為工資」相關性排序的影響很低,因為每篇文件都有一大堆句號。
所以你看「華為工資 。」與「華為工資」的排序,幾乎一樣的。但對比「seo 。」與「seo」的搜尋結果,就非常奇妙了。
或者,也可以把主詞拆開來搜尋,比如「華為工資 華www.cppcns.com為 工資」,或者輸入兩次「華為工資 華為工資」
海量核心詞排名
但如果有很多核心詞怎麼辦?
比如某類詞根,如:
long long time ago,本渣的做法是:
1)把這批詞,全部扔到百度搜尋框,依次提取下拉框的詞
2)計算每個字尾的出現頻次
3)選擇頻次最高&標題完全命中關鍵詞搜尋結果少的詞綴,作為網頁title的補充
舉個例子,比如公司,標題只寫「公司」,有些浪費,因為這個詞後面有人搜:
但是又不能所有字尾都加上,所以疑問是:新增哪個字尾,能大概率讓「公司」和「公司」都有排名?
全國300多個縣級市,60%+城市,其下拉框都會出現「排名」,其實「名錄」、「黃頁」的出現頻次也不少,跟「排名」差不多,但是這兩個詞綴做的人太多了,也就是搜尋結果標題完全命中的數量比較多,所以最後用了「排名」,即title為:「北京公司排名」
結果是,二三線城程式設計客棧市差不多都上去了。
一線城市沒上去是因為,搜尋需求太豐富,比如:代辦、搖號、轉讓...
本文標題: seo如何研究排名規律
本文位址: /news/seo/361089.html
SEO速成之路 研究
很多經驗是靠自己累積起來的,只靠些書籍或者一些學習 最多只是能夠讓你入門而已,在seo成長之路,研究得越多,你成長的速度越快,甚至說,你的每一次研究,都會有不同的收穫,目前,最主要的研究,就是針對關鍵詞排名靠前的 進行分析。每乙個 優化愛好者或者相關工作人員在學習搜尋引擎優化之初,相信無一不是迫切想...
十大SEO排名因素 如何提高百度排名?乾貨
內容質量,價值和可讀性 移動友好 頁面載入速度 關鍵字難度 頁面標題和檔名 章節標題 影象和alt標籤 網域名稱和年齡 網頁元描述 讓我們更深入地了解seo排名前10位的各個因素,以及如何對您的 進行排名以獲得更高的排名。評定標準是乙個0 100的數字,表示文字的複雜性。數字越高,文字越容易。您的目...
seo 優化排名 使用總結
本文將系統闡述seo優化原理 優化技巧和優化流程。搜尋引擎的優化原理是蜘蛛過來抓取網頁,並放進索引庫,之後搜尋引擎分析使用者搜尋意圖,然後將符合條件的網頁按排名展示給使用者。其中,蜘蛛的抓取和放進索引庫稱為收錄,只有網頁被收錄了才有可能被展示,如果蜘蛛過來抓取但是沒有收錄,那麼網頁是沒有展示的。se...