對與百度的分詞研究原來也沒有在意,但有一次我在作優化時無意中發現乙個詞也就是差了乙個字,結果排名大不相同。
我做的是二手房的關鍵詞,但是我的頁面上的關鍵詞設定卻是「二手**」,可能有的朋友會說,這個沒什麼問題啊,「二手**」不是包含了二手房這個關鍵詞嗎?如果沒有仔細對百度的分詞進行研究,大家可能看不出這兩個詞會有什麼區別,不過大家只要稍微留心一下搜尋出來的結果,就可以看出端倪了,百度在對「二手房」和「二手**」這兩個詞分詞出來是不一樣的,百度自己建立有自己的詞庫,所以他會把「二手房「這個詞當作乙個整體,但是對於」二手**「這個詞,百度則拆分成了」二手「和」**「兩個詞,自然別人在搜尋二手房這個關鍵詞的時候就找不到我的頁面了。通過這個小細節,我覺得有必要對百度的分詞進行一下深入的研究,我大概地總結出了以下這麼幾點:
1、百度分詞是根據內容中,第一次出現關鍵詞相關詞為標準來分的。例如」今日新開熱血江湖sf「這個詞 如果你的正文中第乙個出現的是」今日「這個詞,那麼你的頁面上的關鍵詞就會被拆分成」今日」和「新開熱血江湖sf「兩個詞,標題中一定要包含關鍵詞,但不一定要完全匹配,但內容**現的關鍵詞是要跟百度分詞完全匹配的,在完全匹配中又會根據檔案url路徑的深度來進行排序,在關鍵詞都完全匹配的情況下,比如說目錄比檔案有優先權,根目錄下的檔案要比二級目錄下的檔案有優先權,完全匹配的會排在前面,然後再是部分匹配的。
2、在關鍵詞沒有完全匹配的情況下,如果有分詞,比如說:遊覽器**這個關鍵詞,有乙個網頁裡第一次出現的關鍵詞是遊覽器,並且有較高的關鍵詞密度,但是這個網頁中卻沒有」**「這個關鍵詞而另乙個網頁裡第一次出現的關鍵詞是**,那麼這個網頁的關鍵詞就會被拆分成 遊覽器 ** 兩個詞,雖然第二個網頁裡包含有「遊覽器」 「**」 但是第乙個網頁還是會程式設計客棧排在第二個網頁的前面,這說明關鍵詞的前面部分是最重要的。
3、關鍵詞第一部分出現的頻率是排名的關鍵,比如說 」遊覽器 **「,如果兩個網頁都沒有完全匹配,都是含有兩個分詞,那麼「遊覽器」這個分詞密度高的網頁將會排在前面。
4、如果完全匹配,但是關鍵詞第一出現是在頁面內容的最後面部分,那麼這個網頁的排名將比前面這些頁面還要低。所以關鍵詞盡早在內容**現是非常重要的。
5、百度根據第一次出現的相關關鍵詞切詞,如果第一次出現的相關關鍵詞是關鍵詞的尾部,那麼就從後面開始切,如果是前面部分就從前面開始切,也就是根據網頁內容的順序和反序進行分詞,順序的時候就是以關鍵詞前半部分為起點,反序的時候就是以關鍵詞的後半部分為起點。例如:」今日新開熱血江湖sf「 這個關鍵詞,如果你的網頁中第一次出現的關鍵詞是」熱血江湖sf「,那麼你這個頁面的關鍵詞會被拆分成」熱血江湖sf」和「今日新開」兩個詞。
6、可以根據百度的切詞原理,自己來選擇比較好作的關鍵詞頭部(也就是調整你網頁內容中第一次出現的關鍵詞)。也就是進行人為切詞,百度會進行從前往後判斷,也會從後往前面切。
7、如果切詞出現前半部分和後半部分有重複的話,那麼有重複的會比沒重複的排名低,但如果都有重複那麼就是根據前半部分的密度來判斷。例如:今日新開熱血江湖sf 如果被切成 今日新開熱血江湖|新開熱血江湖sf (這樣切出來的詞前半部分太長,程式設計客棧所以排名不利)那麼排名肯定要比切成今日新開|熱血江湖|sf 的排名差
8、如果在關鍵詞沒有完全匹配的情況下,並且關鍵詞出現得不完整,比如說:今日新開熱血江湖sf,網頁的內容包含的關鍵詞中如果沒有「今日」這個詞,那麼切詞就會從「新開」開始,但是這樣的網頁都會排在比較靠後了,因為你關鍵詞的前部分都沒有包含
9、缺詞的情況下下,如果與不缺詞的網頁進行比較的話,那還是根據切詞前部分的密度進行排序,也就是說按照切詞的順序,如果切出來的詞,前部分的密度比後部分的密度比例是關鍵,例如乙個網頁中,前部分與後部分關鍵詞的比例是1:2,另外乙個網頁的比例是1:4,那麼當然前面的那個網頁排名要靠前。同樣在缺詞的情況下,切出來前詞短的排名有優勢
10、如果不缺詞,但是關鍵詞後面部分比前面部分先出現,例如「今日新開熱血江湖sf」 sf這個詞先出現,但是「今日新開熱血江湖」這個詞的密度又不高的話,那麼排名會比那些缺詞的還要靠後
11、同樣是後詞出現在前面,但是前詞與後詞的比例是關鍵,例如乙個網頁中包含有「sf」 「今日新開熱血江湖」這樣兩個詞,比例為1:1另外乙個網頁包含的是 「新開熱血江湖」 「sf」 「今日新開」 比例是2:1:1,那麼前面的那個網頁排名有優勢,關鍵詞程式設計客棧的數量不是關鍵,出現的位置,以及分詞的比例是非常關鍵的。越靠後的分詞佔的比例越多,排名越不利
12、關鍵詞在正文**現的位置過於靠後也是不利的,主詞的密度太低也不利,前面的網頁情況都是在主詞密度差不多的情況下進行比較的。
我研究出來的也就差不多這麼多了,不知道大家能不能看懂,如果能看懂www.cppcns.com的會,你就可以根據百度的分詞去調整自己網頁的關鍵詞權重設計,這樣就可以避免熱詞的競爭,但是又能作到熱詞。希望大家多與小托交流,最後感謝乖乖分享。
本文標題: seo中神秘的分詞切詞 以百度分詞為例
本文位址: /news/seo/66855.html
SEO中關鍵詞的問題總結
我剛剛接觸 優化的時候就經常聽說關鍵詞。當時我並不知道什麼是關鍵詞。我想也有這樣的朋友吧?那我就針對關鍵詞的一些常見問題作一下總結。首先我們要知道什麼是關鍵詞。在搜尋引擎行業,所謂關鍵詞,英文是keyword,就是希望訪問者了解的產品 服務或者公司等內容名稱的用語。知道了關鍵詞的概念了,我們就一起來...
python中的jieba分詞保留給定詞彙
之前在做python的詞云作業時,希望保留一些特定的詞彙,但在網上沒有找到方法,今天在上python課的時候老師給出了解答 首先,呼叫jieba.load userdict 檔名 載入需要保留的詞彙,檔案內容是需要保留的詞彙,然後使用jieba.lcut text 即可對給定的文字進行分析,即可得到...
張贇 揭露SEO的主心骨 SEO將不再神秘
每當談起seo這個詞,很多身邊做技術的朋友就會用疑惑的眼光去看。總是把它當成是乙個高階的技術,搜尋引擎優化其實也只是伴隨搜尋引擎高速發展而萌生出來的乙個子行業。所謂的seo,只要抓住搜尋引擎演算法的幾個核心的因素,那麼seo就不再那麼神秘了。因為任何事物都是萬變不離其中的。當然,抓住基本因素還不夠,...