很多時候系統只會推送那些大v發布的微博,而對於新人發布的優質內容就會忽略。那麼如何避免這一問題呢?首先要做的就是發現優質內容的微博。
(1)基本屬性
一般指使用者側的基本屬性,如年齡、性別等。由於資料中無相關資訊,於是無需進行分析。
(2)使用者-博文交叉特徵(統計特徵)
1)過去乙個月:
-發布博文總數
2)過去一周:
-發布博文總數
(1)基本屬性
-是星期幾
-是否週末
-是否是節假日
-發文時間段(分24個時間段)
(2)統計特徵
過去一周每個時間段的:
-發布博文總數
注:由於**的資料集中存在沒有使用者統計特徵的資料,為了提高模型的泛化性,最後新增一維特徵為
-是否有使用者統計特徵(過去三個月是否發過微博)
實驗結果是大大改進模型的精度,於是如何細化到每人每詞的統計特徵,但是這樣會使得特徵十分稀疏,於是把詞的粒度放粗,對微博進行聚類,得到每人每類簇的統計特徵,從而大大提高模型的效果。
使用者-類別的互動特徵
(1)利用訓練集訓練詞向量;
(2)使用詞向量對微博進行聚類;
(3)計算每人每類簇的統計特徵;
基於simhash的短文本去重
usr bin env python coding utf 8 利用simhash進行文字去重 from simhash import simhash,simhashindex import jieba import codecs import datetime import os class du...
基於ML的中文短文本聚類
整個過程分為以下幾個步驟 一 引入,python 依賴包,並載入語料 import random import jieba import pandas as pd import numpy as np from sklearn.feature extraction.text import tfidf...
標籤,短文本引用
想在你的html中加一段引用嗎?比如在你的網頁的文章裡想引用某個作家的一句詩,這樣會使你的文章更加出彩,那麼標籤是你所需要的。語法 引用文字 如下面例子 最初知道莊子,是從一首詩莊生曉夢迷蝴蝶。望帝春心託杜鵑。開始的。雖然當時不知道是什麼意思,只是覺得詩句挺特別。後來才明白這個典故出自是莊子的 逍遙...