在寫完《quora是如何做推薦的》一文之後,我在思考乙個問題:伴隨著quora、知乎這樣的知識分享型社群的興起,湧現了一大批各個領域的專家使用者,這會對推薦系統帶來哪些可能的變化呢?恰好今天在讀馬爾科姆·格拉德威爾的《眨眼之間》這本書的時候,看到了這麼一段,
當我們在某一方面修煉到登堂入室的程度時,我們的品味會變得愈發專業精深、愈發讓外行難以理解。也就是說,只有專家才能對自己的反饋資訊和看法負起責任。首先定義「專家/expert」,他們必須是這樣的一群人:在乙個特定的領域內,能對該領域內的條目給出深思熟慮的、一致的、可靠的評價(打分)。[2]
1)通過對 netflix users vs. experts(作者自己收集的)的資料進行對比分析
得出結論認為,
2)進行 nearest-neighbor cf vs. expert cf 的推薦效果對比,主要評價「準確性/mad」和「覆蓋率/coverage」兩個指標,
結論是,expert-cf 大多數情況下與 nn-cf 效果相當。
3)進行 nearest-neighbor cf vs expert cf 的推薦效果的使用者調研,推薦系統最終是為使用者服務的,使用者說好才是真的好!
證明了 expert-cf 的可用性之後,吸引人的是這個方法相對傳統cf方法,能夠帶來的好處。
1、data sparsity,資料稀疏性
專家的打分資料資料通常涵蓋面更廣,使用這個資料作推薦,解決了傳統 cf 的資料稀疏問題。
2、noise and malicious ratings,噪音及惡意打分
專家的打分通常更加認真或是專業,解決了使用者不小心打錯分及惡意搗亂的問題。
3、cold start problem,冷啟動問題
專家通常更加關注自己領域內的新事物,並能夠更快地給出評價。
4、scalability,可擴充套件性
對於 (n-user, m-item) 的推薦問題,傳統 nn-cf 的演算法複雜度是 o(n2m),計算量很大。而expert-cf方法可以大幅度降低計算成本。比如**裡的資料,169 experts vs. 500, 000 potential neighbors (netflix database)。
5、privacy,使用者隱私
當年我這篇blog發出之後,在推薦圈引發了一些小討論,當年還是豆瓣演算法組小鮮肉現在已經成為機器學習大牛的阿穩同學也給出了自己的解讀。[2]
之所以要提出專家cf的演算法取代傳統的cf,是基於傳統cf的一些弊病,比如資料的稀疏性,資料雜訊以及計算量的龐大等等,而正是這些資料上的原因導致傳統cf演算法推薦多樣性不足、推薦不準確以及推薦可擴充套件性不良好等種種問題。這裡提出的專家cf演算法目的並不在於在某些數學精度指標上壓倒傳統的cf演算法,而希冀能**如下幾個問題:類似於saas,目前又有個提法叫做「資料即服務」。留個討論,你認同daas嗎,和本文的方法結合這裡面可能有什麼機會呢?一起開開腦洞吧。乙個龐大的使用者集合的偏好是否可以通過乙個比較小的使用者集合的偏好**出來;
分析專家的收藏是否可以用作普通使用者的推薦;
**專家cf是否能解決傳統cf的一些難題。
至少在大部分的場合,我們需要的並不是與自己相似的使用者的推薦,而是與自己相似的專家的推薦。無論是看書、看電影、買手機、買筆記本,那批「行內人物」的觀點往往是左右我們決定的主要因素。這個結論在個性化要求相對比較低的中國顯得更為真實。
做乙個少數人特別需要的產品
在你做創業產品的時候,一定要縮小目標市場。有時候應該故意挑選一些有著強烈需求的細分市場。y combinator 的聯合創始人 paul graham 曾經寫道,這就像集中火力燃燒乙個點,在它變得很熱之前不要盲目的加柴火。下面給你列一些成功產品的例子 facebook 在剛啟動的時候只針對哈佛的學生...
創業階段真理往往掌握在少數人手中
聽上海泰景總經理王翰青講過乙個故事,現在出貨量已經接近3000萬顆的模擬電視手機晶元開始推廣之初並不順利,起步階段支援模擬電視的手機都採用較大的顯示屏,雖然市場反應不錯,卻損失了大多數習慣小巧機型的女性市場,當王翰青向合作夥伴推薦小螢幕模擬電視手機方案時,大多數手機製造商並沒有採用,雖然泰景的推薦是...
蔚來回應莊莉離職 不會因少數人員的正常流動受到影響
techweb 6月30日,蔚來汽車es8的召回風波剛剛過去,昨日晚間訊息,蔚來軟體發展副總裁莊莉日前被曝已從公司離職。對此,蔚來汽車確認了訊息屬實,並表示蔚來研發人員有幾千人,在過去的四年半中,研發體系架構完整且成熟,不會因為少數人員的正常流動受到影響。同時據悉,蔚來北京和上海的軟體團隊已經在拆開...