專案申報之後,要做的就是發表一篇學術**。其實我對這個毫無壓力,因為我已經做過了實驗,我只需要將實驗結果寫到**裡面即可。
但是,我的老師突然告訴我,我申報了服裝推薦系統,那我的實驗也得是服裝的。換句話說,我的資料必須是服裝資料。
只能硬著頭皮做了。
import json
import re
import requests
import html
import time
import json
def crawl_page(page):
url=""+str(page)+"&sort=sort_rank_asc&trans=1&jl=6_0_0#j_main"
res=requests.get(url)
body=res.text
pattern=re.compile("var attrlist = (.*?)var other_exts",re.s)
id_pattern=re.compile("[, ](\d.*?):\
for page in range(0,int(maxpage[0])):
str1=""
str1=str1+item
str1=str1+"&score=0&sorttype=5&page="
str1=str1+str(page)+"&pagesize=10&isshadowsku=0&rid=0&fold=1"
url=str1
res=requests.get(url)
body=res.text
output1=
for div in m:
content=content_pattern.search(div).group(1)
nick=nick_pattern.search(div).group(1)
score=score_pattern.search(div).group(1)
level=level_pattern.search(div).group(1)
user=[score,level]
output2.setdefault(nick,user)
count=1
for key in output2:
if count<4:
count=count+1
fo.write(item+" "+key+" "+output2[key][0]+" "+output2[key][1]+"\n")
else:
count=1
ft.write(item+" "+key+" "+output2[key][0]+" "+output2[key][1]+"\n")
if __name__=='__main__':
for i in range(1,6):
crawl_page(i)
又是繁瑣的環境配置。但是當這個爬蟲跑起來的時候,我有一種自己做的東西比市面上500塊乙個月的爬蟲軟體還要好用的優越感。這種感覺又讓我充滿了自信。
獲取了這些資料之後我做了實驗,發現這些資料應該是處理過的,而且使用者水軍很多(不知道這一點能不能**文呢)。
但是還是用這個資料的實驗結果寫了篇協同過濾演算法改進的**。
也正是這篇**的完成,意味著我在機器學習上面的研究可以暫時告一段落了,也正是這個時候我才有時間好好的總結一下過去的學習。接下來我準備acm9月份的省賽。大三的時候我又會回過頭來繼續研究。希望那個時候我身上有個獎牌吧。
推薦系統的學習歷程(二)
前面都是大二上學期的事情了,到了大二的下學期。老師急著要成果,我之前做的鋪墊也可以得到一點體現了。經過了乙個寒假的讀 我也開始對這個演算法有了不錯的理解。發現這不過是統計學,高等數學,線性代數的簡單應用而已。看過很多文獻對這些演算法的改進,我自己也想過很多改進方法,但是很可惜的是我沒有去 一 一 的...
19期推薦系統實踐學習 三)
所謂的 多路召回 策略,就是指採用不同的策略 特徵或簡單模型,分別召回一部分候選集,然後把候選集混合在一起供後續排序模型使用,可以明顯的看出,多路召回策略 是在 計算速度 和 召回率 之間進行權衡的結果。其中,各種簡單策略保證候選集的快速召回,從不同角度設計的策略保證召回率接近理想的狀態,不至於損傷...
機器學習 推薦系統
在各類 軟體或各大購物 裡,通常會存在推薦系統。它可以根據每個使用者的個人喜好為使用者推薦相應的歌曲 商品 從而增加使用者體驗,並提高了產品的銷量。因此,推薦系統是乙個很值得學習的應用領域。如下圖所示,這是4個使用者對5部電影的評價,我們要求評價只能是0 5之間的數。可以看出,有一些已經打分了,有一...