170311 Python steam遊戲排行爬蟲

2021-07-28 08:31:37 字數 1285 閱讀 3015

1625-5 王子昂 總結《2023年3月11日》 【連續第161天總結】

a.python爬蟲

b.之前爬蟲試圖不僅把名字爬下來,而且想把標籤和**也收集進來,但是嘗試了很多次,雖然能夠單獨爬下標籤,但是只要同時放入正規表示式中就爬不到。研究了很久也沒明白是什麼問題

最後把源**中的整段複製下來的時候發現中間有大段的空格,並且位於兩個段落中。也就是說中間有乙個換行符,而我剛才看到正規表示式中'.'能表示任意字元,除了換行符。於是在中間加上換行符的匹配,終於成功

然後想要匹配標籤的時候,因為每個遊戲帶有的標籤個數數目不定,因此本來想用重複分組和捕獲來完成的。但是看來每個括號分組的緩衝區只能儲存乙個資料,也就是說當使用重複分組時,第二次捕獲的內容會把緩衝區的內容覆蓋。

搞了很久沒明白,最後**給出了乙個另類的解決方案:先把重複的標籤部分全部捕獲下來,然後使用字串的split方法來分隔。因為目標是重複的分組,所以split方法一定能得到需要的內容

目前完成了爬取steam遊戲排行榜中的遊戲、**和標籤的**:

#encoding:utf-8

importurllib2

importre

i=0#url=''

url=''# url=''+str(i)

request=urllib2.request(url)

response=urllib2.urlopen(request)

data=response.read()

reg=r'discount_final_price">(¥ \d+).+?\n.+?([^<]*)

.+?\n.+?\n.+?'+ \

r'(?:(.+?))

'# r'(.+?)'

imgre=re.compile(reg)

imglist=re.findall(imgre,data)

printimglist

forproinimglist:

printpro[:-1],

tag = str(pro[2]).split('

, ')

printtag

c.明日計畫
python爬蟲願望單中打折的遊戲

「拈」遊戲系列一 一排石頭的遊戲

這個題目來自於程式設計之美上的nim 1 一排石頭的遊戲,該類問題能考察面試者的思維,往往是兩個人玩的乙個遊戲,具體形式公司可以具體設定,這裡題目的意思是取石頭的數目有規定,也可以使報數每次只能增加幾個數字等。該類題目往往是要把最後乙個取完石頭定位為贏或者輸。該類題目第乙個取石頭的人占有主動權也有被...

一排石頭的遊戲

程式設計之美 1.11節介紹了乙個取石頭的遊戲,遊戲規則如下 n個石頭排成一行,兩個玩家依次取石頭,每次可以取一塊或者相鄰的兩塊,取到最後一塊石頭的獲勝。如果a方先手,如何保證自己獲勝?書中給出了乙個a必勝的方案,如果總共有奇數個石頭,a取走中間的一塊,如果總共有偶數塊石頭,a取走中間的兩塊,這樣石...

一排石頭的遊戲(續)

我們繼續分析9棵石頭的情況,在正式開始研究之前,讓我們先研究幾種簡單的情況。前面的分析中我們已經研究了幾種先手必輸的方案,包括1,4,2 2 其中 表示不連續的兩堆或多堆 3 3。我們另外引入幾個新的先手必輸的方案,分別是 1 2 3 假設a先取,a所有可能的取法包括 1 取走1,變成2 3,相當於...