開啟後看到是一些歌名還有hash等資訊。按照hash|filename的方式存在檔案裡,先貼**
#coding=utf-8
import urllib
import re
import os
def gethtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def gethash(html):
reg = r'"hash":"(.+?)",'
has = re.compile(reg)
hashlist = re.findall(has,html)
with open('1.txt','w') as f:
for has in hashlist:
f.write(has+"|"+"\r\n")
def getname(html):
reg=r'"filename":"(.+?)",'
name=re.compile(reg)
namelist=re.findall(name,html)
with open('1.txt','rb') as fr:
with open('2.txt','wb') as fw:
for name in namelist:
for l in fr:
fw.write(l.replace(b'\r\n', name+b'\r\n'))
break
html=gethtml("")
gethash(html)
getname(html)
os.remove('1.txt')
說起來也比較簡單,就是拿到取html頁面後按照正則取兩次內容後存在txt裡面。
Python 爬取網頁
先謝郭嘉 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預爬網頁資訊 1 網頁url 3.下面就可以爬取網頁了 以鏈家二手房為例 1.爬取網頁所必須的庫 import urllib.request import ssl 2.獲取預...
Python 簡單爬取網頁資料
爬取我的csdn網頁 import requests 時出現紅線,這時候,我們將游標對準requests,按快捷鍵 alt enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了...
python簡單爬取網頁文字操作體會
簡單的實現爬蟲爬取網頁文字和 以python3為背景,這裡還是先定義乙個讀取html頁面資訊的函式 import urllib.request defgethtml url page urllib.request.urlopen url 開啟url位址 html page.read decode u...