#-*- coding:utf-8 -*-
#!/usr/bin/env python
import re
import requests
import mysqldb
type = ['熱血','格鬥','戀愛','美少女','校園','搞笑','loli','神魔','機戰','真人','青春','魔法','神話','冒險','運動','競技','童話','親子','教育','勵志','劇情','社會','歷史','戰爭']
url1 = '熱血_s_1_d_2_p_1.html'
header =
html = requests.get(url1,headers=header).content
reg = re.compile(r'(\d*?)
loop=int(pages)
# 型別
for l in type:
#urls = ''+str(l)+'_s_1_d_2_p_1.html'
#頁數for y in range(loop):
urls = ''+str(l)+'_s_1_d_2_p_'+str(y+1)+'.html'
htmls=requests.get(urls,headers=header).content
regs=re.compile(r'節目簡介',html).group(1)\
if re.search(r'節目簡介',html) else "404 error"
#print href
try:
text = requests.get(href,headers=header).content
except:
print "404 error"
name1 = re.search(r'(.*?)',text).group(1)\
if re.search(r'(.*?)',text) else ""
name2 = re.search(r'(.*?)',text).group(1)\
if re.search(r'(.*?)',text) else ""
scores = re.search(r'評分:[\s\s]*?
(.*?)',text).group(1)\
if re.search(r'評分:[\s\s]*?
(.*?)',text) else ""
otname = re.search(r'別名:[\s\s]*?(.*?)',text).group(1).strip().replace("/","")\
if re.search(r'別名:[\s\s]*?(.*?)',text) else ""
shangying = re.search(r'上映:(.*?)',text).group(1)\
if re.search(r'上映:(.*?)',text) else ""
ctype = re.search(r'',text).group(1)\
if re.search(r'',text) else ""
diqu = re.search(r'>地區:[\s\s]*?(.*?)',text).group(1)\
if re.search(r'>地區:[\s\s]*?(.*?)',text) else ""
syage = re.search(r'適用年齡:[\s\s]*?(.*?)[\s\s]*?","").replace("","").replace('if re.search(r'適用年齡:[\s\s]*?(.*?)[\s\s]*?daoyan = re.search(r'span class="director" title="(.*?)"',text).group(1)\
if re.search(r'span class="director" title="(.*?)"',text) else ""
# print name1
# #print name2
# print otname
# print scores
# print shangying
# print syage
# print ctype
# print daoyan
db = mysqldb.connect('localhost','root','ldd1125','youku')
db.set_character_set('utf8')
cursor = db.cursor()
cursor.execute('set names utf8;')
cursor.execute('set character set utf8;')
cursor.execute('set character_set_connection=utf8;')
sql = "insert into caton(ykname,othname,score,age,types,area,director,times) values (%s,%s,%s,%s,%s,%s,%s,%s)"
try:
cursor.execute(sql,(name1,otname,scores,syage,ctype,diqu,daoyan,shangying))
db.commit()
except:
db.rollback()
db.close()
print "*/*******/*"
Python爬蟲之爬取動漫之家
python爬蟲之爬取動漫之家 小白上手爬蟲第一天,簡單爬取 動漫之家。小小目標 1.爬取5頁的動漫 2.以list返回其動漫位址和動漫名字 簡單粗暴,直接附上原始碼 import requests import re 獲取頁面 defgethtmltext url try kv r request...
php 爬取騰訊動漫
先貼醜圖 獲取分類 return array function type 獲取分類列表 param integer id 分類id param integer page 頁碼 return array function typelist id 1,page 1 page resp json deco...
3 爬蟲框架Clawler 爬取優酷電影名
之前我們都是使用htmlagilitypack類庫來進行頁面的爬取,今天我們使用乙個爬蟲框架。框架名稱 clawler 參考位址 設計圖我們通過htmlagilitypack 爬取優酷電影名的例子進行說明。當前例子是很簡單的單頁面的爬取,只爬取頁面上的幾個固定位置的引數內容。我們首先來說明一下,爬蟲...