百度百科基本資訊欄資料爬取

2021-08-19 01:07:49 字數 1741 閱讀 2182

一,**例項

'''用於配置鏈結

在爬取的過程中需要對head字典中配置進行介面卡設定,其中資訊可以通過瀏覽器中獲得

而head存在的意義就是在爬取資料的時候,模擬瀏覽器去向伺服器請求資料

因為有些**設定了反扒機制,所以在爬取不同**時需要配置的引數是不同的,反扒做的越全面需要配置的資訊越多

head=

url=''%name

html=requests.get(url,headers=head)

html=html.content.decode('utf-8')

return html

def get_one_moive(html):

'''正規表示式匹配'''

try:

text1 = u'中文名.*?lass=.*?value.*?>\\n(.*?)\\n'

chinesename = re.search(text1, html, re.s)

chinesename = chinesename.group(1)

# print chinesename

except:

pass

try:

text3 = u'類    型.*?lass=.*?>\\n(.*?)\\n'

liexing = re.search(text3, html, re.s)

liexing = liexing.group(1)

# print liexing

except:

pass

return chinesename,liexing

if __name__=='__main__':

import sys

reload(sys)

from tqdm import tqdm

sys.setdefaultencoding('utf8')

path = 'c:\\users\\aaaa\\desktop\\bbbb\\code\\reptile\\prod_name_new.csv'

df = pd.read_csv(path,sep=',')

df2 = pd.dataframe(columns=['name','leixin'], index=none)

# 將查詢電影的節目名稱用pandas 讀取進來

for i in tqdm(range(df.shape[0])):

name = df['film_name'][i]

# name = '小豬佩奇'

java爬取百度百科詞條

一 parsehtml部分 此部分用於對html中的標籤進行分析,提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二 用於解析url所獲取的html...

百度百科爬蟲爬人物資訊

部分 適應性不高,需進一步修改。並未設定自動化爬蟲,只是對欄位進行分類處理。from bs4 import beautifulsoup import pandas as pd import requests import json import time import urllib import r...

爬取百度百科1000個頁面資料

實現 自己遇到的問題以及處理方法 q1 response urlib.request.urlopen response.read 多次read為空b a1 read 後,原response會被清空 q2 使用python寫檔案的時候,或者將網路資料流寫入到本地檔案的時候,大部分情況下會遇到 unic...