部分**適應性不高,需進一步修改。
並未設定自動化爬蟲,只是對欄位進行分類處理。
from bs4 import beautifulsoupimport pandas as pd
import requests
import json
import time
import urllib
import re
from urllib.parse import quote
name_lt=pd.read_excel('名單.xlsx')
name_lt=list(name_lt['名單'])
final_result=
url=''+name_lt[204]
url=quote(url, safe='/:?=')
data = urllib.request.urlopen(url).read()
data = data.decode('utf-8')
soup=beautifulsoup(data,"lxml")
soup_pr=soup.prettify()
fig_cv=soup.find_all("div",class_="lemma-summary")
fig_summary=fig_cv[0].text.strip('\n')
fig_info={}
fig_info['姓名']=fig_summary.split(',')[0].replace('[1]','')
fig_info['性別']=fig_summary.split(',')[1]
fig_info['民族']=fig_summary.split(',')[2]
fig_info['出生年份']=fig_summary.split(',')[3][0:4]
fig_info['出生月份']=fig_summary.split(',')[3].split('年')[1].strip('月生')
fig_info['出生省份']=fig_summary.split(',')[4][0:2]
fig_info['出生城市']=fig_summary.split(',')[4].rstrip('人')[-2:]
fig_info['其他']=fig_summary.split(',',5)[5]
for fig_exp in soup.find_all("div",class_="para-title level-2"):
result=
tmp=fig_exp
#tmp=tmp.span.clear()
key=tmp.text.replace(fig_info['姓名'],'')
fig_start=fig_exp.next_sibling
result=
for sibling in fig_start.next_siblings:
if sibling!='\n':
if sibling.has_attr('class'):
if sibling['class'][0]!='para':
break
else:
fig_info[key]=result
百度百科爬蟲PHP
header content type text html charset utf 8 接受前台資料 data id post data id url data id var dump url ch curl init curl setopt ch,curlopt url,url curl seto...
java爬取百度百科詞條
一 parsehtml部分 此部分用於對html中的標籤進行分析,提取出相應的可以內容 url和文字內容 public class parsehtml public void parse content document document,listcontents 二 用於解析url所獲取的html...
AnimateWindow 百度百科
animatewindow 開放分類 程式設計 計算機 api 函式功能 該函式能在顯示與隱藏視窗時能產生特殊的效果。有兩種型別的動畫效果 滾動動畫和滑動動畫。函式原型 bool animatewindow hwnd hwnd,dword dwtime,dword dwflags 引數 hwnd 指...