爬蟲之旅(一)

2021-08-04 03:17:57 字數 3189 閱讀 5774

#!/usr/bin/python

#encoding=utf-8

__author__ = 'administrator'

import selenium

import sys

import urllib

import requests

import re

if __name__ == "__main__":

import os

from selenium import webdriver

from selenium.webdriver.support.ui import webdriverwait

chromedriver = "/home/henson/documents/pycharm/webdriver/chromedriver"

os.environ["webdriver.chrome.driver"] = chromedriver

driver = webdriver.chrome(chromedriver)

driver.execute_script("window.scrollto(0, document.body.scrollheight);")

driver.get('')

#inputelement = driver.find_element_by_xpath("//*[@id='b_text0']")#//*[@id="b_text0"]

inputelement = driver.find_element_by_name("b_text0")

#inputelement = driver.find_element_by_onkeypress("enterykeyno(event)")

searchword="大氣"

print(url)

q1:怎麼匹配href裡的字段,有些相同是element似乎只能通過正則來爬取了

q2:按鈕觸發的鏈結怎麼爬取,按照靜態的爬取只能抓取到頁面上能看到的鏈結,而子節點的鏈結去無法抓取

q3:怎麼抓取子節點的東西

q4:為什麼 from bs4 import beautifulsoup失敗

ps:chrome driver 確實很好用

以上就是這兩天來的學習困惑,待解決#

高階之旅 一

前言 工具 androidstudio 夜神android模擬器 先介紹rect與rectf,下面會用到 相同點都是用於表示座標系中的一塊矩形區域,並可以對其做一些簡單操作。這塊矩形區域,需要用左上和右下兩個座標點表示。區別就是精度不一樣。rect是使用int型別作為數值,rectf是使用float...

武夷之旅一

乘上了廈門航空的波音737,飛機在轟鳴聲中迅速爬公升,武夷山四天之旅也宣告開幕。中間停靠福州後,下午一點多才著陸武夷山機場,機場以前是個軍用機場,候機樓只有一層,在廣州這頂多是個汽車客運站的規模 匆匆吃完中飯,立即開始我們的第一天行程 水簾洞 大紅袍。天氣還可以,多雲,有點兒悶。武夷山的山大部分是地...

爬蟲(一)初識爬蟲

網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...