#!/usr/bin/python
#encoding=utf-8
__author__ = 'administrator'
import selenium
import sys
import urllib
import requests
import re
if __name__ == "__main__":
import os
from selenium import webdriver
from selenium.webdriver.support.ui import webdriverwait
chromedriver = "/home/henson/documents/pycharm/webdriver/chromedriver"
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.chrome(chromedriver)
driver.execute_script("window.scrollto(0, document.body.scrollheight);")
driver.get('')
#inputelement = driver.find_element_by_xpath("//*[@id='b_text0']")#//*[@id="b_text0"]
inputelement = driver.find_element_by_name("b_text0")
#inputelement = driver.find_element_by_onkeypress("enterykeyno(event)")
searchword="大氣"
print(url)
q1:怎麼匹配href裡的字段,有些相同是element似乎只能通過正則來爬取了
q2:按鈕觸發的鏈結怎麼爬取,按照靜態的爬取只能抓取到頁面上能看到的鏈結,而子節點的鏈結去無法抓取
q3:怎麼抓取子節點的東西
q4:為什麼 from bs4 import beautifulsoup失敗
ps:chrome driver 確實很好用
以上就是這兩天來的學習困惑,待解決#
高階之旅 一
前言 工具 androidstudio 夜神android模擬器 先介紹rect與rectf,下面會用到 相同點都是用於表示座標系中的一塊矩形區域,並可以對其做一些簡單操作。這塊矩形區域,需要用左上和右下兩個座標點表示。區別就是精度不一樣。rect是使用int型別作為數值,rectf是使用float...
武夷之旅一
乘上了廈門航空的波音737,飛機在轟鳴聲中迅速爬公升,武夷山四天之旅也宣告開幕。中間停靠福州後,下午一點多才著陸武夷山機場,機場以前是個軍用機場,候機樓只有一層,在廣州這頂多是個汽車客運站的規模 匆匆吃完中飯,立即開始我們的第一天行程 水簾洞 大紅袍。天氣還可以,多雲,有點兒悶。武夷山的山大部分是地...
爬蟲(一)初識爬蟲
網路爬蟲 又被稱為網頁蜘蛛,網路機械人 就是模擬瀏覽器傳送網路請求,接收請求響應,一種按照一定的規則,自動地抓取網際網路資訊的程式。原則上,只要是瀏覽器 客戶端 能做的事情,爬蟲都能夠做 爬蟲的工作流程 robots協議 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取,但它僅僅是...