好久沒有寫ruby**了,手有點生,今年準備多練練~
require 'rubygems'
require 'hpricot'
require 'open-uri'
require 'fileutils'
def wri
url = ""
(1..22).each do |page|
sub_url = url+page.to_s+".html"
get_novel(sub_url)
endend
def get_novel(target_url)
puts target_url
doc = hpricot(open(target_url))
ele = doc.search("div[@id=content]")
write_file(ele.inner_html,"test")
enddef write_file(file_content,title)
path = "e:\\"
file_name = path+title+".html"
file = file.open(file_name,"a")
file.puts file_content
file.close
endwri
hpricot挺好用,可以根據css的class來找,還可以根據id來找。
ele = doc.search("div[@id=content]")
就是找到id是content的div
就這樣吧,簡單記錄下。
android使用jsoup來抓取網頁資料
首先去官網 這次爬取的是某網的資料 本次爬取僅為測試,不得用於商業用途,用於商業用途與本人無關 在瀏覽器中檢視頁面的原始碼,找到我們要爬的資料 整個條目的網頁 如下 1.根據條目的class來定位我們要抓取的資料 elements elementsbyclass doc.getelementsbyc...
設定Fiddler來抓取Android介面資料
2.將fiddler設定遠端訪問pc 選擇fiddler tools fiddler option 3.選擇connection,在fiddler listen on port後輸入8888,表示允許遠端pc連線。5.修改手機wifi配置 保證手機wifi和pcwifi連線同乙個wifi 進入wla...
Python抓取小說
這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...