#! /usr/bin/env python
#coding=utf-8
#sina小爬蟲
site = "" #http://不能少哦
reptile_sina = reptitle(site)
print "[+]getting the urls...\n"
reptile_sina.get_urls(site)
reptile_sina.store_urls("sina_urls.txt")
print "get the urls finished!\n"
print "totle urls is " + str(reptile_sina.url_count)
爬天氣的乙個小爬蟲
使用bs,requests寫的 coding utf 8 import requests import re import argparse from bs4 import beautifulsoup parser argparse.argumentparser parser.add argumen...
記錄乙個爬蟲小作業1
老師又布置了乙個爬蟲作業,雖然很簡單,但是值得記錄一下,爬取豆瓣電影top250頁面電影標題,對爬取到的標題記錄在txt中,再通過wordcloud做出。如下。import requests from bs4 import beautifulsoup from wordcloud import wo...
今天來做乙個PHP電影小爬蟲。
今天來做乙個php 電影小爬蟲。我們來利用 html dom的採集資料例項,這是乙個php的庫,上手很容易。html dom 可以很好的幫助我們利用php解析html文件。通過這個php封裝類可以很方便的解析html文件,對其中的html元素進行操作 php5 以上版本 下面我們以 上的列表頁 字母...