create database pan default charset utf8
git clone
開啟 bin/spider.py ,修改 db_host、db_port、db_user、db_pass
如果你是第一次部署,需執行下面命令,完成做種
python bin/spider.py --seed-user
然後執行
python bin/spider.py
上面都來自
我發現當這個爬蟲爬了45分鐘後便開始變慢
我寫了乙個指令碼讓他30分鐘結束程序然後繼續開啟
當關閉命令列後程序會結束#!/bin/bash
# a為程式啟動結束的計數變數
a=1# 掛載資料盤
sudo mount /dev/sda1 /data
echo "mount ok"
# 開啟mysql
sudo service mysql start
echo "mysql start"
# 爬蟲開啟結束的死迴圈
while (( 1==1 ))
do# 開啟爬蟲並放入後台
# 30分鐘後結束程序
sleep 1800
killall python
sleep 1
echo "program is kill"
let a=a+1
# 寫入檔案
echo $a >> bboysoul
done
用screen命令
百度雲伺服器搭建記錄
查訓伺服器是否是6.5 64位,如下在例項中查訓資訊 yum第一步 python iniparse 0.3.1 2.1.el6.noarch.rpm yum metadata parser 1.1.2 16.el6.x86 64.rpm yum 3.2.29 81.el6.centos.noarch...
百度文庫爬蟲
可用的page number 0 10 20 30 根據url和type爬取檔案類容 doc和txt檔案使用不同的爬取方法 爬取的結果儲存在txt outputs search word freefromwenku main.py 程式入口 readme.md read me requirement...
百度翻譯 爬蟲
2.開啟抓包,發現有三個sub的post請求,確定為ajax,最後乙個post請求攜帶完整引數dog 3.然後檢視返回資料為json串 import requests import json if name main post url kw input 請輸入你要翻譯的文字 修改爬蟲的ua為瀏覽器的...