ps:這條很重要,我的文章中所說的大資料並不是現在很火的大資料話題,前幾天看過一篇大資料的文章,簡單來說:當一台電腦沒法處理或你現在的條件沒法處理的資料就可以談的上大資料了,這個沒有指定的資料量。
爬蟲爬了一晚上,到目前為止已爬取170w+,大早上想了一下,效率不夠,我又不會分布式爬蟲,也只好停下來改**了,這時細心的朋友就會想到我要解釋斷點續爬了啊(斷了之後又要重頭開始麼?)。但今天也只是偽斷點續爬,但會給你們提供乙個思路。
import requests
from lxml import etree
import pymongo
client = pymongo.mongoclient('localhost', 27017)
jianshu = client['jianshu']
topic_urls = jianshu['topic_urls']
host_url = ''
hot_urls = ['/recommendations/collections?page={}&order_by=hot'.format(str(i)) for i in range(1,40)]
city_urls = ['/recommendations/collections?page={}&order_by=city'.format(str(i)) for i in range(1,3)]
def get_channel_urls(url):
html = requests.get(url)
selector = etree.html(html.text)
infos = selector.xpath('//div[@class="count"]')
for info in infos:
part_url = info.xpath('a/@href')[0]
article_amounts = info.xpath('a/text()')[0]
focus_amounts = info.xpath('text()')[0].split('·')[1]
# print(part_url,article_amounts,focus_amounts)
topic_urls.insert_one()
# for hot_url in hot_urls:
# get_channel_urls(hot_url)
for city_url in city_urls:
get_channel_urls(city_url)
這部分**是爬取url儲存到topic_urls表中,其它爬取細節比較簡單,就不多述。
import requests
from lxml import etree
import time
import pymongo
client = pymongo.mongoclient('localhost', 27017)
jianshu = client['jianshu']
author_urls = jianshu['author_urls']
author_infos = jianshu['author_infos']
headers =
def get_article_url(url,page):
link_view = '{}?order_by=added_at&page={}'.format(url,str(page))
try:
html = requests.get(link_view,headers=headers)
selector = etree.html(html.text)
infos = selector.xpath('//div[@class="name"]')
for info in infos:
author_name = info.xpath('a/text()')[0]
authorurl = info.xpath('a/@href')[0]
if ''+ authorurl in [item['author_url'] for item in author_urls.find()]:
pass
else:
# print(''+authorurl,author_name)
author_infos.insert_one()
get_reader_url(authorurl)
time.sleep(2)
except requests.exceptions.connectionerror:
pass
# get_article_url('/c/bdhhpk',2)
def get_reader_url(url):
link_views = ['/users/{}/followers?page={}'.format(url.split('/')[-1],str(i)) for i in range(1,100)]
for link_view in link_views:
try:
html = requests.get(link_view,headers=headers)
selector = etree.html(html.text)
infos = selector.xpath('//li/div[@class="info"]')
for info in infos:
author_name = info.xpath('a/text()')[0]
authorurl = info.xpath('a/@href')[0]
# print(author_name,authorurl)
author_infos.insert_one()
except requests.exceptions.connectionerror:
pass
# get_reader_url('/u/7091a52ac9e5')
import sys
from multiprocessing import pool
from channel_extract import topic_urls
from page_spider import get_article_url
db_topic_urls = [item['topicurl'] for item in topic_urls.find()]
shouye_url = ['/c/bdhhpk']
x = set(db_topic_urls)
y = set(shouye_url)
rest_urls = x - y
def get_all_links_from(channel):
for num in range(1,5000):
get_article_url(channel,num)
if __name__ == '__main__':
pool = pool(processes=4)
pool.map(get_all_links_from,rest_urls)
1 今天還在爬首頁(因為num之前取的17000(首頁文章太多)),我想了下首頁的文章大部分是其它專題推送過來的,就不爬取了,續爬的話我就用二個集合相減,去掉首頁的鏈結,進而爬取。
2 為什麼說是偽斷點爬取呢?因為下次報錯還是要重新開始(除非改程式),但這裡提供了乙個思路給大家,通過集合相減,去爬取其餘的資訊。
簡書非官方大資料新思路
這部分就是新的思路,之前是爬取專題文章的作者,然後爬取作者的粉絲,這部分做完爬取物件。這次是先爬取專題管理員url作為第一層使用者,這部分是非同步載入的,還有就是首頁的和其他的專題在非同步載入的url有所不同 這個大家找包的時候就知道了 我們可以這樣想,基本上管理員的粉絲都會很多,這部分大多像我們一...
簡書推薦作者風雲榜(爬取簡書app資料)
自 作 爬取張佳瑋138w 知乎關注者 資料視覺化 把json資料複製到chrome瀏覽器的json handle外掛程式裡,方便檢視格式和後續爬蟲裡寫提取資訊 很少看到有人提到這個外掛程式,也是蠻奇怪的 寫好爬蟲 爬取資料並存入csv檔案裡,發現一共230名推薦作者。但由於部分資料亂碼,也是很奇怪...
大資料專業考研書 大資料考研
大資料,考研可以選擇哪些專業 大資料 big data 指一般的軟體工具難以捕捉 管理和分析的大容量資料。大資料 之 大 並不僅僅在於 容量之大 更大的意義在於 通過對海量資料的交換 整合和分析,發現新的知識,創造新的價值,帶來 大知識 大科技 大利潤 和 大發展 大資料 能幫助企業找到乙個個難題的...