說明:本篇部落格**於廖雪峰教程
在多程序和多執行緒程式設計中,因為程序更加穩定,且可以分布到多台機器上,而執行緒最多只能分布到一台機器的不同cpu上,所以優選程序
python的multiprocessing模組不但支援多程序,其中managers子模組還支援把多程序分布到多台機器上。乙個服務程序可以作為排程者,將任務分布到其他多個程序中,依靠網路通訊。由於managers模組封裝很好,不必了解網路通訊的細節,就可以很容易地編寫分布式多程序程式
我們已經有乙個通過queue通訊的多程序程式在同一臺機器上執行,現在,由於處理任務的程序任務繁重,希望把傳送任務的程序和處理任務的程序分布到兩台機器上。怎麼用分布式程序實現?
原有的queue可以繼續使用,但是,通過managers模組把queue通過網路暴露出去,就可以讓其他機器的程序訪問queue了。
我們先看服務程序,服務程序負責啟動queue,把queue註冊到網路上,然後往queue裡面寫入任務:
# task_master.py
import random, time, queue
from multiprocessing.managers import basemanager
# 傳送任務的佇列:
task_queue = queue.queue()
# 接收結果的佇列:
result_queue = queue.queue()
# 從basemanager繼承的queuemanager:
class
queuemanager
(basemanager):
pass
# 把兩個queue都註冊到網路上, callable引數關聯了queue物件:
queuemanager.register('get_task_queue', callable=lambda: task_queue)
queuemanager.register('get_result_queue', callable=lambda: result_queue)
# 繫結埠5000, 設定驗證碼'abc':
manager = queuemanager(address=('', 5000), authkey=b'abc')
# 啟動queue:
manager.start()
# 獲得通過網路訪問的queue物件:
task = manager.get_task_queue()
result = manager.get_result_queue()
# 放幾個任務進去:
for i in range(10):
n = random.randint(0, 10000)
print('put task %d...' % n)
task.put(n)
# 從result佇列讀取結果:
print('try get results...')
for i in range(10):
r = result.get(timeout=10)
print('result: %s' % r)
# 關閉:
manager.shutdown()
print('master exit.')
請注意,當我們在一台機器上寫多程序程式時,建立的queue可以直接拿來用,但是,在分布式多程序環境下,新增任務到queue不可以直接對原始的task_queue進行操作,那樣就繞過了queuemanager的封裝,必須通過manager.get_task_queue()獲得的queue介面新增。
然後,在另一台機器上啟動任務程序(本機上啟動也可以)
# task_worker.py
import time, sys, queue
from multiprocessing.managers import basemanager
# 建立類似的queuemanager:
class
queuemanager
(basemanager):
pass
# 由於這個queuemanager只從網路上獲取queue,所以註冊時只提供名字:
queuemanager.register('get_task_queue')
queuemanager.register('get_result_queue')
# 連線到伺服器,也就是執行task_master.py的機器:
server_addr = '127.0.0.1'
print('connect to server %s...' % server_addr)
# 埠和驗證碼注意保持與task_master.py設定的完全一致:
m = queuemanager(address=(server_addr, 5000), authkey=b'abc')
# 從網路連線:
m.connect()
# 獲取queue的物件:
task = m.get_task_queue()
result = m.get_result_queue()
# 從task佇列取任務,並把結果寫入result佇列:
for i in range(10):
try:
n = task.get(timeout=1)
print('run task %d * %d...' % (n, n))
r = '%d * %d = %d' % (n, n, n*n)
time.sleep(1)
result.put(r)
except queue.empty:
print('task queue is empty.')
# 處理結束:
print('worker exit.')
任務程序要通過網路連線到服務程序,所以要指定服務程序的ip。
queue物件儲存在哪?注意到task_worker.py中根本沒有建立queue的**,所以,queue物件儲存在task_master.py程序中:
而queue之所以能通過網路訪問,就是通過queuemanager實現的。由於queuemanager管理的不止乙個queue,所以,要給每個queue的網路呼叫介面起個名字,比如get_task_queue。
authkey有什麼用?這是為了保證兩台機器正常通訊,不被其他機器惡意干擾。如果task_worker.py的authkey和task_master.py的authkey不一致,肯定連線不上。
python 分布式程序
process可以分布到多台機器上,而thread最多只能分布到同一臺機器的多個cpu上。python的multiprocessing模組不但支援多程序,其中managers子模組還支援把多程序分布到多台機器上。乙個服務程序可以作為排程者,將任務分布到其他多個程序中,依靠網路通訊。由於manager...
Python 分布式程序
分布式程序是將process程序分布到多台伺服器中,利用多台機器的效能完成複雜的任務。可以應用到分布式爬蟲的開發中。分布式程序在python中依然要用到multiprocess模組。它不但支援多程序,其中managers子模組還支援吧多程序分不到多台機器上,可以寫乙個服務程序作為排程者,將任務分不到...
python 學習 分布式程序
伺服器端 import random,time,queue from multiprocessing.managers import basemanager 傳送任務的佇列 task queue queue.queue 接收結果的佇列 result queue queue.queue class q...