python分布式程序Queue通訊

2021-08-14 07:19:21 字數 3307 閱讀 6920

說明:本篇部落格**於廖雪峰教程

在多程序和多執行緒程式設計中,因為程序更加穩定,且可以分布到多台機器上,而執行緒最多只能分布到一台機器的不同cpu上,所以優選程序

python的multiprocessing模組不但支援多程序,其中managers子模組還支援把多程序分布到多台機器上。乙個服務程序可以作為排程者,將任務分布到其他多個程序中,依靠網路通訊。由於managers模組封裝很好,不必了解網路通訊的細節,就可以很容易地編寫分布式多程序程式

我們已經有乙個通過queue通訊的多程序程式在同一臺機器上執行,現在,由於處理任務的程序任務繁重,希望把傳送任務的程序和處理任務的程序分布到兩台機器上。怎麼用分布式程序實現?

原有的queue可以繼續使用,但是,通過managers模組把queue通過網路暴露出去,就可以讓其他機器的程序訪問queue了。

我們先看服務程序,服務程序負責啟動queue,把queue註冊到網路上,然後往queue裡面寫入任務:

# task_master.py

import random, time, queue

from multiprocessing.managers import basemanager

# 傳送任務的佇列:

task_queue = queue.queue()

# 接收結果的佇列:

result_queue = queue.queue()

# 從basemanager繼承的queuemanager:

class

queuemanager

(basemanager):

pass

# 把兩個queue都註冊到網路上, callable引數關聯了queue物件:

queuemanager.register('get_task_queue', callable=lambda: task_queue)

queuemanager.register('get_result_queue', callable=lambda: result_queue)

# 繫結埠5000, 設定驗證碼'abc':

manager = queuemanager(address=('', 5000), authkey=b'abc')

# 啟動queue:

manager.start()

# 獲得通過網路訪問的queue物件:

task = manager.get_task_queue()

result = manager.get_result_queue()

# 放幾個任務進去:

for i in range(10):

n = random.randint(0, 10000)

print('put task %d...' % n)

task.put(n)

# 從result佇列讀取結果:

print('try get results...')

for i in range(10):

r = result.get(timeout=10)

print('result: %s' % r)

# 關閉:

manager.shutdown()

print('master exit.')

請注意,當我們在一台機器上寫多程序程式時,建立的queue可以直接拿來用,但是,在分布式多程序環境下,新增任務到queue不可以直接對原始的task_queue進行操作,那樣就繞過了queuemanager的封裝,必須通過manager.get_task_queue()獲得的queue介面新增。

然後,在另一台機器上啟動任務程序(本機上啟動也可以)

# task_worker.py

import time, sys, queue

from multiprocessing.managers import basemanager

# 建立類似的queuemanager:

class

queuemanager

(basemanager):

pass

# 由於這個queuemanager只從網路上獲取queue,所以註冊時只提供名字:

queuemanager.register('get_task_queue')

queuemanager.register('get_result_queue')

# 連線到伺服器,也就是執行task_master.py的機器:

server_addr = '127.0.0.1'

print('connect to server %s...' % server_addr)

# 埠和驗證碼注意保持與task_master.py設定的完全一致:

m = queuemanager(address=(server_addr, 5000), authkey=b'abc')

# 從網路連線:

m.connect()

# 獲取queue的物件:

task = m.get_task_queue()

result = m.get_result_queue()

# 從task佇列取任務,並把結果寫入result佇列:

for i in range(10):

try:

n = task.get(timeout=1)

print('run task %d * %d...' % (n, n))

r = '%d * %d = %d' % (n, n, n*n)

time.sleep(1)

result.put(r)

except queue.empty:

print('task queue is empty.')

# 處理結束:

print('worker exit.')

任務程序要通過網路連線到服務程序,所以要指定服務程序的ip。

queue物件儲存在哪?注意到task_worker.py中根本沒有建立queue的**,所以,queue物件儲存在task_master.py程序中:

而queue之所以能通過網路訪問,就是通過queuemanager實現的。由於queuemanager管理的不止乙個queue,所以,要給每個queue的網路呼叫介面起個名字,比如get_task_queue。

authkey有什麼用?這是為了保證兩台機器正常通訊,不被其他機器惡意干擾。如果task_worker.py的authkey和task_master.py的authkey不一致,肯定連線不上。

python 分布式程序

process可以分布到多台機器上,而thread最多只能分布到同一臺機器的多個cpu上。python的multiprocessing模組不但支援多程序,其中managers子模組還支援把多程序分布到多台機器上。乙個服務程序可以作為排程者,將任務分布到其他多個程序中,依靠網路通訊。由於manager...

Python 分布式程序

分布式程序是將process程序分布到多台伺服器中,利用多台機器的效能完成複雜的任務。可以應用到分布式爬蟲的開發中。分布式程序在python中依然要用到multiprocess模組。它不但支援多程序,其中managers子模組還支援吧多程序分不到多台機器上,可以寫乙個服務程序作為排程者,將任務分不到...

python 學習 分布式程序

伺服器端 import random,time,queue from multiprocessing.managers import basemanager 傳送任務的佇列 task queue queue.queue 接收結果的佇列 result queue queue.queue class q...