分布式程序指的是將process程序分布的多台機器上,充分利用多台機器的效能完成複雜的任務,我們可以將這點應用的分布式爬蟲的開發中。
我們舉個簡單例子,服務程序用來設定任務在task_queue,並設定介面。任務程序呼叫相同的介面,執行任務,結果寫進result queue
taskmanager.py : 服務程序
from multiprocessing.managers import basemanagertaskworker.py: 任務程序from multiprocessing import freeze_support
import queue
#任務個數
task_number = 10
#定義收發佇列
task_queue = queue.queue(task_number)
result_queue = queue.queue(task_number)
def get_task():
return task_queue
def get_result():
return result_queue
#建立類似的queenmanager
class queuemanager(basemanager):
pass
def win_run():
queuemanager.register('get_task_queue',callable=get_task)
queuemanager.register('get_result_queue',callable=get_result)
manager = queuemanager(address = ('127.0.0.1',8001),authkey = 'qiye')
manager.start()
try:
task = manager.get_task_queue()
result = manager.get_result_queue()
for url in ["imageurl_" + str(i) for i in range(10)]:
print('put task %s....' % url)
task.put(url)
print('try get result....')
for i in range(10):
print('result is %s' % result.get(timeout=10))
except:
print('manager error')
finally:
manager.shutdown()
if __name__ == '__main__':
freeze_support()
win_run()
import time先執行服務程序, 任務被放進 task_queue:from multiprocessing.managers import basemanager
class queuemanager(basemanager):
pass
queuemanager.register('get_task_queue')
queuemanager.register('get_result_queue')
server_addr = '127.0.0.1'
print('connect to server %s..' % server_addr)
m = queuemanager(address=(server_addr,8001),authkey='qiye')
m.connect()
task = m.get_task_queue()
result = m.get_result_queue()
while(not task.empty()):
image_url = task.get(true,timeout=5)
print('run task download %s ....' % image_url)
time.sleep(1)
result.put('%s----->success' % image_url)
print ('work exit.')
put task imageurl_0....
put task imageurl_1....
put task imageurl_2....
put task imageurl_3....
put task imageurl_4....
put task imageurl_5....
put task imageurl_6....
put task imageurl_7....
put task imageurl_8....
put task imageurl_9....
try get result....
服務程序還在執行時,執行任務程序,
connect to server 127.0.0.1..
run task download imageurl_0 ....
run task download imageurl_1 ....
run task download imageurl_2 ....
run task download imageurl_3 ....
run task download imageurl_4 ....
run task download imageurl_5 ....
run task download imageurl_6 ....
run task download imageurl_7 ....
run task download imageurl_8 ....
run task download imageurl_9 ....
work exit.
任務程序結束後,可以看到資料被寫入result_queue:
result is imageurl_0----->success
result is imageurl_1----->success
result is imageurl_2----->success
result is imageurl_3----->success
result is imageurl_4----->success
result is imageurl_5----->success
result is imageurl_6----->success
result is imageurl_7----->success
result is imageurl_8----->success
result is imageurl_9----->success
分布式程序
分布式程序 分布式程序六個步驟 1.建立佇列queue,用來程序間的通訊。2.將佇列queue進行網路共享給其他程序 3.建立物件例項,繫結埠和驗證口令 4.啟動物件例項進行資訊傳輸管理 5.通過物件例項將網路佇列本地化 6.分配本地化佇列進行程序任務處理 排程服務程序taskmanager.py ...
python 分布式程序
process可以分布到多台機器上,而thread最多只能分布到同一臺機器的多個cpu上。python的multiprocessing模組不但支援多程序,其中managers子模組還支援把多程序分布到多台機器上。乙個服務程序可以作為排程者,將任務分布到其他多個程序中,依靠網路通訊。由於manager...
Python 分布式程序
分布式程序是將process程序分布到多台伺服器中,利用多台機器的效能完成複雜的任務。可以應用到分布式爬蟲的開發中。分布式程序在python中依然要用到multiprocess模組。它不但支援多程序,其中managers子模組還支援吧多程序分不到多台機器上,可以寫乙個服務程序作為排程者,將任務分不到...