資料可以抽象成兩種型別:無邊界資料 和 有邊界資料
無邊界資料,是一種不斷增長可以說是無限的資料集,這類資料無法判斷何時終止,如:電商交易資料
有邊界資料,是一種有限的資料集,如:常見的儲存好的資料
從無邊界資料按時間視窗提取部分資料,就是有邊界資料,所以,有邊界資料可以看做是無邊界的子集
在處理大資料時,通常還關心時域問題:事件時間 和 處理時間
事件時間,資料實際產生的時間
處理時間,處理資料的系統接收處理資料的時間
批處理架構應用:
資料的流處理可以理解為系統需要接收並處理一系列不斷變化的資料。如:會員權益營銷系統
流處理的輸入資料是無邊界資料,流處理視業務場景關注事件時間還是處理時間
流處理架構應用:
java批量執行之分批處理
相關 在處理一些與資料庫相關的操作的時候,通常把一些操作合併能夠起到優化的效果,並且數量越大,批量執行的效率比一條一條執行的效率要快的多。比如有十條資料單條執行需要操作十次資料庫,批量的話執行一次資料庫的操作就可以。對應的sql語句 單次 insert into table name 列1,列2,v...
Java多執行緒分批處理資料
場景 發簡訊,當有資料量龐大的簡訊需要傳送時,可以採用多執行緒的方式分批處理以提高效率,但執行緒要控制合適的數量,否則會極大消耗cpu資源 上 建立分頁類pageutil 分頁 param list 切割資料集合 param pagesize 每頁記錄數 param return public st...
如何處理分批裝運?
每次都運送整個訂單是不太現實的。甚至,為了確保物品準時送達,企業可能會更希望能夠單獨運送物品。某些物品可以通過亞馬遜物流 fba 之類的服務運送,而其他物品則可以從企業自己的倉庫中運送。在多次裝運中完成乙個訂單稱為分批裝運。儘管高頻率的分批裝運很有必要,但是在系統後台進行監控還是比較困難的。要如何跟...