目前在維護乙個搜尋服務。在做資料同步的時候有遇到資料同步的問題,該問題的描述大概如下:
有乙個處理服務a,會定時重建乙份用於搜尋的索引資料。例如每天凌晨0點開始,從乙個全量資料檔案介面,獲取全量檔案,我們假設這份全量檔案是時間點1生成的。
perfect。。but。。
問題就在看上去很完美的情況下出現了。待我描述一下時間軸和線上、正在處理的索引的情況就大概知道問題在哪了。
生產中發現了這個問題,怎麼辦?解決。。然後有了解決方案1:在時間點t5之後,再拉取一次時間點t1到t5的增量,覆蓋之,這樣就解決了t2到t5增量丟失的問題,解決如下:
這樣加上阿里山20200730...這個索引在t5開始之後的實施變更,就保證了資料的完整連續。
然而問題繼續出現了,看了上面流程的同學肯定已經意識到了:那就是時序問題。t1-t6時間段的增量,如果在t6-t7也發生了實時變更,那麼寫入到alias20200730...的資料會被t1-t6的資料覆蓋。所以繼續解決該問題:從t6時刻開始記錄下實施變更的key,一直到t1-t6的資料變更結束為知。這段時間內的key,在t1-t6資料變更期間,不會被更新。
問題解決了。真是一波三折。
也和開始沒考慮周全有關係。
HBase在生產中的RowKey設計
在使用hbase時,對於表設計時,有兩點設計至關重要 列簇的設計和rowkey的設計。列簇設計 原則 在合理的範圍內能盡量少的減少列簇就減少列簇 最優的設計 將所有相關性很強的key value都放在同乙個列簇下,這樣的話就既能做到查詢效率最高,也能保證盡可能少的訪問不同的磁碟檔案 因為乙個stor...
Linux生產中常用的命令
ps ef 顯示當前的程序 配合管道 find 全域性搜尋 查詢類 whereis which 也行 cat檢視檔案內容 vi這個用好跳轉就好 touch 建立檔案 mkdir p 路徑 遞迴建立資料夾 rm rf f強制 r遞迴 df h 磁碟顯示 free m m級別的記憶體顯示 top最常用的...
QM04 生產中的QM
整合的計畫 生產過程中的生產工序和檢驗工序逐漸變得更為相互依賴或者說被組合在一起。從而使來自生產和質量檢驗領域的工作小組共同建立工藝流程。檢驗工序 可以把qm檢驗特性整合到生產計畫 pp 模組的工作計畫和生產處理作業中。可以為一道生產工序建立特性 檢驗特性或過程特性 並可把測試裝置作為生產資源和工具...