在上一節我們介紹了日誌的結構組成,每個部分記錄什麼內容,這一節繼續介紹日誌的效能分析。
讓我們來看看一些具體的效能指標,我們如何在日誌中識別並且如何改善它。
有趣的是,日誌統計的時間是實際轉換所消耗的時間,它並不包括等待其他程序所需要的時間。
開始的絕對時間是14:43,結束的絕對時間是14:49,超過6分鐘,然而fme報告統計的處理時間是25.8秒。
其他的時間是fme在等待外部的程序。
例如,當乙個查詢傳送給資料庫。等待回應的時間不包括在fme處理時間內,越多的資料庫查詢或者
資料庫結構不合理,這個時間差越大。
同樣,從磁碟大量讀寫資料的時間也不包括到這個時間內。
檢視資料庫效率部分,能為fme在資料庫方面提高更多的效能。
乙個重要部分是fme的臨時目錄,當記憶體資源不夠,fme開始釋放快取到磁碟,這臨時目錄就是用於存放臨時資料的。
首先,最重要的是這個臨時目錄必須保證有足夠的磁碟空間,
其次,臨時目錄能夠被快速寫入並且沒有其他程式使用是非常有益的。例如與作業系統共享臨時目錄。
這是乙個關鍵資訊:
日誌提示記憶體受到限制,fme正在優化中。
如果頻繁看到這個提示,那麼請重新設計您的轉換過程或者切換到64位版本。
統計的寫要素的個數有時候會讓我們產生誤解。
統計的寫要素的個數是指傳送到寫模組的要素總數,但是,有時候這並不意味著是寫入到輸出資料集的要素個數
例如,這裡有80個要素傳送到寫模組(esri shape)
但是,後面產生乙個警告:
實際上,寫模組拒絕了這些要素,在這個例子中,因為寫模組的幾何型別無效,寫模組中設定的是線要素,而接收到的是面要素。
格式的幾何限制可能會導致輸出資料集的要素個數與統計的要數個數不同。
又例如,microstation dgn格式限制了每個元素的節點個數,如果microstation寫模組接收到了要素有太多的節點,那麼寫模組會把要素分離成多個元素(在有效節點個數範圍內)
因此,日誌中統計的寫如的要素總數有可能跟實際輸出到資料集中的要素個數不同。
若對文章有疑問,可傳送郵件至[email protected]提問或討論
Apache 日誌分析 二
01.檢視ip cat access log awk 02.對ip排序 cat access log awk sort 03.列印每一重複行出現的次數 cat access log awk sort uniq c 04.排序並統計行數 cat access log awk sort uniq c s...
elk日誌分析系統(二)
上篇部落格介紹關於elk的原理和搭建 elk日誌分析系統 一 但這種架構只適合資料量不大且可靠性不強的業務使用,當大併發情況下,由於日誌傳輸峰值比較大,沒有訊息佇列來做緩衝,就會導致 elasticsearch 集群丟失數,所以需要對架構做進一步的擴充套件,引入kafka集群。filebeat收集日...
hive日誌分析實戰(二)
統計某遊戲平台新使用者渠道 日誌格式如下 jul 23 0 00 47 info gjzq2013072300004785493108s1360wan 2j reg58.240.209.78問題的關鍵在於先找出新使用者 新使用者 僅在7月份登陸過平台的使用者為新使用者 依據map reduce思想,...