軟體打log的一些心得

本文適用範圍：linux系統

使用語言：c/c++

打log的原則：

1. 異常分支或錯誤處理一定要打log

2. 重大操作時一定要打log，下面打log場景會講述

log格式的原則：

1. 時間戳必須有,最好能夠精確到微秒。精確到秒的時間戳，相信很多人都熟悉，這能夠確認問題的時間和系統uptime的對比，能夠進一步還原問題的場景。至於到微秒，在多執行緒程式下，如果程序停止響應，可以從日誌時間看是否死鎖。

一般格式：

[2017－01－09 12：16：30.541]

2.打log位置的檔名和**行數。這個不用說，用於定位問題根源。其實最重要是防止扯皮。因為程式設計師大多喜歡copy-paste，如果你不加檔名和行數，某程式設計師copy了你的**，修改了點，出錯了，到時候把你拉下水。

一般格式：

[2017－01－09 12：16：30.541][network.c:541]

3. 有程序id。有些log機制在程序重啟時，不會重新生成乙個日誌檔案，而是直接在同乙個日誌檔案後面新增日誌。或者，有時候同一程式的多個程序同時執行，可能也會寫入到同乙個日誌檔案。

一般格式：

[2017－01－09 12：16：30.541][network.c:541][pid=15529]

4.有執行緒id。在多執行緒程式，如果不加執行緒id，很難追溯程式的行為

一般格式：

[2017－01－09 12：16：30.541][network.c:541][pid=15529][thread=0x12345]

5.有日誌的級別。日誌是反映問題的，有不同緊急程式的問題，自然有不同的日誌級別。一般採用error，warning，info，debug。定義不同級別，也可以方便在日誌查詢問題**。

一般格式：

[2017－01－09 12：16：30.541][network.c:541][pid=15529][thread=0x12345][error]

打log的場景：

1. 申請記憶體時，失敗的話，要把申請大小列印出來。以前我申請記憶體失敗也是簡單地列印：

[2017－01－09 12：16：30.541][network.c:541][pid=15529][thread=0x12345][error]failed to allocate memory

後來在重構時遇到乙個問題：程序跑的時間一久，大概一天多，別的程式向它發訊息都會收到失敗響應，在日誌裡就是一大堆記憶體失敗的訊息"failed to allocate memory"。用"free"命令來看，物理記憶體還有好幾g空閒，而用「top」命令來看，該程序也只是佔700m記憶體。當時我就懷疑是不是記憶體碎片導致。於是我把申請記憶體的大小也列印出來，就收到一堆這樣的

[2017－01－09 12：16：30.541][network.c:541][pid=15529][thread=0x12345][error]failed to allocate memory of size 65536
[2017－01－09 12：16：30.588][network.c:541][pid=15529][thread=0x12345][error]failed to allocate memory of size 1048576

當時就看那些**引用的資料結構，最小也有64k，大的16m都有，基本乙個結構包括很多個大陣列。當時就把那些陣列全改為指標，再進一步申請，**繁瑣了，但這種問題再也不會出現。再看bug系統，原來這個問題存在很多，在其它程式也存在，當時都找不到根因，只是用過一段時間重啟程序來解決

2. 函式引數非空判斷時，要列印日誌。原因不說，看對比：

之前

if ( ( pinfo == null ) || ( phandler == null ) )

之後

if ( ( pinfo == null ) || ( phandler == null ) )

3. 載入和解除安裝模組，無論是正常還是異常情況都要列印。畢竟這些操作大多都是一次性操作。對效能影響不大。

[2017－01－09 12：16：30.588][modules.c:54][pid=15529][thread=0x12345][error]failed to load module libftp.so, error=module already loaded

4. 操作檔案目錄時，失敗要把檔名和錯誤碼列印出來。如

[2017－01－09 12：16：30.588][config.c:120][pid=15529][thread=0x12345][error]failed to open file conf/ftp.xml, errno=(13:permission denied)

假設這個錯誤導致程序初始化失敗，且環境在客戶那邊，維護人員就可以確認並自己解決這個問題。

5. 操作socket時，把ip，埠號或路徑名（unix socket ）和錯誤碼列印出來。如

[2017－01－09 12：16：30.588][network.c:541][pid=15529][thread=0x12345][error]failed to connect to host (10.17.128.10:9981), errno=(111:connection refused)

6. 運算元據庫時，把相應操作的ip，埠，庫，使用者名稱，sql語句和錯誤列印出來。如

[2017－01－09 12：16：30.588][dbmgr.c:781][pid=15529][thread=0x12345][error]user tiger failed to operate in host (10.17.128.10:3365) with db test, sql="select * from users", error="no table users exists"

在客戶環境下，維護人員可以通過命令列來驗證這些問題，來確定問題。可能有人會考慮安全性，畢竟在日誌中把ip，埠，庫，使用者名稱都暴露出來了，這樣好像不妥。但如果是從事過通訊行業的網上問題維護，就知道，可維護性比這種細節的安全性還要重要。

7. 建立新程序時，需要把程式名,引數和錯誤碼列印出來。如

[2017－01－09 12：16：30.588][process.c:154][pid=15529][thread=0x12345][error]failed to execute program "iptables -l", errno=(2:no such file or directory)

往往在客戶環境，由於運維人員水平參差不齊，可能誤操作或漏操作，導致檔案缺失或許可權出錯，這種錯誤在公司的模擬環境根本不會出現。如果日誌夠詳細，能夠減少很多任務作量。

8. 解析檔案時，需要把檔名，字段，行號列印出來。如

[2017－01－09 12：16：30.588][config.c:120][pid=15529][thread=0x12345][error]failed to parse file conf/ftp.xml, line:20, tag is not closed

結語：上面的原則，基本是每一條是血的教訓。以前在h時見得太多因為日誌不全導致的麻煩，前方的客戶經理不斷向客戶懇求寬限時間，維護人員不斷地在客戶環境找出蛛絲馬跡，後方領導也不斷地調配資源來跟蹤問題，後方測試人員不斷地測試，嘗試問題復現，後方開發人員就不斷地看**。在z也見過因為日誌不全，導致被客戶罰錢次數過多，整個產品都虧損了。像@帝都鐵匠說的「感覺學會log，程式就算入門了」。

軟體打log的一些心得

關於log4j的一些使用心得

IOCP的一些心得

Qt 的一些心得

軟體打log的一些心得

關於log4j的一些使用心得

IOCP的一些心得

Qt 的一些心得

相關推薦