針對雲主機卡死問題的定位分析方法

2022-06-07 04:36:08 字數 843 閱讀 8409

此文已由作者楊延亮授權網易雲社群發布。

雲主機在執行或者啟動的過程中,可能會存在卡死的情況。往往在雲主機重啟之後又恢復正常,但是問題現場得不到保留,不利於問題的分析定位。本文提供了一種方法,可以通過在雲主機所在的物理節點(宿主機)上執行相關命令,來獲取雲主機卡死時的記憶體棧資訊,以便分析定位(本文只針對linux虛擬機器)。

假如卡住的雲主機uuid為:d1467712-a022-41c9-9963-8f41c6a4b2bd,在宿主機上執行如下命令,可以獲取雲主機對應的宿主機資訊(pubbeta1-nova63.yq.163.org)

登入雲主機對應的宿主機,執行如下命令,來生成對應的core檔案。

virsh dump d1467712-a022-41c9-9963-8f41c6a4b2bd d1467712-a022-41c9-9963-8f41c6a4b2bd.core 或者

virsh dump d1467712-a022-41c9-9963-8f41c6a4b2bd d1467712-a022-41c9-9963-8f41c6a4b2bd.core --memory-ony

——需要指出的是,core檔案生成的路徑需要保留至少和虛擬機器記憶體大小相當的空間,以防core檔案生成失敗,或生成core檔案不完整。此處生成的core檔案即包含了雲主機卡死時的記憶體呼叫棧資訊。

執行crash vmliux vmcore命令即可對生成的core檔案進行分析定位

——其中vmliux需要雲主機對應的kernel-debuginfo和kernel-debuginfo-common這兩個包,vmcore即為步驟2中生成的core檔案。

免費體驗雲安全(易盾)內容安全、驗證碼等服務

更多網易技術、產品、運營經驗分享請點選。

IAAS雲計算產品暢想 雲主機的產品定位

現例舉一下公有雲iaas服務影響了誰 按重要程度順序 1 企業it 2 裝置廠商 3 資料中心 4 vps 5 虛擬主機 第一位的就是企業it,在企業選擇以租 後,通過iaas來進行部分業務所需基礎資源的支撐。不要認為這個是不可能的,隨著雲計算產業在國內的深入,有些國有部門 如某研究院,我親自跟客戶...

IAAS雲計算產品暢想 雲主機的產品定位

要研究某個產品的定位,就要先研究一下這個產品進入市場以後會影響了誰,被影響的產品產業,就是你的定位環境。現例舉一下公有雲iaas服務影響了誰 按重要程度順序 1 企業it 2 裝置廠商 3 資料中心 4 vps 5 虛擬主機 第一位的就是企業it,在企業選擇以租 後,通過iaas來進行部分業務所需基...

EAS流程卡死問題的分析處理報告

一 問題背景 11月4日,eas發生第一次流程大面積卡死,部分流程卡死無法進行。11月5日重啟服務後相關流程正常運轉。之後又發生了數次流程大面積卡死現象。二 分析處理過程 第一次未引起重視,認為是個案,所以未進行仔細的研究。發生第二次後,發現後台資料庫有鎖,但鎖的語句為傳遞的引數,未能定位到確定的單...