esxi裡面的一台ubuntu因為物理機當機,然後也掛了,重啟後發現nagios有問題。
表現為:
監測的服務有current loas、drbd、disk_space、ping、ssh。 而有問題的就只有ping、ssh。
在伺服器端測試如下:
1
2
root@nagios:
/usr/local/nagios/libexec
# ./check_nrpe -h 192.168.100.5 -c check_ping
check_nrpe: socket timeout after 10 seconds.
ssh也是同樣的錯誤。
網上搜尋無非是加上 -t 加上時間。 這樣試過還是一樣。
然後查日誌,查nrpe.cfg(有兩台一樣的虛擬機器,配置也一樣,但沒問題。)查iptables(設定了相關規則,但並沒有針伺服器的)
然後在客戶端也測試一下:
1
2
3
4
5
6
7
8
root@nfs1:
/usr/local/nagios/libexec
# ./check_nrpe -h 127.0.0.1 -c check_ping -t 20
check_nrpe: socket timeout after 20 seconds.
root@nfs1:
/usr/local/nagios/libexec
# ./check_nrpe -h 127.0.0.1 -c check_ssh
check_nrpe: socket timeout after 10 seconds.
root@nfs1:
/usr/local/nagios/libexec
# ./check_ping -h 127.0.0.1 -w 3000.0,80% -c 5000.0,100% -p 5
ping critical - packet loss = 100%|rta=5000.000000ms;3000.000000;5000.000000;0.000000 pl=100%;80;100;0
最後試試 ip a(習慣就這個) 然後看了下似乎和另一台不一樣,具體如下:
1
2
3
4
5
6
7
8
9
root@nfs1:
/usr/local/nagios/libexec
# ip a
1: lo: mtu 16436 qdisc noqueue state down
link
/loopback
00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1
/8
scope host lo
2: eth0:
mtu 1500 qdisc pfifo_fast state up qlen 1000
link
/ether
00:50:56:95:5c:40 brd ff:ff:ff:ff:ff:ff
inet 192.168.100.5
/24
brd 192.168.100.255 scope global eth0
inet6 fe80::250:56ff:fe95:5c40
/64
scope link
valid_lft forever preferred_lft forever
lo口居然是down的狀態,我去。
我看了 /etc/network/inte***ces 是 auto 的
重啟一下居然是down。暈了。
down的原因目前沒找到。日誌裡面也沒有相關的記錄。
然後設定為 up 問題搞定!
web service超時問題
錯誤資訊 資訊 100 continue read timeout.resume sending the request 資訊 discarding unexpected response http 1.1 100 continue 訪問時間要70s左右 客戶端 上加 遠端呼叫銀聯系統 通過 客戶端...
dubbo超時問題
dubbo是阿里開源的分布式遠端呼叫方案 rpc 由於網路或服務端不可靠,會導致呼叫出現一種不確定的中間狀態 超時 為了避免超時導致客戶端資源 執行緒 掛起耗盡,必須設定超時時間。provider可以配置的consumer端主要屬性有timeout retries loadbalance activ...
MySQL 超時問題
mysql預設連線超時時間為28800 也就是8個小時,如果八個小時沒有連線沒有進行操作就會自動斷掉,這樣就會導致有時服務還在執行,但是就是操作不了 既然知道問題了修改配置檔案,超時時間改為一年,就行了 vim etc my.cnf 然後在 mysqld 後面新增下面三句 character set...