강강강
91
2021-10-14 03:53:34 작성 2021-10-14 13:15:40 수정됨
3
120

IDC 특정시간대에 특정 서버만 인터넷이 끊어질때 문제점 체크 할 수 있는 확인법이 있을까요?


IDC 에 서버가 있고 가상화로 8대정도 분배하여 사용하고 있습니다. 


새벽에 특정시간에 특정 가상화 서버 2대가 인터넷이 끊깁니다.. 

한 30분내외로 인터넷이 다시 복구는 되는데 8월에 2주정도 계속 발생하다 잠잠하더니

오늘 새벽에 또 다시 시작 되었네요


IDC 메인 인터넷이 끊기면 전체 인터넷이 안될거고 저희 물리서버에 올라가있는 타 가상화도 전부 연결이 잘되고

해당 2개의 가상화서버만 이런 현상이 계속 발생됩니다.

이게 주간에 터지면 생각만해도 컴플레인에 아찔하네요.. 


이거 해결은 하거나 이유를 알아야겠는데 IDC 에서는 모른다고하고.. 인터넷 문제면 전체 인터넷이 문제일거라고 만 합니다.. 그래서 저희가 확인할 수 있는 가이드 같은게 있냐고 물어봤는데 그런것도 없다고하고.. 


Ubuntu 20.04 OS 인데.. 

이유가 너무 광범위하다 보니 답답해서..

이런 문제가 발생시 따로 확인 해 볼수 있는 방법이 있을까요?


0
  • 답변 3

  • 장독깨기
    3k
    2021-10-14 06:22:37

    zookeeper 한 번 알아보세요. :)

  • 10k
    2021-10-14 08:43:14

    특정시간에 특정 서버만 죽는다. 

    1. 특정시간 네트워크 이상

    2. 가상화서버일경우 특정 시간에 8개중 어느 서버가 부하가 걸림

    3. 특정시간에 도는 배치가 있는지 전체 메일공지해서 확인 요청

    4. 간혹 os 패치 영향일수도 있음.(공지사항에 올라와있을꺼에요)

    5. 모니터링하는게 가장 좋은데, idc에서는 비협조적이니 가능성없는 얘기네요..


    가장 좋은건 서버 껏다 키는건데 (왠만하면 해결됨)

    전체 서버가 다 죽는문제라 힘든 얘기긴 하네요. 



  • 강강강
    91
    2021-10-20 10:47:53

    일단... CPU 하고 메모리를 조금 늘려주었는데.. 

    이틀 또 조용하더니 오늘 또 새벽에 또 죽네요... 


    1. 서버가 죽는건 아닙니다. 

    -> 서버가 죽었다 재부팅 됬다면..? 톰켓을 서비스로 안올렸기 때문에 죽어있어야함 하지만 살아있음...

    2. 부하가 걸림 

    -> 동시접속 1~2명 정도 밖에 안되고 업무용이다보니 새벽에 죽을 사유가 없음 

    -> 관련하여 타 가상화도 동일

    3. 5시간에 한번씩 DB서버에서 엘라스틱으로 데이터 동기화를 하긴 하지만 동일하게 웹서버도 같은 현상 

    4. OS 패치는 방화벽으로 외부 인터넷을 막았기 때문에 실행 되지 않음 

    5. 비협조적인걸 그 나마.. 제가     tracerouter 로 제가 추적할 수 있는 곳 까지 추적해서 던졌더니 그나마 체크를 해주더군요... 외부 -> L3(IDC) -> 방화벽(IDC)-> L2(IDC) -> 서버 이렇게 구성되어 있는데... 

    방화벽까지 패킷이 전부왔고... 엘투에서 서버응답이 없다 합니다.. 당연한건.. 인터넷이 끊겼는데 응답이 있을리가..

    엘투 스위치가 저희꺼가 아니라 IDC에서 임대해서 쓰고 있는데 점검 요청을 했는데 대답이없네요.. 3일째..






  • 로그인을 하시면 답변을 등록할 수 있습니다.