[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20240156682A - 서버 통합 모니터링 시스템 - Google Patents

서버 통합 모니터링 시스템 Download PDF

Info

Publication number
KR20240156682A
KR20240156682A KR1020230053116A KR20230053116A KR20240156682A KR 20240156682 A KR20240156682 A KR 20240156682A KR 1020230053116 A KR1020230053116 A KR 1020230053116A KR 20230053116 A KR20230053116 A KR 20230053116A KR 20240156682 A KR20240156682 A KR 20240156682A
Authority
KR
South Korea
Prior art keywords
server
managed
management
failure
information
Prior art date
Application number
KR1020230053116A
Other languages
English (en)
Inventor
유세권
Original Assignee
주식회사 시스타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시스타 filed Critical 주식회사 시스타
Priority to KR1020230053116A priority Critical patent/KR20240156682A/ko
Priority to US18/644,253 priority patent/US20240356796A1/en
Publication of KR20240156682A publication Critical patent/KR20240156682A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명은 둘 이상의 관리 대상 서버를 모니터링하는 서버 통합 모니터링 시스템에 관한 것으로서, 상기 관리 대상 서버 관련 데이터를 저장하기 위한 데이터베이스 및 상기 관리 대상 서버로부터 하드웨어 관련 데이터 및 소프트웨어 관련 데이터를 수집하고, 각 관리 대상 서버의 현황을 모니터링하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 모니터링 정보를 관리자가 사용하는 관리자 단말과 관리 대상 서버를 의뢰한 고객 단말에 제공하는 관리 서버를 포함한다.
본 발명에 의하면, 서버에서 발생할 수 있는 장애를 미리 예방하고, 서버 장애에 따른 피해를 감소시킬 수 있는 효과가 있다.

Description

서버 통합 모니터링 시스템 {System for monitoring servers totally}
본 발명은 서버를 모니터링 하는 기술에 관한 것으로서, 다수의 서버들을 통합하여 모니터링하는 기술에 관한 것이다.
최근 서버, 스토리지, 네트워크 등 IT(Information Technology) 환경이 복잡해지고, 작업 시간이 부족해지는 현상이 발생하고 있다. 이처럼 컴퓨터 시스템이 대용량화, 고속화됨에 따라, 시스템의 에러나 바이러스 등에 의한 컴퓨터 장애가 자주 발생되고 있다. 특히 대용량의 서버의 경우 다양한 응용 프로그램의 동작과 데이터 저장, 독출 및 전송 등 여러 요인에 의한 장애가 빈번하게 발생할 수 있다. 따라서 각 기업에서는 이러한 서버를 관리하는 별도의 서버 관리자를 상주시켜 서버를 관리하고, 장애 발생시 이를 처리하도록 하고 있다.
그런데, 서버 관리에는 전문적인 기술이 요구되며, 그러한 전문 인력을 채용하기에는 상당한 비용이 요구된다. 따라서 특히 소규모의 기업 등에서는 해당 서버 관리자로서 전문 기술자를 채용하는 것이 아니라, 사내 기존 인력 중에서 적절한 사람을 선택하여 서버 관리자로서 두고 있는 실정이다. 그럴 경우에는 서버 관리가 원활히 이루어지기 힘들며, 더구나 서버 장애 발생시에 원활히 대처하기가 거의 불가능하다.
또한, 서버 관리를 위해 전문 기술을 가진 서버 관리자를 채용하였을 경우에도, 서버 관리자가 출장 등의 이유로 서버에서 원격지에 있을 경우에는 서버의 장애 발생시 이러한 서버의 상황이 관리자에 신속히 통보되기가 힘들어서 서버 장애 발생시에 원활히 대처하기가 힘들었다 더욱이 서버 관리자가 해당 서버의 장애 발생을 통보 받았을 경우에도, 원격지에 있는 관계로 이에 대한 즉각적인 대처가 어려워서, 결국 서버가 다운되는 등 막대한 손실이 초래될 수 있다.
종래에는 다수의 서버들을 통합하여 관리하는 서버 통합 관리 시스템에서 어떤 서버에 장애가 발생하면, 이를 감지하고, 사후에 장애를 복구하는 방식이다. 그러나, 이러한 종래의 사후 장애 복구 방식은, 장애가 발생한 서버를 복구하는 기간 동안 해당 서버의 동작이 중단되고, 서버 사용 중단에 따른 손실이 발생하고, 복구하는데 드는 인력과 비용에 따른 손해가 크다는 문제점이 있다.
대한민국 공개특허 10-2015-0124642
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, IT 자산을 시스템화하고 업무를 표준화 함으로써, 운영 효율성을 개선하고, 운영 비용을 절감하고, 보안을 강화 할 수 있는 서버 통합 모니터링 시스템을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명은 둘 이상의 관리 대상 서버를 모니터링하는 서버 통합 모니터링 시스템에 관한 것으로서, 상기 관리 대상 서버 관련 데이터를 저장하기 위한 데이터베이스 및 상기 관리 대상 서버로부터 하드웨어 관련 데이터 및 소프트웨어 관련 데이터를 수집하고, 각 관리 대상 서버의 현황을 모니터링하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 모니터링 정보를 관리자가 사용하는 관리자 단말과 관리 대상 서버를 의뢰한 고객 단말에 제공하는 관리 서버를 포함한다.
상기 관리 서버는 관리 대상 서버를 모니터링하기 위해 미리 설정된 스케쥴에 따라 관리 대상 서버를 모니터링하고, 모니터링 결과 정보를 상기 관리자 단말과 상기 고객 단말에 제공할 수 있다.
상기 관리 서버는 서버 모니터링 주기를 설정하고, 관리 대상 서버로부터 수집하는 데이터 수집값을 설정할 수 있는 스케쥴 설정 기능을 제공할 수 있다.
상기 관리 서버는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.
본 발명에 의하면, 다수의 관리 대상 서버에 대한 모니터링을 통해 선제적으로 서버에서 발생하는 장애를 예측하여 경고하고 해결 방법을 제공함으로써, 서버에서 발생할 수 있는 장애를 미리 예방하고, 서버 장애에 따른 피해를 감소시킬 수 있는 효과가 있다.
또한, 본 발명에 의하면, IT 자산을 시스템화하고 업무를 표준화 함으로써, 운영 효율성을 개선하고, 운영 비용을 절감하고, 보안을 강화 할 수 있는 효과가 있다.
또한, 본 발명에 의하면, 보다 편리하고 효율적으로 다수의 서버들을 관리할 수 있는 효과가 있다.
또한, 본 발명에 의하면, 서버 관리를 의뢰한 고객에게 장애 패턴을 분석하여 선제적으로 장애를 미리 대응토록 하고, 서버 관리 기능을 제공함으로써, 고객의 니즈(needs)에 맞는 데이터를 가공하여 전달할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템의 전반적인 구성을 개념적으로 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 동작 과정을 개념적으로 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서의 기능 구현 방법을 도시한 흐름도이다.
도 4 내지 도 8은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 제공하는 기능이 표시된 화면예이다.
도 9는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 구성예를 도시한 것이다.
도 10는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish 이벤트를 통한 서버 모니터링 기능을 설명하기 위한 예시도이다.
도 11은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish를 통한 서버 구성 작업 자동화 기능을 설명하기 위한 예시도이다.
도 12은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish를 통한 서버 구성 자동화 기능을 설명하기 위한 예시도이다.
도 13은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 멀티벤더를 지원하여 서버를 관리하는 방법을 예시한 흐름도이다.
도 14는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 장애 로그 및 패턴을 분석하여 장애를 사전 예방하는 방법을 예시한 흐름도이다.
도 15는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish API를 활용하여 멀티벤더를 지원하는 동작 모델을 예시한 것이다.
도 16 내지 도 29는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템의 화면예를 도시한 것이다.
도 30는 본 발명의 일 실시예에 따른 시스템 장비를 분류한 도표이다.
도 31 및 도 32은 본 발명의 일 실시예에 따른 하드웨어 증상과 그 원인을 기재한 도표이다.
도 33 내지 도 34는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 장애 사전 대응 방법을 보여주는 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명은 둘 이상의 관리 대상 서버를 모니터링하는 서버 통합 모니터링 시스템에 관한 것으로서, 상기 관리 대상 서버 관련 데이터를 저장하기 위한 데이터베이스 및 상기 관리 대상 서버로부터 하드웨어 관련 데이터 및 소프트웨어 관련 데이터를 수집하고, 각 관리 대상 서버의 현황을 모니터링하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 모니터링 정보를 관리자가 사용하는 관리자 단말과 관리 대상 서버를 의뢰한 고객 단말에 제공하는 관리 서버를 포함한다.
상기 관리 서버는 관리 대상 서버를 모니터링하기 위해 미리 설정된 스케쥴에 따라 관리 대상 서버를 모니터링하고, 모니터링 결과 정보를 상기 관리자 단말과 상기 고객 단말에 제공할 수 있다.
상기 관리 서버는 서버 모니터링 주기를 설정하고, 관리 대상 서버로부터 수집하는 데이터 수집값을 설정할 수 있는 스케쥴 설정 기능을 제공할 수 있다.
상기 관리 서버는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.
도 1은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템의 전반적인 구성을 개념적으로 도시한 것이고, 도 2는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 동작 과정을 개념적으로 도시한 것이다.
도 1 및 도 2를 참조하면, 본 발명의 서버 통합 모니터링 시스템은 관리 서버(110), 데이터베이스(112), 관리자 단말(120), 고객 단말(130)을 포함한다.
관리자 단말(120)은 서버 통합 모니터링 시스템을 관리하는 관리자가 사용하는 단말이다.
고객 단말(130)은 관리 대상 서버(10, 20, 30, 40)를 의뢰한 각 고객이 사용하는 단말이다.
본 발명의 일 실시예에서 관리자 단말(120)과 고객 단말(130)은 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 PC, 핸드폰, 휴대폰, 스마트 폰 등 유무선 통신이 가능한 다양한 단말 형태로 구현될 수 있다. 본 발명의 일 실시예에서 사용자 단말은 관리자 단말(120)과 고객 단말(130)을 포함하는 개념이다.
데이터베이스(112)는 관리 대상 서버(10, 20, 30, 40) 관련 데이터를 저장한다.
관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)로부터 데이터를 수집하여, 각 관리 대상 서버의 현황을 파악하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 관리 정보를 관리자 단말(120)과 고객 단말(130)에 제공한다.
관리 서버(110)는 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 정보를 수집하여 저장하고, 저장한 정보를 조회하고 이용할 수 있도록 관리자 단말(120) 및 고객 단말(130)에 제공할 수 있다.
관리 서버(110)는 등록된 복수의 관리 대상 서버로부터 멀티벤더 하드웨어 인벤토리 정보를 수집하여 저장할 수 있다.
관리 서버(110)는 긴급 펌웨어(firmware) 업데이트를 포함한 펌웨어 업데이트 이벤트가 있으면, 모든 관리 대상 서버에 대해 펌웨어 업데이트를 진행할 수 있다.
관리 서버(110)는 관리 대상 서버의 어느 장비에서 장애 이슈가 발생하면 로그 및 패턴을 분석하고, 분석한 데이터를 저장하고, 장애 이슈가 해결되면, 해당 장비와 유사한 장비를 분류하고, 분류된 유사 장비에 대해 장애 사전 대응 처리를 실시할 수 있다.
관리 서버(110)는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.
관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 장애 패턴을 분석하여 유사한 장애가 발생하는 것을 예방하는 예방 분석 기능을 제공하며, 예방 분석 기능을 통해 관리 대상 서버(10, 20, 30, 40)에서 미리 정해진 이벤트 발생시, 발생된 이벤트에 따른 장애가 발생할 수 있음을 경고하는 예상 장애 발생 메시지를 해당 관리 대상 서버를 의뢰한 고객 단말에 선제적으로 송신할 수 있다.
관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 설치, 장애, 기술지원 이력을 관리하는 이력 관리 기능을 제공할 수 있다.
관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)의 납품 이력을 관리하는 납품 관리 기능을 제공할 수 있다.
관리 서버(110)는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 미리 정해진 분류 기준에 따라 위험 장비를 분류하고, 해당 위험 장비에 대한 경고 메시지를 관리자 단말(120) 및 해당 고객 단말에 발송하고, 해당 위험 장비에 대한 사전 장애 대응 조치를 수행할 수 있다.
관리 서버(110)는 관리 대상 서버에서 장비 관련 이벤트가 발생하면, 해당 장비의 장애 증상을 파악하고, 해당 장애 증상에 대응하는 장애 코드에 따라 원인을 분석하고, 장애 대응 방안을 포함하는 리포트를 관리자 단말(120) 및 해당 고객 단말에 발송하고, 해당 장비에 대한 장애 대응 조치를 수행할 수 있다.
본 발명에서 관리 서버(110)는 고객 단말(130)의 요청에 따라 관리 대상 서버의 관리와 관련한 데이터를 가공하여 전달하는 데이터 딜리버리 서비스(data delivery service) 기능을 제공할 수 있다.
또한, 관리 서버(110)는 관리 대상 서버의 크리티컬(Critical) 장애를 분석하고, 동일 사례를 전파하여 서버 장애를 사전에 예방할 수 있으며, 분기 별 각 서버의 장애 통계를 관리자 단말(120) 및 고객 단말(130)에 제공할 수 있다.
본 발명에서 관리 서버는 납품한 서버 관련 장비에 대한 이력을 관리할 수 있으며, 설치/장애/기술지원 이력관리 서비스를 제공하고, 파츠(parts)별 이슈(issue)를 관리할 수 있다.
본 발명은 고객으로부터 의뢰받은 다수의 관리 대상 서버(10, 20, 30, 40)를 관리하는 서버 통합 모니터링 시스템에 관한 것이다.
본 발명의 일 실시예에서 관리 대상이 되는 서버인 관리 대상 서버는 다양한 서버일 수 있으며, 예를 들어 Dell 서버(10), HP 서버(20), Lenovo 서버(30), X86 서버(40)일 수 있다.
관리 대상 서버(10, 20, 30, 40)와 관리 서버(110)는 다양한 유무선 통신 방식을 통해 통신하며, 예를 들어 HTTP 통신이나 JSON 형식의 POST 전송 방식으로 통신할 수 있다.
또한, 관리 대상 서버(10, 20, 30, 40)는 대규모 전산환경의 다양한 x86 서버에서 정해진 스케쥴링에 따라 스크립트를 자동 실행할 수 있다.
관리자는 관리자 단말(120)을 통해 관리 서버(110)에 접속하고, 관리 서버(110)에 정해진 스케쥴링에 따라 배치(BATCH) 프로그램을 실행하여, 기존 데이터와 비교하여 변경 이력을 관리한다.
관리 서버(110)는 자동으로 관리 대상 서버(10, 20, 30, 40)의 하드웨어 정보 및 소프트웨어 정보를 수집하고, 이를 기반으로 각 서버의 현황을 파악하고, 각 서버의 요구 상황에 맞춰 관리 서비스를 제공한다.
도 2는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 동작 과정을 개념적으로 도시한 것으로서, 도 2에서 관리 대상 서버는 iDRAC9 버전이 적용된 Dell 서버(10)이고, Redfish API(Application Programming Interface)가 사용된 플랫폼을 예시한 것이다.
도 2를 참조하면, 사용자 단말에서 플라스크(Flask)를 이용하여 겟 모듈(Get Module)을 진행하고, Redfish API를 이용하여 Dell 서버(10)로부터 iDRAC9 정형 데이터 및 비정형 데이터를 수집한다. 그리고, 수집한 데이터를 분류하고, 데이터 전처리를 수행한다. 그리고, 전처리한 데이터를 데이터베이스(112)에 저장하고, 데이터베이스에 스택(stack)된 데이터에 대해 AI 학습 데이터 모델을 통해 학습을 수행하여 데이터를 재분류하고, 데이터 로우(row)를 생성한다.
그리고, 사용자 단말에서 플라스크(Flask)를 이용하여 페이지를 호출하고, 데이터 분석 모듈에서 데이터베이스(112)를 검색하여 분석을 진행하고, 데이터 시각화를 수행하고, 이를 플라스크 리스판스 유저 웹(Flask Response User Web) 페이지로 전달한다.
도 3은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서의 기능 구현 방법을 도시한 흐름도이다. 도 3의 실시예는 Redfish API를 이용한 실시예이다.
도 3은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 서버 모니터링 기능 구현 방법을 도시한 흐름도이다.
도 3을 참조하면, 관리 서버(110)는 서버 모니터링 기능 구현을 위한 스케쥴 설정 기능을 단말에 제공한다(S1010). 스케쥴 설정 기능에서 서버 모니터링 주기 설정, 서버로부터 수집하는 데이터 값을 설정하는 수집값 설정 등의 관련 항목을 설정할 수 있다(S1020, S1030).
스케쥴 설정이 완료되면(S1040), 설정된 스케쥴에 따라 서버 모니터링 기능을 수행한다(S1050, S1060).
그리고, 관리 서버(110)는 서버 모니터링 기능에 따라 서버를 점검한 결과 정보를 단말에 제공한다(S1070).
도 4 내지 도 8은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 제공하는 기능이 표시된 화면예이다.
도 4는 메인 대시보드 화면예이다.
도 4를 참조하면, 관리 서버(110)는 관리 대상 서버(10, 20, 30, 40)로부터 수집된 자산 정보와, 등록된 성과 건수 등을 바탕으로 중요한 정보를 하나의 화면에 정리하고 표시한 메인 대시보드 화면을 제공한다.
본 발명에서는 특정 정보를 심층적으로 분석하여 지속적으로 모니터링 할 수 있도록 지원하고, 사용자가 자주 사용하는 장비가 무엇이고 어떤 업무에 많은 시간을 소요하고 있으며, 관리 대상 서버의 구성요소별 안정화 펌웨어(Firmware)가 적용되어 있는지 여부 등의 다양한 정보를 대시보드 화면을 통해 제공하고, 대시보드 화면을 통해 사용자가 중요 관리 대상 서버 정보를 한 눈에 확인 할 수 있도록 제공할 수 있다.
도 4의 화면예에서, 서버, 스토리지, 네트워크 운영 현황 정보를 표시하되, 운영중인 전체 수량과, 서버 제조사별 수량에 대한 파이 차트를 제공한다.
그리고, 월별 성과 건수 현황 정보를 제공하되, 작업, 변경, 장애 성과 건수에 대한 막대 차트를 제공한다.
그리고, 안정화 펌웨어 적용 현황 정보를 표시함에 있어서, BIOS, R/C, NIC, iDRAC, HBA, 등의 안정화 펌웨어 적용 장비와 미적용 장비의 비율인 안정화 적용율에 대한 차트를 제공한다.
도 5은 자산 관리 기능을 표시한 화면예이다.
본 발명에서 관리 서버(110)는 서버 등의 장비 신규 설치, 변경 목록을 자동으로 수집하여 정리하고, 신뢰성 높은 데이터를 실시간으로 제공하는 자산 관리 기능을 제공한다.
관리 서버(110)는 자산 관리 기능에서 사용자 단말로부터 등록된 정보를 수집하거나, 표준화된 Redfish RESTful API 를 통해 사전 정의된 주기에 따라 데이터센터 내 서버의 자산 정보를 자동으로 수집할 수 있다.
도 5의 화면예에서, 장비 정보가 표시되어 있으며, 서버, 스토리지, 네트워크, SAN, 백업 장비, 폐기 장비 등의 장비 정보를 등록하거나 조회할 수 있다.
그리고, 관련 통계 정보를 제공하는데, 운영, 유휴, 서비스전, 폐기 등의 장비 상태에 대한 파이 차트를 제공하고, 년도별, 벤더별 운영장비 현황과, 최근 등록된 장비 목록, 추가 사용자 정의 방식 등의 다양한 통계 그래프를 제공한다.
도 6은 성과 관리 기능을 표시한 화면예이다.
본 발명에서 관리 서버(110)는 예정된 작업, 작업으로 인해 변경된 사항 등에 대한 관리와 장애 발생 후 이력, 개선 결과를 관리하기 위한 성과 관리 기능을 제공한다. 이를 통해 본 발명에서 장애 원인이 명확한 경우, 동일 장애가 발생하지 않도록 기록 관리하고, 개선이 필요한 사항에 대해서 담당자를 할당하여 개선 결과를 확인할 수 있다. 또한 년도, 월별, 데이터센터 위치, 운영 서비스 전, 유휴 등의 상태에 따른 다양한 성과 현황 통계 정보를 제공할 수 있다.
도 6의 화면예에서, 온라인 또는 오프라인 작업 이력 관리를 포함하는 작업 내역, 장애 처리 이력 관리인 장애 내역, 시스템 변경 이력 관리인 변경 내역 등이 표시되어 있으며, 백업 스케줄 관리, 성과 현황에 대한 다양한 통계 그래프가 표시되어 있다.
도 7는 자동화 관리 기능을 표시한 화면예이다.
본 발명에서 관리 서버(110)는 표준화된 Redfish RESTful API를 통해 동기화 주기(Daily/Weekly/Monthly) 설정, 자동화 수집 값(전체 /Chassis/MGMT/CPU/NIC/HBA/DISK/GPU 등) 설정, 스케쥴 정보 등록 등의 자동화 수집을 위한 그룹별 실행 주기 관리와, 매일 자동 점검을 통해 점검 필요 대상 장비에 대한 알림 정보를 제공하는 자동화 관리 기능을 제공한다.
도 7의 화면예에서, 수집 동기화 주기 설정, 자동화 수집 값 사용자 정의 설정, 수집 스케쥴 정보를 등록하는 자동화 설정과, 일일 점검 필요 장비 자동 분류, MGMT(Management Repository) 연결 오류 장비를 확인할 수 있는 일일 점검 메뉴가 표시되어 있다.
도 7에서 보는 바와 같이, 관리 서버(110)는 일일 점검 메뉴에서 장비의 상태에 따라 색상을 달리하여 표시할 수 있다. 즉, 장비에 이상이 없으면 초록색, 관리자의 점검이 필요한 경우인 '점검필요' 면 주황색, 육안으로 점검이 필요한 경우인 '육안 점검필요'면 노란색, MGMT에 연결할 수 없는 경우인 'MGMT 접근불가'이면 회색으로 표시할 수 있다.
도 8은 구성도 관리를 표시한 화면예이다.
본 발명에서 관리 서버(110)는 IT 인프라 구성요소인 서버, 스토리지, 네트워크, SAN 등 IT 인프라 환경을 효율적으로 운영하고 관리하는데 필요한 구성도 뷰(View) 기능인 구성도 관리 기능을 제공한다. 즉, 관리 서버(110)는 사용자 단말로부터 선택된 자산인 서버, 스토리지, 네트워크, SAN 등의 구성에 대한 뷰(View)를 자동으로 보여주는 구성도 관리 기능을 제공하며, 이를 통해 성능 이슈 및 장애 발생 시 좀 더 빠른 의사결정을 할 수 있도록 한다.
도 8을 참조하면, 구성도 관리 기능에서 사용자 단말로부터 선택된 장비(서버, 스토리지, 네트워크, SAN 등)의 구성도 뷰 기능을 제공하고, 호스트명(Hostname), 장비 모델 기준 검색 및 선택 기능을 제공하고, 성능 이슈 및 장애 발생 시 인프라 구성을 실시간으로 확인할 수 있도록 한다.
도 9는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 구성예를 도시한 것이다.
도 9의 구성예에서, Redfish API가 사용되며, 관리 대상 서버가 MGMT 네트워크를 통해 연결되고, 관리자 단말(120) 웹(Web) 접속 방식으로 관리 대상 서버에 접속할 수 있다.
본 발명의 일 실시예에서 서버 통합 모니터링 시스템은 Redfish API 기반의 플랫폼으로 멀티 벤더 x86 서버의 하드웨어 시스템의 인벤토리 정보를 실시간으로 수집하고, BIOS 설정, 펌웨어 등을 배포한다. 이를 통해 유지보수 효율성 증대와 운영비용 절감 효과를 가져 올 수 있다. 또한 수집 된 로그(Log)를 바탕으로 유사 장비를 파악하여 동일 장애를 사전 예방 할 수 있도록 한다.
도 10는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish 이벤트를 통한 서버 모니터링 기능을 설명하기 위한 예시도이다.
도 10를 참조하면, 본 발명에서 관리 서버(110)는 Redfish 이벤트를 통한 서버 모니터링 기능을 제공할 수 있다. Redfish 이벤트는 HTTPS를 기반으로 서버의 이벤트 정보를 Redfish 클라이언트로 전송하는데, 매니저먼트(Management)에서 알람이 발생하면 HTTP POST로 전송되며, HTTP GET을 통해 수신할 수 있다. 이때, 중요 알림 이메일 푸시(Push), 상태 모니터링, 일일 점검 대상 서버를 선별하고, 필요한 데이터를 로딩할 수 있다.
도 11은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish를 통한 서버 구성 작업 자동화 기능을 설명하기 위한 예시도이다.
도 11을 참조하면, 본 발명에서 관리 서버(110)는 Redfish를 통한 서버 구성 작업 자동화 기능을 제공할 수 있다. 이 기능에서 BIOS 세팅 변경, 시큐어 부트(Secure Boot), iDRAC Configuration 등을 로컬 배포할 수 있고, 업데이트 할 수 있다. 그리고, 관리 대상 서버 펌웨어 인벤토리 관리 및 업데이트를 제공하고, 서버 배포시 BIOS 표준 설정, 매니지먼트(Management) 표준 구성 값을 일괄 적용하여 배포 시간을 단축할 수 있고, 자동화 관리 기능을 통해 잘못된 설정 값이 입력되는 것을 방지 할 수 있다. 또한 관리 대상 서버에 설치된 펌웨어 정보를 미리 설정해 놓은 주기에 따라 업데이트하여 긴급 펌웨어 배포시, 대상 장비를 자동으로 선별하고, 관리자에게 이메일 푸시하는 기능을 제공한다.
도 12은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish를 통한 서버 구성 자동화 기능을 설명하기 위한 예시도이다.
본 발명에서 관리 서버(110)는 Redfish를 통한 서버 구성 자동화 기능을 제공할 수 있다. 서버가 가지고 있는 고유한 설정 값은 SCP(Server Configuration Profile)의 메타 데이터로 저장되는데, 이를 본 발명에서 Redfish API를 이용하여 구성할 수 있다. SCP는 익스포트(Export), 프리뷰(Preview) 그리고 임포트(Import)가 가능하며, 이를 이용하여 본 발명에서 서버 구성 자동화 기능을 통해 새롭게 구축되는 서버에 구성 정보를 적용할 수 있다.
SCP는 HTTPS, NFS, CIFS 등의 방식으로 공유 할 수 있으며, XML과 JSON 형식으로 구현된다. 서버 구성 시 SSH 프로토콜을 통해 다수의 어플리케이션을 안정성 있고, 일관성 있게 배포할 수 있다.
본 발명에서 물리적 서버 배포를 위한 고유한 설정 값을 메타데이터로 파일 공유 서버에 XML, JSON 형식으로 저장하고, 매니지먼트 네트워크에 연결된 새롭게 구축되는 서버에 구성 정보를 자동으로 적용할 수 있다. 이처럼 본 발명에서 구성 자동화 기능을 통해 운영자는 새로운 서버 구성을 위해 각 서버에 별도의 접속을 하지 않고도 신속하게 새로운 서버를 구성할 수 있다.
본 발명의 일 실시예에서 Redfish를 활용한 AI(Artificial Intelligence) 분석 기능을 제공한다. 즉, SRC(Server remote control)(iDRAC, iLO, IPMI)를 통해 서버, 스토리지 장비의 정형, 비정형 로그 데이터를 수집하고, 데이터 분류 및 전처리 진행 과정을 수행할 수 있다. 이후 학습 데이터 모델을 활용하여 장비의 상태 및 장애를 예측하고, 중요한 이슈 발생시 문자 및 이메일 등으로 사용자 단말에 경보 메시지를 전달한다.
본 발명에서 AI 분석 기능을 통해 정상적인 트랙픽이 무엇인지 학습하고, 이상 트래픽을 발견하고, 사용자에게 필요한 위험도의 우선순위를 설정하여 문제를 분석하고 지원할 수 있다. 그리고, AI를 통해 서버 운영시 수집된 로그를 분석하고 학습하여 알고리즘을 개발하고, 학습된 알고리즘을 통해 기존 장애 발생과 유사한 로그 정보 확인 시 고객 단말(130)에 경보 메시지를 전달하고, 장애 해결 방안을 제공한다. 즉, AI 분석 기능을 통해 사전 장애 방지, 이슈 발생 신속 공유, 실시간 분석 등을 수행할 수 있다.
관리 서버(110)는 관리 대상 서버의 BBU(Backup Battery Unit) 주기를 점검하여, 미리 정해진 주기가 되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 전송할 수 있다.
또한, 관리 서버(110)는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 미리 정해진 수치 이하로 감소하면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. 예를 들어, 관리 서버(110)는 관리 대상 서버의 BBU 충전 용량을 점검하여, 배터리의 충전 효율이 40% 이하로 감소되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.
관리 서버(110)는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 미리 정해진 수치 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다. 예를 들어, 관리 서버(110)는 관리 대상 서버의 BBU 잔여 용량을 점검하여, 배터리의 잔량이 10% 이하인 경우, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.
또한, 관리 서버(110)는 관리 대상 서버의 BBU 쓰기 정책(Write Policy)을 점검하여, 쓰기 정책이 변경되면, 이 내용을 해당 관리 대상 서버의 고객 단말에 알릴 수 있다.
본 발명의 다수의 서버를 통합하여 관리하는 서버 통합 관리 시스템에 대한 것으로서, 서버의 다양한 기능을 진단하고, 장애를 미리 예측하여 경고하고, 해결 방법을 함께 제시한다. 본 발명에서는 서버의 다양한 기능 중에서 BBU(Backup Battery Unit)를 예시하여 설명하기로 한다.
Dell 서버를 예시하면, RAID 컨트롤러의 배터리 실패(failure)로 인한 캐쉬(cache) 데이터의 손실 방지를 위해, BBU의 배터리 상태 점검 및 선제적 교체 진행이 필요하다. 이를 위하여, Dell 서버의 로그(log) 확인을 통해 배터리 완전 충전(Full Charging) 효율(%)을 확인하고, 완전 충전 효율이 50% 미만인 장비를 확인하고, 배터리 교체를 진행한다. 36개월 이후의 배터리 충전 효율은 대략 70% 전후로 자연적으로 감소되며, 이를 감안하여 대략 20% 정도 추가적인 감소가 있는 배터리에 대해 충전효율 불량으로 판정할 수 있다.
본 발명의 서버 통합 관리 시스템은 BBU 주기 점검, 충전용량 점검, 잔여 용량 점검, 쓰기 정책(Write Policy) 점검을 수행하며, 이를 통해 캐쉬 데이터 손실을 방지하고, 배터리 상태에 대한 위험 요인을 사전에 방지할 수 있다.
본 발명의 서버 통합 모니터링 시스템에서는 어떤 이벤트가 발생할 때, 해당 이벤트를 통해 서버에 장애가 발생할 수 있음을 진단하여, 미리 해당 서버의 시스템에 경고하고, 해결 방법에 대한 정보를 함께 전달한다. 이와 관련하여, 서버에서 발생하는 이벤트는 매우 다양하고, 전에 없던 이벤트가 새롭게 발생할 수도 있다. 이제 본 발명에서는 이러한 서버에서 발생할 수 있는 이벤트 중에서 몇 가지 이벤트를 예시하기로 한다.
1. iDRAC7 버전 1.51.51 에 적용된 제품 Dell R720 서버에서 팬(FAN) 소음(Reading 12,000 RPM 이상).
이에 대한 해결 방법은 iDRAC7 1.46.45 버전으로 다운그레이드(Downgrade) 할 것을 권장한다.
2. 랙 PDU#1 및 PDU#2에서 전력 사용률이 PDU#1으로 쏠림 현상이 발생.
도 32을 참조하면, Dell 서버뿐만 아니라, HP 서버도 마찬가지로 파워 서플라이(Power Supply)의 디폴트(Default)로 액티브 스탠바이(Active Standby)로 작동되게끔 셋팅되어 있으며, 이로 인해 전력이 랙(Rack) PDU의 한쪽으로 몰리는 상황이 발생하는데 밸런스(Balance)를 맞추기 위해서는 Primary - PSU 의 비율을 맞춰줄 필요가 있다.
3. Dell 서버 제품 12세대 ~ 14세대 커널 업데이트(kernel update) 후 OS 이상 작동.
이때, 관리 서버(110)는 델(dell) 서버에서 커널(Kernel) 업데이트(update) 후, OS(Operating system) 상에서 이상 작동이 발견되면, 이로 인해 발생할 수 있는 예상 장애 발생 메시지를 해당 관리 대상 서버에 송신하고, 이와 함께 예상 장애에 대한 해결 방법을 해당 관리 대상 서버에 전달한다.
4. TCP/IP 포트(Port) 부족으로 인한 서비스 불가.
이는 윈도우(windows) 2008에서 업타임(Uptime)이 497일 이상 일 때, 네트워크(Network) TIME_WAIT 세션(session)이 클로즈(close)되지 못하고 남아 있는 현상이다. 이로 인하여 포트(port)를 점유하게 되고 더 이상의 포트(port)가 없을 때 문제가 된다. 윈도우(windows) 2008 서버와 윈도우(Windows) 2012 서버가 대상이 되며, 업데이트된 패치를 제거함으로써 장애를 해결할 수 있다.
5. 윈도우(Windows) 2003 ~ 2022 이벤트 로그 발생.
6. 메모리(Memory) 생산 주기 진단.
이는 특정 메모리의 특정 생산주기가 불량인 것을 확인하는 것으로서, 장애 대상은 13세대 장비(R730, R930, R630)이고, 장애 OS는 윈도우(Windows) 2012 R2 서버(Server)에서 KB3064209 hotfix가 포함된 서버이고, 해결 방법은 해당 hotfix를 제거하는 것이다.
본 발명에서 관리 서버(110)는 관리 대상 서버의 메모리 생산 주기를 진단하고, 미리 정해진 메모리 생산 주기를 불량으로 판정하고, 이 내용을 해당 관리 대상 서버에 알린다.
7. PCIe Type의 SSD를 사용하고 있는 경우 장치설정에서 응답이 멈추는 현상.
이에 대한 해결 방법은 BIOS 1.1.4 -> 1.2.10으로 업데이트하는 것이다.
8. 12G 서버(Server) BIOS 업데이트 이후 온도(Temperature) 센서가 정상 작동하지 않아 경고음(Alert_)이 계속 발생하는 이슈.
이에 대한 해결 방법은 BIOS 2.5.2 버전을 진단하고 최신 펌웨어로
업데이트하는 것이다.
9. 패치 Update후 BSOD 발생후 부팅(Booting) 불가 현상
이 이벤트는 2014년 8월 Patch Tuesday update 윈도우 오류 KB2982791로 인한 현상이다.
장애 대상은 windows2008 서버이고, 패치 업데이트를 통해 장애를 해결할 수 있다.
10. 윈도우(Windows) 2012 Active Director를 사용한 클라이언트(Client)에서 DNS 연결 오류 발생.
서버에서 도메인 계정으로 로그인 시 계정과 암호가 정상적임에도 “사용자 이름 또는 암호가 올바르지 않습니다” 는 오류가 발생한다.
윈도우 서버(Windows Server) 2008 R2 / Windows 7 부터 DES-CBC-MD5 및 DES-CBC-CRC 암호화를 사용하지 않고, AES256-CTS-HMAC-SHA1-96, AES128-CTS-HMAC-SHA1-96, RC4-HMAC 암호화만을 사용하게 되는데, AD 서버가 윈도우 서버(Windows Server) 2012 R2이고, 도메인 멤버(Domain Member)가 윈도우 서버(Windows Server) 2008 R2 또는 윈도우(Windows) 7 일 경우, 컴퓨터 계정에 대한 암호 갱신 시에 AES 키 생성이 실패하는 제품 상의 이슈로 인해 발생한 현상이다.
11. GNU Bash 4.3 Shell에 존재하는 취약점.
Bash 취약점을 이용해 공격자는 웹 서버의 콘텐츠 및 코드 변경, 웹사이트 변조, 사용자 데이터 유출 및 DDoS 공격 수행이 가능한 것으로 알려져 있다. 이 외에도 SSH, DHCP 프로토콜 등 다양한 환경 하에서의 Bash 코드 인젝션 취약점 공격 시나리오도 제기되고 있는 상황이다.
장애 대상은 Red Hat Enterprise Linux 5,6,7 서버이고, 장애 해결 방법은 Bash 업데이트이다.
12. GNU C 라이브러리(glibc)의 버퍼 오버플로우 취약점.
네트워크 연결 시 자주 쓰이는 gethostbyname(), gethostbyname2() 함수 호출 시, 취약한 함수가 호출되는 현상으로서, 외부의 공격자는 취약한 서버에서 원격으로 임의의 코드를 실행시킬 수 있다.
장애 대상은 Red Hat Enterprise Linux 5,6,7 서버이고, 장애 해결 방법은 GLIBC 업데이트이다.
13. Radhat V5 및 V6 계열 OS의 버그.
Intel CPU를 사용하는 Red Hat Enterprise Linux 6 or 5 모든 버전에서 208.5일 이후 Reboot 현상이 발생하는 버그이다.
장애 대상은 Red Hat Enterprise Linux 5,6 서버이고, 장애 해결 방법은 커널 업데이트이다.
14. 레이드 컨트롤러 배터리 페일(Raid Controller Battery Fail).
레이드 컨트롤러 캐쉬(Raid Controller Cache) 사용 불가로 인한 I/O 성능이 저하된다. 장애 대상은 Dell Perc 5i, 6i용 Raid Controller Battery이고, 장애 해결 방법은 Dell Perc 5i, 6i용 Raid Controller Battery의 사용 주기 4~5년마다 사전 교체하는 것이다.
15. CPU IERR 에러(Error) 발생으로 인한 시스템 다운(SYSTEM DOWN).
장애 대상은 인텔 아이브릿지 V2 사용 CPU 사용 서버(PE R720, PE R920)이고, 장애 해결 방법은 BIOS 세팅(Setting)을 변경하는 것이다.
예를 들어, 시스템 프로파일 세팅(System Profile Settings)을 시스템 프로파일(System Profile)을 Custom으로 설정하고, CPU 파워 매니지먼트(Power Management)를 Maximum Performance로 하고, C1E를 Disabled C States Disabled로 하고, Monitor/Mwait를 Disabled로 설정한다.
16. iDrac 1.50.50 F/W(Firmware)(해당 버전 검색) 사용시 관리 Web 접속 불가.
iDrac F/W(Firmware) OS상에서의 F/W 업그레이드(Upgrade)하거나, 일상 생활에서의 미디어를 통한 업그레이드(Upgrade)를 통해 1.51.51로 업그레이드(Upgrade)한다.
본 발명은 멀티벤더를 지원하는 서버 통합 모니터링 시스템을 제안한다. 예를 들어, 본 발명에서는 Dell, HP, Lenovo 등 3사의 하드웨어 시스템에 대한 정보를 하나의 인벤토리(Inventory)에 저장하고, 인벤토리에 저장된 정보를 이용하여 하드웨어에 대한 모든 정보를 조회할 수 있고, 기능을 활용할 수 있도록 구현한다.
본 발명에서 설명의 편의를 위하여, Dell, HP, Lenovo 등의 제조사를 예시하여 멀티벤더를 지원하는 서버 통합 모니터링 시스템에 대해 설명하고자 한다.
도 13은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 멀티벤더를 지원하여 서버를 관리하는 방법을 예시한 흐름도이다. 도 13에서 각 단계의 수행 주체는 관리 서버(110)이다.
도 13을 참조하면, 관리 대상 서버를 등록한다(S201). 이때, 각 서버의 관리 IP 정보를 이용하여 대상 서버를 등록할 수 있다. 예를 들어, Dell의 경우 iDRAC, HP의 경우 iLO, Lenovo의 경우 iMM을 이용하여 대상 서버를 등록할 수 있다.
다음, 각 서버별 연결 여부를 파악하고(S203), 멀티벤더 하드웨어 인벤토리 정보를 수집한다(S205). 본 발명의 일 실시예에서 하드웨어 공통 표준인 Redfish API(Application Programming Interface)를 이용하여 제조사 구분없이 x86 서버의 하드웨어 시스템에 대한 인벤토리 정보를 수집할 수 있다.
그리고, 수집한 인벤토리 정보를 저장한다(S207).
긴급 펌웨어(firmware) 업데이트를 포함하여 펌웨어 업데이트 이벤트가 있으면, 모든 관리 대상 서버에 대해 펌웨어 업데이트를 진행한다(S209). 그리고, 변경된 업데이트 정보를 확인한다(S211). 본 발명의 일 실시예에서 Redfish API를 통해 펌웨어 업데이트 정보를 확인할 수 있다.
그리고, 각 서버의 안전도, 점검대상 여부, 중요도 등에 따라 그룹을 설정하고(S215), 실시간으로 서버 정보를 확인한다(S217).
이처럼 본 발명의 일 실시예에서 Redfish API를 이용하여 각 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보, 드라이버 정보 등 운영중인 x86 서버에 대한 다양한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행할 수 있다.
도 14는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 장애 로그 및 패턴을 분석하여 장애를 사전 예방하는 방법을 예시한 흐름도이다. 도 14에서 각 단계를 수행하는 주체는 관리 서버(110)이다.
도 14를 참조하면, 관리 대상 서버의 어느 장비에서 장애 이슈가 발생하면(S401), 로그 및 패턴을 분석한다(S403). 그리고, 분석한 데이터를 저장한다(S405).
장애 이슈가 해결되면(S407), 해당 장비와 유사한 장비를 분류하고(S409), 분류된 유사 장비에 대해 장애 사전 대응 처리를 실시한다(S411).
이처럼 본 발명에서 장애 이슈 발생시 로그 및 패턴을 분석하여 자동으로 유사 장비를 분류함으로써, 유사한 장비에서 발생하는 장애를 사전에 예방할 수 있다.
도 15는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 Redfish API를 활용하여 멀티벤더를 지원하는 동작 모델을 예시한 것이다.
도 15에서 보는 바와 같이, 본 발명에서는 Redfish API를 이용하여 Dell, HP, Lenovo 등 제조사 구별없이 x86 서버 하드웨어 시스템에 대한 인벤토리 정보를 수집하고, 수집한 정보를 조회하고 활용할 수 있다. 예를 들어, Dell의 경우 iDRAC를 이용하여 데이터를 수집하고, HP의 경우 iLO를 이용하여 데이터를 수집하고, Lenovo의 경우 iMM을 이용하여 데이터를 수집한다. 그리고, Redfish API를 이용하여 다수의 서버에 OS 및 펌웨어를 배포하고 설치할 수 있다.
그리고, 본 발명에서 Redfish API를 이용하여 각 서버의 하드웨어 스펙, OS 정보, 펌웨어 정보 등을 신속하게 확인할 수 있다.
그리고, 본 발명에서 패턴을 분석하여 장애를 예측할 수 있고, 하드웨어 로그를 이용하여 패턴분석을 진행할 수 있다.
Redfish API는 2015년네 최초로 릴리즈된 이후 지속적인 업데이트가 진행되고 있으며, 여러 서버 제조 벤더사를 지원하고, IPMI와 동일한 기능을 제공하고 있다. 또한, Redfish API는 BIOS 및 Secure Boot 설정 기능을, 펌웨어 업데이트 기능, 스토리지와 서버의 네트워킹 설정 기능을 지원한다. 그리고, Open Compute Platform, Open stack, SNIA(Storage Networking Industry Association) 등을 지원하고, 네트워크 스위치 매니지먼트, 외장형 스토리지 매니지먼트 등을 지원한다.
파워에지(Power edge) 서버의 관리 툴(tool)인 iDRAC은 Redfish를 활용하여, Redfish RESTful API를 지원한다. 예를 들어, iDRAC은 서버 전원(Reset, Reboot, Power Control), 서버 하드웨어 인벤토리, 서버 모니터링 및 상태 체크, 시스템 로그 수집, 서버의 상태 변화 체크 및 알람을 수행할 수 있다.
파워에지 서버는 Redfish를 통하여 서버 초기 세팅을 자동화 할 수 있다. 그리고, iDRAC 초기 세팅, BIOS, RAID 컨트롤러, 네트워크 카드 등 다양한 구성 정보를 템플릿화하여 서버의 자동화 배포를 할 수 있다.
파워에지 서버의 iDRAC에서 Redfish 활용예 중에서 서버 구성 자동화(Auto deployment)를 예시하면 다음과 같다. 서버가 갖는 고유한 설정 값이 SCP(Server configuration profile)의 메타 데이터로 저장되며, 이는 Redfish API로 구성될 수 있다. 그리고, Redfish API를 통하여 BIOS, iDRAC/LC, PERC RAID Controller, NIC, HBA 등 각종 설정 정보를 설정할 수 있다. SCP는 Export, Preview, Import가 가능하며, 새로 구축되는 서버에 구성 정보를 자유롭게 적용할 수 있다. SCP는 HTTS, NFS, CIFS 등의 방식으로 공유될 수 있으며, XML과 JSON 파일 형식 등으로 구현될 수 있다.
도 16 내지 도 29는 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템의 화면예를 도시한 것이다.
도 16는 초기 화면예이고, 관리 대상 서버에 대해 자동으로 수집한 인벤토리 및 로그에 대한 정보를 한눈에 볼 수 있도록 대시보드를 통해 지원하는 화면예이다.
도 17은 관리 대상 서버의 인벤토리 정보를 실시간으로 확인 할 수 있는 화면예로서, 이 화면예에서 변경된 정보에 대해서도 자동으로 인벤토리 정보가 변경된다.
도 18의 화면예에서, 관리 대상 서버의 이슈가 확인 될 시, 알아보기 쉽게 각 파트별로 붉은 색으로 표시되고, 정상적인 파트는 초록색으로 표시된다.
도 19는 펌웨어(F/W) 정보를 포함한 전체 관리 대상 서버의 실시간 매니지먼트(management) 정보를 확인 할 수 있는 화면예이다.
도 20은 전체 관리 대상 서버의 실시간 CPU 상세정보 및 현재 상태를 확인 할 수 있는 화면예이다.
도 21은 전체 관리 대상 서버의 실시간 메모리 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.
도 22은 전체 관리 대상 서버의 실시간 Raid Controller 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.
도 23는 전체 관리 대상 서버의 실시간 Disk 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.
도 24은 전체 관리 대상 서버의 PSU(Power supply) 실시간 상세 정보 및 현재 상태를 확인 할 수 있는 화면예이다.
도 25 및 도 26는 전체 관리 대상 서버의 수집 로고에 대한 실시간 상세 정보를 확인 할 수 있는 화면예로서, 실시간 Vendor HW 에러코드를 수집하고 자동으로 분류하며, 에러코드 별 이슈 장비 확인이 가능하다.
도 27은 장애분석 화면예로서 장애 원인, 결론, 교체시기를 포함한 장애 분석 정보가 표시되어 있다.
도 28은 고객사와 비교한 각 서버별 장애 분석 분포도를 예시한 화면예이다.
도 29은 서비스 리포트 기능을 예시한 화면예로서, 발생 시기, 이슈사항, 문제해결 및 재발방지 조치 사항을 포함한 리포트 내용이 예시되어 있다.
도 30는 본 발명의 일 실시예에 따른 시스템 장비를 분류한 도표이고, 도 31 및 도 32은 본 발명의 일 실시예에 따른 하드웨어 증상과 그 원인을 기재한 도표이다.
도 33 내지 도 34은 본 발명의 일 실시예에 따른 서버 통합 모니터링 시스템에서 장애 사전 대응 방법을 보여주는 흐름도이다.
도 33을 참조하면, 관리 서버(110)는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면(S101), 도 30의 분류표를 참조하여 장애 발생 가능성이 높은 유사 장비를 위험 장비로 분류한다(S103).
그리고, 분류된 위험 장비에 대한 경고 메시지를 발송하고(S105), 장애 사전 대응 조치를 수행한다(S107).
도 30의 분류표를 참조하면, 본 발명의 일 실시예에서 시스템 장비의 구체적 유사 판단 기준이 예시되어 있으며, 동일 클래스 장비 분류, 동일 CPU 장비 분류, 동일 Memory 장비 분류, 동일 NIC 장비 분류, 동일 Disk 장비 분류, 동일 HBA 장비 분류, 동일 BIOS 장비 분류, 동일 Driver 버전 장비 분류, 동일 OS 장비 분류, 동일 Firmware 버전 장비 분류 등이 예시되어 있다.
도 34를 참조하면, 관리 서버(110)는 관리 대상 서버에서 하드웨어 관련 이슈가 발생하면(S301), 장애 증상을 파악한다(S303).
그리고, 도 31 및 도 32의 도표를 참조하여 장애 증상에 따른 증상 코드를 확인한다(S305). 그리고, 증상 코드에 대응하는 원인을 확인하고(S307), 이에 따라 대응 방안 리포트를 발송한다(S309). 그리고, 장애 원인에 대응하는 장애 대응 조치를 수행한다(S311).
S305 단계에서 장애 증상에 대응하는 증상 코드가 없으면 새로운 증상 코드를 생성하여 도 31 및 도 32의 리스트에 추가한다(S313).
도 31 및 도 32을 참조하면, 본 발명의 일 실시예에 따른 장애 증상별 증상 코드에 대응하는 장애 원인이 예시되어 있다. 즉, RAC1198는 iDrac 펌웨어 이슈, 커넥터블 메모리 장애는 메모리 이슈 및 바이오스 펌웨어 이슈, Link Failure 발생은 NIC 장애 및 펌웨어 이슈, Link Failure Count 다수 발생은 NIC 드라이버 및 펌웨어 이슈, NIC Link is Down은 NIC 드라이버 및 펌웨어 이슈, Link 상태 및 서버 점검 요청은 NIC 드라이버 및 펌웨어 이슈, HOST_DOWN 발생은 NIC 드라이버 및 펌웨어 이슈, 서버 전면 황색 점등 발생은 iDrac 펌웨어 이슈, SWC5008:critical 메시지 출력은 iDrac 펌웨어 이슈, NO_PARTITION 알람 발생은 디스크 장애, Reset adapte은 바이오스 펌웨어 이슈, Correctable memory error는 메모리 이슈 및 바이오스 펌웨어 이슈, CPU 성능 저하는 바이오스 펌웨어 이슈, Memory 및 Slot 표시 안됨은 메모리 이슈 및 바이오스 펌웨어 이슈, Disk fault error는 디스크 장애, disk predicted fail은 디스크 BadBlock으로 인한 장애, 주기적 FAN 6 인식 문제는 Fan 6 장애, 광량 400이하로 인한 Fault는 Gbic 장애, NIC GBIC 통신불가는 Gbic 장애, System 무한 리부팅은 바이오스 펌웨어 이슈, LCD Panel 특정 메세지 출력은 iDrac 펌웨어 이슈, iDRAC에서 반복적인 에러메세지 발생은 iDrac 펌웨어 이슈, vCenter 에이전트와 동기화 오류는 EXSi 버전 및 OS 버전 이슈, 서버 Reboot 현상은 바이오스 펌웨어 이슈, HBA Write 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Read 속도 저하는 HBA 펌웨어 및 드라이버 이슈, HBA Link Down은 HBA Gbic 및 Card 이슈, HBA 이중화 절체 장애는 HBA Gbic 및 Card 이슈, Riser1 인식 불량은 Riser Card 이슈, Riser2 인식 불량은 Riser Card 이슈, 네트워크 이중화 장애는 Network Card 이슈, PSU Alert 황색 LED 점등은 PSU 장애, 저전압으로 인한 이상발생은 PSU 장애, PXE 부팅 불가는 바이오스 설정 및 NIC 펌웨어/드라이버 이슈, POST 부팅 불가는 메인보드 장애, LifeCycle 접속 불가는 메인보드 장애, iDRAC Hang 증상은 iDrac 펌웨어 이슈, iDRAC Network 단절은 메인보드 장애 및 iDrac 펌웨어 이슈, iDRAC SNMP 서비스 장애 발생은 iDrac 펌웨어 이슈, 서버 사용중 갑자기 서버 꺼짐증상은 메인보드 이슈, Medium Error 발생은 디스크 장애, ERROR Event 확인 요청은 Error Event에 따른 이슈, CMC 접속 불가는 CMC 펌웨어 이슈가 원인으로 대응된다.
그리고, DSET 분석 요청은 분석에 따른 장애, TSR Log 분석 요청은 분석에 따른 장애, NFS Service 기동 실패는 NFS 설정 및 OS 설정 점검, vCenter 접속 불가는 EXSi 버전 및 OS 버전 이슈, NIC Reset은 Network Card 이슈, GPU 인식 불가는 GPU Card 장애, OS Crash 발생은 OS Dump 분석, Network error/dropped packets 발생은 Network Card 이슈, CRC에러 발생은 Network Card 이슈, 서버-스위치 끊어진 현상은 Network Card 이슈, Network(Bonding)에 통신이 원활이 되지 않는 문제는 Network Card 이슈, 메모리 교체 후 동일 슬롯 이벤트 발생은 메모리 장애 또는 메인보드 장애, Disk Read Only 상태로 접근 불가는 디스크 장애 또는 RAID 구성 이슈, 스위치 한달에 3~4회 Hang 증상은 메인보드 또는 OS 버전 이슈, LACP Network Speed 문제가 발생하는 것은 Network Card 이슈, 클러스터 페일 오버 발생은 클러스터 설정 이슈 또는 HW 장애, RTSP 동기화 실패는 OS 설정 또는 Network 장애, 세션 저하 현상 발생은 Network Card 또는 Gbic 이슈, 알 수 없는 전원 차단은 PSU 장애, 서버 느려짐 및 행 현상은 어플리케이션 또는 HW 장애, Network Ping Loss는 Network Card 또는 Gbic 이슈, LoadAvg 상승은 CPU 점검 필요, Fatal Error 발생은 PCI Card 또는 Riser Card 이슈, PXE설치 중 멈춤 또는 퍼포먼스 저하는 Network Card 또는 Gbic 이슈, Blue Screen 발생(0x00004f)은 메인보드/바이오스/디스크/메모리 장애, Blue Screen은 메인보드/바이오스/디스크 장애, OS Booting 실패는 메인보드/바이오스/디스크 장애, 프로세스 Down 및 OS설치 중 패닉은 메인보드/바이오스/디스크 장애, 서버에서 타는 냄새는 팬/메인보드/PSU 이슈, NAS 접속 불가 조치는 네트워크/OS 설정 이슈, KVM 연결 불가는 메인보드/KVM케이블/KVM 이슈, Disk Amber LED는 디스크 장애, Post 부팅시 Delay는 메인보드/팬/PCI/메모리 이슈, 전원 공급 불량 조치는 PSU 장애, Teaming 성능 저하는 네트워크/OS 설정 이슈, VD Bad Block은 디스크 장애, HBA Loop는 HBA 장애, Raid 구성정보가 보이지 않음은 펌웨어/디스크 드라이버 이슈, Volume 인식불가는 펌웨어/디스크 드라이버 이슈, Kernel Panic은 OS/App 이슈, 최대 성능 사용시 서버 rebooting은 CPU/PSU/메인보드/메모리 이슈, 서버 처리 속도가 현저하게 늦어짐은 CPU/PSU/메인보드/메모리/디스크 이슈, 서버 전원 안들어옴은 PSU 장애가 원인으로 대응된다.
이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
110 관리 서버 112 데이터베이스
120 관리자 단말 130 고객 단말
10, 20, 30, 40 관리 대상 서버

Claims (3)

  1. 둘 이상의 관리 대상 서버를 모니터링하는 서버 통합 모니터링 시스템에서,
    상기 관리 대상 서버 관련 데이터를 저장하기 위한 데이터베이스; 및
    상기 관리 대상 서버로부터 하드웨어 관련 데이터 및 소프트웨어 관련 데이터를 수집하고, 각 관리 대상 서버의 현황을 모니터링하여 관리하고, 이와 관련한 관리 서비스 통계 데이터와 관리 서비스 리포트를 포함하는 각종 서버 모니터링 정보를 관리자가 사용하는 관리자 단말과 관리 대상 서버를 의뢰한 고객 단말에 제공하는 관리 서버를 포함하고,
    상기 관리 서버는 관리 대상 서버를 모니터링하기 위해 미리 설정된 스케쥴에 따라 관리 대상 서버를 모니터링하고, 모니터링 결과 정보를 상기 관리자 단말과 상기 고객 단말에 제공하는 것을 특징으로 하는 서버 통합 모니터링 시스템.
  2. 청구항 1에 있어서,
    상기 관리 서버는 서버 모니터링 주기를 설정하고, 관리 대상 서버로부터 수집하는 데이터 수집값을 설정할 수 있는 스케쥴 설정 기능을 제공하는 것을 특징으로 하는 서버 통합 모니터링 시스템.
  3. 청구항 1에 있어서,
    상기 관리 서버는 Redfish API를 이용하여 각 관리 대상 서버의 하드웨어 세부 사양, OS(Operating system) 정보, 펌웨어 정보 및 드라이버 정보를 포함하는 운영중인 x86 서버에 대한 정보를 수집할 수 있고, x86 서버의 표준화 관리를 수행하는 것을 특징으로 하는 서버 통합 모니터링 시스템.
KR1020230053116A 2023-04-24 2023-04-24 서버 통합 모니터링 시스템 KR20240156682A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020230053116A KR20240156682A (ko) 2023-04-24 2023-04-24 서버 통합 모니터링 시스템
US18/644,253 US20240356796A1 (en) 2023-04-24 2024-04-24 System for monitoring servers totally

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230053116A KR20240156682A (ko) 2023-04-24 2023-04-24 서버 통합 모니터링 시스템

Publications (1)

Publication Number Publication Date
KR20240156682A true KR20240156682A (ko) 2024-10-31

Family

ID=93120966

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230053116A KR20240156682A (ko) 2023-04-24 2023-04-24 서버 통합 모니터링 시스템

Country Status (2)

Country Link
US (1) US20240356796A1 (ko)
KR (1) KR20240156682A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150124642A (ko) 2014-04-29 2015-11-06 주식회사 비티비솔루션 병렬 연결식 서버시스템의 통신 장애 복구방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150124642A (ko) 2014-04-29 2015-11-06 주식회사 비티비솔루션 병렬 연결식 서버시스템의 통신 장애 복구방법

Also Published As

Publication number Publication date
US20240356796A1 (en) 2024-10-24

Similar Documents

Publication Publication Date Title
US10761926B2 (en) Server hardware fault analysis and recovery
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム
US9262253B2 (en) Middlebox reliability
US10326645B2 (en) System and methods for configuration management
US8910049B2 (en) User-initiated mode for remote support
CN107660289B (zh) 自动网络控制
US20080301081A1 (en) Method and apparatus for generating configuration rules for computing entities within a computing environment using association rule mining
US11012291B2 (en) Remote access controller support system
US10997042B2 (en) Systems and methods for configuration management
US20230031872A1 (en) Enhanced platform and processes for scalability
US12073248B2 (en) Server groupings based on action contexts
KR20240156682A (ko) 서버 통합 모니터링 시스템
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
KR20240156684A (ko) 서버 구성 자동화 기능을 제공하는 it 자산 관리 시스템
KR20240156683A (ko) It 자산 관리 시스템에서의 서버 관리 방법
KR20240156685A (ko) Ai를 이용한 서버 관리 시스템
EP2880821A2 (en) Systems and methods for configuration management
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
JP2024156645A (ja) サーバー構成自動化機能を提供するitリソース管理システム
JP2024156643A (ja) サーバー統合モニタリングシステム
JP2024156646A (ja) Aiを利用したサーバー管理システム
JP2024156644A (ja) Itリソース管理システムでサーバーを管理する方法
KR20230073469A (ko) 장애 대응이 가능한 서버 관리 시스템
US9864669B1 (en) Managing data center resources
US20220391277A1 (en) Computing cluster health reporting engine