[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2010061735A1 - 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム - Google Patents

検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム Download PDF

Info

Publication number
WO2010061735A1
WO2010061735A1 PCT/JP2009/069324 JP2009069324W WO2010061735A1 WO 2010061735 A1 WO2010061735 A1 WO 2010061735A1 JP 2009069324 W JP2009069324 W JP 2009069324W WO 2010061735 A1 WO2010061735 A1 WO 2010061735A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
information
occurrence
pattern
occurrence pattern
Prior art date
Application number
PCT/JP2009/069324
Other languages
English (en)
French (fr)
Inventor
康孝 西村
一人 秋山
直史 津村
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority to EP09828983.8A priority Critical patent/EP2357562A4/en
Priority to JP2010540444A priority patent/JP5285084B2/ja
Priority to KR1020117014445A priority patent/KR101547721B1/ko
Priority to CN200980146094.0A priority patent/CN102216908B/zh
Publication of WO2010061735A1 publication Critical patent/WO2010061735A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Definitions

  • the present invention executes an action corresponding to a detected event that can execute an action corresponding to the detected occurrence event without delay even when the occurrence of the event is detected at a constant time interval via the network.
  • the present invention relates to a system to support, a method to support action execution according to a detection event, a support device, and a computer program.
  • Autonomic computing system is a collective term for all technologies that build a system-wide self-managed environment. It is a system that autonomously controls operations by detecting various events including problems and failures that occur in the system. Means general. For example, the following various methods are disclosed as methods for monitoring events corresponding to problems, failures, etc. occurring in the system.
  • Patent Document 1 discloses an object monitoring method that activates a monitoring object that monitors the occurrence of an event such as a failure for each of a plurality of nodes to be monitored, and transmits event occurrence information to a management node as necessary.
  • Patent Document 2 discloses a network monitoring system that collects continuous amount information of a network device to be monitored, collects monitoring information from a network device that has detected an abnormal behavior, and identifies a failure factor.
  • Patent Document 3 discloses an autonomic server farm that self-repairs by detecting the occurrence of a failure in a server that manages a plurality of nodes.
  • the system is constructed on the assumption that the computer to be monitored is always connected to the network.
  • a certain time lag occurs between the time of the failure occurrence and the time when the server detects the failure occurrence, such as polling at regular intervals, and the failure occurrence is detected almost in real time. It was difficult.
  • history information such as errors, logs, etc. is sent to the management server at regular intervals from the monitored resource side, and events to be executed by the monitored resource are analyzed by event analysis on the management server side. I have identified. Therefore, the time until the action is executed depends on the line connection interval between the monitored resource and the management server, and even if a failure occurs early, an appropriate action is executed on the monitored resource. There is a problem in that it takes a considerable amount of time to respond, and there is a risk that the response will be delayed.
  • the present invention has been made in view of such circumstances, and even when a monitoring target resource is not always connected, detection is performed so that an appropriate action can be executed as early as possible when a failure occurs. It is an object of the present invention to provide a system that supports action execution according to an event, a method that supports action execution according to a detected event, a support apparatus, and a computer program.
  • the support device connected so as to be able to perform data communication with a plurality of devices has a predetermined condition.
  • a storage device for storing information on a plurality of tasks for determining whether or not and actions to be executed by the device in association with an event occurrence pattern, and an index value for determining the probability of occurrence of the event occurrence pattern
  • An index value calculation means for calculating the event, a determination means for determining whether the calculated index value is greater than a predetermined value, an occurrence pattern of the event determined by the determination means to be greater than a predetermined value, and the occurrence pattern Transmitting means for transmitting information on a plurality of tasks and actions corresponding to the above to an apparatus to execute the actions.
  • a system for supporting execution of an action in response to a detected event for supporting execution of an action in response to a detected event.
  • Information relating to the time of erasure is transmitted to the device that is to execute the action.
  • the index value calculation means determines whether or not the index value calculation means has a predetermined condition for each task.
  • the index value calculating means includes a plurality of event sequences generated within a predetermined time from a predetermined time.
  • Event sequence extraction means for extracting, pattern acquisition means for acquiring the appearance frequency of the appearance pattern and the number of occurrences of the action including the appearance pattern for each event appearance pattern, appearance frequency of the acquired appearance pattern and action Multiplying means for multiplying the number of occurrences to calculate an index value.
  • the device in any one of the first to fourth aspects, includes a plurality of patterns corresponding to the occurrence pattern of the event and the occurrence pattern.
  • Receiving means for receiving information related to tasks and actions from the support device, occurrence pattern of the received event, storage means for storing information relating to a plurality of tasks and actions corresponding to the occurrence pattern in a storage device, and
  • An occurrence pattern specifying unit that specifies the occurrence pattern based on information about an event
  • an action execution unit that executes an action based on information about an action corresponding to the specified occurrence pattern.
  • the receiving means obtains information on the event occurrence pattern, a plurality of tasks and actions corresponding to the occurrence pattern Based on the received information about the time to erase, the device stores the event occurrence pattern, information about a plurality of tasks and actions corresponding to the occurrence pattern, based on the received information about the erase time. Erasing means for erasing from the apparatus is provided.
  • the method for supporting action execution according to the detection event according to the seventh invention is executed in a system in which a plurality of devices and the support device are connected so that data communication is possible. And a storage device that associates a plurality of tasks for determining whether or not the support device has a predetermined condition and information about an action to be executed by the device with an event occurrence pattern.
  • the support device is connected to be capable of data communication with a plurality of devices, and a plurality of devices for determining whether or not a predetermined condition is satisfied.
  • a storage device that stores information related to the task and the action to be executed by the device in association with the event occurrence pattern, an index value calculation unit that calculates an index value for determining the probability of occurrence of the event occurrence pattern,
  • a determination unit that determines whether the calculated index value is greater than a predetermined value; a generation pattern of the event determined by the determination unit to be greater than the predetermined value; and a plurality of tasks and actions corresponding to the generation pattern Transmitting means for transmitting information to a device to perform the action.
  • a computer program according to the ninth invention is connected to be capable of data communication with a plurality of devices, and a plurality of computer programs for determining whether or not a predetermined condition is satisfied.
  • the support device has an event occurrence pattern Index value calculation means for calculating an index value for determining the level of probability of occurrence, determination means for determining whether or not the calculated index value is greater than a predetermined value, and said determination means determining that the index value is greater than a predetermined value
  • Event occurrence pattern information on a plurality of tasks and actions corresponding to the occurrence pattern, execute the action To function as a transmission means for transmitting to the Rubeki device.
  • an occurrence pattern determined to have a high probability of occurrence of an externally generated event, and information related to a plurality of tasks and actions corresponding to the occurrence pattern are transmitted in advance to an apparatus that executes the action.
  • the action to be executed by the device can be executed without delay. Therefore, for example, even when a failure occurrence event occurs in the apparatus, an appropriate action can be executed at an early stage, and the influence of the failure occurrence can be minimized.
  • a central device in which a computer program is introduced into a computer system and a system composed of a plurality of terminal devices connected so as to be able to perform data communication
  • the present invention can be implemented as a computer program that can be partially executed by a computer such as a support device. Therefore, the present invention can take an embodiment as hardware such as a central device and a terminal device, an embodiment as software, or an embodiment of a combination of software and hardware.
  • the computer program can be recorded on any computer-readable recording medium such as a hard disk, DVD, CD, optical storage device, magnetic storage device or the like.
  • an occurrence pattern determined to have a high probability of occurrence of an externally generated event, and information regarding a plurality of tasks and actions corresponding to the occurrence pattern are transmitted in advance to an apparatus that executes the action.
  • the action to be executed by the device can be executed without delay. Therefore, for example, even when a failure occurrence event occurs in the apparatus, an appropriate action can be executed at an early stage, and the influence of the failure occurrence can be minimized.
  • an occurrence pattern, information related to a plurality of tasks and actions corresponding to the occurrence pattern (hereinafter referred to as symptom information) stored in a storage device of the terminal device, for example, a terminal device is stored at a predetermined timing.
  • FIG. 1 is a block diagram showing a configuration example of a failure detection system according to Embodiment 1 of the present invention.
  • the failure detection system according to the first embodiment of the present invention includes a central device 1 that functions as a support device, and a plurality of terminal devices 3 that are connected so as to be able to perform data communication with the central device 1 via a network 2. 3, and so on.
  • the central device 1 includes at least a CPU (central processing unit) 11, a memory 12, a storage device 13, an I / O interface 14, a communication interface 15, a video interface 16, a portable disk drive 17, and an internal bus for connecting the above-described hardware. 18.
  • the CPU 11 is connected to the above-described hardware units of the central device 1 via the internal bus 18, and controls the operation of the above-described hardware units, and according to the computer program 100 stored in the storage device 13. Perform various software functions.
  • the memory 12 is composed of a volatile memory such as SRAM or SDRAM, and a load module is expanded when the computer program 100 is executed, and stores temporary data generated when the computer program 100 is executed.
  • the storage device 13 includes a built-in fixed storage device (hard disk), a ROM, and the like.
  • the computer program 100 stored in the storage device 13 is downloaded by a portable disk drive 17 from a portable recording medium 90 such as a DVD or CD-ROM in which information such as programs and data is recorded. To the memory 12 and executed.
  • a computer program downloaded from an external computer connected to the network 2 via the communication interface 15 may be used.
  • the storage device 13 includes a symptom database 131.
  • the symptom database 131 stores generation pattern data indicating a pattern in which an event occurs, a plurality of tasks corresponding to the generation pattern, detailed symptom data, action data indicating an action, and the like.
  • a plurality of tasks may constitute a determination workflow as a time-series task, and it is determined whether each task has a predetermined condition.
  • FIG. 2 is an exemplary diagram of a data configuration of the symptom database 131 of the failure detection system according to the first embodiment of the present invention.
  • the symptom database 131 stores symptom information 60 for each occurrence pattern of events to be detected.
  • the combination of the symptom information 60 is different for each terminal device 3.
  • the central device 1 stores predetermined symptom information 60, 60,... At the time of delivery of a system as a product or when autonomic management software is introduced.
  • the symptom information 60 includes generation pattern data 600, symptom detailed data 610, and action data 620.
  • the occurrence pattern data 600 indicates an occurrence pattern of events to be detected for each terminal device 3. More specifically, the plurality of tasks 605-1, 605-2, 605-3,..., 605-M respectively include identification information (ID) 608-1 and 608-2 of the terminal device 3 that processes the tasks. , 608-3,..., 608-M are stored in association with each other.
  • the task 605-1 is a task for determining a predetermined condition, and is stored in association with the identification information 608-1 in the terminal device 3 that executes the process.
  • the task 605-2 only information related to the task may be stored without being associated with the identification information of the terminal device 3.
  • the symptom detailed data 610 indicates information related to symptoms appearing in the terminal device 3 when the conditions determined by each task are satisfied.
  • the symptom detailed data 610 may be output when it is determined that the condition is satisfied, or may be set so that it can be referred to only when the system administrator performs maintenance / inspection.
  • the action data 620 indicates a process to be executed when an event occurs in a predetermined generation pattern.
  • specific setting processing contents are stored, such as “set operation priority of component A to 2”.
  • the stored information is not limited to the details of the specific setting process, but indicates a process for alerting the user such as “display information about the event that has occurred”. Also good.
  • the contents of the setting process are shown in a natural language so that the explanation is easy to understand.
  • commands and parameters for setting may be used.
  • the identification information 622 of the terminal device 3 that executes the action may be stored in association with the action data 620. Thereby, the central apparatus 1 can grasp
  • FIG. 3 is a view showing an example of a specific task definition in the symptom database 131 according to Embodiment 1 of the present invention.
  • the task 605-1 includes a partial expression 630 and an output definition 640.
  • Sub-expression 630 is a description part of the substantial determination process.
  • the sub-expression 630 determines whether or not the identification information (ID), attribute, etc. of the event that has occurred is a predetermined value for each of a plurality of events, and the logical value indicating the determination result is calculated using a logical product operation or logical The sum is calculated to calculate the evaluation value.
  • the output definition 640 indicates a method of calculating a numerical value to be output to another task 605-2, separately from the evaluation value.
  • Task 605-2 consists of a partial expression 650. Similar to the partial expression 630, the partial expression 650 determines whether or not the identification information (ID), attribute, etc. of the generated event is a predetermined value for each of a plurality of events, and a logical value indicating the determination result is An evaluation value is calculated by logical product operation or logical sum operation.
  • the sub-expression 650 describes that the output value calculated by the output definition 640 is referred to in the calculation process.
  • the conditions for determining each task are not limited to the conditions based on the identification information (ID) and attributes of each event. For example, the number of occurrences of an event, the occurrence order of a plurality of events, whether or not a predetermined combination of events have occurred within a certain time, whether or not an event has occurred, or a combination of these conditions may be used. .
  • the communication interface 15 is connected to the internal bus 18.
  • the external network 2 such as the Internet, a LAN, or a WAN
  • data can be transmitted / received to / from an external computer or the like. It has become.
  • the terminal devices 3, 3,... To be monitored are connected via the network 2, and it is possible to acquire information on the failure occurrence event.
  • the I / O interface 14 is connected to a data input medium such as a keyboard 21 and a mouse 22 and receives data input.
  • the video interface 16 is connected to a display device 23 such as a CRT monitor or LCD, and displays a predetermined image.
  • FIG. 4 is a block diagram showing a configuration of the terminal device 3 according to Embodiment 1 of the present invention.
  • the terminal device 3 includes at least a CPU (central processing unit) 31, a memory 32, a storage device 33, an I / O interface 34, a communication interface 35, a video interface 36, a portable disk drive 37, and an internal bus that connects the above-described hardware. 38.
  • CPU central processing unit
  • the CPU 31 is connected to each hardware unit as described above of the terminal device 3 via the internal bus 38, controls the operation of each hardware unit described above, and follows the computer program 101 stored in the storage device 33. Perform various software functions.
  • the memory 32 is composed of a volatile memory such as SRAM or SDRAM, and a load module is expanded when the computer program 101 is executed, and stores temporary data generated when the computer program 101 is executed.
  • the storage device 33 includes a built-in fixed storage device (hard disk), a ROM, and the like.
  • the computer program 101 stored in the storage device 33 is downloaded by a portable disk drive 37 from a portable recording medium 91 such as a DVD or CD-ROM in which information such as programs and data is recorded. To the memory 32 and executed.
  • a computer program downloaded from an external computer connected to the network 2 via the communication interface 35 may be used.
  • the storage device 33 includes a symptom information storage unit 331.
  • the symptom information storage unit 331 stores generation pattern data indicating a pattern in which an event occurs, time series tasks corresponding to the generation pattern, detailed data on symptom, action data indicating an action, and the like. It is determined whether or not the time series task constitutes a determination workflow and has a predetermined condition.
  • the communication interface 35 is connected to an internal bus 38, and is connected to an external network 2 such as the Internet, a LAN, or a WAN, thereby enabling data transmission / reception with an external computer or the like.
  • the central device 1 is also connected via the network 2 and can transmit information related to the failure occurrence event.
  • the I / O interface 34 is connected to a data input medium such as a keyboard 41 and a mouse 42, and receives data input.
  • the video interface 36 is connected to a display device 43 such as a CRT monitor or LCD, and displays a predetermined image.
  • FIG. 5 is a functional block diagram of the central device 1 and the terminal device 3 according to Embodiment 1 of the present invention.
  • the event log information acquisition unit 501 of the central device 1 acquires event log information that is history information of events that have occurred in the terminal device 3 connected to the central device 1.
  • the timing for acquiring the event log information is not particularly limited, and may be the timing at which the terminal device 3 is connected to the central device 1 or at regular intervals even when a new event occurs. May be.
  • the index value calculation unit 502 calculates an index value for determining the level of probability that an event occurrence pattern will occur based on the acquired event log information.
  • the index value to be calculated is not particularly limited. For example, the number of tasks whose determination result is “false” among a plurality of tasks included in the determination workflow, the occurrence frequency of an event sequence obtained by sequential pattern matching, and the like are calculated.
  • the determination unit 503 determines whether or not the index value calculated by the index value calculation unit 502 is greater than a predetermined value. For example, when the calculated index value is greater than a predetermined value, it can be determined that the probability of occurrence of an event is high, and when the calculated index value is equal to or less than the predetermined value, it is determined that the probability of occurrence of an event is low. To do.
  • the transmission unit 504 includes an occurrence pattern of an event determined by the determination unit 503 to have a high probability of occurrence, information on a plurality of tasks and actions corresponding to the occurrence pattern, that is, symptom information stored in the symptom database 131.
  • the symptom information determined to have a high probability of occurrence is transmitted to the terminal device 3.
  • the receiving unit 505 of the terminal device 3 receives the occurrence pattern of an event determined to have a high probability of occurrence, information on a plurality of tasks and actions corresponding to the occurrence pattern, that is, symptom information from the central device 1 and stores the symptom information Store in the unit 331.
  • the event detection unit 506 detects an event that has occurred in the terminal device 3, the occurrence pattern identification unit 507 identifies the occurrence pattern based on the information related to the detected occurrence event, and the action execution unit 508 stores the symptom information
  • the unit 331 is inquired, and the action is executed based on the information related to the action corresponding to the identified occurrence pattern.
  • the terminal device 3 Since the symptom information determined to have a high probability of occurrence of an event is stored in advance in the symptom information storage unit 331 of the terminal device 3, the terminal device 3 is not connected to the central device 1. However, there is a high possibility that symptom information matching the generated pattern is stored in the symptom information storage unit 331, and in most cases, an appropriate action can be executed based on the stored symptom information.
  • the conventional terminal device 3 receives the action execution instruction information at the timing of transmitting the event log information at a constant time interval and executes the action. Therefore, when an event having a predetermined occurrence pattern occurs, it takes a considerable time to execute the action.
  • an appropriate action can be executed based on the symptom information stored in the symptom information storage unit 331, an event having a predetermined occurrence pattern occurs. The possibility that a time difference will occur before the action is executed can be reduced, and an appropriate action can be executed at an early stage.
  • the transmission unit 504 transmits, to the terminal device 3 at the time of transmission of the symptom information, information related to the event generation pattern and the time to delete the symptom information, which is information related to a plurality of tasks and actions corresponding to the generation pattern. It is preferable.
  • the terminal device 3 is prevented from compressing the computer resources of the terminal device 3, and the symptom information determined to have a high probability of occurrence of an event is constantly updated to the latest information, so that the terminal device does not perform data communication with the central device 1. The possibility that an action can be executed only by the device 3 can be further increased.
  • FIG. 6 is a flowchart showing a processing procedure of the CPU 11 of the central apparatus 1 of the failure detection system according to the first embodiment of the present invention.
  • the CPU 11 of the central device 1 receives event log information, which is history information of events that have occurred, from the terminal device 3 connected to the central device 1 (step S601).
  • the timing for receiving the event log information is not particularly limited, and may be the timing at which the terminal device 3 is connected to the central device 1 or at regular intervals even when a new event occurs. May be.
  • the CPU 11 disconnects the connection with the terminal device 3 to be monitored (step S602), and selects one symptom information from the plurality of symptom information stored in the symptom database 131 of the storage device 13 (step S603). ).
  • the CPU 11 executes a task stored in association with the selected symptom information (step S604), and calculates an index value for determining the probability of occurrence of an event occurrence pattern based on the execution result of the task (step S604). Step S605).
  • the index value to be calculated is not particularly limited. For example, the number of tasks whose determination result is “false” in a plurality of tasks executed in time series such as a determination workflow, the occurrence frequency of an event sequence obtained by sequential pattern matching, and the like are calculated.
  • step S606 determines whether or not the calculated index value satisfies a predetermined condition. For example, it is determined whether or not the calculated index value is greater than a predetermined value.
  • step S606 determines that the index value satisfies a predetermined condition.
  • step S607 the CPU 11 temporarily stores the selected symptom information in the symptom information storage unit 331 (step S607).
  • step S606 determines whether or not all the symptom information stored in the symptom database 131 has been selected ( If the CPU 11 determines that there is unselected symptom information (step S608: NO), the CPU 11 selects the next symptom information (step S609), and returns the process to step S604. The above processing is repeated.
  • step S608 When the CPU 11 determines that all the symptom information has been selected (step S608: YES), the CPU 11 gives priority to the symptom information temporarily stored in the symptom information storage unit 331 (step S610). The method of assigning priority is determined based on the calculated index value.
  • the CPU 11 connects to the terminal device 3 to be monitored (step S611), transmits the symptom information having the highest priority to the terminal device 3 (step S612), returns the processing to step S601, and repeats the above-described processing. .
  • it is not limited to transmitting the symptom information with the highest priority, and all the stored symptom information may be transmitted, or the symptom information with the higher priority may be transmitted. Also good.
  • FIG. 7 is a flowchart showing a procedure of symptom information erasure processing of the CPU 11 of the central apparatus 1 of the failure detection system according to Embodiment 1 of the present invention.
  • the CPU 11 of the central device 1 After transmitting the symptom information with the highest priority to the terminal device 3 (step S612), the CPU 11 of the central device 1 temporarily stores it in the symptom information storage unit 331 on the basis of the information regarding the timing for erasing the received symptom information. It is determined whether or not to delete the existing symptom information (step S701). When the CPU 11 determines to delete the symptom information (step S701: YES), the CPU 11 deletes the temporarily stored symptom information (step S702). If the CPU 11 determines not to delete the symptom information (step S701: NO), the CPU 11 returns the process to step S601 and repeats the above-described process.
  • an appropriate action can be executed based on the symptom information stored in the symptom information storage unit 331, an event having a predetermined occurrence pattern occurs. Therefore, it is possible to reduce the possibility that a time difference occurs until the action is executed, and it is possible to execute an appropriate action at an early stage. Therefore, for example, even when a failure occurrence event occurs, an appropriate action can be executed at an early stage, and the influence of the failure occurrence can be minimized.
  • FIG. 8 is a functional block diagram of the central device 1 and the terminal device 3 according to Embodiment 2 of the present invention.
  • the event log information acquisition unit 501 of the central device 1 acquires event log information that is history information of events that have occurred in the terminal device 3 connected to the central device 1.
  • the timing for acquiring the event log information is not particularly limited, and may be the timing at which the terminal device 3 is connected to the central device 1 or at regular intervals even when a new event occurs. May be.
  • the index value calculation unit 502 includes a condition determination unit 801 that sequentially executes tasks included in the event sequence included in the event log information and determines whether or not a predetermined condition is satisfied, and a predetermined condition.
  • a counting unit 802 that counts the number of tasks determined to be absent is provided.
  • the condition determination unit 801 determines whether or not the identification information (ID), attribute, etc. of the generated event is a predetermined value for each of the generated events, and the logical value indicating the determination result is logically calculated.
  • an evaluation value is calculated by performing a logical OR operation. Accordingly, the logical value has a value of either “true (T)” or “false (F)”.
  • the counting unit 802 counts the number of tasks having a logical value of “false (F)” as an index value.
  • the determining unit 503 determines whether the index value calculated by the index value calculating unit 502, that is, the count value in the counting unit 802 is smaller than a predetermined value. In the second embodiment, when the count value is smaller than the predetermined value, it is determined that the probability of occurrence of the event is high, and when the count value is equal to or greater than the predetermined value, the probability of occurrence of the event occurrence is low. to decide.
  • the transmission unit 504 includes an occurrence pattern of an event determined by the determination unit 503 to have a high probability of occurrence, information on a plurality of tasks and actions corresponding to the occurrence pattern, that is, symptom information stored in the symptom database 131.
  • the symptom information determined to have a high probability of occurrence is transmitted to the terminal device 3.
  • the receiving unit 505 of the terminal device 3 receives the occurrence pattern of an event determined to have a high probability of occurrence, information on a plurality of tasks and actions corresponding to the occurrence pattern, that is, symptom information from the central device 1 and stores the symptom information Store in the unit 331.
  • the event detection unit 506 detects an event that has occurred in the terminal device 3, the occurrence pattern identification unit 507 identifies the occurrence pattern based on the information related to the detected occurrence event, and the action execution unit 508 stores the symptom information
  • the unit 331 is inquired, and the action is executed based on the information related to the action corresponding to the identified occurrence pattern.
  • the terminal device 3 Since the symptom information determined to have a high probability of occurrence of an event is stored in advance in the symptom information storage unit 331 of the terminal device 3, the terminal device 3 is not connected to the central device 1. However, there is a high possibility that symptom information matching the generated pattern is stored in the symptom information storage unit 331, and in most cases, an appropriate action can be executed based on the stored symptom information.
  • the transmission unit 504 transmits information regarding the occurrence pattern of events and the timing of erasing symptom information, which is information related to a plurality of tasks and actions corresponding to the occurrence pattern, at the time of transmission of symptom information. It is preferable to transmit to the apparatus 3 together.
  • the terminal device 3 is prevented from compressing the computer resources of the terminal device 3, and the symptom information determined to have a high probability of occurrence of an event is constantly updated to the latest information, so that the terminal device does not perform data communication with the central device 1. The possibility that an action can be executed only by the device 3 can be further increased.
  • FIG. 9 is a flowchart showing a processing procedure of the CPU 11 of the central apparatus 1 of the failure detection system according to the second embodiment of the present invention.
  • the CPU 11 of the central device 1 receives event log information, which is history information of events that have occurred, from the terminal device 3 connected to the central device 1 (step S901).
  • the timing for receiving the event log information is not particularly limited, and may be the timing at which the terminal device 3 is connected to the central device 1 or at regular intervals even when a new event occurs. May be.
  • the CPU 11 disconnects the connection with the terminal device 3 to be monitored (step S902), and selects one symptom information from the plurality of symptom information stored in the symptom database 131 of the storage device 13 (step S903). ).
  • the CPU 11 executes the task stored in association with the selected symptom information (step S904), determines the number of tasks whose execution result is “false (F)”, and the probability of occurrence of an event occurrence pattern.
  • the index value is counted (step S905).
  • FIG. 10 is an explanatory diagram of a method of calculating the index value from the task execution result stored in association with each symptom information. As shown in FIG. 10, a plurality of tasks A, B, C, D,... Are stored in association with one selected symptom information.
  • Each task is executed sequentially, and the execution result is calculated as a logical value 'true (T)' or 'false (F)'.
  • the execution results T, T, T, F,... are calculated in the order of tasks A, B, C, D,. Then, the number of tasks whose execution result is 'false (F)' is counted as an index value.
  • the CPU 11 of the central apparatus 1 determines whether or not the number of tasks whose execution result is “false (F)” is smaller than a predetermined value (step S906), and the CPU 11 determines that the execution result is “false”. If it is determined that the number of tasks (F) ′ is smaller than the predetermined value (step S906: YES), the CPU 11 temporarily stores the selected symptom information in the symptom information storage unit 331 (step S907).
  • step S906 determines that the number of tasks whose execution result is “false (F)” is greater than or equal to a predetermined value (step S906: NO)
  • the CPU 11 selects all the symptom information stored in the symptom database 131. If the CPU 11 determines that there is unselected symptom information (step S908: NO), the CPU 11 selects the next symptom information (step S909). The process returns to step S904 to repeat the above-described process.
  • step S908 When the CPU 11 determines that all the symptom information has been selected (step S908: YES), the CPU 11 has an execution result of “false (F)” in the symptom information temporarily stored in the symptom information storage unit 331. Priorities are assigned in ascending order of the number of tasks (step S910).
  • the CPU 11 connects to the terminal device 3 to be monitored (step S911), transmits the symptom information having the highest priority to the terminal device 3 (step S912), returns the processing to step S901, and repeats the above-described processing. .
  • it is not limited to transmitting the symptom information with the highest priority, and all the stored symptom information may be transmitted, or the symptom information with the higher priority may be transmitted. Also good.
  • symptom information with a small number of tasks whose task execution result is “false (F)” is determined to be symptom information with a high probability of occurrence of an event. Therefore, by storing symptom information with a small number of tasks whose task execution result is “false (F)” in the symptom information storage unit 331 of the terminal device 3, an event having a predetermined generation pattern can be generated. It is possible to reduce the possibility of a time difference between the occurrence of the action and the execution of the action, and an appropriate action can be executed at an early stage. Therefore, for example, even when a failure occurrence event occurs, an appropriate action can be executed at an early stage, and the influence of the failure occurrence can be minimized.
  • Embodiment 3 Since the configuration of the failure detection system according to Embodiment 3 of the present invention is the same as that of Embodiments 1 and 2, detailed description will be omitted by attaching the same reference numerals.
  • the third embodiment is different from the first and second embodiments in that the index value to be calculated is the occurrence frequency of an event sequence that occurs within a certain time from the time when the action occurs.
  • FIG. 11 is a functional block diagram of the central device 1 and the terminal device 3 according to Embodiment 3 of the present invention.
  • the event log information acquisition unit 501 of the central device 1 acquires event log information that is history information of events that have occurred in the terminal device 3 connected to the central device 1.
  • the timing for acquiring the event log information is not particularly limited, and may be the timing at which the terminal device 3 is connected to the central device 1 or at regular intervals even when a new event occurs. May be.
  • the index value calculation unit 502 calculates the occurrence frequency of the event sequence included in the event log information by sequential pattern matching. That is, the event sequence extraction unit 1101 that extracts a plurality of event sequences that occurred within a certain time before the time when the predetermined action occurs, and the appearance frequency and appearance pattern of the appearance pattern are included for each event appearance pattern A pattern acquisition unit 1102 that acquires the number of occurrences of an action, and a multiplication unit 1103 that calculates an index value by multiplying the appearance frequency of the acquired appearance pattern and the number of occurrences of the action.
  • the determination unit 503 determines whether or not the index value calculated by the index value calculation unit 502, that is, the multiplication value calculated by the multiplication unit 1103 is equal to or greater than a predetermined value. In the third embodiment, when the calculated multiplication value is equal to or greater than a predetermined value, it is determined that the probability of occurrence of an event is high, and when the calculated value is smaller than the predetermined value, the probability of occurrence of an event occurrence pattern is high. Judged to be low.
  • the transmission unit 504 determines that the probability of occurrence is high in the occurrence pattern of the event determined to be high in the determination unit 503, information on the corresponding task and action, that is, symptom information stored in the symptom database 131.
  • the symptom information thus transmitted is transmitted to the terminal device 3.
  • the receiving unit 505 of the terminal device 3 receives the occurrence pattern of an event determined to have a high probability of occurrence, information on a plurality of tasks and actions corresponding to the occurrence pattern, that is, symptom information from the central device 1 and stores the symptom information Store in the unit 331.
  • the event detection unit 506 detects an event that has occurred in the terminal device 3, the occurrence pattern identification unit 507 identifies the occurrence pattern based on the information related to the detected occurrence event, and the action execution unit 508 stores the symptom information
  • the unit 331 is inquired, and the action is executed based on the information related to the action corresponding to the identified occurrence pattern.
  • the terminal device 3 Since the symptom information determined to have a high probability of occurrence of an event is stored in advance in the symptom information storage unit 331 of the terminal device 3, the terminal device 3 is not connected to the central device 1. However, there is a high possibility that symptom information matching the generated pattern is stored in the symptom information storage unit 331, and in most cases, an appropriate action can be executed based on the stored symptom information.
  • the transmission unit 504 transmits the symptom information, the information about the event generation pattern and the erasing time of the symptom information, which is information related to a plurality of tasks and actions corresponding to the generation pattern. It is preferable to transmit to the terminal device 3 sometimes.
  • the terminal device 3 is prevented from pressing the computer resources of the terminal device 3, and the symptom information determined to have a high probability of occurrence of an event is constantly updated to the latest information, so that the terminal device does not perform data communication with the central device 1. The possibility that an action can be executed only by the device 3 can be further increased.
  • FIG. 12 is a flowchart showing a processing procedure of the CPU 11 of the central apparatus 1 of the failure detection system according to the third embodiment of the present invention.
  • the CPU 11 of the central device 1 receives event log information, which is history information of events that have occurred, from the terminal device 3 connected to the central device 1 (step S1201).
  • the timing for receiving the event log information is not particularly limited, and may be the timing at which the terminal device 3 is connected to the central device 1 or at regular intervals even when a new event occurs. May be.
  • the CPU 11 disconnects the connection with the terminal device 3 to be monitored (step S1202), and selects one symptom information from the plurality of symptom information stored in the symptom database 131 of the storage device 13 (step S1203). ).
  • the CPU 11 executes a task stored in association with the selected symptom information (step S1204), and acquires the appearance frequency and the number of occurrences of the action for each appearance pattern of the event sequence (step S1205).
  • FIG. 13 is an explanatory diagram of a method of calculating the event string occurrence frequency by sequential pattern matching from the execution results of tasks stored in association with each symptom information.
  • FIG. 13A is a chart showing actions that have occurred and a sequence of events that have occurred within a certain period of time before the occurrence of the action. An event string indicating a certain appearance pattern is shown for each action that has occurred.
  • FIG. 13B is a chart showing the appearance frequency included in the action generated for each appearance pattern of the event sequence and the number of occurrences of the action by sequential pattern matching.
  • the appearance frequency at which the appearance pattern shown in FIG. 13B is included in the event sequence of FIG. 13A is calculated by a known method, and the number of occurrences of the action including the appearance pattern of the event sequence is obtained.
  • the CPU 11 of the central apparatus 1 calculates the index value by multiplying the appearance frequency and the occurrence frequency (step S1206), and determines whether or not the index value is equal to or greater than a predetermined value (step S1206). S1207).
  • the CPU 11 determines that the index value is equal to or greater than the predetermined value (step S1207: YES)
  • the CPU 11 temporarily stores the selected symptom information in the symptom information storage unit 331 (step S1208).
  • step S1207 determines whether the index value is smaller than the predetermined value (step S1207: NO). If the CPU 11 determines that all symptom information stored in the symptom database 131 has been selected (step S1209). If the CPU 11 determines that there is unselected symptom information (step S1209: NO), the CPU 11 selects the next symptom information (step S1210), returns the processing to step S1204, and performs the above-described processing. repeat.
  • step S1209 When the CPU 11 determines that all the symptom information has been selected (step S1209: YES), the CPU 11 gives priority to the symptom information temporarily stored in the symptom information storage unit 331 in descending order of the index value ( Step S1211).
  • the CPU 11 connects to the terminal device 3 to be monitored (step S1212), transmits the symptom information with the highest priority to the terminal device 3 (step S1213), returns the processing to step S1201, and repeats the above-described processing.
  • step S1212 transmits the symptom information with the highest priority
  • step S1213 returns the processing to step S1201, and repeats the above-described processing.
  • it is not limited to transmitting the symptom information with the highest priority, and all the stored symptom information may be transmitted, or the symptom information with the higher priority may be transmitted. Also good.
  • symptom information including an event sequence included in an action having a high appearance frequency and a large number of occurrences is determined to be symptom information having a high probability of occurrence of an event occurrence pattern. Since the symptom information having a large multiplication value of the appearance frequency and the number of occurrences is stored in the symptom information storage unit 331 of the terminal device 3, an action having a predetermined occurrence pattern occurs and an action is generated. It is possible to reduce the possibility that a time difference will occur before executing, and to perform an appropriate action at an early stage. Therefore, for example, even when a failure occurrence event occurs, an appropriate action can be executed at an early stage, and the influence of the failure occurrence can be minimized.
  • the present invention is not limited to the above-described embodiment, and various changes and improvements can be made within the scope of the present invention.
  • the symptom information stored in the symptom database is not limited to the configuration including the information related to the action, and the information related to the action may be associated with the symptom to be another database.
  • the place where the event occurs is not limited to the terminal device, and the terminal device only needs to be able to execute an action corresponding to the event that has occurred.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

常時接続されていない監視対象リソースであっても、障害発生時に可能な限り早期に適切なアクションを実行することができるよう支援する、検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、中央装置及びコンピュータプログラムを提供する。 支援装置が、所定の条件を具備するか否かを判定するための複数のタスク及び装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶装置へ記憶する。イベントの発生パターンが生じる確率の高低を判断する指標値を算出し、算出された指標値が所定値より大きいか否かを判断する。所定値より大きいと判断したイベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、アクションを実行するべき装置へ送信する。

Description

検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム
 本発明は、ネットワークを介して一定の時間間隔でイベント発生を検出している場合であっても、検出した発生イベントに対応したアクションを遅滞なく実行することができる検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラムに関する。
 昨今のコンピュータ技術の急速な発展により、コンピュータシステムは社会インフラを構築する基幹システムに当然のように組み込まれている。社会インフラを定常的に正常に運用するためには、相当の運用コストが発生する。斯かる運用コストを少しでも削減し、しかもシステムの安定度を高める技術としてオートノミック・コンピューティング・システムが注目されている。
 オートノミック・コンピューティング・システムは、システム規模の自己管理型環境を構築する技術全体の総称であり、システムに生じた問題、障害等を含む各種のイベントを検出して自律的に動作を制御するシステム全般を意味している。例えばシステム上に生じた問題、障害等に対応するイベントを監視する方法としては、下記のように多様な方法が開示されている。
 特許文献1では、監視対象となる複数のノードごとに障害等のイベント発生を監視する監視オブジェクトを起動させ、必要に応じて管理ノードへイベント発生情報を送信するオブジェクト監視方法が開示されている。特許文献2では、監視対象となるネットワーク装置の連続量情報を収集して、異常な振舞いを検出したネットワーク装置から監視情報を収集して障害要因を特定するネットワーク監視システムが開示されている。特許文献3では、複数のノードを管理するサーバでの障害発生を検知して自己修復するオートノミック・サーバ・ファームが開示されている。
特開平10-91482号公報 特開2005-285040号公報 特開2004-110790号公報
 上述した従来の障害イベント監視方法では、いずれも監視対象となるコンピュータがネットワークに常時接続されていることを前提にシステムが構築されている。しかし、実際には障害発生を検知するためには、一定時間ごとにポーリングする等、障害発生時からサーバが障害発生を検知するまでに一定の時間差が生じ、略リアルタイムに障害発生を検知することが困難であった。
 特に分散型ネットワークにおいては、監視対象リソース側から一定時間ごとにエラー、ログ等の履歴情報を管理サーバ側へ送信し、管理サーバ側でイベント解析することにより、監視対象リソースが実行するべきアクションを特定している。したがって、アクション実行までの時間は、監視対象リソースと管理サーバとの回線接続間隔に依存しており、早期に障害発生を検知した場合であっても、監視対象リソースにて適切なアクションが実行されるまでに相当の時間を必要とし、対応が遅れるおそれが生じるという問題点があった。
 本発明は斯かる事情に鑑みてなされたものであり、常時接続されていない監視対象リソースであっても、障害発生時に可能な限り早期に適切なアクションを実行することができるよう支援する、検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラムを提供することを目的とする。
 上記目的を達成するために第1発明に係る検出イベントに応じたアクション実行を支援するシステムは、複数の装置とデータ通信することが可能に接続されている支援装置が、所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶する記憶装置と、イベントの発生パターンが生じる確率の高低を判断する指標値を算出する指標値算出手段と、算出された指標値が所定値より大きいか否かを判断する判断手段と、該判断手段で、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信する送信手段とを備える。
 また、第2発明に係る検出イベントに応じたアクション実行を支援するシステムは、第1発明において、前記送信手段が、前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を消去する時期に関する情報を、前記アクションを実行するべき装置へ送信するようにしてある。
 また、第3発明に係る検出イベントに応じたアクション実行を支援するシステムは、第1又は第2発明において、前記指標値算出手段が、前記タスクごとに、所定の条件を具備するか否かを判定する条件判定手段と、該条件判定手段で、具備しないと判定したタスク数を計数する計数手段とを備え、前記判断手段が、前記計数手段で計数したタスク数が所定値より小さいか否かを判断するタスク数判断手段を有する。
 また、第4発明に係る検出イベントに応じたアクション実行を支援するシステムは、第1又は第2発明において、前記指標値算出手段が、所定の時刻から一定時間内に発生する複数のイベント列を抽出するイベント列抽出手段と、イベントの出現パターンごとに、該出現パターンの出現頻度及び該出現パターンが含まれるアクションの発生回数を取得するパターン取得手段と、取得した出現パターンの出現頻度及びアクションの発生回数を乗算して指標値を算出する乗算手段とを備える。
 また、第5発明に係る検出イベントに応じたアクション実行を支援するシステムは、第1乃至第4発明のいずれか1つにおいて、前記装置が、前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を前記支援装置から受信する受信手段と、受信した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を記憶装置に記憶する記憶手段と、発生したイベントに関する情報に基づいて、前記発生パターンを特定する発生パターン特定手段と、特定した発生パターンに対応するアクションに関する情報に基づいてアクションを実行するアクション実行手段とを備える。
 また、第6発明に係る検出イベントに応じたアクション実行を支援するシステムは、第5発明において、前記受信手段が、前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を消去する時期に関する情報を受信するようにしてあり、前記装置が、受信した消去する時期に関する情報に基づいて、前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を前記記憶装置から消去する消去手段を備える。
 次に、上記目的を達成するために第7発明に係る検出イベントに応じたアクション実行を支援する方法は、複数の装置と支援装置とがデータ通信することが可能に接続されたシステムで実行することが可能な方法において、前記支援装置が、所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶装置に記憶するステップと、イベントの発生パターンが生じる確率の高低を判断する指標値を算出するステップと、算出された指標値が所定値より大きいか否かを判断するステップと、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信するステップとを含む。
 次に、上記目的を達成するために第8発明に係る支援装置は、複数の装置とデータ通信することが可能に接続されており、所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶する記憶装置と、イベントの発生パターンが生じる確率の高低を判断する指標値を算出する指標値算出手段と、算出された指標値が所定値より大きいか否かを判断する判断手段と、該判断手段で、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信する送信手段とを備える。
 次に、上記目的を達成するために第9発明に係るコンピュータプログラムは、複数の装置とデータ通信することが可能に接続されており、所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶する記憶装置を備える支援装置で実行することが可能なコンピュータプログラムにおいて、前記支援装置を、イベントの発生パターンが生じる確率の高低を判断する指標値を算出する指標値算出手段、算出された指標値が所定値より大きいか否かを判断する判断手段、及び該判断手段で、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信する送信手段として機能させる。
 本発明によれば、外部で発生したイベントの発生パターンが生じる確率が高いと判断した発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、アクションを実行する装置へ事前に送信しておくことにより、アクションを実行する装置が支援装置と接続されていない時間帯にイベントが発生した場合であっても、該装置にて実行するべきアクションを遅滞なく実行することができる。したがって、例えば障害発生イベントが装置で生じた場合であっても、早期に適切なアクションを実行することができ、障害発生による影響を最小限に止めることが可能となる。
本発明の実施の形態1に係る障害検出システムの構成例を示すブロック図である。 本発明の実施の形態1に係る障害検出システムのシンプトンデータベースのデータ構成の例示図である。 本発明の実施の形態1に係るシンプトンデータベースでの具体的なタスク定義の例示図である。 本発明の実施の形態1に係る端末装置の構成を示すブロック図である。 本発明の実施の形態1に係る中央装置及び端末装置の機能ブロック図である。 本発明の実施の形態1に係る障害検出システムの中央装置のCPUの処理手順を示すフローチャートである。 本発明の実施の形態1に係る障害検出システムの中央装置のCPUのシンプトン情報消去処理の手順を示すフローチャートである。 本発明の実施の形態2に係る中央装置及び端末装置の機能ブロック図である。 本発明の実施の形態2に係る障害検出システムの中央装置のCPUの処理手順を示すフローチャートである。 シンプトン情報ごとに含まれるタスクの実行結果から指標値を算出する方法の説明図である。 本発明の実施の形態3に係る中央装置及び端末装置の機能ブロック図である。 本発明の実施の形態3に係る障害検出システムの中央装置のCPUの処理手順を示すフローチャートである。 シンプトン情報ごとに含まれるタスクの実行結果から、イベント列の発生頻度をシーケンシャルパターンマッチングにて算出する方法の説明図である。
 以下、本発明の実施の形態に係る検出イベントに応じたアクション実行を支援するシステムについて、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。
 また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。
 以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した中央装置及びデータ通信することが可能に接続されている複数の端末装置からなるシステムについて説明するが、当業者であれば明らかな通り、本発明はその一部を支援装置等のコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、中央装置及び端末装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。
 本発明の実施の形態では、外部で発生したイベントの発生パターンが生じる確率が高いと判断した発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、アクションを実行する装置へ事前に送信しておくことにより、アクションを実行する装置が支援装置と接続されていない時間帯にイベントが発生した場合であっても、該装置にて実行するべきアクションを遅滞なく実行することができる。したがって、例えば障害発生イベントが装置で生じた場合であっても、早期に適切なアクションを実行することができ、障害発生による影響を最小限に止めることが可能となる。
 また、アクションを実行する装置、例えば端末装置の記憶装置に記憶してある、発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報(以下、シンプトン情報という)を、所定のタイミングにて消去して新たなシンプトン情報を支援装置(中央装置)から受信して記憶することにより、直近のイベント発生状況を反映させつつ、発生確率の高いシンプトン情報を記憶しておくことができ、支援装置へ発生イベントに関する情報を送信することなく適切なアクションを実行することが可能となる。
 (実施の形態1)
 図1は、本発明の実施の形態1に係る障害検出システムの構成例を示すブロック図である。本発明の実施の形態1に係る障害検出システムは、支援装置として機能する中央装置1と、中央装置1とネットワーク2を介してデータ通信することが可能に接続されている複数の端末装置3、3、・・・とで構成されている。
 中央装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、通信インタフェース15、ビデオインタフェース16、可搬型ディスクドライブ17及び上述したハードウェアを接続する内部バス18で構成されている。
 CPU11は、内部バス18を介して中央装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されているコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
 記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置13に記憶されているコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD-ROM等の可搬型記録媒体90から、可搬型ディスクドライブ17によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース15を介してネットワーク2に接続されている外部のコンピュータからダウンロードされたコンピュータプログラムであっても良い。
 また記憶装置13は、シンプトンデータベース131を備えている。シンプトンデータベース131には、イベントが発生するパターンを示す発生パターンデータ、該発生パターンに対応する複数のタスク、シンプトンの詳細データ及びアクションを示すアクションデータ等が記憶されている。なお、複数のタスクが時系列タスクとして判定ワークフローを構成しても良く、タスクごとに所定の条件を具備するか否かを判定する。
 図2は、本発明の実施の形態1に係る障害検出システムのシンプトンデータベース131のデータ構成の例示図である。シンプトンデータベース131は、検出するべきイベントの発生パターンごとにシンプトン情報60を記憶している。
 シンプトン情報60の組み合わせは、端末装置3ごとに相違する。中央装置1は、製品としてのシステム納品時、あるいはオートノミック管理ソフトウェアを導入した時点で所定のシンプトン情報60、60、・・・を記憶しておく。
 シンプトン情報60は、発生パターンデータ600、シンプトン詳細データ610、及びアクションデータ620で構成されている。発生パターンデータ600は、端末装置3ごとに検出するべきイベントの発生パターンを示している。具体的には、複数のタスク605-1、605-2、605-3、・・・、605-Mは、それぞれタスクを処理する端末装置3の識別情報(ID)608-1、608-2、608-3、・・・、608-Mを対応付けて記憶してある。
 例えばタスク605-1は、所定の条件を判定するタスクであり、処理を実行する端末装置3に識別情報608-1と対応付けて記憶してある。もちろん、タスク605-2のように、端末装置3の識別情報と対応付けることなく、タスクに関する情報のみを記憶しても良い。
 次に、シンプトン詳細データ610は、各タスクにより判定された条件を具備する場合、端末装置3に現れている症状に関する情報を示している。シンプトン詳細データ610は、条件を具備すると判定した場合に出力しても良いし、システム管理者が保守・点検をする場合にのみ参照することが可能であるよう設定しても良い。
 アクションデータ620は、イベントが所定の発生パターンで発生した場合に実行するべき処理を示している。例えば「コンポーネントAの動作優先度を2に設定する」というように、具体的な設定処理の内容が記憶されている。なお、記憶される情報としては、具体的な設定処理の内容に限定されるものではなく、「発生したイベントに関する情報を表示する」というような利用者に対して注意を喚起する処理を示しても良い。
 また、本実施の形態1では、説明がわかりやすくなるように設定処理の内容を自然言語で示しているが、設定するためのコマンド、パラメータ等であっても良い。さらに、アクションを実行する端末装置3の識別情報622をアクションデータ620に対応付けて記憶しても良い。これにより中央装置1は、アクションをどの端末装置3で実行させるべきか把握することができ、アクション実行指示を的確に送信することができる。
 図3は、本発明の実施の形態1に係るシンプトンデータベース131での具体的なタスク定義の例示図である。例えばタスク605-1は、部分式630及び出力定義640とで構成されている。部分式630が実質的な判定処理の記載部分である。例えば部分式630は、複数のイベントそれぞれについて、発生したイベントの識別情報(ID)、属性等が所定の値であるか否かを判定し、判定結果を示す論理値を、論理積演算又は論理和演算して評価値を算出する。出力定義640は、評価値とは別に、他のタスク605-2に出力するべき数値の演算方法を示している。
 タスク605-2は、部分式650で構成されている。部分式650は、部分式630と同様、複数のイベントそれぞれについて、発生したイベントの識別情報(ID)、属性等が所定の値であるか否かを判定し、判定結果を示す論理値を、論理積演算又は論理和演算して評価値を算出する。部分式650には、演算過程にて、出力定義640で算出された出力値を参照することが記載されている。
 各タスクの判定する条件は、各イベントの識別情報(ID)、属性等に基づく条件に限定されるものではない。例えばイベントの発生回数、複数のイベントの発生順序、一定時間内に所定の組み合わせのイベントが発生したか否か、イベントが発生しているか否か、あるいはこれらの条件の組み合わせで判定しても良い。
 図1に戻って、通信インタフェース15は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワーク2に接続されることにより、外部のコンピュータ等とデータ送受信を行うことが可能となっている。また、監視対象となる端末装置3、3、・・・とはネットワーク2を介して接続されており、障害発生イベントに関する情報等を取得することが可能となっている。
 I/Oインタフェース14は、キーボード21、マウス22等のデータ入力媒体と接続され、データの入力を受け付ける。また、ビデオインタフェース16は、CRTモニタ、LCD等の表示装置23と接続され、所定の画像を表示する。
 図4は、本発明の実施の形態1に係る端末装置3の構成を示すブロック図である。端末装置3は、少なくともCPU(中央演算装置)31、メモリ32、記憶装置33、I/Oインタフェース34、通信インタフェース35、ビデオインタフェース36、可搬型ディスクドライブ37及び上述したハードウェアを接続する内部バス38で構成されている。
 CPU31は、内部バス38を介して端末装置3の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置33に記憶されているコンピュータプログラム101に従って、種々のソフトウェア的機能を実行する。メモリ32は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム101の実行時にロードモジュールが展開され、コンピュータプログラム101の実行時に発生する一時的なデータ等を記憶する。
 記憶装置33は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成されている。記憶装置33に記憶されているコンピュータプログラム101は、プログラム及びデータ等の情報を記録したDVD、CD-ROM等の可搬型記録媒体91から、可搬型ディスクドライブ37によりダウンロードされ、実行時には記憶装置33からメモリ32へ展開して実行される。もちろん、通信インタフェース35を介してネットワーク2に接続されている外部のコンピュータからダウンロードされたコンピュータプログラムであっても良い。
 また記憶装置33は、シンプトン情報記憶部331を備えている。シンプトン情報記憶部331には、イベントが発生するパターンを示す発生パターンデータ、発生パターンに対応する時系列タスク、シンプトンの詳細データ及びアクションを示すアクションデータ等が記憶されている。時系列タスクが判定ワークフローを構成しており、所定の条件を具備するか否かを判定する。
 通信インタフェース35は内部バス38に接続されており、インターネット、LAN、WAN等の外部のネットワーク2に接続されることにより、外部のコンピュータ等とデータ送受信を行うことが可能となっている。また、中央装置1ともネットワーク2を介して接続されており、障害発生イベントに関する情報等を送信することが可能となっている。
 I/Oインタフェース34は、キーボード41、マウス42等のデータ入力媒体と接続され、データの入力を受け付ける。また、ビデオインタフェース36は、CRTモニタ、LCD等の表示装置43と接続され、所定の画像を表示する。
 図5は、本発明の実施の形態1に係る中央装置1及び端末装置3の機能ブロック図である。中央装置1のイベントログ情報取得部501は、中央装置1に接続されている端末装置3で発生したイベントの履歴情報であるイベントログ情報を取得する。イベントログ情報を取得するタイミングは特に限定されるものではなく、端末装置3が中央装置1へ接続されたタイミングでも良いし、新たなイベントが発生する都度であっても、一定の時間間隔であっても良い。
 指標値算出部502は、取得したイベントログ情報に基づいて、イベントの発生パターンが生じる確率の高低を判断する指標値を算出する。算出する指標値は特に限定されるものではない。例えば判定ワークフローに含まれる複数のタスクにおいて判定結果が‘偽’であったタスク数、シーケンシャルパターンマッチングにて求まるイベント列の発生頻度等を算出する。
 判断部503は、指標値算出部502で算出された指標値が所定値より大きいか否かを判断する。例えば算出した指標値が所定値より大きい場合には、イベントの発生パターンが生じる確率が高いと判断することができ、所定値以下である場合には、イベントの発生パターンが生じる確率が低いと判断する。
 送信部504は、判断部503で、生じる確率が高いと判断したイベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報、すなわちシンプトンデータベース131に記憶されているシンプトン情報のうち、生じる確率が高いと判断したシンプトン情報を、端末装置3へ送信する。
 端末装置3の受信部505は、生じる確率が高いと判断したイベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報、すなわちシンプトン情報を中央装置1から受信して、シンプトン情報記憶部331へ記憶する。
 イベント検出部506は、端末装置3にて発生したイベントを検出し、発生パターン特定部507は、検出した発生イベントに関する情報に基づいて、発生パターンを特定し、アクション実行部508は、シンプトン情報記憶部331を照会して、特定した発生パターンに対応するアクションに関する情報に基づいてアクションを実行する。
 イベントの発生パターンが生じる確率が高いと判断したシンプトン情報が事前に端末装置3のシンプトン情報記憶部331に記憶してあることから、端末装置3が中央装置1と接続されていない場合であっても、発生パターンに合致するシンプトン情報がシンプトン情報記憶部331に記憶されている可能性が高く、ほとんどの場合は記憶されているシンプトン情報に基づいて適切なアクションを実行することができる。
 端末装置3が中央装置1と接続されていない場合、従来の端末装置3は、一定の時間間隔でイベントログ情報を送信するタイミングでアクションの実行指示情報を受信し、アクションを実行していた。そのため、所定の発生パターンを有するイベントが発生した場合に、アクションを実行するまでに相当の時間を要していた。
 それに対して本実施の形態1によれば、シンプトン情報記憶部331に記憶されているシンプトン情報に基づいて適切なアクションを実行することができるので、所定の発生パターンを有するイベントが発生してから、アクションを実行するまでに時間差が生じる可能性を低減することができ、早期に適切なアクションを実行することができる。
 なお、送信部504は、イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報であるシンプトン情報を消去する時期に関する情報を、シンプトン情報の送信時に端末装置3へ併せて送信することが好ましい。端末装置3の計算機資源を圧迫することを防止するとともに、イベントの発生パターンが生じる確率が高いと判断したシンプトン情報を最新の情報に絶えず更新することにより、中央装置1とデータ通信することなく端末装置3だけでアクションを実行することができる可能性をより高めることが可能となる。
 図6は、本発明の実施の形態1に係る障害検出システムの中央装置1のCPU11の処理手順を示すフローチャートである。中央装置1のCPU11は、中央装置1に接続されている端末装置3から、発生したイベントの履歴情報であるイベントログ情報を受信する(ステップS601)。イベントログ情報を受信するタイミングは特に限定されるものではなく、端末装置3が中央装置1へ接続されたタイミングでも良いし、新たなイベントが発生する都度であっても、一定の時間間隔であっても良い。
 CPU11は、監視対象となる端末装置3との接続を切断し(ステップS602)、記憶装置13のシンプトンデータベース131に記憶してある複数のシンプトン情報の中から一のシンプトン情報を選択する(ステップS603)。CPU11は、選択したシンプトン情報に対応付けて記憶してあるタスクを実行し(ステップS604)、タスクの実行結果に基づいて、イベントの発生パターンが生じる確率の高低を判断する指標値を算出する(ステップS605)。算出する指標値は特に限定されるものではない。例えば判定ワークフローのような時系列に実行される複数のタスクにおいて判定結果が‘偽’であったタスク数、シーケンシャルパターンマッチングにて求まるイベント列の発生頻度等を算出する。
 CPU11は、算出した指標値が所定の条件を具備しているか否かを判定する(ステップS606)。例えば算出した指標値が所定値より大きいか否かを判定する。CPU11が、指標値が所定の条件を具備していると判定した場合(ステップS606:YES)、CPU11は、選択したシンプトン情報をシンプトン情報記憶部331へ一時記憶する(ステップS607)。
 CPU11が、指標値が所定の条件を具備していないと判定した場合(ステップS606:NO)、CPU11は、シンプトンデータベース131に記憶してある全てのシンプトン情報を選択したか否かを判断し(ステップS608)、CPU11が、まだ選択していないシンプトン情報が存在すると判断した場合(ステップS608:NO)、CPU11は、次のシンプトン情報を選択して(ステップS609)、処理をステップS604へ戻して上述した処理を繰り返す。
 CPU11が、全てのシンプトン情報を選択したと判断した場合(ステップS608:YES)、CPU11は、シンプトン情報記憶部331に一時記憶されているシンプトン情報に優先順位を付与する(ステップS610)。優先順位の付与方法は、算出した指標値に基づいて決定される。
 CPU11は、監視対象となる端末装置3と接続し(ステップS611)、優先順位の最も高いシンプトン情報を端末装置3へ送信して(ステップS612)、処理をステップS601へ戻して上述した処理を繰り返す。もちろん、優先順位の最も高いシンプトン情報を送信することに限定されるものではなく、一時記憶されているシンプトン情報を全て送信しても良いし、優先順位の上位複数個のシンプトン情報を送信しても良い。
 図7は、本発明の実施の形態1に係る障害検出システムの中央装置1のCPU11のシンプトン情報消去処理の手順を示すフローチャートである。中央装置1のCPU11は、優先順位の最も高いシンプトン情報を端末装置3へ送信した後(ステップS612)、受信したシンプトン情報を消去する時期に関する情報に基づいて、シンプトン情報記憶部331に一時記憶してあるシンプトン情報を消去するか否かを判断する(ステップS701)。CPU11が、シンプトン情報を消去すると判断した場合(ステップS701:YES)、CPU11は、一時記憶してあるシンプトン情報を消去する(ステップS702)。CPU11が、シンプトン情報を消去しないと判断した場合(ステップS701:NO)、CPU11は、処理をステップS601へ戻して上述した処理を繰り返す。
 以上のように本実施の形態1によれば、シンプトン情報記憶部331に記憶されているシンプトン情報に基づいて適切なアクションを実行することができるので、所定の発生パターンを有するイベントが発生してから、アクションを実行するまでに時間差が生じる可能性を低減することができ、早期に適切なアクションを実行することができる。したがって、例えば障害発生イベントが発生した場合であっても、適切なアクションを早期に実行することができ、障害発生による影響を最小限に止めることが可能となる。
 (実施の形態2)
 本発明の実施の形態2に係る障害検出システムの構成は、実施の形態1と同様であることから、同一の符号を付することにより、詳細な説明は省略する。本実施の形態2では、算出する指標値を、イベント列に含まれる複数のタスクの実行結果が‘偽’であったイベント数としている点で実施の形態1とは相違する。
 図8は、本発明の実施の形態2に係る中央装置1及び端末装置3の機能ブロック図である。中央装置1のイベントログ情報取得部501は、中央装置1に接続されている端末装置3で発生したイベントの履歴情報であるイベントログ情報を取得する。イベントログ情報を取得するタイミングは特に限定されるものではなく、端末装置3が中央装置1へ接続されたタイミングでも良いし、新たなイベントが発生する都度であっても、一定の時間間隔であっても良い。
 指標値算出部502は、イベントログ情報に含まれるイベント列に含まれるタスクを順次実行し、所定の条件を具備しているか否かを判定する条件判定部801、及び所定の条件を具備していないと判定したタスク数を計数する計数部802を備えている。条件判断部801では、発生した複数のイベントそれぞれについて、発生したイベントの識別情報(ID)、属性等が所定の値であるか否かを判断し、判断結果を示す論理値を、論理積演算又は論理和演算して評価値を算出する。したがって、論理値は‘真(T)’、‘偽(F)’のいずれかの値を有する。計数部802では、論理値が‘偽(F)’であるタスク数を計数して指標値とする。
 判断部503は、指標値算出部502で算出された指標値、すなわち計数部802での計数値が所定値より小さいか否かを判断する。本実施の形態2では、計数値が所定値より小さい場合には、イベントの発生パターンが生じる確率が高いと判断し、所定値以上である場合には、イベントの発生パターンが生じる確率が低いと判断する。
 送信部504は、判断部503で、生じる確率が高いと判断したイベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報、すなわちシンプトンデータベース131に記憶されているシンプトン情報のうち、生じる確率が高いと判断したシンプトン情報を、端末装置3へ送信する。
 端末装置3の受信部505は、生じる確率が高いと判断したイベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報、すなわちシンプトン情報を中央装置1から受信して、シンプトン情報記憶部331へ記憶する。
 イベント検出部506は、端末装置3にて発生したイベントを検出し、発生パターン特定部507は、検出した発生イベントに関する情報に基づいて、発生パターンを特定し、アクション実行部508は、シンプトン情報記憶部331を照会して、特定した発生パターンに対応するアクションに関する情報に基づいてアクションを実行する。
 イベントの発生パターンが生じる確率が高いと判断したシンプトン情報が事前に端末装置3のシンプトン情報記憶部331に記憶してあることから、端末装置3が中央装置1と接続されていない場合であっても、発生パターンに合致するシンプトン情報がシンプトン情報記憶部331に記憶されている可能性が高く、ほとんどの場合は記憶されているシンプトン情報に基づいて適切なアクションを実行することができる。
 なお、実施の形態1と同様、送信部504は、イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報であるシンプトン情報を消去する時期に関する情報を、シンプトン情報の送信時に端末装置3へ併せて送信することが好ましい。端末装置3の計算機資源を圧迫することを防止するとともに、イベントの発生パターンが生じる確率が高いと判断したシンプトン情報を最新の情報に絶えず更新することにより、中央装置1とデータ通信することなく端末装置3だけでアクションを実行することができる可能性をより高めることが可能となる。
 図9は、本発明の実施の形態2に係る障害検出システムの中央装置1のCPU11の処理手順を示すフローチャートである。中央装置1のCPU11は、中央装置1に接続されている端末装置3から、発生したイベントの履歴情報であるイベントログ情報を受信する(ステップS901)。イベントログ情報を受信するタイミングは特に限定されるものではなく、端末装置3が中央装置1へ接続されたタイミングでも良いし、新たなイベントが発生する都度であっても、一定の時間間隔であっても良い。
 CPU11は、監視対象となる端末装置3との接続を切断し(ステップS902)、記憶装置13のシンプトンデータベース131に記憶してある複数のシンプトン情報の中から一のシンプトン情報を選択する(ステップS903)。CPU11は、選択したシンプトン情報に対応付けて記憶してあるタスクを実行し(ステップS904)、実行結果が‘偽(F)’であるタスク数を、イベントの発生パターンが生じる確率の高低を判断する指標値として計数する(ステップS905)。
 図10は、シンプトン情報ごとに対応付けて記憶してあるタスクの実行結果から指標値を算出する方法の説明図である。図10に示すように、選択された一のシンプトン情報には、複数のタスクA、B、C、D、・・・が対応付けて記憶されている。
 それぞれのタスクを順次実行し、実行結果を論理値‘真(T)’、又は‘偽(F)’として算出する。図10では、タスクA、B、C、D、・・・の順に、実行結果T、T、T、F、・・・として算出されている。そして、実行結果が‘偽(F)’であるタスク数を計数して指標値とする。
 図9に戻って、中央装置1のCPU11は、実行結果が‘偽(F)’であるタスク数が所定値より小さいか否かを判断し(ステップS906)、CPU11が、実行結果が‘偽(F)’であるタスク数が所定値より小さいと判断した場合(ステップS906:YES)、CPU11は、選択したシンプトン情報をシンプトン情報記憶部331へ一時記憶する(ステップS907)。
 CPU11が、実行結果が‘偽(F)’であるタスク数が所定値以上であると判断した場合(ステップS906:NO)、CPU11は、シンプトンデータベース131に記憶してある全てのシンプトン情報を選択したか否かを判断し(ステップS908)、CPU11が、まだ選択していないシンプトン情報が存在すると判断した場合(ステップS908:NO)、CPU11は、次のシンプトン情報を選択して(ステップS909)、処理をステップS904へ戻して上述した処理を繰り返す。
 CPU11が、全てのシンプトン情報を選択したと判断した場合(ステップS908:YES)、CPU11は、シンプトン情報記憶部331に一時記憶されているシンプトン情報に、実行結果が‘偽(F)’であるタスク数の少ない順に優先順位を付与する(ステップS910)。
 CPU11は、監視対象となる端末装置3と接続し(ステップS911)、優先順位の最も高いシンプトン情報を端末装置3へ送信して(ステップS912)、処理をステップS901へ戻して上述した処理を繰り返す。もちろん、優先順位の最も高いシンプトン情報を送信することに限定されるものではなく、一時記憶されているシンプトン情報を全て送信しても良いし、優先順位の上位複数個のシンプトン情報を送信しても良い。
 以上のように本実施の形態2によれば、タスクの実行結果が‘偽(F)’であるタスク数が少ないシンプトン情報は、イベントの発生パターンが生じる確率が高いシンプトン情報であると判断することができるので、タスクの実行結果が‘偽(F)’であるタスク数が少ないシンプトン情報を端末装置3のシンプトン情報記憶部331に記憶しておくことにより、所定の発生パターンを有するイベントが発生してから、アクションを実行するまでに時間差が生じる可能性を低減することができ、早期に適切なアクションを実行することができる。したがって、例えば障害発生イベントが発生した場合であっても、適切なアクションを早期に実行することができ、障害発生による影響を最小限に止めることが可能となる。
 なお、実行結果が‘偽(F)’であるタスク数が少ないシンプトン情報を端末装置3へ送信することに限定されるものではなく、例えば実行結果が‘偽(F)’であるタスクのみを端末装置3へ送信しても良い。これにより、シンプトン情報の送受信によるネットワーク負荷の低減を図ることもできる。
 (実施の形態3)
 本発明の実施の形態3に係る障害検出システムの構成は、実施の形態1及び2と同様であることから、同一の符号を付することにより、詳細な説明は省略する。本実施の形態3では、算出する指標値を、アクションが発生した時刻から一定時間内に発生するイベント列の発生頻度としている点で実施の形態1及び2とは相違する。
 図11は、本発明の実施の形態3に係る中央装置1及び端末装置3の機能ブロック図である。中央装置1のイベントログ情報取得部501は、中央装置1に接続されている端末装置3で発生したイベントの履歴情報であるイベントログ情報を取得する。イベントログ情報を取得するタイミングは特に限定されるものではなく、端末装置3が中央装置1へ接続されたタイミングでも良いし、新たなイベントが発生する都度であっても、一定の時間間隔であっても良い。
 指標値算出部502は、イベントログ情報に含まれるイベント列の発生頻度を、シーケンシャルパターンマッチングにて算出する。すなわち所定のアクションが発生した時刻より以前の一定時間内に発生した複数のイベント列を抽出するイベント列抽出部1101、イベントの出現パターンごとに、該出現パターンの出現頻度及び該出現パターンが含まれるアクションの発生回数を取得するパターン取得部1102、及び取得した出現パターンの出現頻度及びアクションの発生回数を乗算して指標値を算出する乗算部1103を備えている。
 判断部503は、指標値算出部502で算出された指標値、すなわち乗算部1103で算出された乗算値が所定値以上であるか否かを判断する。本実施の形態3では、算出した乗算値が所定値以上である場合には、イベントの発生パターンが生じる確率が高いと判断し、所定値より小さい場合には、イベントの発生パターンが生じる確率が低いと判断する。
 送信部504は、判断部503で、生じる確率が高いと判断したイベントの発生パターン、対応するタスク及びアクションに関する情報、すなわちシンプトンデータベース131に記憶されているシンプトン情報のうち、生じる確率が高いと判断したシンプトン情報を、端末装置3へ送信する。
 端末装置3の受信部505は、生じる確率が高いと判断したイベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報、すなわちシンプトン情報を中央装置1から受信して、シンプトン情報記憶部331へ記憶する。
 イベント検出部506は、端末装置3にて発生したイベントを検出し、発生パターン特定部507は、検出した発生イベントに関する情報に基づいて、発生パターンを特定し、アクション実行部508は、シンプトン情報記憶部331を照会して、特定した発生パターンに対応するアクションに関する情報に基づいてアクションを実行する。
 イベントの発生パターンが生じる確率が高いと判断したシンプトン情報が事前に端末装置3のシンプトン情報記憶部331に記憶してあることから、端末装置3が中央装置1と接続されていない場合であっても、発生パターンに合致するシンプトン情報がシンプトン情報記憶部331に記憶されている可能性が高く、ほとんどの場合は記憶されているシンプトン情報に基づいて適切なアクションを実行することができる。
 なお、実施の形態1及び2と同様、送信部504は、イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報であるシンプトン情報を消去する時期に関する情報を、シンプトン情報の送信時に端末装置3へ併せて送信することが好ましい。端末装置3の計算機資源を圧迫することを防止するとともに、イベントの発生パターンが生じる確率が高いと判断したシンプトン情報を最新の情報に絶えず更新することにより、中央装置1とデータ通信することなく端末装置3だけでアクションを実行することができる可能性をより高めることが可能となる。
 図12は、本発明の実施の形態3に係る障害検出システムの中央装置1のCPU11の処理手順を示すフローチャートである。中央装置1のCPU11は、中央装置1に接続されている端末装置3から、発生したイベントの履歴情報であるイベントログ情報を受信する(ステップS1201)。イベントログ情報を受信するタイミングは特に限定されるものではなく、端末装置3が中央装置1へ接続されたタイミングでも良いし、新たなイベントが発生する都度であっても、一定の時間間隔であっても良い。
 CPU11は、監視対象となる端末装置3との接続を切断し(ステップS1202)、記憶装置13のシンプトンデータベース131に記憶してある複数のシンプトン情報の中から一のシンプトン情報を選択する(ステップS1203)。CPU11は、選択したシンプトン情報に対応付けて記憶してあるタスクを実行し(ステップS1204)、イベント列の出現パターンごとの出現頻度及びアクションの発生回数を取得する(ステップS1205)。
 図13は、シンプトン情報ごとに対応付けて記憶されているタスクの実行結果から、イベント列の発生頻度をシーケンシャルパターンマッチングにて算出する方法の説明図である。図13(a)は発生したアクションと、該アクションが発生する以前の一定時間内に発生したイベント列を示す図表である。発生したアクションごとに、一定の出現パターンを示すイベント列が示されている。
 図13(b)は、シーケンシャルパターンマッチングにより、イベント列の出現パターンごとに発生したアクションに含まれる出現頻度、及びアクションの発生回数を示す図表である。図13(b)に示す出現パターンが図13(a)のイベント列中に含まれる出現頻度を、周知の方法により算出し、イベント列の出現パターンが含まれるアクションの発生回数を求める。
 図12に戻って、中央装置1のCPU11は、出現頻度と発生回数とを乗算することにより指標値を算出し(ステップS1206)、指標値が所定値以上であるか否かを判断する(ステップS1207)。CPU11が、指標値が所定値以上であると判断した場合(ステップS1207:YES)、CPU11は、選択したシンプトン情報をシンプトン情報記憶部331へ一時記憶する(ステップS1208)。
 CPU11が、指標値が所定値より小さいと判断した場合(ステップS1207:NO)、CPU11は、シンプトンデータベース131に記憶してある全てのシンプトン情報を選択したか否かを判断し(ステップS1209)、CPU11が、まだ選択していないシンプトン情報が存在すると判断した場合(ステップS1209:NO)、CPU11は、次のシンプトン情報を選択して(ステップS1210)、処理をステップS1204へ戻して上述した処理を繰り返す。
 CPU11が、全てのシンプトン情報を選択したと判断した場合(ステップS1209:YES)、CPU11は、シンプトン情報記憶部331に一時記憶されているシンプトン情報に、指標値が大きい順に優先順位を付与する(ステップS1211)。
 CPU11は、監視対象となる端末装置3と接続し(ステップS1212)、優先順位の最も高いシンプトン情報を端末装置3へ送信して(ステップS1213)、処理をステップS1201へ戻して上述した処理を繰り返す。もちろん、優先順位の最も高いシンプトン情報を送信することに限定されるものではなく、一時記憶されているシンプトン情報を全て送信しても良いし、優先順位の上位複数個のシンプトン情報を送信しても良い。
 以上のように本実施の形態3によれば、出現頻度が大きく、発生回数の多いアクションに含まれるイベント列を含むシンプトン情報は、イベントの発生パターンが生じる確率が高いシンプトン情報であると判断することができるので、出現頻度と発生回数との乗算値が大きいシンプトン情報を端末装置3のシンプトン情報記憶部331に記憶しておくことにより、所定の発生パターンを有するイベントが発生してから、アクションを実行するまでに時間差が生じる可能性を低減することができ、早期に適切なアクションを実行することができる。したがって、例えば障害発生イベントが発生した場合であっても、適切なアクションを早期に実行することができ、障害発生による影響を最小限に止めることが可能となる。
 なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えばシンプトンデータベースに記憶するシンプトン情報にアクションに関する情報を含む構成に限定されるものではなく、アクションに関する情報をシンプトンに対応付けて別のデータベースとしても良い。また、イベントの発生場所を端末装置に限定されるものではなく、端末装置は発生したイベントに対応するアクションを実行することができさえすれば足りる。
 1 中央装置
 2 ネットワーク
 3 端末装置
 11、31 CPU
 12、32 メモリ
 13、33 記憶装置
 14、34 I/Oインタフェース
 15、35 通信インタフェース
 16、36 ビデオインタフェース
 17、37 可搬型ディスクドライブ
 18、38 内部バス
 23、43 表示装置
 90、91 可搬型記録媒体
 100、101 コンピュータプログラム
 131 シンプトンデータベース
 331 シンプトン情報記憶部

Claims (9)

  1.  複数の装置とデータ通信することが可能に接続されている支援装置が、
     所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶する記憶装置と、 イベントの発生パターンが生じる確率の高低を判断する指標値を算出する指標値算出手段と、
     算出された指標値が所定値より大きいか否かを判断する判断手段と、
     該判断手段で、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信する送信手段と
     を備えるシステム。
  2.  前記送信手段が、前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を消去する時期に関する情報を、前記アクションを実行するべき装置へ送信するようにしてある請求項1記載のシステム。
  3.  前記指標値算出手段が、
     前記タスクごとに、所定の条件を具備するか否かを判定する条件判定手段と、
     該条件判定手段で、具備しないと判定したタスク数を計数する計数手段と
     を備え、
     前記判断手段が、
     前記計数手段で計数したタスク数が所定値より小さいか否かを判断するタスク数判断手段を有する請求項1又は2記載のシステム。
  4.  前記指標値算出手段が、
     所定の時刻から一定時間内に発生する複数のイベント列を抽出するイベント列抽出手段と、
     イベントの出現パターンごとに、該出現パターンの出現頻度及び該出現パターンが含まれるアクションの発生回数を取得するパターン取得手段と、
     取得した出現パターンの出現頻度及びアクションの発生回数を乗算して指標値を算出する乗算手段と
     を備える請求項1又は2記載のシステム。
  5.  前記装置が、
     前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を前記支援装置から受信する受信手段と、
     受信した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を記憶装置に記憶する記憶手段と、
     発生したイベントに関する情報に基づいて、前記発生パターンを特定する発生パターン特定手段と、
     特定した発生パターンに対応するアクションに関する情報に基づいてアクションを実行するアクション実行手段と
     を備える1乃至4のいずれか一項に記載のシステム。
  6.  前記受信手段が、
     前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を消去する時期に関する情報を受信するようにしてあり、
     前記装置が、 
     受信した消去する時期に関する情報に基づいて、前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を前記記憶装置から消去する消去手段を備える請求項5記載のシステム。
  7.  複数の装置と支援装置とがデータ通信することが可能に接続されたシステムで実行することが可能な方法において、
     前記支援装置が、
     所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶装置に記憶するステップと、
     イベントの発生パターンが生じる確率の高低を判断する指標値を算出するステップと、 算出された指標値が所定値より大きいか否かを判断するステップと、
     所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信するステップと
     を含む方法。
  8.  複数の装置とデータ通信することが可能に接続されており、
     所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶する記憶装置と、 イベントの発生パターンが生じる確率の高低を判断する指標値を算出する指標値算出手段と、
     算出された指標値が所定値より大きいか否かを判断する判断手段と、
     該判断手段で、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信する送信手段と
     を備える支援装置。
  9.  複数の装置とデータ通信することが可能に接続されており、所定の条件を具備するか否かを判定するための複数のタスク及び前記装置で実行するべきアクションに関する情報をイベントの発生パターンに対応付けて記憶する記憶装置を備える支援装置で実行することが可能なコンピュータプログラムにおいて、
     前記支援装置を、
     イベントの発生パターンが生じる確率の高低を判断する指標値を算出する指標値算出手段、
     算出された指標値が所定値より大きいか否かを判断する判断手段、及び
     該判断手段で、所定値より大きいと判断した前記イベントの発生パターン、該発生パターンに対応する複数のタスク及びアクションに関する情報を、前記アクションを実行するべき装置へ送信する送信手段
     として機能させるコンピュータプログラム。
PCT/JP2009/069324 2008-11-27 2009-11-13 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム WO2010061735A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP09828983.8A EP2357562A4 (en) 2008-11-27 2009-11-13 SYSTEM FOR ASSESSING ACTIONS IN RESPECT OF EVENTS DETECTED, METHOD FOR ASSISTING THE EXECUTION OF ACTIONS IN REACTION TO DETECTED EVENTS, AID DEVICE AND COMPUTER PROGRAM
JP2010540444A JP5285084B2 (ja) 2008-11-27 2009-11-13 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム
KR1020117014445A KR101547721B1 (ko) 2008-11-27 2009-11-13 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
CN200980146094.0A CN102216908B (zh) 2008-11-27 2009-11-13 支援执行对应于检测事件的动作的系统、方法和装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-302673 2008-11-27
JP2008302673 2008-11-27

Publications (1)

Publication Number Publication Date
WO2010061735A1 true WO2010061735A1 (ja) 2010-06-03

Family

ID=42197573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/069324 WO2010061735A1 (ja) 2008-11-27 2009-11-13 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US8516499B2 (ja)
EP (1) EP2357562A4 (ja)
JP (1) JP5285084B2 (ja)
KR (1) KR101547721B1 (ja)
CN (1) CN102216908B (ja)
WO (1) WO2010061735A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012099092A (ja) * 2010-11-02 2012-05-24 Internatl Business Mach Corp <Ibm> インシデント・プールの管理方法、システムおよびコンピュータ・プログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8943364B2 (en) * 2010-04-30 2015-01-27 International Business Machines Corporation Appliance for storing, managing and analyzing problem determination artifacts
KR101440299B1 (ko) * 2010-11-16 2014-09-17 한국전자통신연구원 자가 치유 시스템 및 그 방법
US8799927B1 (en) * 2012-03-15 2014-08-05 Emc Corporation Techniques for use with repetitive event occurrences
US9229800B2 (en) 2012-06-28 2016-01-05 Microsoft Technology Licensing, Llc Problem inference from support tickets
US9262253B2 (en) 2012-06-28 2016-02-16 Microsoft Technology Licensing, Llc Middlebox reliability
US9298538B2 (en) * 2012-08-16 2016-03-29 Vmware, Inc. Methods and systems for abnormality analysis of streamed log data
US9565080B2 (en) 2012-11-15 2017-02-07 Microsoft Technology Licensing, Llc Evaluating electronic network devices in view of cost and service level considerations
US9325748B2 (en) * 2012-11-15 2016-04-26 Microsoft Technology Licensing, Llc Characterizing service levels on an electronic network
US9350601B2 (en) 2013-06-21 2016-05-24 Microsoft Technology Licensing, Llc Network event processing and prioritization
US8826308B1 (en) * 2013-07-09 2014-09-02 Sap Ag Programming language conditional event dispatcher
US10013238B2 (en) * 2013-08-12 2018-07-03 Telefonaktiebolaget Lm Ericsson (Publ) Predicting elements for workflow development
US9372898B2 (en) * 2014-07-17 2016-06-21 Google Inc. Enabling event prediction as an on-device service for mobile interaction
US9594624B2 (en) * 2015-06-12 2017-03-14 International Business Machines Corporation Resolving and preventing computer system failures caused by changes to the installed software
JP6571046B2 (ja) * 2016-06-21 2019-09-04 株式会社東芝 サーバ装置、情報処理方法及びプログラム
US10909014B2 (en) * 2017-02-22 2021-02-02 Nec Corporation Information processing device, information processing system, monitoring method, and recording medium
US10152432B1 (en) 2017-07-26 2018-12-11 Dell Products L.P. Support information provisioning system
WO2020208828A1 (ja) * 2019-04-12 2020-10-15 三菱電機株式会社 実行監視装置、実行監視方法、及び、実行監視プログラム
EP4143711A1 (en) * 2020-04-30 2023-03-08 British Telecommunications public limited company Network anomaly identification

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282089A (ja) * 1994-04-05 1995-10-27 Hitachi Ltd 携帯型故障診断装置
JPH1091482A (ja) 1996-06-27 1998-04-10 Bull Sa 情報処理システムにおいて、管理ノードに結合する複数のノードの複数のタイプのオブジェクトを監視する方法
JP2000137627A (ja) * 1998-10-27 2000-05-16 Hewlett Packard Co <Hp> 製品の使用中に生じる偶発的出来事の解決方法
JP2002049486A (ja) * 2000-05-26 2002-02-15 Yokogawa Electric Corp プログラム実行方法及びこれを用いたシステム
JP2003345622A (ja) * 2002-05-27 2003-12-05 Nec Fielding Ltd 顧客システムの保守方式、保守対象装置、保守装置、保守方法、及びプログラム
JP2004110790A (ja) 2002-09-18 2004-04-08 Internatl Business Mach Corp <Ibm> サーバ・ファームにおいてサーバ障害を診断し自己修復する方法およびシステム
JP2005285040A (ja) 2004-03-31 2005-10-13 Nec Corp ネットワーク監視システム及びその方法、プログラム
WO2006095506A1 (ja) * 2005-02-10 2006-09-14 Nec Corporation 情報システム管理装置

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08331125A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp ネットワークras装置
US5692156A (en) 1995-07-28 1997-11-25 International Business Machines Corp. Computer program product for overflow queue processing
AU7448996A (en) * 1995-10-18 1997-05-07 Systemsoft Corporation System and method for digital data processor diagnostics
JP3422400B2 (ja) 1996-03-28 2003-06-30 三菱電機株式会社 分散処理システム
US6446070B1 (en) 1998-02-26 2002-09-03 Sun Microsystems, Inc. Method and apparatus for dynamic distributed computing over a network
JP3884821B2 (ja) 1997-03-27 2007-02-21 株式会社日立製作所 分散情報の統合方法及び装置
JPH10334058A (ja) 1997-05-27 1998-12-18 Shikoku Nippon Denki Software Kk オンラインシステムと負荷分散方式
US6049776A (en) 1997-09-06 2000-04-11 Unisys Corporation Human resource management system for staffing projects
JPH11224214A (ja) 1998-02-05 1999-08-17 Fujitsu Ltd イベント分類装置およびそのプログラム記録媒体
US6189141B1 (en) 1998-05-04 2001-02-13 Hewlett-Packard Company Control path evaluating trace designator with dynamically adjustable thresholds for activation of tracing for high (hot) activity and low (cold) activity of flow control
US6742141B1 (en) * 1999-05-10 2004-05-25 Handsfree Networks, Inc. System for automated problem detection, diagnosis, and resolution in a software driven system
JP2000330912A (ja) 1999-05-18 2000-11-30 Yokogawa Electric Corp イベントサービス装置
WO2001013577A2 (en) * 1999-08-17 2001-02-22 Microsoft Corporation Device adapter for automation system
JP2001101108A (ja) 1999-10-04 2001-04-13 Meidensha Corp 分散型監視システム
US20020083018A1 (en) * 2000-12-27 2002-06-27 Pitney Bowes Incorporated Method and system for batch mail processing utilizing a web browser in a postal or shipping system
US7269640B2 (en) * 2002-01-23 2007-09-11 Ge Fanuc Automation North America, Inc. Methods and systems for management and control of an automation control module
TW200303690A (en) 2002-02-18 2003-09-01 Empower Interactive Group Ltd Distributed message transmission system and method
JP2003296129A (ja) 2002-03-29 2003-10-17 Fujitsu Ltd 情報処理プログラムおよび情報処理装置
JP4318643B2 (ja) 2002-12-26 2009-08-26 富士通株式会社 運用管理方法、運用管理装置および運用管理プログラム
KR100605896B1 (ko) 2003-10-07 2006-08-01 삼성전자주식회사 모바일 애드 혹 네트워크에서 부분 경로 탐색을 이용하여 라우트 경로를 설정하는 방법 및 이동통신 단말기
US7089250B2 (en) * 2003-10-08 2006-08-08 International Business Machines Corporation Method and system for associating events
US7216021B2 (en) 2003-10-30 2007-05-08 Hitachi, Ltd. Method, system and computer program for managing energy consumption
JP4509536B2 (ja) 2003-11-12 2010-07-21 株式会社日立製作所 情報管理を支援する情報処理装置、情報管理方法、プログラム、および記録媒体
JP2005182364A (ja) 2003-12-18 2005-07-07 Canon Software Inc Www中継サーバおよび情報閲覧時間計測方法およびプログラムおよび記録媒体
JP2005222216A (ja) 2004-02-04 2005-08-18 Mitsubishi Electric Corp システム監査方法、およびシステム監査装置
US8224937B2 (en) 2004-03-04 2012-07-17 International Business Machines Corporation Event ownership assigner with failover for multiple event server system
JP2006209206A (ja) 2005-01-25 2006-08-10 Nec Corp 自動アクション実行システム
JP4170302B2 (ja) 2005-03-10 2008-10-22 富士通株式会社 負荷制御装置および負荷制御プログラム
JP4317828B2 (ja) 2005-03-15 2009-08-19 富士通株式会社 ネットワーク監視装置およびネットワーク監視方法
JP4386011B2 (ja) 2005-08-09 2009-12-16 日本電信電話株式会社 Webページ再編集方法及びシステム
US20070088914A1 (en) 2005-10-14 2007-04-19 Soman Anuradha K Method and electronic device for selective transfer of data from removable memory element
US7389453B2 (en) 2005-10-20 2008-06-17 Jon Udell Queuing methods for distributing programs for producing test data
US7506212B2 (en) 2005-11-17 2009-03-17 Microsoft Corporation Distributed exception handling testing
JP4661667B2 (ja) 2006-04-11 2011-03-30 ソニー株式会社 オーディオ信号処理装置,オーディオ信号処理方法,プログラムおよび記憶媒体
WO2008012903A1 (fr) 2006-07-27 2008-01-31 Fujitsu Limited Programme de gestion de système, dispositif de gestion de gestion de système, et procédé de gestion de système
US8397264B2 (en) * 2006-12-29 2013-03-12 Prodea Systems, Inc. Display inserts, overlays, and graphical user interfaces for multimedia systems
US7865252B2 (en) 2007-01-26 2011-01-04 Autani Corporation Upgradeable automation devices, systems, architectures, and methods
JP4367962B2 (ja) 2007-06-19 2009-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
JP4400834B2 (ja) 2007-06-20 2010-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
US8108711B2 (en) 2007-10-30 2012-01-31 Microsoft Corporation Systems and methods for hosting and testing services over a network
JP5008006B2 (ja) 2007-12-27 2012-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション シンプトンの検証を可能にするためのコンピュータ・システム、方法及びコンピュータ・プログラム
US8413204B2 (en) * 2008-03-31 2013-04-02 At&T Intellectual Property I, Lp System and method of interacting with home automation systems via a set-top box device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282089A (ja) * 1994-04-05 1995-10-27 Hitachi Ltd 携帯型故障診断装置
JPH1091482A (ja) 1996-06-27 1998-04-10 Bull Sa 情報処理システムにおいて、管理ノードに結合する複数のノードの複数のタイプのオブジェクトを監視する方法
JP2000137627A (ja) * 1998-10-27 2000-05-16 Hewlett Packard Co <Hp> 製品の使用中に生じる偶発的出来事の解決方法
JP2002049486A (ja) * 2000-05-26 2002-02-15 Yokogawa Electric Corp プログラム実行方法及びこれを用いたシステム
JP2003345622A (ja) * 2002-05-27 2003-12-05 Nec Fielding Ltd 顧客システムの保守方式、保守対象装置、保守装置、保守方法、及びプログラム
JP2004110790A (ja) 2002-09-18 2004-04-08 Internatl Business Mach Corp <Ibm> サーバ・ファームにおいてサーバ障害を診断し自己修復する方法およびシステム
JP2005285040A (ja) 2004-03-31 2005-10-13 Nec Corp ネットワーク監視システム及びその方法、プログラム
WO2006095506A1 (ja) * 2005-02-10 2006-09-14 Nec Corporation 情報システム管理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MANABU YAMAGUCHI: "Technology Focus:Sys.Admin Ima mo nao Shinka o Tsuzukeru", AUTONOMIC COMPUTING, GEKKAN COMPUTER WORLD, vol. 4, no. 2, 1 February 2007 (2007-02-01), pages 104 - 109 *
See also references of EP2357562A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012099092A (ja) * 2010-11-02 2012-05-24 Internatl Business Mach Corp <Ibm> インシデント・プールの管理方法、システムおよびコンピュータ・プログラム

Also Published As

Publication number Publication date
KR20110091776A (ko) 2011-08-12
CN102216908B (zh) 2015-10-14
US8516499B2 (en) 2013-08-20
JPWO2010061735A1 (ja) 2012-04-26
EP2357562A4 (en) 2014-03-05
JP5285084B2 (ja) 2013-09-11
CN102216908A (zh) 2011-10-12
US20100131952A1 (en) 2010-05-27
KR101547721B1 (ko) 2015-08-26
EP2357562A1 (en) 2011-08-17

Similar Documents

Publication Publication Date Title
JP5285084B2 (ja) 検出イベントに応じたアクション実行を支援するシステム、検出イベントに応じたアクション実行を支援する方法、支援装置及びコンピュータプログラム
US9710322B2 (en) Component dependency mapping service
JP4458493B2 (ja) ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法
US7856575B2 (en) Collaborative troubleshooting computer systems using fault tree analysis
CN105357038B (zh) 监控虚拟机集群的方法和系统
US8612372B2 (en) Detection rule-generating facility
JP6669156B2 (ja) アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム
US10922164B2 (en) Fault analysis and prediction using empirical architecture analytics
US8429463B2 (en) Log management method and apparatus, information processing apparatus with log management apparatus and storage medium
US20110314138A1 (en) Method and apparatus for cause analysis configuration change
US8806273B2 (en) Supporting detection of failure event
JP5886712B2 (ja) 分散環境におけるトランザクション別に区別されたメトリックの効率的収集
JP2005327261A (ja) 性能監視装置、性能監視方法及びプログラム
CN113342559A (zh) 计算系统中的诊断框架
JP2007334716A (ja) 運用管理システム、監視装置、被監視装置、運用管理方法及びプログラム
JP6280862B2 (ja) イベント分析システムおよび方法
US20180143897A1 (en) Determining idle testing periods
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
WO2020202433A1 (ja) 情報処理装置およびapi使用履歴表示プログラム
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof
JP2009134535A (ja) ソフトウェア開発支援装置、ソフトウェア開発支援方法及びソフトウェア開発支援プログラム
JP2008021062A (ja) 監視装置及び監視方法及び監視プログラム
JP7334554B2 (ja) 機器管理システム及び機器管理方法
JP2019145024A (ja) 判定プログラム、判定方法、および情報処理装置
JP2022140929A (ja) 情報処理プログラム、情報処理方法、および情報処理装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980146094.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09828983

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010540444

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009828983

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20117014445

Country of ref document: KR

Kind code of ref document: A