WO2023112668A1 - 音響分析装置、音響分析方法、および記録媒体 - Google Patents
音響分析装置、音響分析方法、および記録媒体 Download PDFInfo
- Publication number
- WO2023112668A1 WO2023112668A1 PCT/JP2022/044091 JP2022044091W WO2023112668A1 WO 2023112668 A1 WO2023112668 A1 WO 2023112668A1 JP 2022044091 W JP2022044091 W JP 2022044091W WO 2023112668 A1 WO2023112668 A1 WO 2023112668A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- acoustic
- scene
- acoustic signal
- speech time
- speech
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims description 92
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 230000008909 emotion recognition Effects 0.000 claims description 31
- 230000006399 behavior Effects 0.000 claims description 30
- 230000008451 emotion Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 238000006424 Flood reaction Methods 0.000 description 2
- 206010061217 Infestation Diseases 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000007630 basic procedure Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Definitions
- the present invention relates to a sound analysis device, a sound analysis method, and a program, for example, a sound analysis device, a sound analysis method, and a program for analyzing the sound signal of the caller when reporting a case.
- Each country and region has its own emergency phone number, such as 110 or 119 in Japan, 911 in the United States and Canada, 000 in Australia, 999 in the United Kingdom, and 112 or 110 in Germany. ing.
- an emergency call hereafter simply referred to as a report
- the operator of the command center i.e., the recipient
- the type of incident incident or accident
- the location of the incident incident or accident
- the occurrence of the incident In addition to confirming the time, etc. with the whistleblower, question the whistleblower about the situation and environment of the incident site.
- the receiver uses the terminal of the command center for issuing commands to the ambulance crew, etc., and inputs the information related to the incident heard from the caller into the command system.
- Patent Literature 1 discloses an emergency activity support system that assists emergency activities.
- the emergency activity support system described in Patent Document 1 converts the voice contained in the acoustic signal into text data. Then, the emergency activity support system records the text data and causes the terminal to display sentences corresponding to the text data. As a result, the communication between the recipient and the reporter can be saved without error.
- the recipient may not be able to communicate well with the caller because the case is complicated or the caller is confused.
- the whistleblower is in a situation where he or she cannot speak out. In such a case, it is difficult for the receiver to quickly and accurately respond to the incident, such as issuing commands to emergency personnel, just by talking with the caller.
- the present invention has been made in view of the above problems, and its purpose is to help the recipient of the report to deal with the case quickly and accurately.
- a sound analysis apparatus includes, in an input sound signal, a specifying means for specifying a non-speech time during which a reporter who reports the occurrence of an incident is not speaking, and a sound signal during the non-speech time. It comprises identification means for identifying sources of included sounds, and prediction means for predicting an acoustic scene at the scene of occurrence of said proposal based on said identified sources.
- a sound analysis method specifies, in an input sound signal, a non-speech time during which a caller reporting an incident is not speaking, and a sound contained in the sound signal during the non-speech time. and predicting the acoustic scene at the scene of the proposed occurrence based on the identified sound sources.
- a recording medium includes, in an input audio signal, specifying a non-speech time during which a reporter who reports the occurrence of an incident is not speaking, and A program is stored for causing a computer to identify a sound source and predict an acoustic scene at the scene of the proposed occurrence based on the identified sound source.
- FIG. 1 is a diagram schematically showing an example of a configuration of a command system to which a sound analysis device according to any one of Embodiments 1-4 can be applied;
- FIG. 1 is a block diagram showing the configuration of a sound analysis device according to Embodiment 1;
- FIG. 4 is a flow chart showing the operation of the sound analysis device according to Embodiment 1.
- FIG. 2 is a block diagram showing the configuration of a sound analysis device according to Embodiment 2;
- FIG. An example of information indicating the situation, the environment, and the behavior of a person at the site of the occurrence of the incident is shown.
- 9 is a flowchart showing the operation of the acoustic analysis device according to Embodiment 2;
- FIG. 1 is a diagram schematically showing an example of the configuration of a command system 1. As shown in FIG.
- the command system 1 includes a sound analysis device 10 (20, 30, 40) and an OA (Office Automation) terminal 100 used by an operator (receiver).
- the "sound analysis device 10 (20, 30, 40)” means any one of the sound analysis devices 10, 20, 30, 40 according to Embodiments 1 to 4, which will be described later.
- the OA terminal 100 includes a telephone, input device, speaker, personal computer, display, monitor, and the like.
- the OA terminal 100 is connected to the sound analysis device 10 (20, 30, 40) via the LAN (Local Area Network) of the command system 1.
- FIG. 1 The OA terminal 100 includes a telephone, input device, speaker, personal computer, display, monitor, and the like.
- the OA terminal 100 is connected to the sound analysis device 10 (20, 30, 40) via the LAN (Local Area Network) of the command system 1.
- LAN Local Area Network
- the OA terminal 100 is configured so that the caller who reports the incident and the operator (recipient) can communicate with each other through the sound analysis device 10 (20, 30, 40).
- Incidents include accidents such as traffic accidents and medical emergencies, as well as incidents such as fires, floods, power outages, other disasters, wildlife infestations, and crimes. In general, ambulance, fire, or police handling subjects are the cases here.
- questions for the informant include the type of case.
- questions to the whistleblower included "when" and "where" the incident occurred, whether there were any "eyewitnesses” to the incident, "the name of the whistleblower", and "the situation at the scene.” included.
- the questions asked of the caller may differ from those shown in FIG.
- the sound analysis device 10 (20, 30, 40) is input to the communication device used by the caller to make a report through a telephone line or IP (Internet Protocol) line when the command system 1 receives a call from the caller. receive an acoustic signal.
- the acoustic signal may include background sounds in addition to the caller's voice.
- background sounds contain information about sounds that are present at the scene of an incident or emitted from a certain sound source. Examples of sound sources are persons other than the caller, animals, trains, automobiles, machines, speakers and alarms. Background sounds may also include information about the geography of the incident site (eg, city, industrial area, roadside, mountain, seaside) and weather (eg, rain, wind, thunderstorm).
- geography of the incident site eg, city, industrial area, roadside, mountain, seaside
- weather eg, rain, wind, thunderstorm
- the sound analysis device 10 (20, 30, 40) performs sound analysis on the received sound signal. Also, the acoustic analysis devices 10 (20, 30, 40) transfer the received acoustic signals to the OA terminal 100 used by the operator (receiver). As a result, the sound analysis device 10 (20, 30, 40) can perform sound analysis on the sound signal without interrupting the call between the operator (receiver) and the caller.
- the sound analysis device 10 (20, 30, 40) may be part of a command control device that controls the command line of the command system 1 and realizes the functions of the command system 1.
- Embodiment 1 Embodiment 1 will be described with reference to FIGS. 1 and 2.
- FIG. 1 An illustration of an exemplary computing system
- FIG. 2 is a block diagram showing the configuration of the acoustic analysis device 10. As shown in FIG.
- the sound analysis device 10 includes an identification unit 11, an identification unit 12, and a prediction unit 13.
- the identification unit 11 identifies non-speech time in the input acoustic signal during which the reporter reporting the occurrence of the incident does not speak.
- the specifying unit 11 is an example of specifying means. Incidents include accidents such as traffic accidents and medical emergencies, as well as incidents such as fires, floods, power outages, other disasters, wildlife infestations, and crimes. In general, ambulance, fire, or police handling subjects are the cases here.
- the identification unit 11 sends an acoustic message from the caller's communication device through the telephone line or IP line receive a signal.
- the acoustic signal includes background sounds in addition to the caller's voice. For example, if the weather at the incident site is rainy, the acoustic signal may include the sound of rain as background sound.
- the identification unit 11 uses a noise removal technique such as a digital filter or a well-known noise removal algorithm to remove components whose frequencies do not change significantly over time from the acoustic signal. Thereby, the identifying unit 11 can remove noise from the acoustic signal.
- a noise removal technique such as a digital filter or a well-known noise removal algorithm to remove components whose frequencies do not change significantly over time from the acoustic signal.
- the identification unit 11 applies sound source separation technology in the technical field of machine learning to the noise-removed acoustic signal, thereby converting the caller's voice included in the acoustic signal into another sound (i.e. background sound). Thereby, the specifying unit 11 can distinguish between a time zone in which the caller's voice is present and a time zone in which the caller's voice is absent in the acoustic signal.
- the identification unit 11 identifies the time zone in which the caller does not speak as the non-speech time during which the caller does not speak.
- the acoustic signal in the non-speech time may contain background sounds as described above.
- the identification unit 11 outputs the acoustic signal during the non-speech time to the identification unit 12 .
- the identification unit 11 may output information identifying the non-speech time to the identification unit 12 together with the acoustic signal.
- the identifying unit 12, which will be described later, uses the information specifying the non-speech time to extract the acoustic signal during the non-speech time from the entire acoustic signal.
- the identification unit 12 identifies the sound source at the incident site by analyzing the acoustic signal during the non-speech time.
- the identification unit 12 is an example of identification means.
- the identification unit 12 receives acoustic signals during non-speech time from the identification unit 11 .
- the identification unit 12 determines whether or not the acoustic signal in the non-speech time contains strong reverberation. If the acoustic signal in the non-speech time contains strong reverberation, the identification unit 12 identifies that the incident site is a closed space (for example, a room). On the other hand, if the acoustic signal in the non-speech time does not contain reverberation or the reverberation is weak, the identification unit 12 identifies that the incident site is a half-open space or an open space (for example, outdoors).
- the identification unit 12 uses the machine-learned model to determine whether the acoustic signal in the non-speech time includes a characteristic sound.
- a characteristic sound is a sound whose sound source can be identified. Includes sounds and music played repeatedly, as well as the noise and screams of crowds.
- the identification unit 12 identifies the sound source based on the characteristic sound included in the acoustic signal.
- the identification unit 12 may identify the sound source of the sound associated with the acceptance procedure for the incident that occurred.
- Receiving procedures stipulate the basic procedures for accepting cases from reports, etc. Acceptance procedures may differ for each type of case. For example, the acceptance procedure for an emergency case differs from the acceptance procedure for a fire case. Therefore, the sound source identified by the identification unit 12 may differ depending on the type of case.
- the identification unit 12 outputs the sound source identification result to the prediction unit 13 .
- the sound source identification result includes information indicating the sound source identified from the acoustic signal during the non-speech time.
- the prediction unit 13 predicts the acoustic scene at the incident site based on the identified sound source.
- the prediction unit 13 is an example of prediction means.
- sound scene is meant the scene or scene implied by the sound signal.
- An acoustic scene includes the situation, environment, and human behavior at the scene of an incident.
- the prediction unit 13 receives the sound source identification result from the identification unit 12 .
- the prediction unit 13 extracts information indicating the sound source identified from the acoustic signal in the non-speech time from the identification result of the sound source.
- the prediction unit 13 refers to a database (not shown) that stores a table linking sound sources and acoustic scenes. Then, the prediction unit 13 compares the sound sources listed in the table with the sound sources identified from the acoustic signals during the non-speech time, thereby predicting the acoustic scene at the incident site.
- the prediction unit 13 may display information based on the predicted acoustic scene on the OA terminal 100 (FIG. 1) (embodiment 2). Alternatively, the prediction unit 13 may record information indicating the predicted acoustic scene in a recording medium such as the ROM 902 (FIG. 11).
- FIG. 3 is a flow chart showing the flow of processing executed by each unit of the sound analysis device 10. As shown in FIG.
- the identification unit 11 identifies non-speech time during which the reporter reporting the occurrence of the incident does not speak in the acoustic signal input to the command system 1 (FIG. 1) (S101).
- the identification unit 11 outputs the acoustic signal during the non-speech time to the identification unit 12 .
- the identification unit 12 identifies the sound source of the sound contained in the acoustic signal during the non-speech time (S102).
- the identification unit 12 outputs the sound source identification result to the prediction unit 13 .
- the sound source identification result includes information indicating the sound source identified from the acoustic signal during the non-speech time.
- the prediction unit 13 predicts the acoustic scene based on the identified sound source (S103).
- the prediction unit 13 may display information based on the predicted acoustic scene on the OA terminal 100 (FIG. 1) (second embodiment).
- the prediction unit 13 may record information indicating the predicted acoustic scene in a recording medium such as the ROM 902 (FIG. 11).
- the identification unit 11 may output information identifying the non-speech time to the identification unit 12 together with the acoustic signal.
- the identification unit 12 extracts the acoustic signal in the non-speech time from the entire acoustic signal using the information specifying the non-speech time.
- the specifying unit 11 specifies a non-speech time in which the reporter reporting the occurrence of the incident does not speak in the input acoustic signal.
- the identification unit 12 identifies the sound source at the incident site by analyzing the acoustic signal during the non-speech time.
- the prediction unit 13 predicts an acoustic scene at the incident site based on the identified sound source. In this way, the acoustic scene at the incident site is predicted from the input acoustic signal.
- the receiver of the report can grasp the situation, state, scene, environment, etc. of the site where the incident occurred from the predicted acoustic scene. As a result, the recipient of the report can quickly and accurately deal with the case.
- Embodiment 2 will be described with reference to FIGS. 4 to 6.
- FIG. 2 a configuration will be described in which information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene is provided to the recipient of the notification.
- the same reference numerals as in the first embodiment are assigned to the components described in the first embodiment, and the description thereof is omitted.
- FIG. 4 is a block diagram showing the configuration of the acoustic analysis device 20. As shown in FIG.
- the acoustic analysis device 20 includes an identification unit 11, an identification unit 12, and a prediction unit 13.
- the acoustic analysis device 20 further comprises an output section 24 .
- the output unit 24 outputs information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene.
- the output unit 24 is an example of output means.
- the output unit 24 receives information indicating the acoustic scene at the incident site from the prediction unit 13 .
- the output unit 24 acquires information indicating the predicted acoustic scene from a recording medium such as the ROM 902 (FIG. 11).
- the output unit 24 generates information indicating the situation, the environment, and the behavior of the person at the incident site based on the information indicating the acoustic scene at the incident site.
- the output unit 24 refers to a database (not shown) that stores a table that associates acoustic scenes with situations, environments, and human behavior. Then, the output unit 24 compares the acoustic scene described in the table with the acoustic scene at the scene of the occurrence of the incident, thereby determining the situation, the environment, and the behavior of the person at the scene of the incident.
- the output unit 24 outputs information indicating the situation, the environment, and the behavior of the person at the incident site to the OA terminal 100 used by the operator (receiver) (FIG. 1).
- the operator By checking the information output to the OA terminal 100, the operator (recipient) can guess the situation, environment, and human behavior corresponding to the predicted acoustic scene. Therefore, the operator (recipient) can have a smoother conversation with the caller (FIG. 1).
- FIG. 5 shows an example of the progress of a conversation between an operator (recipient) and a caller when a fire (which is an example of an incident) occurs. Also, FIG. 5 shows an example of information indicating the situation, the environment, and the behavior of a person at the site where the incident occurred. The direction from left to right in FIG. 5 corresponds to the direction in which time advances.
- FIG 5 an example of information indicating the situation, environment, and human behavior at the site of the incident is shown within the dashed frame in the center.
- the upper part shows an example of the reporter's utterance.
- An example of an operator's (recipient's) statement is shown at the bottom.
- An arrow extending upward from the frame surrounding the operator's statement indicates a question or confirmation from the operator (recipient) to the caller.
- an arrow extending downward from the frame surrounding the utterance of the reporter indicates the response from the reporter to the operator (receiver).
- the operator By checking the information output to the OA terminal 100, the operator (recipient) can know that the environment at the site where the incident occurred is "indoors.” Therefore, the operator (recipient) asks, "Where are you now?" to know the current location of the caller. There is no need to ask the question The operator (recipient) asks, 'Where are you now? can be omitted.
- the operator asks the reporter, "Are you still indoors?" Please run outside as soon as possible.”
- the whistleblower can quickly start evacuating according to instructions from the operator (recipient).
- walking is presented to the operator (recipient) by the output unit 24 as information indicating the behavior of the person at the scene of the incident. Therefore, the operator (reporter) asks, "Can you walk?" There is no need to ask the question The operator (recipient) asks, 'Can you walk? can be omitted.
- the operator asks the reporter, "Do you know the exit? ’ is the question.
- the whistleblower can quickly start evacuating according to instructions from the operator (recipient).
- the operator may tell the whistleblower, "It looks like the wind is strong. Is the house next door okay? ’ is the question.
- the reporter answers questions from the operator (recipient).
- the operator can refer to the information presented by the output unit 24, thereby omitting some of the questions to the reporter.
- the operator can refer to the information presented by the output unit 24, thereby omitting some of the questions to the reporter.
- FIG. 6 is a flow chart showing the flow of processing executed by each unit of the sound analysis device 20. As shown in FIG.
- the identification unit 11 identifies non-speech time during which the caller reporting the occurrence of the incident does not speak in the acoustic signal input to the command system 1 (FIG. 1) (S201).
- the identification unit 11 outputs the acoustic signal during the non-speech time to the identification unit 12 .
- the identification unit 12 identifies the sound source of the sound contained in the acoustic signal during the non-speech time (S202).
- the identification unit 12 outputs the sound source identification result to the prediction unit 13 .
- the sound source identification result includes information indicating the sound source identified from the acoustic signal during the non-speech time.
- the prediction unit 13 predicts the acoustic scene based on the identified sound source (S203).
- the prediction unit 13 may record information indicating the predicted acoustic scene in a recording medium such as the ROM 902 (FIG. 11).
- the identification unit 11 may output information identifying the non-speech time to the identification unit 12 together with the acoustic signal.
- the identification unit 12 extracts the acoustic signal in the non-speech time from the entire acoustic signal using the information specifying the non-speech time.
- the prediction unit 13 outputs information indicating the predicted acoustic scene to the output unit 24.
- the output unit 24 outputs information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene (S204).
- the specifying unit 11 specifies a non-speech time in which the reporter reporting the occurrence of the incident does not speak in the input acoustic signal.
- the identification unit 12 identifies the sound source at the incident site by analyzing the acoustic signal during the non-speech time.
- the prediction unit 13 predicts an acoustic scene at the incident site based on the identified sound source. In this way, the acoustic scene at the incident site is predicted from the input acoustic signal.
- the receiver of the report can grasp the situation, state, scene, environment, etc. of the site where the incident occurred from the predicted acoustic scene. As a result, the recipient of the report can quickly and accurately deal with the case.
- the output unit 24 outputs information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene. As a result, it is possible to provide the recipient of the report with information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene.
- Embodiment 3 will be described with reference to FIGS. 7 and 8.
- FIG. 3 in addition to the identified sound source, the result of speech recognition of the caller's voice is also used to predict the acoustic scene.
- the same reference numerals as in Embodiment 1 or Embodiment 2 are assigned to the configurations described in Embodiment 1 or Embodiment 2, and the description thereof is omitted.
- FIG. 7 is a block diagram showing the configuration of the acoustic analysis device 30. As shown in FIG.
- the acoustic analysis device 30 includes an identification unit 11, an identification unit 12, and a prediction unit 13.
- the acoustic analysis device 30 further includes a speech recognition section 34 .
- the speech recognition unit 34 recognizes the speech of a predetermined language from the audio signal in the speech time excluding the non-speech time in the input acoustic signal.
- the voice recognition unit 34 is an example of voice recognition means.
- the speech recognition unit 34 receives, from the identification unit 11, acoustic signals during speech time excluding non-speech time.
- the speech recognizer 34 analyzes the acoustic signal at speech time using speech recognition techniques such as pattern matching and language models (eg, recurrent neural network language models).
- the speech recognition unit 34 obtains, as a result of the analysis, text data converted from the acoustic signal in speech time.
- Text data is text information expressed in a predetermined language.
- the subject of the voice recognized by the voice recognition unit 34 is usually the whistleblower, but the possibility of being someone other than the whistleblower is not excluded. This is because the audio signal during the voice time may include the voice of a person other than the caller.
- the speech recognition unit 34 outputs to the prediction unit 13 the text data converted from the acoustic signal in the speech time.
- the prediction unit 13 predicts the acoustic scene at the site of the incident based on the result of the speech recognition unit 34 recognizing the voice included in the acoustic signal, in addition to the sound source identified from the acoustic signal. Predict. For example, the prediction unit 13 extracts keywords (for example, fire, rain, train, etc.) from the result of recognizing the voice included in the acoustic signal. Then, the prediction unit 13 refers to a table that associates preset keywords with situations, environments, or human behaviors, and identifies situations, environments, or human behaviors that correspond to the extracted keywords. The prediction unit 13 includes the identified situation, environment, or human behavior in the elements for predicting the acoustic scene at the incident site. As a result, the prediction unit 13 can more accurately predict the acoustic scene at the incident site.
- keywords for example, fire, rain, train, etc.
- FIG. 8 is a flow chart showing the flow of processing executed by each unit of the sound analysis device 30. As shown in FIG.
- the identifying unit 11 identifies non-speech time during which the reporter reporting the occurrence of the incident does not speak in the acoustic signal input to the command system 1 (FIG. 1) (S301).
- the identification unit 11 outputs the acoustic signal during the non-speech time to the identification unit 12 .
- the specifying unit 11 also outputs the acoustic signal during the speech time other than the non-speech time to the speech recognition unit 34 .
- the identification unit 12 identifies the sound source of the sound contained in the acoustic signal during the non-speech time (S302).
- the identification unit 12 outputs the sound source identification result to the prediction unit 13 .
- the sound source identification result includes information indicating the sound source identified from the acoustic signal during the non-speech time.
- the speech recognition unit 34 recognizes the speech of a predetermined language from the audio signal during the speech time excluding the non-speech time in the input acoustic signal (S303).
- the speech recognition unit 34 outputs to the prediction unit 13 the text data converted from the acoustic signal in the speech time.
- the prediction unit 13 predicts the acoustic scene based on the identified sound source and speech recognition result (S304).
- the prediction unit 13 may display information based on the predicted acoustic scene on the OA terminal 100 (FIG. 1) (second embodiment).
- the prediction unit 13 may record information indicating the predicted acoustic scene in a recording medium such as the ROM 902 (FIG. 11).
- the identification unit 11 may output information identifying the non-speech time to the identification unit 12 together with the acoustic signal.
- the identification unit 12 extracts the acoustic signal in the non-speech time from the entire acoustic signal using the information specifying the non-speech time.
- the acoustic analysis device 30 may further include the output unit 24 (FIG. 4) described in the second embodiment.
- the output unit 24 outputs information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene.
- the output unit 24 may further output the result of recognition of the speech included in the acoustic signal by the speech recognition unit 34 .
- the output unit 24 receives from the speech recognition unit 34 the text data converted from the audio signal at the time of speech. Then, the output unit 24 converts the received text data into character image data, and displays the character image data on the screen of the OA terminal 100 (FIG. 1) or the like.
- the operator can visually confirm the utterance of the caller using the OA terminal 100, thereby preventing erroneous recognition of the case due to mishearing. .
- the specifying unit 11 specifies a non-speech time in which the reporter reporting the occurrence of the incident does not speak in the input acoustic signal.
- the identification unit 12 identifies the sound source at the incident site by analyzing the acoustic signal during the non-speech time.
- the prediction unit 13 predicts an acoustic scene at the incident site based on the identified sound source. In this way, the acoustic scene at the incident site is predicted from the input acoustic signal.
- the receiver of the report can grasp the situation, state, scene, environment, etc. of the site where the incident occurred from the predicted acoustic scene. As a result, the recipient of the report can quickly and accurately deal with the case.
- the speech recognition unit 34 recognizes the speech of a predetermined language from the audio signal in the speech time excluding the non-speech time in the input acoustic signal.
- the prediction unit 13 predicts the acoustic scene at the site of the incident based on the sound source identified from the acoustic signal as well as the result of recognition of the voice included in the acoustic signal by the voice recognition unit 34 .
- the prediction unit 13 includes the situation, the environment, or the behavior of the person identified from the speech recognition result as elements for predicting the acoustic scene at the incident site. As a result, the prediction unit 13 can more accurately predict the acoustic scene at the incident site.
- Embodiment 4 will be described with reference to FIGS. 9 to 10.
- FIG. 4 a configuration for predicting an acoustic scene using not only the identified sound source but also the result of emotion recognition will be described.
- the same reference numerals as in Embodiments 1 to 3 are assigned to the configurations described in at least one of Embodiments 1 to 3, and the description thereof is omitted.
- FIG. 9 is a block diagram showing the configuration of the acoustic analysis device 40. As shown in FIG.
- the acoustic analysis device 40 includes an identification unit 11, an identification unit 12, and a prediction unit 13.
- the acoustic analysis device 40 further includes an emotion recognition section 44 .
- the emotion recognition unit 44 recognizes the emotion from the audio signal during the speech time excluding the non-speech time in the input audio signal.
- the emotion recognition unit 44 is an example of emotion recognition means.
- the emotion recognition unit 44 receives, from the identification unit 11, acoustic signals during speech periods excluding non-speech periods.
- the emotion recognition unit 44 analyzes the acoustic signal during speech time using an emotion recognition technology such as emotion learning using a DNN (Deep Neural Network).
- the emotion recognition unit 44 obtains, as a result of the analysis, information indicating the emotion recognized from the acoustic signal during the speech time.
- the information indicating emotions represents patterns of emotions such as "joy”, “sadness", and "anger”.
- the subject of the emotion recognized by the emotion recognition unit 44 is usually the whistleblower, but the possibility of being someone other than the whistleblower is not excluded. This is because the audio signal during the voice time may include the voice of a person other than the caller.
- the emotion recognition unit 44 outputs to the prediction unit 13 information indicating the emotion recognized from the acoustic signal during the speech time.
- the prediction unit 13 predicts the acoustic scene at the scene of the incident based on the results of emotion recognition by the emotion recognition unit 44 in addition to the sound source identified from the acoustic signal. For example, the prediction unit 13 extracts an emotion pattern from the emotion recognition result. Then, the prediction unit 13 refers to a table that associates a preset emotion pattern with a situation, environment, or human behavior, and determines whether the extracted emotional pattern corresponds to the situation, environment, or human behavior. identify. The prediction unit 13 includes the identified situation, environment, or human behavior in the elements for predicting the acoustic scene at the incident site. As a result, the prediction unit 13 can more accurately predict the acoustic scene at the incident site.
- FIG. 10 is a flow chart showing the flow of processing executed by each part of the acoustic analysis device 40. As shown in FIG.
- the identification unit 11 identifies non-speech time during which the reporter reporting the occurrence of the incident does not speak in the acoustic signal input to the command system 1 (FIG. 1) (S401).
- the identification unit 11 outputs the acoustic signal during the non-speech time to the identification unit 12 .
- the specifying unit 11 also outputs the acoustic signal during the speech time other than the non-speech time to the emotion recognition unit 44 .
- the identification unit 12 identifies the sound source of the sound contained in the acoustic signal during the non-speech time (S402).
- the identification unit 12 outputs the sound source identification result to the prediction unit 13 .
- the sound source identification result includes information indicating the sound source identified from the acoustic signal during the non-speech time.
- the emotion recognizing unit 44 performs emotion recognition on speech of a predetermined language from the audio signal during the speech time excluding the non-speech time in the input acoustic signal (S403).
- the emotion recognition unit 44 outputs to the prediction unit 13 information indicating the emotion recognized from the acoustic signal during the speech time.
- the prediction unit 13 predicts the acoustic scene based on the identified sound source and emotion recognition result (S404).
- the prediction unit 13 may display information based on the predicted acoustic scene on the OA terminal 100 (FIG. 1) (second embodiment).
- the prediction unit 13 may record information indicating the predicted acoustic scene in a recording medium such as the ROM 902 (FIG. 11).
- the identification unit 11 may output information identifying the non-speech time to the identification unit 12 together with the acoustic signal.
- the identification unit 12 extracts the acoustic signal in the non-speech time from the entire acoustic signal using the information specifying the non-speech time.
- the acoustic analysis device 40 may further include the output unit 24 (FIG. 4) described in the second embodiment.
- the output unit 24 outputs information indicating the situation, environment, and human behavior corresponding to the predicted acoustic scene.
- the output unit 24 may further output the result of emotion recognition by the emotion recognition unit 44 .
- the output unit 24 receives information indicating the state of the recognized emotion from the emotion recognition unit 44 .
- the output unit 24 converts the information received from the emotion recognition unit 44 into image data of symbols indicating emotional states, and displays the image data of symbols on the screen of the OA terminal 100 (FIG. 1) or the like.
- the operator can visually confirm the emotional state recognized by the emotion recognition unit 44 using the OA terminal 100, so that communication with the caller can be improved. This allows the conversation with the caller to proceed more smoothly.
- the specifying unit 11 specifies a non-speech time in which the reporter reporting the occurrence of the incident does not speak in the input acoustic signal.
- the identification unit 12 identifies the sound source at the incident site by analyzing the acoustic signal during the non-speech time.
- the prediction unit 13 predicts an acoustic scene at the incident site based on the identified sound source. In this way, the acoustic scene at the incident site is predicted from the input acoustic signal.
- the receiver of the report can grasp the situation, state, scene, environment, etc. of the site where the incident occurred from the predicted acoustic scene. As a result, the recipient of the report can quickly and accurately deal with the case.
- the emotion recognition unit 44 recognizes the emotion from the acoustic signal during the time when the caller speaks.
- the prediction unit 13 predicts the acoustic scene at the incident site based on the result of the emotion recognition unit 44 recognizing the emotion in addition to the sound source identified from the acoustic signal.
- the prediction unit 13 includes the situation, the environment, or the behavior of the person specified from the result of emotion recognition in the elements for predicting the acoustic scene at the scene of the occurrence of the incident. As a result, the prediction unit 13 can more accurately predict the acoustic scene at the incident site.
- FIG. 11 is a block diagram showing an example of the hardware configuration of the information processing device 900. As shown in FIG. 11,
- the information processing device 900 includes the following configuration as an example.
- a program 904 that implements the function of each component is stored in advance in, for example, the storage device 905 or the ROM 902, and is loaded into the RAM 903 and executed by the CPU 901 as necessary.
- the program 904 may be supplied to the CPU 901 via the communication network 909 or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply it to the CPU 901 .
- the acoustic analysis devices 10, 20, 30, and 40 described in the first to fourth embodiments are implemented as hardware. Therefore, the same effects as those described in any one of the first to fourth embodiments can be obtained.
- Appendix 1 a specifying means for specifying a non-speech time during which the whistleblower reporting the occurrence of the incident is not speaking in the input acoustic signal; identification means for identifying a sound source at the site of said proposed occurrence by analyzing the acoustic signal in said non-speech time; prediction means for predicting an acoustic scene at the scene of the proposed occurrence based on the identified sound sources.
- Appendix 2 The acoustic analysis apparatus according to appendix 1, wherein the acoustic scene includes the situation, environment, and human behavior at the site of occurrence of the draft.
- Appendix 3 The sound analysis apparatus according to appendix 1 or 2, wherein the identification means identifies a sound source associated with an acceptance procedure for the generated draft.
- Appendix 4 The acoustic analyzer according to any one of appendices 1 to 3, further comprising output means for outputting information indicating the situation, environment, and human behavior corresponding to the identified acoustic scene.
- appendix 5 Any one of appendices 1 to 3, further comprising speech recognition means for recognizing speech included in the audio signal during speech time excluding the non-speech time in the input acoustic signal.
- the sound analysis device according to .
- the prediction means generates the proposal based on the result of the speech recognition means recognizing speech included in the acoustic signal during the speech time in addition to the sound source identified from the acoustic signal during the non-speech time.
- the acoustic analysis device according to appendix 5, which predicts an acoustic scene at the occurrence site of
- Appendix 7 4. The sound according to any one of appendices 1 to 3, further comprising emotion recognition means for recognizing an emotion from the audio signal in the audio time excluding the non-audio time in the input audio signal. Analysis equipment.
- the predicting means is configured to generate the sound source identified from the acoustic signal during the non-speech time as well as the emotion recognized by the emotion recognition means from the acoustic signal during the speech time.
- a sound analysis device for predicting a sound scene.
- the present invention can be used, for example, in an emergency command system to provide information indicating the assistant professor at the scene of the incident by analyzing the acoustic signal of the caller when reporting the incident.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
通報の受理者が事案への対処を迅速かつ的確に行うことを助ける。特定部(11)は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定し、識別部(12)は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別し、予測部(13)は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。
Description
本発明は、音響分析装置、音響分析方法、およびプログラムに関し、例えば、事案の通報の際、通報者側の音響信号を分析する音響分析装置、音響分析方法、およびプログラムに関する。
日本等では110番または119番、米国およびカナダでは911番、オーストラリアでは000番、イギリスでは999番、ドイツでは112番または110番など、国や地域ごとに、緊急通報用の電話番号が定められている。通報者からの緊急通報(以下、単に通報と記載する)があったとき、指令センタのオペレータすなわち受理者は、事案の種類(事件か、それとも事故か)、事案の発生場所、および事案の発生時刻等を通報者に確認するとともに、事案の発生現場の状況や環境を通報者に質問する。そして、受理者は、救急隊員への指令を行う指令センタの端末等を用いて、通報者から聞き出した事案に関する情報を、指令システムへ入力する。特許文献1には、救急活動の支援を行う救急活動支援システムが開示されている。
特許文献1に記載の救急活動支援システムは、音響信号に含まれる音声をテキストデータに変換する。そして、救急活動支援システムは、そのテキストデータを記録するとともに、そのテキストデータに対応する文章を端末に表示させる。これにより、受理者と通報者とのやり取りを誤りなく保存することができる。
事案が複雑であるか、または、通報者が混乱しているために、受理者は通報者と上手く会話することができない場合がある。また、通報者が声を出せない状況にある場合もあり得る。このような場合、受理者が、通報者との会話のみから、救急隊員への司令など、事案への対処(レスポンス)を迅速かつ的確に行うことが難しい。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、通報の受理者が事案への対処を迅速かつ的確に行うことを助けることを目的とする。
本発明の一態様に係る音響分析装置は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する特定手段と、前記非音声時間における音響信号に含まれる音の音源を識別する識別手段と、識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する予測手段とを備えている。
本発明の一態様に係る音響分析方法は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定し、前記非音声時間における音響信号に含まれる音の音源を識別し、識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する。
本発明の一態様に係る記録媒体は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定することと、前記非音声時間における音響信号に含まれる音の音源を識別することと、識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測することとをコンピュータに実行させるためのプログラムを格納している。
本発明の一態様によれば、通報の受理者が事案への対処を迅速かつ的確に行うことを助けることができる。
図面を参照して、本発明の実施形態について、以下で説明する。
(指令システム1)
図1を参照して、後述する実施形態1~4に係る音響分析装置10、20、30、40のいずれかを適用可能な指令システム1について説明する。指令システム1は、火災、救援、救助、事故処理、および治安維持などを目的とする緊急活動において、司令が、通報の受理、現場への指令、および救急活動の支援を行うために使用される。図1は、指令システム1の構成の一例を概略的に示す図である。
図1を参照して、後述する実施形態1~4に係る音響分析装置10、20、30、40のいずれかを適用可能な指令システム1について説明する。指令システム1は、火災、救援、救助、事故処理、および治安維持などを目的とする緊急活動において、司令が、通報の受理、現場への指令、および救急活動の支援を行うために使用される。図1は、指令システム1の構成の一例を概略的に示す図である。
図1に示すように、指令システム1は、音響分析装置10(20、30、40)およびオペレータ(受理者)が使用するOA(Office Automation)端末100を備えている。ここで、「音響分析装置10(20、30、40)」は、後述する実施形態1~4に係る音響分析装置10、20、30、40のいずれかを意味する。
OA端末100は、電話、入力デバイス、スピーカ、パソコン、ディスプレイ、及びモニタなどを含む。OA端末100は、指令システム1のLAN(Local Area Network)を介して、音響分析装置10(20、30、40)と接続されている。
また、OA端末100は、音響分析装置10(20、30、40)を通じて、事案を通報する通報者とオペレータ(受理者)とが、通話可能であるように構成されている。事案には、交通事故および急患などの事故のほか、火災、水害、停電、その他の災害、野生動物の出没、および犯罪などの事件が含まれる。一般的に、救急、消防、または警察が扱う対象が、ここでの事案である。
図1において、OA端末100の右側に、オペレータ(受理者)から通報者への質問事項の一例が記載されている。例えば、通報者への質問事項には、事案の種類が含まれる。また、通報者への質問事項には、事案が「いつ」「どこで」発生したのか、また、事案の「目撃者」の有無、「通報者の氏名」、および「現場の状況」の確認が含まれる。事案の種類の詳細(例えば、自動車同士の事故か、それとも歩行者の事故か)によって、通報者への質問事項は、図1に示すものとは異なり得る。
音響分析装置10(20、30、40)は、指令システム1が通報者から受電したとき、電話回線またはIP(Internet Protocol)回線を通じて、通報者が通報するために用いている通信機器に入力された音響信号を受信する。音響信号には、通報者の音声のほかに、背景音が含まれている場合がある。
例えば、背景音には、事案の発生現場にいる/ある音源から発せられた音の情報が含まれている。音源の例は、通報者以外の人物、動物、電車、自動車、機械、スピーカ、および、警報器である。また、背景音には、事案の発生現場の地理(例えば、市街地、工業地帯、道路沿い、山、海辺)および天候(例えば、雨、風、雷雨)の情報が含まれている場合がある。
音響分析装置10(20、30、40)は、受信した音響信号を対象に、音響分析を実行する。また、音響分析装置10(20、30、40)は、受信した音響信号を、オペレータ(受理者)が使用するOA端末100へ転送する。これにより、オペレータ(受理者)と通報者との通話を妨げることなしに、音響分析装置10(20、30、40)は、音響信号に対する音響分析を実行することができる。
音響分析装置10(20、30、40)は、指令システム1の指令回線を制御し、かつ、指令システム1の機能を実現する指令制御装置の一部であってもよい。
音響分析装置10(20、30、40)の機能について、後述する実施形態1~4において、詳細に説明する。
〔実施形態1〕
図1~図2を参照して、実施形態1について説明する。
図1~図2を参照して、実施形態1について説明する。
(音響分析装置10)
図2を参照して、本実施形態1に係る音響分析装置10の構成を説明する。図2は、音響分析装置10の構成を示すブロック図である。
図2を参照して、本実施形態1に係る音響分析装置10の構成を説明する。図2は、音響分析装置10の構成を示すブロック図である。
図2に示すように、音響分析装置10は、特定部11、識別部12、および予測部13を備えている。
特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。特定部11は、特定手段の一例である。事案には、交通事故および急患などの事故のほか、火災、水害、停電、その他の災害、野生動物の出没、および犯罪などの事件が含まれる。一般的に、救急、消防、または警察が扱う対象が、ここでの事案である。
一例では、特定部11は、通報者から、指令システム1(図1)の電話回線(例えば、119番)へ通報があったとき、通報者の通信機器から、電話回線又はIP回線を通じて、音響信号を受信する。音響信号には、通報者の音声のほかに、背景音が含まれる。例えば、事案の発生現場における天候が雨である場合、音響信号には、背景音として、雨音が含まれる場合がある。
まず、特定部11は、デジタルフィルタまたは周知のノイズ除去アルゴリズムなどのノイズ除去技術を用いて、音響信号から、周波数が時間的に大きく変化しない成分を除去する。これにより、特定部11は、音響信号から、ノイズを除去することができる。
次に、特定部11は、ノイズを除去された音響信号に対して、機械学習の技術領域における音源分離技術を適用することにより、音響信号に含まれる通報者の音声を、他の音(すなわち背景音)から分離する。これにより、特定部11は、音響信号において、通報者の音声がある時間帯と、通報者の音声がない時間帯とを区別することができる。
特定部11は、通報者の音声がない時間帯を、通報者が発話していない非音声時間として特定する。非音声時間における音響信号には、上述したとおり、背景音が含まれている場合がある。
特定部11は、非音声時間における音響信号を、識別部12へ出力する。あるいは、特定部11は、非音声時間を特定する情報を、音響信号とともに、識別部12へ出力してもよい。この場合、後述する識別部12は、非音声時間を特定する情報を用いて、音響信号の全体から、非音声時間における音響信号を抽出する。
識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。識別部12は、識別手段の一例である。
一例では、識別部12は、特定部11から、非音声時間における音響信号を受信する。識別部12は、非音声時間における音響信号に強い残響が含まれるか否かを判定する。非音声時間における音響信号に強い残響が含まれる場合、識別部12は、事案の発生現場は閉空間(例えば、室内)であると識別する。一方、非音声時間における音響信号に残響が含まれないか、または残響が弱い場合、識別部12は、事案の発生現場は半開空間または開空間(例えば、屋外)であると識別する。
また、識別部12は、機械学習済モデルを用いて、非音声時間における音響信号に、特徴音が含まれるかどうかを判定する。特徴音とは、音源を識別可能な音であり、例えば、電車や自動車の走行音、駅ホームでのアナウンス音声、視覚障がい者用信号機の音、家電量販店や食料品店などのチェーンストアで繰り返し再生される音声や音楽、並びに、群衆のざわめきや悲鳴が含まれる。
識別部12は、音響信号に含まれる特徴音に基づいて、音源を識別する。識別部12は、発生した事案についての受理要領と関連する音の音源を識別してもよい。受理要領は、通報等から事案を受理する際の基本的な要領を規定する。事案の種類ごとに、受理要領は異なる場合がある。例えば、事案が救急である場合の受理要領と、事案が火災である場合の受理要領は異なる。したがって、事案の種類によって、識別部12が識別する音源は異なる場合がある。
識別部12は、音源の識別結果を、予測部13へ出力する。音源の識別結果には、非音声時間における音響信号から識別された音源を示す情報が含まれる。
予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。予測部13は、予測手段の一例である。音響シーンとは、音響信号が暗示する情景や場面を意味する。音響シーンには、事案の発生現場における状況、環境、および人物の行動が含まれる。
一例では、予測部13は、識別部12から、音源の識別結果を受信する。予測部13は、音源の識別結果から、非音声時間における音響信号から識別された音源を示す情報を抽出する。予測部13は、音源と音響シーンとを紐づけるテーブルを格納したデータベース(図示せず)を参照する。そして、予測部13は、テーブルに記載された音源と、非音声時間における音響信号から識別された音源とを照合することにより、事案の発生現場における音響シーンを予測する。
その後、予測部13は、予測された音響シーンに基づく情報を、OA端末100(図1)に表示させてもよい(実施形態2)。または、予測部13は、予測された音響シーンを示す情報を、ROM902(図11)などの記録媒体に記録してもよい。
(音響分析装置10の動作)
図3を参照して、本実施形態1に係る音響分析装置10の動作を説明する。図3は、音響分析装置10の各部が実行する処理の流れを示すフローチャートである。
図3を参照して、本実施形態1に係る音響分析装置10の動作を説明する。図3は、音響分析装置10の各部が実行する処理の流れを示すフローチャートである。
図3に示すように、特定部11は、指令システム1(図1)へ入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する(S101)。
特定部11は、非音声時間における音響信号を、識別部12へ出力する。
次に、識別部12は、非音声時間における音響信号に含まれる音の音源を識別する(S102)。
識別部12は、音源の識別結果を、予測部13へ出力する。音源の識別結果には、非音声時間における音響信号から識別された音源を示す情報が含まれる。
その後、予測部13は、識別された音源に基づき、音響シーンを予測する(S103)。
さらに、予測部13は、予測された音響シーンに基づく情報を、OA端末100(図1)に表示させてもよい(実施形態2)。または、予測部13は、予測された音響シーンを示す情報を、ROM902(図11)などの記録媒体に記録してもよい。
なお、ステップS101の後、特定部11は、非音声時間を特定する情報を、音響信号とともに、識別部12へ出力してもよい。この場合、ステップS102において、識別部12は、非音声時間を特定する情報を用いて、音響信号の全体から、非音声時間における音響信号を抽出する。
以上で、本実施形態1に係る音響分析装置10の動作は終了する。
(本実施形態の効果)
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
〔実施形態2〕
図4~図6を参照して、実施形態2について説明する。本実施形態2では、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を、通報の受理者に提供する構成を説明する。本実施形態2では、前記実施形態1で説明した構成に対して、前記実施形態1と共通する符号を付すとともに、その説明を省略する。
図4~図6を参照して、実施形態2について説明する。本実施形態2では、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を、通報の受理者に提供する構成を説明する。本実施形態2では、前記実施形態1で説明した構成に対して、前記実施形態1と共通する符号を付すとともに、その説明を省略する。
(音響分析装置20)
図4を参照して、本実施形態2に係る音響分析装置20の構成を説明する。図4は、音響分析装置20の構成を示すブロック図である。
図4を参照して、本実施形態2に係る音響分析装置20の構成を説明する。図4は、音響分析装置20の構成を示すブロック図である。
図4に示すように、音響分析装置20は、特定部11、識別部12、および予測部13を備えている。音響分析装置20は、出力部24をさらに備えている。
出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する。出力部24は、出力手段の一例である。
一例では、出力部24は、予測部13から、事案の発生現場における音響シーンを示す情報を受信する。あるいは、出力部24は、予測された音響シーンを示す情報を、ROM902(図11)などの記録媒体から取得する。
出力部24は、事案の発生現場における音響シーンを示す情報に基づいて、事案の発生現場における状況、環境、及び人物の行動を示す情報を生成する。例えば、出力部24は、音響シーンと、状況、環境、及び人物の行動とを紐づけるテーブルを格納したデータベース(図示せず)を参照する。そして、出力部24は、テーブルに記載された音響シーンと、事案の発生現場における音響シーンとを照合することにより、事案の発生現場における状況、環境、及び人物の行動を判定する。
そして、出力部24は、事案の発生現場における状況、環境、及び人物の行動を示す情報を、オペレータ(受理者)(図1)が使用するOA端末100へ出力する。
オペレータ(受理者)は、OA端末100に出力された情報を確認することで、予測された音響シーンに相当する状況、環境、及び人物の行動を推測することができる。そのため、オペレータ(受理者)は、通報者(図1)との会話をよりスムーズに進行させることができる。
(オペレータと通報者との会話の進行の一例)
図5を参照して、本実施形態2に係る出力部24が、OA端末100などへ出力する情報について説明する。図5は、火災(事案の一例である)の発生時におけるオペレータ(受理者)と通報者との会話の進行の一例を表す。また、図5は、事案の発生現場における状況、環境、及び人物の行動を示す情報の一例を示す。図5の左から右へ向かう方向が、時間が進む方向に対応する。
図5を参照して、本実施形態2に係る出力部24が、OA端末100などへ出力する情報について説明する。図5は、火災(事案の一例である)の発生時におけるオペレータ(受理者)と通報者との会話の進行の一例を表す。また、図5は、事案の発生現場における状況、環境、及び人物の行動を示す情報の一例を示す。図5の左から右へ向かう方向が、時間が進む方向に対応する。
図5において、中心部の破線の枠内には、事案の発生現場における状況、環境、及び人物の行動を示す情報の一例が表されている。上部には、通報者の発言の一例を示す。また、下部には、オペレータ(受理者)の発言の一例を示す。オペレータの発言を囲む枠から上向きに伸びる矢印は、オペレータ(受理者)から通報者に対する質問または確認を示す。一方、通報者の発言を囲む枠から下向きに伸びる矢印は、通報者からオペレータ(受理者)に対する返答を示す。
図5に示すように、第1に、事案の発生現場における環境を示す情報として、「屋内」が、出力部24により、オペレータ(受理者)に提示される。また、事案の発生現場における人物の行動を示す情報として、「停止」が、出力部24により、オペレータ(受理者)に提示される。
オペレータ(受理者)は、OA端末100に出力された情報を確認することで、事案の発生現場における環境が「屋内」であることを知ることができる。そのため、オペレータ(受理者)は、通報者の現在地を知るために、『今どこにいますか?』という質問をする必要がない。オペレータ(受理者)は、『今どこにいますか?』という質問を省略することができる。
例えば、オペレータ(受理者)は、通報者に対して、通報者の現在地を質問することなしに、『まだ屋内ですか?早く外に逃げて下さい』という質問をする。通報者は、オペレータ(受理者)からの指示により、迅速に避難行動を開始することができる。
第2に、事案の発生現場における人物の行動を示す情報として、「歩行」が、出力部24により、オペレータ(受理者)に提示される。そのため、オペレータ(通報者)は、通報者が歩行可能かどうかを知るために、『歩けますか?』という質問をする必要がない。オペレータ(受理者)は、『歩けますか?』という質問を省略することができる。
例えば、オペレータ(受理者)は、通報者に対して、『出口はわかりますか?』という質問をする。通報者は、オペレータ(受理者)からの指示により、迅速に避難行動を開始することができる。
第3に、事案の発生現場における環境を示す情報として、「屋外」が、出力部24により、オペレータ(受理者)に提示される。また、事案の発生現場における天候を示す情報として、「降雨なし」「強風」が、出力部24により、オペレータ(受理者)に提示される。そのため、オペレータ(通報者)は、事案の発生現場における天候を知るために、『外の様子はどうですか?風が強かったりしますか?』という質問をする必要がない。オペレータ(受理者)は、『外の様子はどうですか?風が強かったりしますか?』という質問を省略することができる。
例えば、オペレータ(受理者)は、通報者に対して、『風が強そうですね。隣の家は大丈夫ですか?』という質問をする。通報者は、オペレータ(受理者)からの質問に対し、回答する。
このようにして、オペレータ(受理者)は、出力部24によって提示される情報を参考にすることで、通報者への一部の質問を省略することができる。それにより、通報者との会話を迅速に進めることができ、また通報者への指示を的確に行うことができる。
(音響分析装置20の動作)
図6を参照して、本実施形態2に係る音響分析装置20の動作を説明する。図6は、音響分析装置20の各部が実行する処理の流れを示すフローチャートである。
図6を参照して、本実施形態2に係る音響分析装置20の動作を説明する。図6は、音響分析装置20の各部が実行する処理の流れを示すフローチャートである。
図6に示すように、特定部11は、指令システム1(図1)へ入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する(S201)。
特定部11は、非音声時間における音響信号を、識別部12へ出力する。
次に、識別部12は、非音声時間における音響信号に含まれる音の音源を識別する(S202)。
識別部12は、音源の識別結果を、予測部13へ出力する。音源の識別結果には、非音声時間における音響信号から識別された音源を示す情報が含まれる。
その後、予測部13は、識別された音源に基づき、音響シーンを予測する(S203)。
さらに、予測部13は、予測された音響シーンを示す情報を、ROM902(図11)などの記録媒体に記録してもよい。
なお、ステップS201の後、特定部11は、非音声時間を特定する情報を、音響信号とともに、識別部12へ出力してもよい。この場合、ステップS202において、識別部12は、非音声時間を特定する情報を用いて、音響信号の全体から、非音声時間における音響信号を抽出する。
予測部13は、予測された音響シーンを示す情報を、出力部24へ出力する。
出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する(S204)。
以上で、本実施形態2に係る音響分析装置20の動作は終了する。
(本実施形態の効果)
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
さらに、本実施形態の構成によれば、出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する。これにより、通報の受理者に対し、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を提供することができる。
〔実施形態3〕
図7~図8を参照して、実施形態3について説明する。本実施形態3では、識別された音源に加えて、通報者の音声を音声認識した結果も利用して、音響シーンを予測する構成を説明する。本実施形態3では、前記実施形態1または前記実施形態2で説明した構成に対して、前記実施形態1または前記実施形態2と共通する符号を付すとともに、その説明を省略する。
図7~図8を参照して、実施形態3について説明する。本実施形態3では、識別された音源に加えて、通報者の音声を音声認識した結果も利用して、音響シーンを予測する構成を説明する。本実施形態3では、前記実施形態1または前記実施形態2で説明した構成に対して、前記実施形態1または前記実施形態2と共通する符号を付すとともに、その説明を省略する。
(音響分析装置30)
図7を参照して、本実施形態3に係る音響分析装置30の構成を説明する。図7は、音響分析装置30の構成を示すブロック図である。
図7を参照して、本実施形態3に係る音響分析装置30の構成を説明する。図7は、音響分析装置30の構成を示すブロック図である。
図7に示すように、音響分析装置30は、特定部11、識別部12、および予測部13を備えている。音響分析装置30は、音声認識部34をさらに備えている。
音声認識部34は、入力された音響信号において、非音声時間を除いた音声時間における音響信号から、所定の言語の音声を対象として音声認識する。音声認識部34は、音声認識手段の一例である。
一例では、音声認識部34は、特定部11から、非音声時間を除いた音声時間における音響信号を受信する。音声認識部34は、パターンマッチングや言語モデル(例えば、リカレントニューラルネットワーク言語モデル)などの音声認識技術を用いて、音声時間における音響信号を分析する。音声認識部34は、分析の結果として、音声時間における音響信号から変換されたテキストデータを得る。テキストデータは、所定の言語で表現された文章の情報である。
なお、音声認識部34が認識する音声の主体は、通常は通報者であるが、通報者以外である可能性も排除されない。音声時間における音響信号には、通報者以外の人物の音声が含まれる可能性があるからである。
音声認識部34は、音声時間における音響信号から変換されたテキストデータを、予測部13へ出力する。
本実施形態3では、予測部13は、音響信号から識別された前記音源に加えて、音声認識部34が音響信号に含まれる音声を認識した結果に基づいて、事案の発生現場における音響シーンを予測する。例えば、予測部13は、音響信号に含まれる音声を認識した結果から、キーワード(例えば、火災、雨、電車など)を抽出する。そして、予測部13は、予め設定されたキーワードと、状況、環境、または人物の行動とを対応付けるテーブルを参照して、抽出されたキーワードと対応する状況、環境、または人物の行動を特定する。予測部13は、特定した状況、環境、または人物の行動を、事案の発生現場における音響シーンを予測するための要素に含める。これにより、予測部13は、事案の発生現場における音響シーンを、より正確に予測することができる。
(音響分析装置30の動作)
図8を参照して、本実施形態3に係る音響分析装置30の動作を説明する。図8は、音響分析装置30の各部が実行する処理の流れを示すフローチャートである。
図8を参照して、本実施形態3に係る音響分析装置30の動作を説明する。図8は、音響分析装置30の各部が実行する処理の流れを示すフローチャートである。
図8に示すように、特定部11は、指令システム1(図1)へ入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する(S301)。
特定部11は、非音声時間における音響信号を、識別部12へ出力する。また、特定部11は、非音声時間以外の音声時間における音響信号を、音声認識部34へ出力する。
次に、識別部12は、非音声時間における音響信号に含まれる音の音源を識別する(S302)。
識別部12は、音源の識別結果を、予測部13へ出力する。音源の識別結果には、非音声時間における音響信号から識別された音源を示す情報が含まれる。
音声認識部34は、入力された音響信号において、非音声時間を除いた音声時間における音響信号から、所定の言語の音声を対象として音声認識する(S303)。
音声認識部34は、音声時間における音響信号から変換されたテキストデータを、予測部13へ出力する。
その後、予測部13は、識別された音源および音声認識結果に基づき、音響シーンを予測する(S304)。
さらに、予測部13は、予測された音響シーンに基づく情報を、OA端末100(図1)に表示させてもよい(実施形態2)。または、予測部13は、予測された音響シーンを示す情報を、ROM902(図11)などの記録媒体に記録してもよい。
なお、ステップS301の後、特定部11は、非音声時間を特定する情報を、音響信号とともに、識別部12へ出力してもよい。この場合、ステップS302において、識別部12は、非音声時間を特定する情報を用いて、音響信号の全体から、非音声時間における音響信号を抽出する。
以上で、本実施形態3に係る音響分析装置30の動作は終了する。
(変形例)
一変形例では、音響分析装置30は、前記実施形態2で説明した出力部24(図4)をさらに備えていてもよい。前記実施形態2と同様に、出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する。加えて、本実施形態3では、出力部24は、音声認識部34が音響信号に含まれる音声を認識した結果をさらに出力してもよい。例えば、出力部24は、音声認識部34から、音声時間における音響信号から変換されたテキストデータを受信する。そして、出力部24は、受信したテキストデータを、文字の画像データに変換して、OA端末100(図1)等の画面上に、文字の画像データを表示させる。
一変形例では、音響分析装置30は、前記実施形態2で説明した出力部24(図4)をさらに備えていてもよい。前記実施形態2と同様に、出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する。加えて、本実施形態3では、出力部24は、音声認識部34が音響信号に含まれる音声を認識した結果をさらに出力してもよい。例えば、出力部24は、音声認識部34から、音声時間における音響信号から変換されたテキストデータを受信する。そして、出力部24は、受信したテキストデータを、文字の画像データに変換して、OA端末100(図1)等の画面上に、文字の画像データを表示させる。
本変形例の構成によれば、オペレータ(受理者)が、OA端末100を用いて、通報者の発言を目視で確認することができるので、聞き間違えによる事案の誤認識を防止することができる。
(本実施形態の効果)
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
さらに、本実施形態の構成によれば、音声認識部34は、入力された音響信号において、非音声時間を除いた音声時間における音響信号から、所定の言語の音声を対象として音声認識する。予測部13は、音響信号から識別された前記音源に加えて、音声認識部34が音響信号に含まれる音声を認識した結果に基づいて、事案の発生現場における音響シーンを予測する。予測部13は、音声認識結果から特定した状況、環境、または人物の行動を、事案の発生現場における音響シーンを予測するための要素に含める。これにより、予測部13は、事案の発生現場における音響シーンを、より正確に予測することができる。
〔実施形態4〕
図9~図10を参照して、実施形態4について説明する。本実施形態4では、識別された音源に加えて、感情を認識した結果も利用して、音響シーンを予測する構成を説明する。本実施形態4では、前記実施形態1~3の少なくとも1つで説明した構成に対して、前記実施形態1~3と共通する符号を付すとともに、その説明を省略する。
図9~図10を参照して、実施形態4について説明する。本実施形態4では、識別された音源に加えて、感情を認識した結果も利用して、音響シーンを予測する構成を説明する。本実施形態4では、前記実施形態1~3の少なくとも1つで説明した構成に対して、前記実施形態1~3と共通する符号を付すとともに、その説明を省略する。
(音響分析装置40)
図9を参照して、本実施形態4に係る音響分析装置40の構成を説明する。図9は、音響分析装置40の構成を示すブロック図である。
図9を参照して、本実施形態4に係る音響分析装置40の構成を説明する。図9は、音響分析装置40の構成を示すブロック図である。
図9に示すように、音響分析装置40は、特定部11、識別部12、および予測部13を備えている。音響分析装置40は、感情認識部44をさらに備えている。
感情認識部44は、入力された音響信号において、非音声時間を除いた音声時間における音響信号から、感情を認識する。感情認識部44は、感情認識手段の一例である。
一例では、感情認識部44は、特定部11から、非音声時間を除いた音声時間における音響信号を受信する。感情認識部44は、DNN(Deep Neural Network)を用いた感情学習などの感情認識技術を用いて、音声時間における音響信号を分析する。感情認識部44は、分析の結果として、音声時間における音響信号から認識された感情を示す情報を得る。感情を示す情報は、「喜び」「悲しみ」「怒り」などの感情のパターンを表す。
なお、感情認識部44が認識する感情の主体は、通常は通報者であるが、通報者以外である可能性も排除されない。音声時間における音響信号には、通報者以外の人物の音声が含まれる可能性があるからである。
感情認識部44は、音声時間における音響信号から認識された感情を示す情報を、予測部13へ出力する。
本実施形態4では、予測部13は、音響信号から識別された前記音源に加えて、感情認識部44が感情を認識した結果に基づいて、事案の発生現場における音響シーンを予測する。例えば、予測部13は、感情を認識した結果から、感情のパターンを抽出する。そして、予測部13は、予め設定された感情のパターンと、状況、環境、または人物の行動とを対応付けるテーブルを参照して、抽出された感情のパターンと対応する状況、環境、または人物の行動を特定する。予測部13は、特定した状況、環境、または人物の行動を、事案の発生現場における音響シーンを予測するための要素に含める。これにより、予測部13は、事案の発生現場における音響シーンを、より正確に予測することができる。
(音響分析装置40の動作)
図10を参照して、本実施形態4に係る音響分析装置40の動作を説明する。図10は、音響分析装置40の各部が実行する処理の流れを示すフローチャートである。
図10を参照して、本実施形態4に係る音響分析装置40の動作を説明する。図10は、音響分析装置40の各部が実行する処理の流れを示すフローチャートである。
図10に示すように、特定部11は、指令システム1(図1)へ入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する(S401)。
特定部11は、非音声時間における音響信号を、識別部12へ出力する。また、特定部11は、非音声時間以外の音声時間における音響信号を、感情認識部44へ出力する。
次に、識別部12は、非音声時間における音響信号に含まれる音の音源を識別する(S402)。
識別部12は、音源の識別結果を、予測部13へ出力する。音源の識別結果には、非音声時間における音響信号から識別された音源を示す情報が含まれる。
感情認識部44は、入力された音響信号において、非音声時間を除いた音声時間における音響信号から、所定の言語の音声を対象として感情認識する(S403)。
感情認識部44は、音声時間における音響信号から認識された感情を示す情報を、予測部13へ出力する。
その後、予測部13は、識別された音源および感情認識結果に基づき、音響シーンを予測する(S404)。
さらに、予測部13は、予測された音響シーンに基づく情報を、OA端末100(図1)に表示させてもよい(実施形態2)。または、予測部13は、予測された音響シーンを示す情報を、ROM902(図11)などの記録媒体に記録してもよい。
なお、ステップS401の後、特定部11は、非音声時間を特定する情報を、音響信号とともに、識別部12へ出力してもよい。この場合、ステップS402において、識別部12は、非音声時間を特定する情報を用いて、音響信号の全体から、非音声時間における音響信号を抽出する。
以上で、本実施形態4に係る音響分析装置40の動作は終了する。
(変形例)
一変形例では、音響分析装置40は、前記実施形態2で説明した出力部24(図4)をさらに備えていてもよい。前記実施形態2と同様に、出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する。加えて、本実施形態4では、出力部24は、感情認識部44が感情を認識した結果をさらに出力してもよい。例えば、出力部24は、感情認識部44から、認識された感情の状態を示す情報を受信する。そして、出力部24は、感情認識部44から受信した情報を、感情の状態を示す記号の画像データに変換して、OA端末100(図1)等の画面上に、記号の画像データを表示させる。
一変形例では、音響分析装置40は、前記実施形態2で説明した出力部24(図4)をさらに備えていてもよい。前記実施形態2と同様に、出力部24は、予測された音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する。加えて、本実施形態4では、出力部24は、感情認識部44が感情を認識した結果をさらに出力してもよい。例えば、出力部24は、感情認識部44から、認識された感情の状態を示す情報を受信する。そして、出力部24は、感情認識部44から受信した情報を、感情の状態を示す記号の画像データに変換して、OA端末100(図1)等の画面上に、記号の画像データを表示させる。
本変形例の構成によれば、オペレータ(受理者)が、OA端末100を用いて、感情認識部44により認識された感情の状態を目視で確認することができるので、通報者とよりうまくコミュニケーションをとり、通報者との会話をよりスムーズに進行させることができる。
(本実施形態の効果)
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
本実施形態の構成によれば、特定部11は、入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する。識別部12は、非音声時間における音響信号を分析することにより、事案の発生現場にある音源を識別する。予測部13は、識別された音源に基づき、事案の発生現場における音響シーンを予測する。このように、入力された音響信号から、事案の発生現場における音響シーンが予測される。通報の受理者は、予測された音響シーンから、事案の発生現場の状況、状態、場面、および環境などを把握することができる。これにより、通報の受理者が、事案への対処を迅速かつ的確に行うことができる。
さらに、本実施形態の構成によれば、感情認識部44は、通報者が発話している音声時間における音響信号から、感情を認識する。予測部13は、音響信号から識別された前記音源に加えて、感情認識部44が感情を認識した結果に基づいて、事案の発生現場における音響シーンを予測する。予測部13は、感情認識結果から特定した状況、環境、または人物の行動を、事案の発生現場における音響シーンを予測するための要素に含める。これにより、予測部13は、事案の発生現場における音響シーンを、より正確に予測することができる。
(ハードウェア構成について)
前記実施形態1~4で説明した音響分析装置10、20、30、40の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図11に示すような情報処理装置900により実現される。図11は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
前記実施形態1~4で説明した音響分析装置10、20、30、40の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図11に示すような情報処理装置900により実現される。図11は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
図11に示すように、情報処理装置900は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入予測を行う入予測インタフェース910
・各構成要素を接続するバス911
前記実施形態1~4で説明した音響分析装置10、20、30、40の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入予測を行う入予測インタフェース910
・各構成要素を接続するバス911
前記実施形態1~4で説明した音響分析装置10、20、30、40の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
上記の構成によれば、前記実施形態1~4で説明した音響分析装置10、20、30、40が、ハードウェアとして実現される。したがって、前記実施形態1~4のいずれかにおいて説明した効果と同様の効果を奏することができる。
(付記)
本発明の一態様は、以下の付記のようにも記載されるが、以下に限定されない。
本発明の一態様は、以下の付記のようにも記載されるが、以下に限定されない。
(付記1)
入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する特定手段と、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別する識別手段と、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する予測手段と
を備えた音響分析装置。
入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する特定手段と、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別する識別手段と、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する予測手段と
を備えた音響分析装置。
(付記2)
前記音響シーンは、前記事案の発生現場における状況、環境、および人物の行動を含む
ことを特徴とする付記1に記載の音響分析装置。
前記音響シーンは、前記事案の発生現場における状況、環境、および人物の行動を含む
ことを特徴とする付記1に記載の音響分析装置。
(付記3)
前記識別手段は、発生した前記事案についての受理要領と関連する音の音源を識別する
ことを特徴とする付記1または2に記載の音響分析装置。
前記識別手段は、発生した前記事案についての受理要領と関連する音の音源を識別する
ことを特徴とする付記1または2に記載の音響分析装置。
(付記4)
識別された前記音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する出力手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音響分析装置。
識別された前記音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する出力手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音響分析装置。
(付記5)
入力された音響信号において、前記非音声時間を除いた音声時間における音響信号に含まれる音声を対象として音声認識する音声認識手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音響分析装置。
入力された音響信号において、前記非音声時間を除いた音声時間における音響信号に含まれる音声を対象として音声認識する音声認識手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音響分析装置。
(付記6)
前記予測手段は、前記非音声時間における前記音響信号から識別された前記音源に加えて、前記音声時間における前記音響信号に含まれる音声を前記音声認識手段が認識した結果に基づいて、前記事案の発生現場における音響シーンを予測する
ことを特徴とする付記5に記載の音響分析装置。
前記予測手段は、前記非音声時間における前記音響信号から識別された前記音源に加えて、前記音声時間における前記音響信号に含まれる音声を前記音声認識手段が認識した結果に基づいて、前記事案の発生現場における音響シーンを予測する
ことを特徴とする付記5に記載の音響分析装置。
(付記7)
入力された音響信号において、前記非音声時間を除いた音声時間における音響信号から、感情を認識する感情認識手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音響分析装置。
入力された音響信号において、前記非音声時間を除いた音声時間における音響信号から、感情を認識する感情認識手段をさらに備えた
ことを特徴とする付記1から3のいずれか1項に記載の音響分析装置。
(付記8)
前記予測手段は、前記非音声時間における前記音響信号から識別された前記音源に加えて、前記音声時間における前記音響信号から前記感情認識手段が認識した感情に基づいて、前記事案の発生現場における音響シーンを予測する
ことを特徴とする付記7に記載の音響分析装置。
前記予測手段は、前記非音声時間における前記音響信号から識別された前記音源に加えて、前記音声時間における前記音響信号から前記感情認識手段が認識した感情に基づいて、前記事案の発生現場における音響シーンを予測する
ことを特徴とする付記7に記載の音響分析装置。
(付記9)
入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定し、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別し、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する
音響分析方法。
入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定し、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別し、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する
音響分析方法。
(付記10)
入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定することと、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別することと、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測することと
をコンピュータに実行させるためのプログラム。
入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定することと、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別することと、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測することと
をコンピュータに実行させるためのプログラム。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。実施形態(及び実施例)の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2021年12月16日に出願された日本出願特願2021-204070を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、例えば、救急の指令システムにおいて、事案の通報の際、通報者側の音響信号を分析することによって、事案の発生現場の助教を示す情報を提供することに利用することができる。
1 指令システム
10 音響分析装置
11 特定部
12 識別部
13 予測部
20 音響分析装置
24 出力部
30 音響分析装置
34 音声認識部
40 音響分析装置
44 感情認識部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 プログラム
905 記憶装置
906 記録媒体
907 ドライブ装置
908 通信インタフェース
909 通信ネットワーク
10 音響分析装置
11 特定部
12 識別部
13 予測部
20 音響分析装置
24 出力部
30 音響分析装置
34 音声認識部
40 音響分析装置
44 感情認識部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 プログラム
905 記憶装置
906 記録媒体
907 ドライブ装置
908 通信インタフェース
909 通信ネットワーク
Claims (10)
- 入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定する特定手段と、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別する識別手段と、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する予測手段と
を備えた音響分析装置。 - 前記音響シーンは、前記事案の発生現場における状況、環境、および人物の行動を含む
ことを特徴とする請求項1に記載の音響分析装置。 - 前記識別手段は、発生した前記事案についての受理要領と関連する音の音源を識別する
ことを特徴とする請求項1または2に記載の音響分析装置。 - 識別された前記音響シーンに相当する状況、環境、及び人物の行動を示す情報を出力する出力手段をさらに備えた
ことを特徴とする請求項1から3のいずれか1項に記載の音響分析装置。 - 入力された音響信号において、前記非音声時間を除いた音声時間における音響信号に含まれる音声を対象として音声認識する音声認識手段をさらに備えた
ことを特徴とする請求項1から3のいずれか1項に記載の音響分析装置。 - 前記予測手段は、前記非音声時間における前記音響信号から識別された前記音源に加えて、前記音声時間における前記音響信号に含まれる音声を前記音声認識手段が認識した結果に基づいて、前記事案の発生現場における音響シーンを予測する
ことを特徴とする請求項5に記載の音響分析装置。 - 入力された音響信号において、前記非音声時間を除いた音声時間における音響信号から、感情を認識する感情認識手段をさらに備えた
ことを特徴とする請求項1から3のいずれか1項に記載の音響分析装置。 - 前記予測手段は、前記非音声時間における前記音響信号から識別された前記音源に加えて、前記音声時間における前記音響信号から前記感情認識手段が認識した感情に基づいて、前記事案の発生現場における音響シーンを予測する
ことを特徴とする請求項7に記載の音響分析装置。 - 入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定し、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別し、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測する
音響分析方法。 - 入力された音響信号において、事案の発生を通報する通報者が発話していない非音声時間を特定することと、
前記非音声時間における音響信号を分析することにより、前記事案の発生現場における音源を識別することと、
識別された前記音源に基づき、前記事案の発生現場における音響シーンを予測することと
をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023567663A JPWO2023112668A5 (ja) | 2022-11-30 | 音響分析装置、音響分析方法、およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-204070 | 2021-12-16 | ||
JP2021204070 | 2021-12-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023112668A1 true WO2023112668A1 (ja) | 2023-06-22 |
Family
ID=86774232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/044091 WO2023112668A1 (ja) | 2021-12-16 | 2022-11-30 | 音響分析装置、音響分析方法、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023112668A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120046942A1 (en) * | 2010-08-23 | 2012-02-23 | Pantech Co., Ltd. | Terminal to provide user interface and method |
JP2016042132A (ja) * | 2014-08-18 | 2016-03-31 | ソニー株式会社 | 音声処理装置、音声処理方法、並びにプログラム |
JP2020013234A (ja) * | 2018-07-17 | 2020-01-23 | 株式会社日立製作所 | 救急通報聴取支援システム及び救急通報聴取支援方法 |
JP2020066339A (ja) * | 2018-10-24 | 2020-04-30 | トヨタ自動車株式会社 | 情報処理装置および情報処理方法 |
-
2022
- 2022-11-30 WO PCT/JP2022/044091 patent/WO2023112668A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120046942A1 (en) * | 2010-08-23 | 2012-02-23 | Pantech Co., Ltd. | Terminal to provide user interface and method |
JP2016042132A (ja) * | 2014-08-18 | 2016-03-31 | ソニー株式会社 | 音声処理装置、音声処理方法、並びにプログラム |
JP2020013234A (ja) * | 2018-07-17 | 2020-01-23 | 株式会社日立製作所 | 救急通報聴取支援システム及び救急通報聴取支援方法 |
JP2020066339A (ja) * | 2018-10-24 | 2020-04-30 | トヨタ自動車株式会社 | 情報処理装置および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023112668A1 (ja) | 2023-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10269374B2 (en) | Rating speech effectiveness based on speaking mode | |
US10796539B2 (en) | Visually-impaired-accessible building safety system | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP1646265B1 (en) | Sound playback headphone | |
Principi et al. | An integrated system for voice command recognition and emergency detection based on audio signals | |
US20170169700A9 (en) | System and method for emergency message preview and transmission | |
US20180233125A1 (en) | Wearable audio device | |
KR20170009337A (ko) | 사용자 관심 음성 알림 장치 및 방법 | |
US20240005918A1 (en) | System For Recognizing and Responding to Environmental Noises | |
WO2014120291A1 (en) | System and method for improving voice communication over a network | |
US20190180735A1 (en) | Ambient sound classification based message routing for local security and remote internet query systems | |
US20160328949A1 (en) | Method for an Automated Distress Alert System with Speech Recognition | |
CN110719553B (zh) | 具有认知声音分析和响应的智能扬声器系统 | |
KR102000628B1 (ko) | 비가청 음파를 이용하는 소방용 경보 시스템 및 장치 | |
JP6339892B2 (ja) | 遠隔監視システム及び遠隔監視方法 | |
WO2023112668A1 (ja) | 音響分析装置、音響分析方法、および記録媒体 | |
CN111179969A (zh) | 一种基于音频信息的报警方法、装置、系统及存储介质 | |
CN113345210B (zh) | 一种基于音视频智能判断呼救的方法及装置 | |
CN107492378A (zh) | 对讲机的数据处理方法及装置 | |
KR20220059397A (ko) | 긴급상황 조기분석 및 허위신고 판단 방법 및 장치 | |
KR102000282B1 (ko) | 청각 기능 보조용 대화 지원 장치 | |
WO2023210052A1 (ja) | 音声分析装置、音声分析方法及び音声分析プログラム | |
KR20210032761A (ko) | 영상 또는 음성 분석에 기반한 상호 대화형 컨텐츠 제공 시스템 | |
WO2024053915A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
KR20150125546A (ko) | 분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22907197 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18714182 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023567663 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |