WO2020022079A1 - 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法 - Google Patents
音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法 Download PDFInfo
- Publication number
- WO2020022079A1 WO2020022079A1 PCT/JP2019/027461 JP2019027461W WO2020022079A1 WO 2020022079 A1 WO2020022079 A1 WO 2020022079A1 JP 2019027461 W JP2019027461 W JP 2019027461W WO 2020022079 A1 WO2020022079 A1 WO 2020022079A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- content
- data processing
- keyword
- voice recognition
- recognition data
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 182
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 39
- 238000013473 artificial intelligence Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 27
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 239000000872 buffer Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 102100034761 Cilia- and flagella-associated protein 418 Human genes 0.000 description 1
- 101100439214 Homo sapiens CFAP418 gene Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Definitions
- the present disclosure relates to a voice recognition data processing device, a voice recognition data processing system, and a voice recognition data processing method.
- the uttered voice of the call is collected, and the uttered voice is recognized and converted into a character string (that is, text data).
- a character string that is, text data.
- Processing voice recognition data processing systems have come to be used.
- Japanese Patent Application Laid-Open No. H11-163873 discloses that voice from a transmitting channel is recognized by a first voice recognizing means, and voice of a receiving channel transmitted via an exchange is converted to a second voice.
- a call content transcription system that recognizes voice by two voice recognition means, converts each voice recognition result into a character string, and displays it.
- This call content transcription system is configured so that a displayed character string can be edited by a character string editing unit. As a result, the editor can transcribe (that is, convert to text) the contents of the call while confirming that the contents of the call on the transmitting and receiving sides are displayed in chronological order.
- Patent Literature 1 considers the transcription of all of the call contents, but does not consider creating an outline (that is, a summary) of the call contents. Therefore, even if the configuration of Patent Literature 1 is applied to a case where a consultant responds to a consultation from a consultant at a consultation counter of an administrative agency (for example, a police station) or the like, the content of the consultation is converted into a text even if the consultant is applied.
- the output contents in which all the utterance contents of the counselor are converted to text are created. Therefore, when the counselor reviews the output contents later, it may be difficult to grasp the outline of the consultation content at a glance, and as a result, the convenience of the counselor may be reduced and the consultation counter may not improve the consultation response ability. There was sex.
- the present disclosure has been devised in view of the above-mentioned conventional circumstances, and efficiently narrows down necessary keywords from consultation contents of consultants without fail, and supports simple creation of summaries of consultation contents to assist consultants. It is an object of the present invention to provide a voice recognition data processing device, a voice recognition data processing system, and a voice recognition data processing method capable of reducing the load on the user and improving the consultation response capability of the consultation desk.
- the present disclosure relates to a voice recognition unit that recognizes voice data input from a microphone that collects a uttered voice of a consultant, a plurality of items including a type of consultation content from the consultant, and each of the items. And a memory that holds a table in which the keywords to be registered are associated with each other, and a plurality of items including the type of the consultation content according to a comparison between the voice recognition result of the voice data and the keywords registered in the table.
- a determination unit that determines each content and narrows down a keyword used for the comparison among a plurality of keywords registered in the table according to the determined type, and a keyword registered in the table or the narrowed down keyword. And generating a summary report of the consultation content using the content of each of the plurality of items determined based on the keyword. Comprising a generating unit, and to provide a speech recognition data processing apparatus.
- the present disclosure provides a voice recognition unit for recognizing voice data input from a microphone that collects a speech voice of a consultant, a plurality of items including a type of consultation content from the consultant, and each of the items. And a memory that holds a table in which a keyword corresponding to the keyword is registered, and a plurality of types including the type of the consultation content according to a comparison between the voice recognition result of the voice data and the keyword registered in the table.
- a determination unit that determines the content of each item and narrows down keywords used for the comparison among a plurality of keywords registered in the table, according to the determined type, and a keyword registered in the table or Using the content of each of the plurality of items determined based on the narrowed keywords, a summary report of the consultation content And a generation unit for forming, to provide a speech recognition data processing system.
- the present disclosure is a voice recognition data processing system having a memory that holds a table in which a plurality of items including a type of consultation content from a consultant and a keyword corresponding to each of the items are registered in association with each other.
- Voice recognition of voice data input from a microphone that collects the voice of the consultant, and, based on a comparison between a voice recognition result of the voice data and a keyword registered in the table, Determining the contents of each of the plurality of items including the type; narrowing down the keywords used for the comparison among the plurality of keywords registered in the table according to the determined type; registering in the table Of each of the plurality of items determined based on the identified keyword or the narrowed keyword Using containers, and a step of generating a summary report of the consulting detail, to provide a speech recognition data processing method.
- FIG. 1 shows a configuration example of a speech recognition data processing system according to a first embodiment.
- FIG. 3 is a block diagram showing an example of the configuration of the speech recognition data processing system shown in FIG. 5 is a flowchart showing a main routine of voice recognition data processing according to the first embodiment.
- 5 is a flowchart showing a subroutine of the voice recognition process shown in FIG. 5 is a flowchart showing a subroutine of a keyword match determination process shown in FIG. 5 is a flowchart showing a subroutine of a chart table registration process shown in FIG.
- FIG. 3 is a block diagram showing a modification of the speech recognition data processing system according to the first embodiment.
- 9 is a flowchart showing a main routine of voice recognition data processing according to the second embodiment.
- 13 is a flowchart showing a subroutine of a consultant presentation process shown in FIG. Flowchart showing counselor presentation processing according to Embodiment 3.
- FIG. 1 is a diagram showing a chart table held for speech recognition data processing.
- FIG. 2 is a diagram illustrating an example of a summary report generated in the speech recognition data processing.
- a plurality of items IT including a genre (type) of consultation content from a consultant and a plurality of keywords (including sentences) corresponding to each item IT and related to the item IT are also included.
- the table TB is registered and set in advance, and the table TB is stored in the memory 16 as a database (see FIGS. 1 and 4).
- the table TB further registers, for each keyword corresponding to the item IT, one or more keywords having low relevance as the genre of the consultation content. That is, the table TB holds keyword relevance information in which one or more keywords having low relevance in terms of genre are specified for each keyword.
- One or more keywords having low relevance for each keyword specified in the keyword relevance information are used when narrowing down keywords to be described later.
- a chart table RT is held in the memory 16 as a format for inputting the contents of the consultation as text (see FIGS. 1, 4, 9, and 10).
- the format of the chart table RT is set in advance corresponding to each item IT registered in the table TB in advance.
- the consultation desk is a police station among the administrative agencies
- the contents of the consultation are mainly assumed to be, for example, crimes and annoying acts.
- the item IT of the consultation content includes “genre (type)”, “consultant”, “partner”, “damage status”, and “ “Request”, "Contents of police Proposal”, “Agreement / Understanding of Stepor”, “Next Action”, etc. are set.
- a content input column CN for inputting specific consultation content for each item IT is also provided in the chart table RT.
- a keyword input field K1 for inputting a keyword obtained based on the voice data of the consultant C1 and a keyword obtained based on the voice data of the consultant C2 are input. Is provided for each item IT (see FIGS. 9 and 10).
- a plurality of keywords respectively entered in the consultant-side keyword input field K1 and the consultant-side keyword input field K2 are selected from keywords specified in the table TB and registered in advance, as described later.
- the information may be appropriately updated (added, changed, or deleted) according to the frequency of use by a learning process using artificial intelligence (AI).
- AI artificial intelligence
- the content input column CN of each item IT is set at least blank.
- the chart table RT is merely an example, and is not limited to the contents shown in FIG. 1, and may be appropriately changed and set according to the nature of the consultation desk. The same applies to the following drawings, which are examples for promoting understanding of the present disclosure.
- the voice recognition data processing system 1 performs voice recognition of the uttered voices of the consultant C1 and the consultant C2 for each phrase, and compares the voice recognition result with the keyword registered in the table TB. Then, the contents of each of the above-described items IT including the genre of the consultation contents are determined, and texts are input to the respective content columns CN of the chart table RT.
- the keyword of "neighborhood trouble” is included in the content of the "genre” having the first item number NO, and the content is first noted in the content of the sixth "content of proposal from police". We will be careful from the beginning. We will input the keyword “We will be careful.” In the 8th "Next action,” the keyword “Tell me the day to be careful” will be input as text as a result of speech recognition You. At this time, the speech recognition data processing system 1 uses the table TB to narrow down keywords used for comparison among a plurality of keywords registered in the table TB according to the determined genre. By this narrowing down, it is possible to speed up the keyword matching judgment on the speech recognition result.
- Each item IT of the medical chart table RT is sequentially input for each phrase of the voice data, and each content is sequentially determined as a list indicating the entire consultation content.
- each content column CN is filled, and the chart table RT is completed.
- a summary report of the consultation contents is generated based on the contents of each of the determined items IT.
- the creation of the summary report AB allows the consultation counter of the administrative agency or the like (the police station in this description) to efficiently transmit the necessary keywords from the consultation contents from the consultant C1 at the consultation counter. It is possible to support narrowing down and simple creation of a summary of consultation contents. Therefore, in order to support the creation, the speech recognition data processing device 10, the speech recognition data processing system 1, and the speech recognition data processing method have specific configurations described in a plurality of embodiments described below.
- the “unit” or “apparatus” in the first, second, and third embodiments is not limited to a physical configuration realized simply by hardware, and the functions of the configuration are realized by software such as a program. Including things. Further, the functions of one configuration may be realized by two or more physical configurations, or the functions of two or more configurations may be realized by, for example, one physical configuration.
- FIG. 3 is a schematic diagram illustrating an example of a configuration of the speech recognition data processing system 1 according to the first embodiment.
- FIG. 4 is a block diagram showing an example of the configuration of the speech recognition data processing system 1 shown in FIG.
- the voice recognition data processing device 10 and the voice recognition data processing system 1 according to the first embodiment are exemplified for use at a consultation counter installed in an administrative agency (for example, a police station). Is done. For example, it is assumed that a consultant C1 who is a local resident goes to a consultation counter of a police station and meets a consultant C2 such as a police officer to directly consult a crime or annoyance.
- an administrative agency for example, a police station.
- a consultant C1 who is a local resident goes to a consultation counter of a police station and meets a consultant C2 such as a police officer to directly consult a crime or annoyance.
- a plurality of microphones M1 and M2 and a voice recognition data processing device 10 are installed at the consultation desk, and voices of the consultant C1 and the consultant C2 are collected through the microphones M1 and M2. Then, the voice data is input to the voice recognition data processing device 10 to perform voice recognition.
- description will be made assuming use at a consultation counter of a police station, but the present invention is not limited to this. In addition, it is applicable to a consultation desk at a city hall, a consultation desk at a medical institution such as a hospital, and a consultation desk at a private institution without being limited to a public institution.
- a plurality of (for example, two) microphones M1 and M2 for collecting speech voices of the consultant C1 and the consultant C2, and input from the microphones M1 and M2 are provided.
- a network NW that connects the voice recognition data processing device 10 and the voice recognition server 20.
- the plurality of microphones M1 and M2 collect voices spoken by the consultant C1 and the consultant C2, and output the voices as voice data of electric signals.
- the voice data is output to the voice recognition data processing device 10 as electrical vibration waveform data.
- two microphones M1 and M2 are installed, but the number of microphones is not limited to two and may be one.
- one microphone M1 may be configured to be able to collect the uttered voices of both the consultant C1 and the consultant C2 so as to be identifiable.
- the speech recognition data processing device 10 is configured by a general-purpose personal computer, and includes a processor 11, a memory 16, a display 17, an input / output interface circuit 18, and a communication circuit 19.
- the input / output interface circuit is indicated as “input / output I / F” for convenience.
- the voice recognition data processing device 10 is not limited to a personal computer, and various devices such as a tablet terminal and a smartphone may be used as long as they have the above-described various circuits.
- the memory 16 is composed of a semiconductor memory such as a RAM (Random Access Memory) and a ROM (Read Only Memory).
- the memory 16 stores and holds a predetermined program executed by the processor 11, various setting parameters, and the like, and temporarily stores digitally converted audio data and data generated intermediately when the processor executes the various programs. To memorize.
- the memory 16 stores the plurality of items IT including the genre of the consultation content from the consultant C1 and the plurality of keywords corresponding to each item IT and related to the item IT.
- the memory 16 also stores a chart table RT (see FIG. 9) as a format for inputting consultation contents.
- the table TB and the chart table RT may be stored and held in a storage circuit such as a storage device such as a solid state drive (SSD) or a hard disk drive (HDD) instead of a semiconductor memory. Further, as described above, the table TB further registers, for each keyword corresponding to the item IT, another keyword having low relevance as the genre of the consultation content.
- SSD solid state drive
- HDD hard disk drive
- the display 17 includes a liquid crystal display, an organic EL (Electro Luminescence) display, and the like.
- the display 17 switches the voice data, the chart table RT, the summary report AB, and the like as appropriate on its display unit and displays the data at least to the consultant C2.
- the input / output interface circuit 18 is an audio interface that converts audio data acquired by the microphones M1 and M2 into digital signals that can be subjected to various signal processing. At the time of the digital conversion, the input / output interface circuit 18 converts the analog audio data into a digital signal using a predetermined quantization bit and a sampling frequency. The sampling frequency is set to, for example, 48 kHz. Also, the input / output interface circuit 18 includes a buffer circuit, and this buffer circuit buffers audio data for a predetermined time in order to convert the audio data of the microphones M1 and M2 into digital data. The input / output interface circuit 18 transmits the digitally converted audio data to the processor 11 and the display 17.
- the communication circuit 19 has a wireless communication function, is connected to the network NW via a predetermined wireless communication line, and performs wireless communication with the speech recognition server 20. That is, the voice recognition data processing device 10 is connected to the voice recognition server 20 via the communication circuit 19 and the network NW, and is configured to be able to transmit and receive predetermined data such as voice data.
- the communication circuit 19 can use a mobile phone network (cellular network), a wireless LAN, or the like as a wireless communication circuit.
- the communication circuit 19 is not limited to wireless communication, and may be configured to enable wired communication using a wired LAN or the like.
- a CPU Central Processing Unit
- MPU Micro Processor Unit
- DSP Digital Signal Processor
- FPGA Field Programmable Gate Array
- the processor 11 reads out a program and setting parameters stored in the memory 16 as appropriate, and executes a predetermined process according to the read out program.
- the processor 11 compares the speech recognition result with a keyword registered in the table TB with a speech recognition unit 12 that recognizes speech data obtained from the microphones M1 and M2, and compares each of the items IT.
- a keyword match determination unit 13 (an example of a determination unit) that determines the contents
- a chart report generation unit 14 (an example of a generation unit) that generates a summary report AB of the consultation content based on the determination of each item IT are registered and registered.
- An AI (Artificial @ Intelligence) processing unit 15 that learns a plurality of existing keywords and the determination result of the keyword match determination unit 13 and appropriately updates the registered content of the keywords in the table TB.
- the voice recognition unit 12 acquires digitally converted voice data from the input / output interface circuit 18.
- the voice recognition unit 12 performs voice recognition on the obtained voice data based on, for example, a predetermined corpus, and converts the voice data into text data (character string).
- the conversion and interpretation of the text data are executed according to a predetermined automatic speech recognition algorithm.
- the automatic speech recognition algorithm is generated using, for example, an artificial intelligence (AI) engine implemented in the AI processing unit 15.
- AI artificial intelligence
- the speech recognition unit 12 of the speech recognition data processing device 10 is limited by the processing capability (that is, performance) of the processor of the speech recognition data processing device 10.
- the performance and accuracy of the voice recognition unit 12 may be limited because the voice recognition unit 12 follows the automatic voice recognition algorithm generated by the AI processing unit 15 of the processor 11. Therefore, in the first embodiment, the voice recognition server 20 capable of acquiring voice data of the contents of consultation at various consultation desks is normally used via the network NW, and a voice recognition process described later (for example, FIG. (See step S20 shown).
- the voice recognition unit 12 of the voice recognition data processing device 10 functions instead of the voice recognition server 20 to perform voice recognition on the voice data. May do it.
- the speech recognition server 20 generates an automatic speech recognition algorithm by learning artificial intelligence and performs speech recognition.
- the learning of artificial intelligence performed by the voice recognition data processing device 10 and the voice recognition server 20 may be performed using one or more statistical classification techniques.
- Statistical classification techniques include linear classifiers, support vector machines, quadratic classifiers, kernel density estimation, kernel trees, and artificial neural networks.
- Networks artificial neural networks
- Bayesian technologies and / or networks Bayesian technologies and / or networks
- hidden Markov models hidden Markov models
- binary classifiers binary classifiers
- multi-class classifiers multi-class classifiers
- Examples include clustering (a clustering technique), random forest (a random forest technique), logistic regression (a logistic regression technique), linear regression (a lineargressregressionntechnique), and gradient boosting (a gradient boosting technique).
- the statistical classification technique used is not limited to these.
- the voice recognition server 12 or the voice recognition unit 12 of the voice recognition data processing device 10 sequentially transmits the text data as the voice recognition result to the keyword match determination unit 13.
- the keyword match determination unit 13 acquires the speech recognition result for each phrase, and determines whether or not there is a match with a keyword registered in advance in the table TB. That is, the keyword match determination unit 13 performs comparison with a plurality of keywords registered in the table TB every time the voice recognition result of voice data corresponding to one phrase of the uttered voice of the consultant C1 and the consultant C2 is obtained. Do. Further, the keyword match determination unit 13 uses the table TB to narrow down keywords to be used for comparison among a plurality of keywords registered in the table TB according to the determined genre.
- the medical chart report generation unit 14 generates a consultation content summary report AB using the contents of the plurality of items IT determined based on the keywords registered in the table TB or the narrowed keywords (see FIG. 2). ).
- FIG. 5 is a flowchart showing a main routine of the voice recognition data processing according to the first embodiment.
- FIG. 6 is a flowchart showing a subroutine of the voice recognition processing S20 shown in FIG.
- FIG. 7 is a flowchart showing a subroutine of the keyword match determination processing S30 shown in FIG.
- FIG. 8 is a flowchart showing a subroutine of the chart table registration processing S40 shown in FIG.
- FIG. 9 is a diagram exemplifying the chart table RT before the processing of the chart table registration processing S40 shown in FIG.
- FIG. 10 is a diagram illustrating the medical chart table RT after the processing of the medical chart table registration processing S40 illustrated in FIG. 5.
- FIG. 11 is a flowchart showing a subroutine of the chart report generation processing S50 shown in FIG.
- the consultant C2 When responding to the consultant C1, the consultant C2 operates the voice recognition data processing system 1 (see FIG. 3). Each of the microphones M1 and M2 starts collecting speech voices of the consultant C1 or the consultant C2, and outputs analog voice data to the voice recognition data processing device 10. As shown in FIG. 5, the voice recognition data processing device 10 acquires the input voice data for each phrase by the input / output interface circuit 18, and displays the vibration waveform of the voice data on the display 17 (S10). ).
- a subroutine of the voice recognition process is started (S20).
- the input / output interface circuit 18 buffers the voice data in the buffer circuit, converts the voice data into digital data, and outputs the digital data to the processor 11 (S21).
- the processor 11 transmits the digitally converted voice data to the voice recognition server 20 through the communication circuit 19 (S22).
- the voice recognition server 20 receives the voice data, recognizes the received voice data according to an automatic voice recognition algorithm, and converts the voice data into text data as a voice recognition result (S23).
- the voice recognition server 20 transmits the voice recognition result to the voice recognition data processing device 10 for each phrase of the uttered voice.
- the voice recognition data processing device 10 receives the voice recognition result of the voice recognition server 20 through the communication circuit 19 (S24). With this reception, the subroutine of the voice recognition processing ends.
- a subroutine of the keyword matching determination processing is started (S30).
- the keyword match determination unit 13 of the processor 11 acquires a voice recognition result of voice data corresponding to one phrase of the uttered voice of the consultant C1 and the consultant C2 (S31).
- the keyword match determination unit 13 decomposes the speech recognition result for each word (S32).
- the word here is not limited to a word, but may be a sentence such as a phrase or a section.
- the keyword match determination unit 13 compares the speech recognition result with a plurality of keywords registered in the table TB in advance and determines whether or not they match, based on the speech recognition corresponding to the utterance contents of each of the consultant C1 and the consultant C2. The results are compared individually (S33). As a result of the comparison, the keyword match determination unit 13 determines whether or not the keyword matches the keyword registered in the table TB (S34). If it is determined that they do not match, the subroutine of the keyword match determination processing S30 ends.
- the keyword matching determination unit 13 performs supplementary conversion as appropriate, for example, to convert the uttered voice of "we” to "police” or the uttered voice of "me” to “consultant” at the time of keyword match determination (S34). First person conversion according to the situation may be configured.
- the voice recognition data processing system 1 allows the consultant C1 or the consultant C2 to have no relation to the consultation content (for example, chat or small talk) while the microphones M1 and M2 are collecting sound. Etc.), and proceed to the next chart table registration process (step S40). This makes it possible to suppress the content unrelated to the consultation content, that is, noise information from being mixed into the chart table RT and the summary report AB.
- the keyword match determination unit 13 further determines whether or not the matched voice recognition result matches the keyword corresponding to the genre of the consultation content (S35).
- the keyword match determination unit 13 determines whether the genre of the consultation content of the consultant C1 is, for example, “neighboring trouble”, “stalker damage”, or “fraud”. It is determined whether it is "damage” or the like, and the result of the determination is input to the chart RT. Further, the keyword match determination unit 13 narrows down the keywords used in the above-described step S33 among the plurality of keywords registered in the table TB according to the determined genre (S36).
- the table TB contains, for each keyword corresponding to the item IT, keyword relevance information in which one or more keywords having low relevance from the viewpoint of the genre of the consultation content are specified. keeping. For example, it is considered that the keyword of the genre “Stalker” has low relevance to the keyword “XX circle transfer”. Also, the keyword “genre fraud” is considered to have low relevance to the keyword “cut”. As described above, one or more keywords having low relevance registered for each keyword are used when the keyword matching determination unit 13 narrows down the keywords. Thus, the subroutine of the keyword match determination processing S30 is completed.
- the keyword match determination unit 13 of the processor 11 refers to the table TB in the memory 16 and searches for an item IT corresponding to the keyword determined to match in step S33 (S41). As a result of the search, the keyword match determination unit 13 determines whether a keyword has been input in the corresponding item IT (S42). If it is determined that the keyword has not been input, the keyword matching determination unit 13 determines and inputs the matching keyword into the content column CN of the corresponding item IT (S45).
- the keyword “the person in the next room” in the consultant-side keyword input field K1 matches in step S33.
- the item (genre) “neighborhood trouble” corresponding to the keyword “the person in the next room” registered in the table TB is input to the genre content column CN.
- step S33 when it is determined in step S33 that the keyword “Stalker” in the keyword input field K2 of the consultant matches in the words of the voice recognition result based on the utterance of the consultant C2, the table TB is displayed. An item (genre) “stalker” corresponding to the registered keyword “stalker” is input in the genre content column CN. Further, the chart table RT being input by the voice recognition data processing system 1 is displayed on the display 17 of the voice recognition data processing device 10, and the consultant C2 can check the input status during the consultation. .
- the keyword match determination unit 13 is stored in the table TB.
- the keyword relevance information it is determined whether or not a plurality of inputted contents are inconsistent in relation to the genre of the corresponding item IT (S43). If it is determined that there is no contradiction, the subroutine of the chart table registration processing S40 ends.
- the keyword match determination unit 13 causes the memory 16 to store the information as a required confirmation item (S44).
- the keyword match determination unit 13 determines and inputs a keyword for the corresponding item IT for each sequentially acquired voice recognition result (S45). Further, based on the input keyword, a heading for the content of each item IT is automatically recognized, and the heading is input to the content column CN of the content of the chart table RT (see FIG. 10).
- the subroutine of the chart table registration process S40 ends.
- the medical chart report generation unit 14 of the processor 11 refers to the medical chart table RT stored in the memory 16 and searches for the item IT whose contents have been input (S51). As a result of the search, the medical record report generator 14 generates a text corresponding to the input item IT (S52). At this time, the chart report generation unit 14 also refers to the required confirmation items stored in the memory 16 and, when it is determined that any of the items IT is inconsistent, requires the contents of the corresponding item IT. Generate text so that it can be identified as a confirmation item. Specifically, the medical chart report generation unit 14 adds an underline to the content corresponding to the item requiring confirmation to make it identifiable (see FIG. 2).
- the chart report generation unit 14 corrects the generated text so that the sense of incompatibility does not occur in the meaning before and after the text (S53), and supposes and inserts the subject in the text in which the subject is missing (S54). At this time, when the subject is guessed, the chart report generation unit 14 similarly generates a text that can be identified by underlining the item to be checked.
- the medical chart report generation unit 14 generates the summary report AB of the consultation content using the contents of the plurality of items IT determined based on the keyword (see FIG. 2).
- the processor 11 displays the summary report AB on the display 17 via the input / output interface circuit 18 (S56).
- step S60 it is determined whether an end trigger for the main processing has been input (S60). As a result of the determination, unless a termination trigger is input, a series of processing steps from step S10 to step S50 are repeatedly executed.
- the end trigger for example, when the consultation at the consultation desk is completed and the switch of the voice recognition data processing system is turned off (OFF) by the consultant C2, the main processing of the voice recognition data processing system 1 ends. .
- the voice recognition data processing device 10 and the voice recognition data processing system 1 provide the voice recognition unit 12 that recognizes voice data input from the microphone M1 that collects the voice of the consultant C1. Is provided.
- a plurality of items IT including the genre (type) of the consultation content from the consultant C1 and keywords corresponding to the respective items IT are registered in association with each other.
- a memory 16 for holding the table TB is provided.
- the voice recognition data processing device 10 and the voice recognition data processing system 1 perform the respective content of the plurality of items IT including the genre of the consultation content in accordance with the comparison between the voice recognition result of the voice data and the keyword registered in the table TB.
- a keyword match determination unit 13 (an example of a determination unit) that narrows down keywords used for comparison among a plurality of keywords registered in the table TB according to the determined genre.
- the voice recognition data processing device 10 and the voice recognition data processing system 1 use the content of each of the plurality of items IT determined based on the keywords registered in the table TB or the narrowed-down keywords to generate a summary report of the consultation content.
- a medical chart report generation unit 14 (an example of a generation unit) that generates an AB is provided.
- the voice recognition data processing device 10 determines the content of each of the plurality of items including the type of the consultation content according to the comparison between the voice recognition result of the voice data and the keyword registered in the table. decide.
- the speech recognition data processing device 10 narrows down keywords to be used for comparison among a plurality of keywords registered in the table TB according to the determined type, and determines based on the keywords registered in the table TB or the narrowed down keywords.
- a summary report AB of the consultation content is generated using the contents of each of the plurality of items.
- the speech recognition data processing device 10 can efficiently narrow down the necessary keywords from the consultation contents from the consultant at the consultation counter of the administrative organization or the like by creating the summary report AB, and summarize the consultation contents. Support simple creation and reduce the load on consultants. As a result, the consultation service can improve the consultation response ability.
- the speech recognition data processing device 10 and the speech recognition data processing system 1 further include a processor 11 (an example of a control unit) that displays the generated summary report AB of the consultation content on the display 17.
- the consultant C2 can check the contents of the consultation while receiving the consultation at the consultation counter. Therefore, the voice recognition data processing device 10 further reduces the load on the consultant C2 and also consults the consultant C2 regarding the contents of the consultation. The quality of the question can also be improved.
- the keyword match determination unit 13 determines whether or not a plurality of contents exist in any one of the plurality of items IT. It is determined whether or not a plurality of contents are inconsistent in relation to the corresponding item IT.
- the chart report generation unit 14 can identify at least one of the plurality of contents as the item requiring confirmation. Generate a summary report AB.
- the speech recognition data processing apparatus 10 improves the consistency and consistency of the summary report AB, improves the quality of the summary report, and makes it easy for the consultant C2 to grasp the consultation content at a glance when reviewing it later. Can be
- the chart report generation unit 14 (an example of a generation unit) generates a summary report AB by adding an underline to the content corresponding to the item requiring confirmation. Accordingly, the voice recognition data processing device 10 enhances the visibility of the items requiring confirmation in the summary report AB, so that the consultant C2 during consultation is urged to reconfirm, and the summary report is easily modified after consultation. Or you can.
- the keyword match determination unit 13 acquires a voice recognition result of voice data corresponding to one phrase of the uttered voice of the consultant C1.
- the voice recognition and the keyword comparison are performed and are sequentially input and displayed on the chart table RT, so that the consultant C2 grasps the input status of the chart table RT and recognizes the consultant. C1 can be handled. For this reason, the consultation response ability at the consultation desk can be further enhanced.
- the voice recognition data processing system 1 may further include an AI processing server 30 that complements or substitutes for the function of voice recognition data processing.
- the AI processing server 30 is connected to the network NW and provided with enhanced artificial intelligence performance.
- the AI processing server 30 is configured by a general-purpose server system (high-performance computer), and includes a processor 31, a memory 36, and a communication circuit 39, similarly to the speech recognition data processing device 10. You.
- the processor 31 of the AI processing server 30 includes a keyword match determination unit 33, a chart report generation unit 34, and an AI processing unit 35 as functional components.
- these AI processing servers 30 have enhanced artificial intelligence performance, and are configured to be able to acquire voice data at a plurality of consultation desks. Therefore, the model of the artificial intelligence can be constructed with higher accuracy than the speech recognition data processing device 10. Therefore, in the modification of the first embodiment, it is possible to reduce the load on the consultant C2 by supporting the creation of the summary of the consultation content faster and more accurately.
- FIG. 13 is a flowchart showing a main routine of voice recognition data processing according to the second embodiment.
- FIG. 14 is a flowchart showing a subroutine of the consultant presenting process S70 shown in FIG.
- the same or equivalent parts as those in the first embodiment will be given the same or equivalent reference numerals in the drawings and the like, and the description thereof will be omitted or simplified.
- a subroutine of the consultant presentation processing is started (S70).
- the processor 11 determines whether or not an end trigger has been input as in the first embodiment (S60).
- the consultant presentation process S70 is mainly executed by the AI processing unit 15 (an example of a presentation processing unit) of the processor 11, but is not limited to this.
- the AI processing unit 35 of the AI processing server 30 performs the processing. May be configured to be able to assist or substitute.
- the AI processing unit 15 of the processor 11 searches for the presence or absence of the item IT of the item IT whose content has not yet been determined according to a predetermined priority order according to the determination status of the chart table RT. (S71). As a result of the search, the AI processing unit 15 determines whether there is an undetermined item IT (S72). When it is determined that there is no undetermined item IT, the consultant presenting process S70 ends.
- the AI processing unit 15 presents the information regarding the undetermined item IT through the display 17 as “the item to be asked next by the consultant (C2)”. For example, when the genre of the consultation content has been determined and the item IT of the damage status has not been determined, the AI processing unit 15 presents “Please ask for the damage status” to the consultant C2. After the presentation, the consultant presentation process S70 ends.
- the information on the priority is set in advance, and is stored in the memory 16 of the speech recognition data processing device 10.
- the voice recognition data processing device 10 and the voice recognition data processing system 1 determine whether or not there is an item IT whose content has not yet been determined according to the determination status of each of the plurality of items IT.
- an AI processing unit (an example of a presentation processing unit) for displaying information on the undetermined item IT on the display 17.
- the consultant C2 can hear the contents of the consultation from the consultant C1 without omission, so that the quality of the consultation contents can be further improved, and the consultation service ability of the consultation counter can be further improved.
- Other configurations and operational effects are the same as those in the first embodiment.
- FIG. 15 is a flowchart showing a consultant presentation process S70 according to the third embodiment.
- the same or equivalent parts as those in the first and second embodiments are given the same or equivalent reference numerals in the drawings and the like, and the description thereof is omitted or simplified.
- the AI processing unit 15 (an example of a presentation processing unit) of the voice recognition data processing device 10 proposes from the counselor C2 to the counselor C1.
- a search is made to see if the necessary information is available (S75).
- the AI processing unit 15 determines whether or not the number of determined contents of each of the plurality of items IT including the genre of the consultation content is a predetermined value, and at least whether the content of the genre is determined (S76). .
- the AI processing unit 15 determines whether the first to fifth contents of the item number NO of the item IT shown in FIG. 1 have been determined. If it is determined that no decision has been made, the consultant presenting process S70 ends.
- the AI processing unit 15 determines whether the decision has been made. If it is determined that the decision has been made, the AI processing unit 15 generates proposal contents of measures corresponding to the genre based on the decided contents (S77). At this time, the AI processing unit 15 uniquely determines the content of the proposal in accordance with a predetermined hash table in which rules (regulations) are prescribed in advance. The AI processing unit 15 presents the generated text of the proposal content on the display 17 (S78), and the consultant presenting process S70 ends.
- the AI processing unit 15 is not limited to a method according to a rule base such as a hash table, but uses artificial intelligence to refer to a past history and machine-learns the proposal contents, and obtains the proposed contents by the machine learning.
- the determination may be made according to a learning model.
- the learning model may be generated by the AI processing server 30. In this case, since a learning model is generated from the consultation contents of a plurality of consultation desks, a highly accurate learning model can be generated.
- the number of determined contents of each of the plurality of items IT including the genre (type) of the consultation content is the predetermined value
- An AI processing unit 15 an example of a presentation processing unit that generates proposal contents of measures corresponding to the contents of the genre and displays it on the display 17 when at least the contents of the genre is determined.
- the present invention is useful as a voice recognition data processing device, a voice recognition data processing system, and a voice recognition data processing method capable of improving consultation ability.
- Speech Recognition Data Processing System 10 Speech Recognition Data Processing Device 11 Processor 12 Speech Recognition Unit 13 Keyword Match Determination Unit 14 Medical Record Report Generation Unit 15 AI Processing Unit 16 Memory 17 Display 18 Input / Output Interface Circuit 19 Communication Circuit 20 Speech Recognition Server 30 AI Processing server 31 Processor 33 Keyword match determination unit 34 Medical record report generation unit 35 AI processing unit 36 Memory 39 Communication circuit M1 Microphone M2 Microphone NW Network TB Table AB Summary report
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
音声認識データ処理システムは、音声データの音声認識結果とテーブルに登録されたキーワードとの比較に応じて、相談内容のジャンル(種別)を含む複数の項目のそれぞれの内容を決定するとともに、決定されたジャンルに応じて、テーブルに登録された複数のキーワードのうち比較に用いるキーワードを絞り込む。音声認識データ処理システムは、テーブルに登録されたキーワードまたは絞り込まれたキーワードに基づいて決定された複数の項目のそれぞれの内容を用いて、相談内容の要約レポートを生成する。
Description
本開示は、音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法に関する。
商品やサービスの問合せを受け付けるコールセンターあるいは自治体等の相談窓口での通話等において、その通話の発話音声を集音し、その発話音声を音声認識して文字列(つまり、テキストデータ)に変換して処理する音声認識データ処理システムが用いられるようになった。
この種の音声認識データ処理システムとして、例えば特許文献1には、送話側チャネルからの音声を第1音声認識手段により音声認識し、交換機を介して送られてきた受話側チャネルの音声を第2音声認識手段により音声認識し、それぞれの音声認識結果を文字列に変換して表示する通話内容書き起こしシステムが開示されている。この通話内容書き起こしシステムは、表示された文字列を文字列編集手段により編集することが可能に構成される。これにより、編集者は、送話側および受話側の通話内容が時系列に並べられて表示されるのを確認しながら、通話内容を書き起こす(つまり、テキスト化する)ことが可能となる。
しかしながら、特許文献1では、通話内容の全てを書き起こすことは考慮されているものの、その通話内容の概略(つまり、要約)を作成することまでは考慮されていない。そのため、特許文献1の構成を、行政機関(例えば警察署)等の相談窓口で相談員が相談者からの相談に応対する際、その相談内容をテキスト化する場合に適用しても相談者および相談員の発話内容の全てがテキスト化された出力内容が作成されることになる。従って、相談員が出力内容を後で見返す際、相談内容を一目で概略を把握しにくいことがあり、その結果、相談員の利便性が低化し、相談窓口の相談対応能力の向上を妨げる可能性があった。
本開示は、上述した従来の事情に鑑みて案出され、相談者からの相談内容の中から必要なキーワードを漏らさず効率的に絞り込み、相談内容の要約の簡易な作成を支援して相談員の負荷を低減し、相談窓口の相談対応能力を向上できる音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法を提供することを目的とする。
本開示は、相談者の発話音声を集音するマイクから入力された音声データを音声認識する音声認識部と、前記相談者からの相談内容の種別を含む複数の項目とそれぞれの前記項目に対応するキーワードとが対応付けて登録されたテーブルを保持するメモリと、前記音声データの音声認識結果と前記テーブルに登録されたキーワードとの比較に応じて、前記相談内容の種別を含む複数の項目のそれぞれの内容を決定するとともに、前記決定された種別に応じて、前記テーブルに登録された複数のキーワードのうち前記比較に用いるキーワードを絞り込む判定部と、前記テーブルに登録されたキーワードまたは前記絞り込まれたキーワードに基づいて決定された前記複数の項目のそれぞれの内容を用いて、前記相談内容の要約レポートを生成する生成部と、を備える、音声認識データ処理装置を提供する。
また、本開示は、相談者の発話音声を集音するマイクから入力された音声データを音声認識する音声認識部と、前記相談者からの相談内容の種別を含む複数の項目とそれぞれの前記項目に対応するキーワードとが対応付けて登録されたテーブルを保持するメモリと、前記音声データの音声認識結果と前記テーブルに登録されたキーワードとの比較に応じて、前記相談内容の種別を含む複数の項目のそれぞれの内容を決定するとともに、前記決定された種別に応じて、前記テーブルに登録された複数のキーワードのうち前記比較に用いるキーワードを絞り込む判定部と、前記テーブルに登録されたキーワードまたは前記絞り込まれたキーワードに基づいて決定された前記複数の項目のそれぞれの内容を用いて、前記相談内容の要約レポートを生成する生成部と、を備える、音声認識データ処理システムを提供する。
また、本開示は、相談者からの相談内容の種別を含む複数の項目とそれぞれの前記項目に対応するキーワードとが対応付けて登録されたテーブルを保持するメモリを有する音声認識データ処理システムにおいて、前記相談者の発話音声を集音するマイクから入力された音声データを音声認識するステップと、前記音声データの音声認識結果と前記テーブルに登録されたキーワードとの比較に応じて、前記相談内容の種別を含む複数の項目のそれぞれの内容を決定するステップと、前記決定された種別に応じて、前記テーブルに登録された複数のキーワードのうち前記比較に用いるキーワードを絞り込むステップと、前記テーブルに登録されたキーワードまたは前記絞り込まれたキーワードに基づいて決定された前記複数の項目のそれぞれの内容を用いて、前記相談内容の要約レポートを生成するステップと、を有する、音声認識データ処理方法を提供する。
本開示によれば、相談者からの相談内容の中から必要なキーワードを漏らさず効率的に絞り込み、相談内容の要約の簡易な作成を支援して相談員の負荷を低減でき、相談窓口の相談対応能力を向上できる。
(音声認識データ処理装置、その処理システムおよびその処理方法の概要)
本開示に係る音声認識データ処理システムの具体的な説明を行う前に、図1および図2を参照して、先ず音声認識データ処理システムの概要について説明する。図1は、音声認識データ処理のために保持されるカルテ表を示す図である。図2は、音声認識データ処理で生成される要約レポートの一例を示す図である。
本開示に係る音声認識データ処理システムの具体的な説明を行う前に、図1および図2を参照して、先ず音声認識データ処理システムの概要について説明する。図1は、音声認識データ処理のために保持されるカルテ表を示す図である。図2は、音声認識データ処理で生成される要約レポートの一例を示す図である。
以下に詳述する実施の形態1では、相談者からの相談内容のジャンル(種別)を含む複数の項目ITとそれぞれの項目ITに対応しかつその項目に関連する複数のキーワード(文章も含む。以下同様。)とが予め対応付けて登録されたテーブルTBが事前に登録設定され、そのテーブルTBがデータベースとしてメモリ16に保持される(図1および図4参照)。テーブルTBは、項目ITに対応するそれぞれのキーワードについて、相談内容のジャンルとして関連性の低い1つ以上のキーワードをさらに登録している。つまり、テーブルTBは、キーワードごとにジャンルとの観点で関連性の低い1つ以上のキーワードが指定されたキーワード関連性情報を保持している。このキーワード関連性情報において指定されている、キーワードごとの関連性の低い1つ以上のキーワードは、後述するキーワードの絞り込みの際に使用される。また、相談内容をテキスト入力するためのフォーマットとしてカルテ表RTも同様に、メモリ16に保持される(図1、図4、図9および図10参照)。カルテ表RTの形式は、テーブルTBに事前登録された各項目ITに対応して事前に設定される。
例えば相談窓口が行政機関のうち警察署である場合、その相談内容は、例えば犯罪、迷惑行為に関するものが主に想定される。カルテ表RTには、図1に示すように、相談内容の項目ITには項番NOの順に「ジャンル(種別)」、「相談者」、「相手」、「被害状況」、「相談者の要求」、「警察からの提案内容」、「相談者の理解度・納得度」および「次のアクション」等が設定される。また、その項目ITごとの具体的な相談内容を入力するための内容入力欄CNもカルテ表RTに設けられる。さらに、カルテ表RTには、相談者C1の音声データに基づいて得られるキーワードを入力するための相談者側キーワード入力欄K1と、相談員C2の音声データに基づいて得られるキーワードを入力するための相談員側キーワード入力欄K2と、が項目ITごとに設けられる(図9および図10参照)。相談者側キーワード入力欄K1および相談員側キーワード入力欄K2にそれぞれ入力されている複数のキーワードは、テーブルTBにて規定されているキーワードから選択されて予め登録されているが、後述するように、人工知能(AI)を用いた学習処理によって使用頻度に応じて適宜更新(追加、変更、削除)されて構わない。
なお、カルテ表RTの初期状態では、各項目ITの内容入力欄CNは少なくとも空欄に設定される。また、カルテ表RTは例示であり、図1の図示内容に限定されず、相談窓口の性質により適宜変更されて設定される。以降の図面も同様であり、本開示の理解を促すための例示である。
実施の形態1に係る音声認識データ処理システム1は、相談者C1および相談員C2の発話音声を1フレーズごとに音声認識し、その音声認識結果とテーブルTBに登録されたキーワードとの比較に応じて、相談内容のジャンルを含む前述の項目ITそれぞれの内容を決定してカルテ表RTの各内容欄CNにテキスト入力する。
具体例として、図1中、項番NOが1番目の「ジャンル」にはその内容に「近隣トラブル」のキーワードが、6番目の「警察からの提案内容」にはその内容に「まず注意する所からはじめてはどうか。我々が注意します。」のキーワードが、8番目の「次のアクション」にはその内容に「注意する日を連絡します」のキーワードが音声認識の結果としてテキスト入力される。またこのとき、音声認識データ処理システム1は、テーブルTBを用いて、決定されたジャンルに応じて、テーブルTBに登録された複数のキーワードのうち比較に用いるキーワードを絞り込む。この絞り込みにより、音声認識結果に対するキーワード一致判定の高速化を図ることが可能となる。
カルテ表RTの各項目ITは音声データの1フレーズごとに逐次入力され、相談内容全体を示すリストとしてそれぞれの内容が順次決定される。その過程で各内容欄CNが埋められ、カルテ表RTが完成されていく。その際、図2に示すように、決定された項目ITのそれぞれの内容に基づいて相談内容の要約レポートが生成される。
具体例として、図2に示すように、図1に示すカルテ表RTに基づいて「タイトル:近隣トラブル」および「相談者:○○」を表題にした要約レポートABが生成される。その要約レポートABの内容は「近隣トラブルで困っている。…(省略)…警察からの提案内容として、まずは注意する所から始めてはどうか。警察が(下線あり)注意する(下線あり)と提案。…(省略)…次のアクションとしては警察が(下線あり)注意する日を連絡。」とテキスト入力される。なお、要約レポートABの内容では後述するように要確認項目に対応する内容に下線が付される。このように、要約レポートABは、図2に示すような文章形式で生成されてもよいが、図1に示すカルテ表RTのようなテーブル形式で生成されてもよい。
このように、実施の形態1では、要約レポートABの作成により、行政機関等(本説明では警察署)の相談窓口で相談者C1からの相談内容の中から必要なキーワードを漏らさず効率的に絞り込み、相談内容の要約の簡易な作成を支援することが可能となる。そこで、その作成を支援可能とするため、音声認識データ処理装置10、音声認識データ処理システム1および音声認識データ処理方法は、以下に説明する複数の実施の形態に示す具体的構成を有する。
以下、適宜図面を参照しながら、本開示に係る音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
また、実施の形態1,2,3でいう「部」または「装置」とは単にハードウェアによって実現される物理的構成に限定されず、その構成が有する機能をプログラム等のソフトウェアにより実現されるものも含む。また、1つの構成が有する機能が2つ以上の物理的構成により実現されても、または2つ以上の構成の機能が例えば1つの物理的構成によって実現されていても構わない。
(実施の形態1)
図3および図4を参照して、実施の形態1に係る音声認識データ処理装置10および音声認識データ処理システム1の構成について説明する。図3は、実施の形態1に係る音声認識データ処理システム1の構成の一例を示す模式図である。図4は、図3に示す音声認識データ処理システム1の構成の一例を示すブロック図である。
図3および図4を参照して、実施の形態1に係る音声認識データ処理装置10および音声認識データ処理システム1の構成について説明する。図3は、実施の形態1に係る音声認識データ処理システム1の構成の一例を示す模式図である。図4は、図3に示す音声認識データ処理システム1の構成の一例を示すブロック図である。
図3および図4に示すように、実施の形態1に係る音声認識データ処理装置10および音声認識データ処理システム1は、行政機関(例えば、警察署)に設置される相談窓口での使用が例示される。例えば地域住民である相談者C1が警察署の相談窓口に出向き、警察官等の相談員C2に面会して犯罪や迷惑行為等を直接相談する場面が想定される。
実施の形態1では、その相談窓口に複数のマイクM1,M2および音声認識データ処理装置10が設置されており、このマイクM1,M2を通じて相談者C1と相談員C2との発話音声を集音し、その音声データを音声認識データ処理装置10に入力して音声認識させる。なお、実施の形態1では警察署の相談窓口での使用を想定して説明するが、これに限定されない。その他、市役所等での相談窓口、病院等の医療機関での相談窓口、さらには公共的機関に限定されず民間機関での相談窓口等にも適応可能である。
実施の形態1の音声認識データ処理システム1は、相談者C1および相談員C2の発話音声を集音する複数(例えば、2本)のマイクM1,M2と、これらマイクM1,M2から入力された音声データに基づき相談内容の要約レポートAB(図2参照)を生成する音声認識データ処理装置10と、音声認識データ処理装置10から送信される音声データに基づき自動で音声認識する音声認識サーバ20と、音声認識データ処理装置10と音声認識サーバ20とを接続するネットワークNWと、を含んで構成される。
複数のマイクM1,M2は、相談者C1および相談員C2の発話音声を集音して電気信号の音声データとしてそれぞれ出力する。音声データは、電気的な振動波形データとして音声認識データ処理装置10に出力される。なお、実施の形態1ではマイクM1,M2を2本設置するが、これに限定されず1本でもよい。この場合、1つのマイクM1は相談者C1および相談員C2の両方の発話音声を識別可能に集音可能に構成されればよい。
音声認識データ処理装置10は、汎用のパーソナル・コンピュータで構成されており、プロセッサ11と、メモリ16と、ディスプレイ17と、入出力インターフェイス回路18と、通信回路19と、を含んで構成される。図4では、入出力インターフェイス回路を便宜的に「入出力I/F」と示している。なお、音声認識データ処理装置10は、パーソナル・コンピュータに限定されず、前述の各種回路を有するものであればタブレット端末、スマートフォン等の各種装置を用いてもよい。
メモリ16は、RAM(Random Access Memory)、ROM(Read Only Memory)等の半導体メモリ等により構成される。メモリ16は、プロセッサ11で実行される所定のプログラムや各種の設定パラメータ等を記憶保持するとともに、デジタル変換された音声データやプロセッサが各種プログラムを実行する際に中間的に生成するデータを一時的に記憶する。
また、実施の形態1では、メモリ16は、前述のように、相談者C1からの相談内容のジャンルを含む複数の項目ITとそれぞれの項目ITに対応しかつその項目ITに関連する複数のキーワードとが予め対応付けて登録されたテーブルTBを記憶保持する。つまり、前述したように、テーブルTBにおいて、キーワードは相談内容の項目ITごとに事前に複数設定されており、この複数のキーワードは項目ITごとにグループ登録され記憶保持される。また、メモリ16には、相談内容の入力用のフォーマットとしてカルテ表RT(図9参照)も同様に記憶保持される。なお、これらテーブルTBおよびカルテ表RTは半導体メモリの代わりにSSD(Solid State Drive)やHDD(Hard Disk Drive)等のストレージデバイス等の記憶回路内に記憶保持されてもよい。また、前述のように、テーブルTBは、項目ITに対応するそれぞれのキーワードについて、相談内容のジャンルとして関連性の低い他のキーワードをさらに登録している。
ディスプレイ17は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等により構成される。ディスプレイ17は、その表示部に音声データ、前述のカルテ表RTおよび要約レポートAB等を適宜切り替えて少なくとも相談員C2に表示する。
入出力インターフェイス回路18は、マイクM1,M2にて取得した音声データを各種信号処理可能なデジタル信号に変換するオーディオ用のインターフェイスである。入出力インターフェイス回路18は、そのデジタル変換の際、所定の量子化ビットおよびサンプリング周波数によりアナログの音声データをデジタルに変換する。サンプリング周波数は、例えば48kHzに設定される。また、入出力インターフェイス回路18はバッファ回路を含み、このバッファ回路はマイクM1,M2の音声データをデジタル変換させるため、音声データを所定時間バッファリングする。入出力インターフェイス回路18は、プロセッサ11およびディスプレイ17にデジタル変換した音声データを送信する。
通信回路19は、無線通信の機能を有しており、所定の無線通信回線を介してネットワークNWに接続され、音声認識サーバ20との間で無線通信を行う。即ち、音声認識データ処理装置10は通信回路19およびネットワークNWを介して音声認識サーバ20に接続され、音声データ等の所定のデータを送受信可能に構成される。なお、通信回路19は、無線通信回路として携帯電話網(セルラー網)、無線LAN等を使用することが可能である。また、通信回路19は無線通信に限らず有線LAN等を使用して有線通信可能に構成してもよい。
プロセッサ11は、例えば、CPU(Central Processing Unit),MPU(Micro Processor Unit),DSP(Digital Signal Processor)あるいはFPGA(Field Programmable Gate Array)等が用いられる。プロセッサ11は、メモリ16に格納されるプログラムや設定パラメータを適宜読み出し、読み出したプログラムに従って所定の処理を実行する。
プロセッサ11は、機能的構成として、マイクM1,M2から得られた音声データを音声認識する音声認識部12と、音声認識結果とテーブルTBに登録されたキーワードとを比較して項目ITのそれぞれの内容を決定するキーワード一致判定部13(判定部の一例)と、各項目ITの決定に基づいて相談内容の要約レポートABを生成するカルテレポート生成部14(生成部の一例)と、登録されている複数のキーワードとキーワード一致判定部13の判定結果とを学習して、テーブルTBでのキーワードの登録内容を適宜更新するAI(Artificial Intelligence)処理部15と、を有する。
音声認識部12は、入出力インターフェイス回路18からデジタル変換された音声データを取得する。音声認識部12は、取得した音声データを例えば所定のコーパスに基づき音声認識してテキストデータ(文字列)に変換する。テキストデータの変換や解釈は、所定の自動音声認識アルゴリズムに従って実行される。自動音声認識アルゴリズムは、例えばAI処理部15に実装される人工知能(AI:Artificial Intelligence)エンジンを用いて生成される。
ここで、音声認識データ処理装置10の音声認識部12は、音声認識データ処理装置10のプロセッサの処理能力(つまり、性能)の制限を受ける。また、音声認識部12は、プロセッサ11のAI処理部15により生成される自動音声認識アルゴリズムに従うためその性能や精度は限定的になってしまう可能性がある。そのため、実施の形態1では、様々な相談窓口での相談内容の音声データを取得可能な音声認識サーバ20を、ネットワークNWを介して通常使用して、後述する音声認識処理(例えば、図5に示すステップS20参照)を実行する。但し、ネットワークNWのトラフィック量が過多になる等、ネットワークNWの接続が不調である場合、音声認識データ処理装置10の音声認識部12が音声認識サーバ20の代わりに機能し、音声データを音声認識してよい。なお、音声認識サーバ20でも同様に、人工知能の学習により自動音声認識アルゴリズムを生成して音声認識する。
また、音声認識データ処理装置10および音声認識サーバ20に実行される人工知能の学習は、1つ以上の統計的な分類技術を用いて実行されてもよい。統計的分類技術としては、線形分類器(linear classifiers)、サポートベクターマシン(support vector machines)、二次分類器(quadratic classifiers)、カーネル密度推定(kernel estimation)、決定木(decision trees)、人工ニューラルネットワーク(artificial neural networks)、ベイジアン技術および/またはネットワーク(Bayesian techniques and/or networks)、隠れマルコフモデル(hidden Markov models)、バイナリ分類子(binary classifiers)、マルチクラス分類器(multi-class classifiers)、クラスタリング(a clustering technique)、ランダムフォレスト(a random forest technique)、ロジスティック回帰(a logistic regression technique)、線形回帰(a linear regression technique)、勾配ブースティング(a gradient boosting technique)等が例示される。但し、使用される統計的分類技術はこれらに限定されない。
音声認識サーバ20または音声認識データ処理装置10の音声認識部12は、音声認識結果であるテキストデータをキーワード一致判定部13に逐次送信する。キーワード一致判定部13は、その音声認識結果を1フレーズごとに取得し、テーブルTBに予め登録されたキーワードとの一致の有無を判定する。即ち、キーワード一致判定部13は、相談者C1および相談員C2の発話音声の1フレーズに対応する音声データの音声認識結果を取得する度に、テーブルTBに登録された複数のキーワードとの比較を行う。また、キーワード一致判定部13は、テーブルTBを用いて、決定されたジャンルに応じて、テーブルTBに登録された複数のキーワードのうち比較に用いるキーワードを絞り込む。
カルテレポート生成部14は、テーブルTBに登録されたキーワードまたは絞り込まれたキーワードに基づいて決定された複数の項目ITのそれぞれの内容を用いて、相談内容の要約レポートABを生成する(図2参照)。
次に図5~図11を参照して、実施の形態1の音声認識データ処理方法の手順について説明する。図5は、実施の形態1に係る音声認識データ処理のメインルーチンを示すフローチャートである。図6は、図5に示す音声認識処理S20のサブルーチンを示すフローチャートである。図7は、図5に示すキーワード一致判定処理S30のサブルーチンを示すフローチャートである。図8は、図5に示すカルテ表登録処理S40のサブルーチンを示すフローチャートである。図9は、図5に示すカルテ表登録処理S40の処理前のカルテ表RTを例示する図である。図10は、図5に示すカルテ表登録処理S40の処理後のカルテ表RTを例示する図である。図11は、図5に示すカルテレポート生成処理S50のサブルーチンを示すフローチャートである。
相談員C2は相談者C1に応対する際、音声認識データ処理システム1を稼働させる(図3参照)。各マイクM1,M2は、相談者C1または相談員C2の発話音声を集音し始め、アナログの音声データを音声認識データ処理装置10に出力する。図5に示すように、音声認識データ処理装置10は、その入力された音声データを入出力インターフェイス回路18により1フレーズごとに取得するとともに、その音声データの振動波形をディスプレイ17に表示させる(S10)。
次に、図5および図6に示すように、音声認識処理のサブルーチンが開始される(S20)。音声認識処理S20では、入出力インターフェイス回路18はそのバッファ回路で音声データをバッファリングして音声データをデジタルに変換し、プロセッサ11に出力する(S21)。プロセッサ11はデジタル変換された音声データを、通信回路19を通じて音声認識サーバ20に送信する(S22)。音声認識サーバ20は、音声データを受信し受信した音声データを自動音声認識アルゴリズムに従って音声認識し、音声認識結果としてテキストデータに変換する(S23)。このとき、音声認識サーバ20は、発話音声の1フレーズごとに音声認識結果を音声認識データ処理装置10に送信する。音声認識データ処理装置10は音声認識サーバ20の音声認識結果を、通信回路19を通じて受信する(S24)。この受信により音声認識処理のサブルーチンが終了する。
次に、図5および図7に示すように、音声認識処理S20の終了後、キーワード一致判定処理のサブルーチンが開始される(S30)。キーワード一致判定処理S30では、プロセッサ11のキーワード一致判定部13は相談者C1および相談員C2の発話音声の1フレーズに対応する音声データの音声認識結果を取得する(S31)。キーワード一致判定部13は、その取得の際、音声認識結果を単語ごとに分解する(S32)。ここでいう単語は、単語に限らず、句あるいは節等の文章でもよい。キーワード一致判定部13は、音声認識結果とテーブルTBに予め登録された複数のキーワードとを比較して一致するか否かを、相談者C1および相談員C2のそれぞれの発話内容に対応する音声認識結果について個別で比較する(S33)。比較の結果、キーワード一致判定部13は、テーブルTBに登録されているキーワードと一致するか否かを判定する(S34)。一致しないと判定する場合、キーワード一致判定処理S30のサブルーチンは終了する。なお、キーワード一致判定部13はキーワードの一致判定の際(S34)、例えば「我々」の発話音声を「警察」に、または「私」の発話音声を「相談者」等に適宜補完変換して状況に応じた一人称の変換が可能に構成されてよい。
また、このようなキーワード一致判定処理S30の終了処理により、音声認識データ処理システム1は、マイクM1,M2の集音中において相談者C1または相談員C2が相談内容と無関係(例えば雑談や世間話等)なことを話していると推定し、次のカルテ表登録処理(ステップS40)にそのまま進む。これにより、カルテ表RTや要約レポートABに相談内容と無関係な内容、即ちノイズ情報が混入するのを抑制することが可能となる。
その一方、一致すると判定する場合、キーワード一致判定部13はその一致した音声認識結果が相談内容のジャンルに対応するキーワードと一致するか否かをさらに判定する(S35)。
一致しないと判定する場合、キーワード一致判定処理S30のサブルーチンは終了する。その一方、ジャンルに対応するキーワードと一致すると判定する場合、キーワード一致判定部13は相談者C1の相談内容のジャンルが例えば「近隣トラブル」であるのか、「ストーカー被害」であるのか、あるいは「詐欺被害」であるのか等を決定して、その決定結果をカルテ表RTに入力する。さらに、キーワード一致判定部13は、決定されたジャンルに応じてテーブルTBに登録された複数のキーワードのうち前述のステップS33で用いるキーワードを絞り込む(S36)。例えば、前述したように、テーブルTBには、項目ITに対応するそれぞれのキーワードごとに、相談内容のジャンルの観点からして関連性の低い1つ以上のキーワードが指定されたキーワード関連性情報を保持している。例えば、ジャンル「ストーカー」というキーワードは、キーワード「○○円振り込んだ」と関連性が低いと考えられる。また、ジャンル「詐欺被害」というキーワードは、キーワード「切りつけられた」と関連性が低いと考えられる。このように、キーワードごとに登録されている関連性の低い1つ以上のキーワードは、キーワード一致判定部13におけるキーワードの絞り込み時に使用される。これにより、キーワード一致判定処理S30のサブルーチンを終了する。
次に、図5および図8に示すように、キーワード一致判定処理S30の終了後、カルテ表登録処理のサブルーチンが開始される(S40)。カルテ表登録処理S40では、プロセッサ11のキーワード一致判定部13は、メモリ16のテーブルTBを参照して、ステップS33において一致したと判定されたキーワードに対応する項目ITを検索する(S41)。検索の結果、キーワード一致判定部13は、該当する項目ITにキーワードが入力済みか否かを判定する(S42)。未入力であると判定する場合、キーワード一致判定部13は、該当する項目ITの内容欄CNに、その一致したキーワードを決定して入力していく(S45)。
具体的には、図9に示すように、相談者C1の発話に基づく音声認識結果の単語の中に、相談者側キーワード入力欄K1のキーワード「隣の部屋の人が」がステップS33において一致したと判定された場合、テーブルTBにて登録されているキーワード「隣の部屋の人が」に対応する項目(ジャンル)「近隣住民トラブル」が、ジャンルの内容欄CNに入力される。
また、別の例として、相談員C2の発話に基づく音声認識結果の単語の中に、相談員側キーワード入力欄K2のキーワード「ストーカー」がステップS33において一致したと判定された場合、テーブルTBに登録されているキーワード「ストーカー」に対応する項目(ジャンル)「ストーカー」が、ジャンルの内容欄CNに入力される。また、音声認識データ処理システム1により入力途中のカルテ表RTは、音声認識データ処理装置10のディスプレイ17に表示されており、相談員C2はその入力状況を相談中に確認することが可能である。
その一方、該当する項目ITが入力済みと判定する場合(即ち、複数の項目ITのうちいずれかの項目ITに複数の内容が存在した場合)、キーワード一致判定部13は、テーブルTBに保持されているキーワード関連性情報を参照し、入力済みである複数の内容が対応する項目ITのジャンルとの関係で矛盾するか否かを判定する(S43)。矛盾しないと判定する場合、カルテ表登録処理S40のサブルーチンは終了する。
その一方、矛盾すると判定する場合、キーワード一致判定部13は要確認項目としてその旨をメモリ16に記憶保持させる(S44)。キーワード一致判定部13は、逐次取得する音声認識結果ごとに、該当する項目ITに対してキーワードを決定して入力する(S45)。さらに、入力されたキーワードに基づいて項目ITごとの内容に対する見出しを自動認識し、その見出しをカルテ表RTの内容の内容欄CNにそれぞれ入力する(図10参照)。これにより、カルテ表登録処理S40のサブルーチンが終了する。
次に、図5および図11に示すように、カルテ表登録処理S40の終了後、カルテレポート生成処理のサブルーチンが開始される(S50)。カルテレポート生成処理S50では、プロセッサ11のカルテレポート生成部14は、メモリ16に記憶保持されるカルテ表RTを参照して、内容が入力済みの項目ITを検索する(S51)。検索の結果、カルテレポート生成部14は、入力済みの項目ITに対応するテキストを生成する(S52)。またこのとき、カルテレポート生成部14は、メモリ16に記憶保持される要確認項目も同時に参照して、項目ITのいずれかで矛盾があると判定された場合、該当する項目ITの内容を要確認項目であることが識別可能にテキストを生成する。具体的には、カルテレポート生成部14は、要確認項目に対応する内容に下線を付与して識別可能とする(図2参照)。
さらにカルテレポート生成部14は、生成したテキストにおいて前後の意味等で違和感が生じないに補正するとともに(S53)、主語が抜けているテキストに対し主語を推測して補完挿入する(S54)。このとき、カルテレポート生成部14は主語を推測した場合、同様に要確認項目として下線を付して識別可能にテキストを生成する。
このようにカルテレポート生成部14はキーワードに基づいて決定された複数の項目ITのそれぞれの内容を用いて相談内容の要約レポートABを生成する(図2参照)。プロセッサ11は入出力インターフェイス回路18を介してその要約レポートABをディスプレイ17に表示させる(S56)。
図5に示すように、カルテレポート生成処理S50の終了後、メイン処理に対する終了トリガが入力されたかが判定される(S60)。判定の結果、終了トリガが入力されない限り、ステップS10からステップS50までの一連の処理ステップが繰り返して実行される。終了トリガが入力された場合、例えば相談窓口での相談が終了して音声認識データ処理システムのスイッチが相談員C2によりオフ(OFF)された場合、音声認識データ処理システム1のメイン処理が終了する。
以上により、実施の形態1に係る音声認識データ処理装置10および音声認識データ処理システム1は、相談者C1の発話音声を集音するマイクM1から入力された音声データを音声認識する音声認識部12を備える。音声認識データ処理装置10および音声認識データ処理システム1は、相談者C1からの相談内容のジャンル(種別)を含む複数の項目ITとそれぞれの項目ITに対応するキーワードとが対応付けて登録されたテーブルTBを保持するメモリ16を備える。音声認識データ処理装置10および音声認識データ処理システム1は、音声データの音声認識結果とテーブルTBに登録されたキーワードとの比較に応じて、相談内容のジャンルを含む複数の項目ITのそれぞれの内容を決定するとともに、決定されたジャンルに応じて、テーブルTBに登録された複数のキーワードのうち比較に用いるキーワードを絞り込むキーワード一致判定部13(判定部の一例)を備える。音声認識データ処理装置10および音声認識データ処理システム1は、テーブルTBに登録されたキーワードまたは絞り込まれたキーワードに基づいて決定された複数の項目ITのそれぞれの内容を用いて、相談内容の要約レポートABを生成するカルテレポート生成部14(生成部の一例)を備える。
従って、実施の形態1では、音声認識データ処理装置10は、音声データの音声認識結果とテーブルに登録されたキーワードとの比較に応じて、相談内容の種別を含む複数の項目のそれぞれの内容を決定する。音声認識データ処理装置10は、決定された種別に応じて、テーブルTBに登録された複数のキーワードのうち比較に用いるキーワードを絞り込み、テーブルTBに登録されたキーワードまたは絞り込まれたキーワードに基づいて決定された複数の項目のそれぞれの内容を用いて、相談内容の要約レポートABを生成する。これにより、音声認識データ処理装置10は、要約レポートABの作成により、行政機関等の相談窓口で相談者からの相談内容の中から必要なキーワードを漏らさず効率的に絞り込み、相談内容の要約の簡易な作成を支援して相談員の負荷を低減する。その結果、相談窓口の相談対応能力を向上させることができる。
また、音声認識データ処理装置10および音声認識データ処理システム1は、生成された相談内容の要約レポートABをディスプレイ17に表示するプロセッサ11(制御部の一例)をさらに備える。これにより、相談員C2は、相談窓口で相談の応対をしながら相談内容を確認することができるので、音声認識データ処理装置10は相談員C2の負荷をさらに低減するとともに相談内容に関する相談員C2の問いかけの質も向上させることができる。
また、音声認識データ処理装置10および音声認識データ処理システム1では、キーワード一致判定部13(判定部の一例)は、複数の項目ITのうちいずれかの項目ITに複数の内容が存在した場合に、複数の内容が対応する項目ITとの関係で矛盾するか否かを判定する。カルテレポート生成部14(生成部の一例)は、複数の内容が対応する項目ITとの関係で矛盾すると判定された場合に、複数の内容のうち少なくとも1つの内容を要確認項目と識別可能に要約レポートABを生成する。これにより、音声認識データ処理装置10は、要約レポートABの一貫性および整合性を高めて要約レポートの質を向上させ、相談員C2が後で見返す際、相談内容を一目で把握するのを容易にすることができる。
また、音声認識データ処理装置10および音声認識データ処理システム1では、カルテレポート生成部14(生成部の一例)は、要確認項目に対応する内容に下線を付与して要約レポートABを生成する。これにより、音声認識データ処理装置10は、要約レポートABでの要確認項目に対する視認性を高めるので、相談中での相談員C2に再確認を促したり、相談後での要約レポートの修正を容易にしたりすることができる。
また、音声認識データ処理装置10および音声認識データ処理システム1では、キーワード一致判定部13(判定部の一例)は、相談者C1の発話音声の1フレーズに対応する音声データの音声認識結果を取得する度に、テーブルTBに登録されたキーワードとの比較を行う。これにより、相談窓口での相談の最中に音声認識およびキーワード比較が行われてカルテ表RTに逐次入力されて表示されるので、相談員C2はカルテ表RTの入力状況を把握しながら相談者C1の応対を行うことができる。このため、相談窓口での相談対応能力をより一層高めることができる。
(実施の形態1の変形例)
実施の形態1の変形例として、音声認識データ処理システム1は、音声認識データ処理の機能を補完したり代行したりするAI処理サーバ30をさらに有して構成されてもよい。AI処理サーバ30は、ネットワークNWに接続され、人工知能の性能が強化されて設けられる。AI処理サーバ30は、汎用のサーバーシステム(高機能なコンピュータ)で構成されており、音声認識データ処理装置10と同様に、プロセッサ31と、メモリ36と、通信回路39と、を含んで構成される。
実施の形態1の変形例として、音声認識データ処理システム1は、音声認識データ処理の機能を補完したり代行したりするAI処理サーバ30をさらに有して構成されてもよい。AI処理サーバ30は、ネットワークNWに接続され、人工知能の性能が強化されて設けられる。AI処理サーバ30は、汎用のサーバーシステム(高機能なコンピュータ)で構成されており、音声認識データ処理装置10と同様に、プロセッサ31と、メモリ36と、通信回路39と、を含んで構成される。
AI処理サーバ30のプロセッサ31は、機能的構成として同様に、キーワード一致判定部33と、カルテレポート生成部34と、AI処理部35と、を有する。但し、これらAI処理サーバ30は人工知能の性能が強化されており、また複数の相談窓口での音声データが取得可能に構成される。そのため、その人工知能のモデルは、音声認識データ処理装置10と比較して精度が高く構築可能である。従って、実施の形態1の変形例では、より高速且つより精度良く相談内容の要約の作成を支援して、相談員C2の負荷を低減することができる。
(実施の形態2)
次に、図13および図14を参照して、実施の形態2に係る音声認識データ処理装置10および音声認識データ処理システム1の音声認識データ処理方法の手順について説明する。図13は、実施の形態2に係る音声認識データ処理のメインルーチンを示すフローチャートである。図14は、図13に示す相談員提示処理S70のサブルーチンを示すフローチャートである。なお、実施の形態1と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
次に、図13および図14を参照して、実施の形態2に係る音声認識データ処理装置10および音声認識データ処理システム1の音声認識データ処理方法の手順について説明する。図13は、実施の形態2に係る音声認識データ処理のメインルーチンを示すフローチャートである。図14は、図13に示す相談員提示処理S70のサブルーチンを示すフローチャートである。なお、実施の形態1と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
図13および図14に示すように、実施の形態2では、カルテレポート生成処理(S50)の終了後、相談員提示処理のサブルーチンが開始される(S70)。なお、相談員提示処理S70の終了後、プロセッサ11は実施の形態1と同様に終了トリガが入力されたか否かが判定する(S60)。また、相談員提示処理S70はプロセッサ11のAI処理部15(提示処理部の一例)により主に実行されるが、これに限定されず、前述のAI処理サーバ30のAI処理部35がその処理を補佐または代理可能なように構成してもよい。
相談員提示処理S70では、プロセッサ11のAI処理部15は、カルテ表RTの決定状況応じて、所定の優先順位に従って内容が未だ決定されていない未決定の項目ITの項目ITの有無を検索する(S71)。検索の結果、AI処理部15は未決定の項目ITがあるか否かを判定する(S72)。未決定の項目ITがないと判定する場合、相談員提示処理S70は終了する。
その一方、未決定の項目ITがあると判定する場合、AI処理部15は「相談員(C2)が次に尋ねるべき項目」として未決定の項目ITに関する情報を、ディスプレイ17を通じて提示する。例えば、AI処理部15は相談内容のジャンルが決定済みで被害状況の項目ITが未決定である場合、「被害状況を尋ねて下さい。」と相談員C2に提示する。その提示後、相談員提示処理S70は終了する。なお、優先順位に関する情報は事前に設定されており、音声認識データ処理装置10のメモリ16に記憶保持される。
以上により、実施の形態2に係る音声認識データ処理装置10および音声認識データ処理システム1は、複数の項目ITのそれぞれの内容の決定状況に応じて、内容が未だ決定されていない項目ITの有無を検索し、未決定の項目ITに関する情報をディスプレイ17に表示するAI処理部(提示処理部の一例)を備える。これにより、相談員C2は、相談者C1からの相談内容を漏れなく聞き出せるので、相談内容の質をより高め、相談窓口の相談対応能力をさらに向上させることができる。その他の構成や作用効果については、上記実施の形態1と同様である。
(実施の形態3)
次に、図15を参照して、実施の形態3に係る音声認識データ処理装置10および音声認識データ処理システム1の音声認識データ処理方法の手順について説明する。図15は、実施の形態3に係る相談員提示処理S70を示すフローチャートである。なお、実施の形態1および形態2と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
次に、図15を参照して、実施の形態3に係る音声認識データ処理装置10および音声認識データ処理システム1の音声認識データ処理方法の手順について説明する。図15は、実施の形態3に係る相談員提示処理S70を示すフローチャートである。なお、実施の形態1および形態2と同一または同等部分については、図面等に同一あるいは同等符合を付してその説明を省略あるいは簡略化する。
図15に示すように、実施の形態3の相談員提示処理S70では、音声認識データ処理装置10のAI処理部15(提示処理部の一例)は、相談員C2から相談者C1へ提案するために必要な情報が揃っているか検索する(S75)。検索の結果、AI処理部15は、相談内容のジャンルを含む複数の項目ITのそれぞれの内容の決定数が所定値で、且つ少なくともジャンルの内容が決定されているか否かを判定する(S76)。例えばAI処理部15は、図1に示す項目ITの項番NOの第1~第5の内容が決定済みか否かを判定する。未決定と判定する場合、相談員提示処理S70は終了する。
その一方、決定済みと判定する場合、AI処理部15は決定済みの内容に基づきジャンルに対応する対策の提案内容を生成する(S77)。このとき、AI処理部15はルール(規定)が事前に規定された所定のハッシュテーブルに従って提案内容を一意に決定する。AI処理部15は、生成した提案内容のテキストをディスプレイ17に提示し(S78)、相談員提示処理S70は終了する。
なお、AI処理部15は、ハッシュテーブル等のルールベースに従った手法に限定されず、人工知能を用いて過去の履歴を参照して提案内容を機械学習しておき、その機械学習で得た学習モデルに従って決定してもよい。また、学習モデルをAI処理サーバ30で生成してもよい。この場合、複数の相談窓口の相談内容から学習モデルが生成されるので、精度の良い学習モデルを生成することができる。
以上により、実施の形態3に係る音声認識データ処理装置10および音声認識データ処理システム1は、相談内容のジャンル(種別)を含む複数の項目ITのそれぞれの内容の決定数が所定値で、かつ少なくともジャンルの内容が決定された場合に、ジャンルの内容に対応する対策の提案内容を生成してディスプレイ17に表示するAI処理部15(提示処理部の一例)を備える。これにより、相談内容に基づいて提案内容を適切且つ自動的に導き出して相談員C2に提示するので、相談者C1に対する支援を容易にして相談員C2の負荷をより低減することができる。その他の構成や作用効果については、上記実施の形態1および形態2と同様である。
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
なお、本出願は、2018年7月23日出願の日本特許出願(特願2018-137875)に基づくものであり、その内容は本出願の中に参照として援用される。
本開示は、行政機関等の相談窓口で相談者からの相談内容の中から必要なキーワードを漏らさず効率的に絞り込み、相談内容の要約の簡易な作成を支援して相談員の負荷を低減して、相談対応能力を向上させることができる音声認識データ処理装置、音声認識データ処理システム、および音声認識データ処理方法として有用である。
1 音声認識データ処理システム
10 音声認識データ処理装置
11 プロセッサ
12 音声認識部
13 キーワード一致判定部
14 カルテレポート生成部
15 AI処理部
16 メモリ
17 ディスプレイ
18 入出力インターフェイス回路
19 通信回路
20 音声認識サーバ
30 AI処理サーバ
31 プロセッサ
33 キーワード一致判定部
34 カルテレポート生成部
35 AI処理部
36 メモリ
39 通信回路
M1 マイク
M2 マイク
NW ネットワーク
TB テーブル
AB 要約レポート
10 音声認識データ処理装置
11 プロセッサ
12 音声認識部
13 キーワード一致判定部
14 カルテレポート生成部
15 AI処理部
16 メモリ
17 ディスプレイ
18 入出力インターフェイス回路
19 通信回路
20 音声認識サーバ
30 AI処理サーバ
31 プロセッサ
33 キーワード一致判定部
34 カルテレポート生成部
35 AI処理部
36 メモリ
39 通信回路
M1 マイク
M2 マイク
NW ネットワーク
TB テーブル
AB 要約レポート
Claims (9)
- 相談者の発話音声を集音するマイクから入力された音声データを音声認識する音声認識部と、
前記相談者からの相談内容の種別を含む複数の項目とそれぞれの前記項目に対応するキーワードとが対応付けて登録されたテーブルを保持するメモリと、
前記音声データの音声認識結果と前記テーブルに登録されたキーワードとの比較に応じて、前記相談内容の種別を含む複数の項目のそれぞれの内容を決定するとともに、前記決定された種別に応じて、前記テーブルに登録された複数のキーワードのうち前記比較に用いるキーワードを絞り込む判定部と、
前記テーブルに登録されたキーワードまたは前記絞り込まれたキーワードに基づいて決定された前記複数の項目のそれぞれの内容を用いて、前記相談内容の要約レポートを生成する生成部と、を備える、
音声認識データ処理装置。 - 生成された前記相談内容の要約レポートをディスプレイに表示する制御部、をさらに備える、
請求項1に記載の音声認識データ処理装置。 - 前記判定部は、前記複数の項目のうちいずれかの項目に複数の内容が存在した場合に、前記複数の内容が対応する項目との関係で矛盾するか否かを判定し、
前記生成部は、前記複数の内容が対応する項目との関係で矛盾すると判定された場合に、前記複数の内容のうち少なくとも1つの内容を要確認項目であることが識別可能に前記要約レポートを生成する、
請求項1に記載の音声認識データ処理装置。 - 前記生成部は、前記要確認項目に対応する内容に下線を付与して前記要約レポートを生成する、
請求項3に記載の音声認識データ処理装置。 - 前記判定部は、前記相談者の発話音声の1フレーズに対応する前記音声データの音声認識結果を取得する度に、前記テーブルに登録されたキーワードとの比較を行う、
請求項1~4のうちいずれか一項に記載の音声認識データ処理装置。 - 前記複数の項目のそれぞれの内容の決定状況に応じて、内容が未だ決定されていない項目の有無を検索し、未決定項目に関する情報をディスプレイに表示する提示処理部、をさらに備える、
請求項1に記載の音声認識データ処理装置。 - 前記相談内容の種別を含む複数の項目のそれぞれの内容の決定数が所定値で、かつ少なくとも前記種別の内容が決定された場合に、前記種別の内容に対応する対策の提案内容を生成してディスプレイに表示する提示処理部、をさらに備える、
請求項1に記載の音声認識データ処理装置。 - 相談者の発話音声を集音するマイクから入力された音声データを音声認識する音声認識部と、
前記相談者からの相談内容の種別を含む複数の項目とそれぞれの前記項目に対応するキーワードとが対応付けて登録されたテーブルを保持するメモリと、
前記音声データの音声認識結果と前記テーブルに登録されたキーワードとの比較に応じて、前記相談内容の種別を含む複数の項目のそれぞれの内容を決定するとともに、前記決定された種別に応じて、前記テーブルに登録された複数のキーワードのうち前記比較に用いるキーワードを絞り込む判定部と、
前記テーブルに登録されたキーワードまたは前記絞り込まれたキーワードに基づいて決定された前記複数の項目のそれぞれの内容を用いて、前記相談内容の要約レポートを生成する生成部と、を備える、
音声認識データ処理システム。 - 相談者からの相談内容の種別を含む複数の項目とそれぞれの前記項目に対応するキーワードとが対応付けて登録されたテーブルを保持するメモリを有する音声認識データ処理システムにおいて、
前記相談者の発話音声を集音するマイクから入力された音声データを音声認識するステップと、
前記音声データの音声認識結果と前記テーブルに登録されたキーワードとの比較に応じて、前記相談内容の種別を含む複数の項目のそれぞれの内容を決定するステップと、
前記決定された種別に応じて、前記テーブルに登録された複数のキーワードのうち前記比較に用いるキーワードを絞り込むステップと、
前記テーブルに登録されたキーワードまたは前記絞り込まれたキーワードに基づいて決定された前記複数の項目のそれぞれの内容を用いて、前記相談内容の要約レポートを生成するステップと、を有する、
音声認識データ処理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018137875A JP7236669B2 (ja) | 2018-07-23 | 2018-07-23 | 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法 |
JP2018-137875 | 2018-07-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020022079A1 true WO2020022079A1 (ja) | 2020-01-30 |
Family
ID=69180996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/027461 WO2020022079A1 (ja) | 2018-07-23 | 2019-07-11 | 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7236669B2 (ja) |
WO (1) | WO2020022079A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450796A (zh) * | 2021-06-29 | 2021-09-28 | 平安养老保险股份有限公司 | 语音报表生成方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102540562B1 (ko) * | 2020-03-11 | 2023-06-05 | 삼성생명보험주식회사 | 상담 데이터 분석 방법 |
KR20220023211A (ko) | 2020-08-20 | 2022-03-02 | 삼성전자주식회사 | 대화 텍스트에 대한 요약 정보를 생성하는 전자 장치 및 그 동작 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240536A (ja) * | 1997-02-27 | 1998-09-11 | Mitsubishi Electric Corp | 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法 |
JP2000259713A (ja) * | 1999-03-05 | 2000-09-22 | Tadamitsu Ryu | 会話の音声認識に基づく定型的文書作成システム |
JP2011065304A (ja) * | 2009-09-16 | 2011-03-31 | Oki Electric Industry Co Ltd | 接客業務用サーバ、並びに、当該サーバを用いる接客システム及び接客業務の予測終了時間算出方法 |
JP2013037401A (ja) * | 2011-08-03 | 2013-02-21 | Shiseido Co Ltd | カウンセリングシステム、カウンセリング装置、クライアント端末、及びカウンセリングプログラム |
JP2016021196A (ja) * | 2014-07-15 | 2016-02-04 | パナソニックIpマネジメント株式会社 | 注文入力システム及び注文入力方法 |
-
2018
- 2018-07-23 JP JP2018137875A patent/JP7236669B2/ja active Active
-
2019
- 2019-07-11 WO PCT/JP2019/027461 patent/WO2020022079A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240536A (ja) * | 1997-02-27 | 1998-09-11 | Mitsubishi Electric Corp | 事例検索装置及び事例検索方法並びに事例ベース構築装置及び事例ベース構築方法 |
JP2000259713A (ja) * | 1999-03-05 | 2000-09-22 | Tadamitsu Ryu | 会話の音声認識に基づく定型的文書作成システム |
JP2011065304A (ja) * | 2009-09-16 | 2011-03-31 | Oki Electric Industry Co Ltd | 接客業務用サーバ、並びに、当該サーバを用いる接客システム及び接客業務の予測終了時間算出方法 |
JP2013037401A (ja) * | 2011-08-03 | 2013-02-21 | Shiseido Co Ltd | カウンセリングシステム、カウンセリング装置、クライアント端末、及びカウンセリングプログラム |
JP2016021196A (ja) * | 2014-07-15 | 2016-02-04 | パナソニックIpマネジメント株式会社 | 注文入力システム及び注文入力方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450796A (zh) * | 2021-06-29 | 2021-09-28 | 平安养老保险股份有限公司 | 语音报表生成方法、装置、设备及存储介质 |
CN113450796B (zh) * | 2021-06-29 | 2023-09-19 | 平安养老保险股份有限公司 | 语音报表生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2020016949A (ja) | 2020-01-30 |
JP7236669B2 (ja) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9245254B2 (en) | Enhanced voice conferencing with history, language translation and identification | |
US9898536B2 (en) | System and method to perform textual queries on voice communications | |
JP5857090B2 (ja) | 情報検索装置、情報検索プログラム、及び情報検索システム | |
US20030157968A1 (en) | Personalized agent for portable devices and cellular phone | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
CN105229728A (zh) | 多识别器语音识别 | |
JP2001273283A (ja) | 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス | |
WO2020022079A1 (ja) | 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法 | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
US20180068659A1 (en) | Voice recognition device and voice recognition method | |
US11721324B2 (en) | Providing high quality speech recognition | |
US8009819B2 (en) | Semi-supervised training of destination map for call handling applications | |
CN111063355A (zh) | 会议记录的生成方法及记录终端 | |
JP2014232258A (ja) | 連携業務支援装置、方法およびプログラム | |
KR20130108173A (ko) | 유무선 통신 네트워크를 이용한 음성인식 질의응답 시스템 및 그 운용방법 | |
WO2016136207A1 (ja) | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
JP5606951B2 (ja) | 音声認識システムおよびこれを用いた検索システム | |
CN105869631B (zh) | 语音预测的方法和装置 | |
JP2021173872A (ja) | 音声解析システム | |
US20210241755A1 (en) | Information-processing device and information-processing method | |
KR20130116128A (ko) | 티티에스를 이용한 음성인식 질의응답 시스템 및 그것의 운영방법 | |
JP2008022493A (ja) | 受付支援システムとそのプログラム | |
CN110162605B (zh) | 检索结果提供装置及检索结果提供方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19840081 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19840081 Country of ref document: EP Kind code of ref document: A1 |