WO2020090148A1 - 対話システム - Google Patents
対話システム Download PDFInfo
- Publication number
- WO2020090148A1 WO2020090148A1 PCT/JP2019/024372 JP2019024372W WO2020090148A1 WO 2020090148 A1 WO2020090148 A1 WO 2020090148A1 JP 2019024372 W JP2019024372 W JP 2019024372W WO 2020090148 A1 WO2020090148 A1 WO 2020090148A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- response
- user
- voice recognition
- inquiry
- content
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/52—Arrangements for routing dead number calls to operators
Definitions
- One aspect of the present invention relates to a dialogue system.
- chatbots that use voice or text to interact with users is being promoted in systems such as the call centers described above.
- the chatbot can be used to provide an appropriate response (or transfer to the operator) through interaction with the user.
- the chat bot responds the same to each user who makes an inquiry (phone call). This may result in repeated explanations, questions, etc., which are useless for a certain user, or may require the user to perform an unnecessary operation. This may reduce the satisfaction of the user who made the inquiry.
- One aspect of the present invention has been made in view of the above circumstances, and an object thereof is to improve user satisfaction by providing a response suitable for each user.
- An interactive system is an interactive system that provides a response to an inquiry from a user, and includes a storage unit that stores the content of past voice recognition related to the inquiry for each user, and a user who makes the inquiry.
- the acquisition unit that acquires the inquiry information including the user identification information to be identified from the user and the storage unit, the content of the past voice recognition of the user specified by the user identification information included in the inquiry information is specified,
- a determining unit that determines a response content based on the identified content of the past voice recognition, and a response providing unit that provides a response corresponding to the inquiry according to the response content determined by the determining unit.
- the inquiry information from the user is acquired, and the response content to the inquiry is determined based on the content of the past voice recognition of the user.
- the content of past voice recognition includes, for example, success or failure of voice recognition, voice characteristics, and the like.
- the storage unit stores the success or failure of the past voice recognition for each user as the content of the past voice recognition
- the determination unit refers to the storage unit and identifies the user identified by the user identification information included in the inquiry information.
- the content of the response may be determined so as to perform a response in which the user is not required to perform voice recognition.
- a response can be provided by a method other than voice recognition (for example, button push along voice guidance or transfer to an operator). As a result, it is possible to improve the satisfaction level of the user who cannot (or is not good at) performing voice recognition.
- the storage unit stores, as the content of the past voice recognition, the time required for the past voice recognition for each user, and the determination unit refers to the storage unit and is specified by the user identification information included in the inquiry information. If the time required for the past voice recognition is longer than the predetermined time for the user, the content of the response may be determined so that the user does not request the voice recognition. It is presumed that a user who needs time for voice recognition is a user who is not good at performing voice recognition (does not want to perform voice recognition). Therefore, by providing a response to such a user by a method other than voice recognition, it is possible to improve user satisfaction.
- the storage unit stores, as the content of the past voice recognition, the features of the voice in the past voice recognition for each user, and the determination unit refers to the storage unit and is specified by the user identification information included in the inquiry information.
- the response content may be determined according to the characteristics of the voice in the past voice recognition. For example, a language, a dialect, a generation, a way of speaking, etc. can be specified from the characteristics of voice. Therefore, the user's satisfaction can be improved by making a response such as forwarding to the operator according to such a voice feature.
- the storage unit stores, as the content of the past voice recognition, the content of the past inquiry derived by the past voice recognition, and the determination unit refers to the storage unit and specifies the user identification information included in the inquiry information.
- the response content may be determined according to the content of past inquiries regarding the user who is to be answered. In this way, by determining the response content by utilizing the content of the inquiry in the past, it is possible to avoid the response such as asking the user about the information already acquired in the past (performing the inquiry). Therefore, the response time can be shortened and the user's satisfaction can be improved.
- FIG. 3 is a block diagram showing a functional configuration of a dialogue device included in the dialogue system according to the present embodiment. It is a figure which shows an example of the inquiry table memorize
- FIG. 1 is a block diagram showing a functional configuration of a dialogue device 10 included in the dialogue system 1 according to the present embodiment.
- the dialogue system 1 shown in FIG. 1 is a system that provides a response to an inquiry from the user terminal 50 by the dialogue between the user terminal 50 (user) and the dialogue device 10.
- the dialogue system 1 is a system introduced into, for example, a call center or the like.
- the dialogue device 10 receives an incoming call from the user terminal 50, the dialogue between the user terminal 50 and the dialogue device 10 is started.
- the dialogue system 1 is configured to include a dialogue device 10 and an operator terminal 80.
- the operator terminal 80 is a terminal operated by an operator such as a call center, and responds to an inquiry from the user terminal 50 received via the dialogue device 10 to the user terminal 50 with a response (answer) according to the operation of the operator. provide.
- the operator terminal 80 provides a response (operator's voice) to the user terminal 50 by, for example, a voice call.
- the operator terminal 80 may provide the response to the user terminal 50 by transmitting a text message or the like to the user terminal 50.
- the user terminal 50 is a terminal capable of voice call and wireless communication, and is, for example, a smartphone or the like.
- the interactive device 10 is a device that provides a response to an inquiry from the user terminal 50, and is a device that uses a so-called chatbot.
- the chatbot is a term that combines chat and bot, and is an automatic dialogue program that provides a response to a query from the user while having a dialogue with the user by utilizing, for example, artificial intelligence.
- the dialogue apparatus 10 receives an inquiry from the user terminal 50 triggered by an incoming call from the user terminal 50, asks the user terminal 50 a question related to the inquiry (listening), and the operator terminal 80.
- the response is provided to the user terminal 50 in cooperation with or alone (details will be described later).
- the dialogue device 10 includes an input unit 11 (acquisition unit), a response content determination unit 12 (determination unit), an information DB 13 (storage unit), and an output unit 14 (response provision unit).
- the transfer unit 15 (response providing unit) and the response recording unit 16 are provided.
- the input unit 11 acquires inquiry information from the user terminal 50 by receiving an incoming call from the user terminal 50.
- the input unit 11 receives an incoming call from the user terminal 50 and acquires the telephone number of the user terminal 50.
- the input unit 11 also acquires the content of the inquiry from the user terminal 50.
- the input unit 11 makes an inquiry from the user terminal 50 according to the result of voice recognition performed when an incoming call is received from the user terminal 50 or the input result (number input result) input at the user terminal 50 according to the voice guidance. Get the contents of.
- the voice recognition is performed by using a conventionally known technique.
- the voice recognition may be performed in the dialogue device 10, or may be performed by an external device (not shown) and the dialogue device 10 may obtain the result.
- the conventionally known IVR (Interactive Voice Response) technology can be used for the number input according to the voice guidance.
- the input unit 11 acquires the telephone number and the content of the inquiry from the user terminal 50.
- the input unit 11 outputs the inquiry information including the telephone number and the inquiry content to the response content determination unit 12.
- the inquiry information includes the telephone number as the user identification information for identifying the user who made the inquiry.
- the user identification information is described as a telephone number, but the present invention is not limited to this, and the user identification information may be other information that can identify the user terminal 50 (that is, the user).
- the response content determination unit 12 determines the response content based on the inquiry information input from the input unit 11.
- the response content determination unit 12 first determines whether or not the inquiry information includes the result of voice recognition. As described above, when voice recognition is performed when the input unit 11 receives an incoming call from the user terminal 50, the inquiry information includes the voice recognition result. When the inquiry information includes the result of the voice recognition, the response content determination unit 12 specifies the specific content (content of the voice recognition).
- the content of the voice recognition is, for example, success or failure of the voice recognition, the time required for the voice recognition, the feature of the voice in the voice recognition, the inquiry content of the user terminal 50 guided by the voice recognition, and the like.
- the characteristics of the voice in the voice recognition are the language (Japanese, English, etc.) estimated from the user's voice, the dialect (which local language), the generation, or the speaking style (fast, slow, etc.).
- the response content determination unit 12 updates the inquiry table TB of the information DB 13 based on the identified content of the voice recognition.
- the information DB 13 stores, for each user, past information including the contents of past voice recognition related to the inquiry. For each user, for example, each telephone number, each user terminal information (terminal manufacturing number), each user identification ID input by text or voice from the user, and the like are included.
- FIG. 2 is a diagram showing an example of the inquiry table TB stored in the information DB 13.
- the number of successful voice recognitions, the number of voice recognition failures, the voice recognition utterance time, and the language information are associated with a telephone number (user identification information that identifies the user terminal 50).
- the inquiry contents, the corresponding operator, and the presence or absence of complaints are stored.
- the number of times of successful voice recognition (or the number of times of failure) is, for example, the total number of times of successful (or unsuccessful) voice recognition of the corresponding user terminal 50.
- the voice recognition utterance time is, for example, the time required for one voice recognition, and for the user terminal 50 performing the voice recognition a plurality of times, it may be the average time or the longest time of the voice recognition. ..
- the language information is various kinds of information about the characteristics of the voice in the voice recognition. For example, the language (Japanese, English, etc.), the dialect (which local language), the generation, or the speaking style (fast, slow, etc.) estimated from the voice of the user is used. ) Etc.
- the inquiry content is the content of the inquiry identified by the voice recognition performed in the past, the content of the inquiry identified by the input on the user terminal 50 performed according to the voice guidance, or the content of the inquiry identified by the response on the operator terminal 80. is there.
- the corresponding operator is information that identifies the operator who has responded in the past correspondence by the operator terminal 80. By recording the information of such a corresponding operator, it is possible to connect to the same operator terminal 80 as the previous time, and the user satisfaction can be improved.
- the presence or absence of complaint is information indicating whether or not there is a complaint from the user of the corresponding user terminal 50 in the response made by the operator terminal 80 in the past. By recording such information on the presence or absence of complaints, for example, it becomes possible to connect the user terminal 50 with many complaints to a dedicated operator terminal 80 (operator terminal 80 of high skill), etc. The degree can be improved.
- the response content determination unit 12 updates the number of times of successful voice recognition (or the number of times of failure) in the inquiry table TB, and includes the time required for the voice recognition.
- the speech recognition utterance time of the inquiry table TB is updated
- the language information of the inquiry table TB is updated when the voice feature is included
- the inquiry table TB of the inquiry table TB is included when the inquiry content is included. Update the inquiry content.
- the response content determination unit 12 identifies the content of past voice recognition of the user terminal 50 identified by the telephone number included in the inquiry information by referring to the inquiry table TB of the information DB 13, and identifies the identified past voice recognition.
- the response content is determined based on the content of.
- the response content determination unit 12 refers to the inquiry table TB of the information DB 13, and when the past voice recognition failure rate or the number of failures of the user terminal 50 identified by the telephone number included in the inquiry information is larger than a predetermined value. May determine the response content so that the user terminal 50 is not required to perform voice recognition.
- the failure count is acquired by referring to the voice recognition failure count in the inquiry table TB. Further, the failure rate is derived from the number of voice recognition failures and the number of voice recognition successes in the inquiry table TB.
- the response content determination unit 12 refers to the inquiry table TB of the information DB 13, and when the time required for the past voice recognition is longer than the predetermined time for the user terminal 50 specified by the telephone number included in the inquiry information. May determine the response content so that the user terminal 50 is not required to perform voice recognition.
- the time required for voice recognition is acquired by referring to the voice recognition utterance time in the inquiry table TB.
- the response content determination unit 12 refers to the inquiry table TB of the information DB 13 and determines the response content for the user identified by the telephone number included in the inquiry information according to the characteristics of the voice in the past voice recognition. Good.
- the feature of voice is acquired by referring to the language information of the inquiry table TB.
- the response content determination unit 12 specifies and identifies, for example, the user's language (Japanese, English, etc.), dialect (which local language), generation, or speaking style (fast, slow, etc.) from the characteristics of the voice.
- the response content is determined so that it is transferred to the operator terminal 80 of the operator according to the characteristics.
- the response content determination unit 12 may refer to the inquiry table TB of the information DB 13 and determine the response content of the user terminal 50 identified by the telephone number included in the inquiry information according to the past inquiry content. ..
- the contents of the past inquiry are acquired by referring to the inquiry contents of the inquiry table TB.
- the response content determination unit 12 determines the response content so that the output unit 14 does not ask the user terminal 50 a question to be answered for information that has already been acquired, for example, by past voice recognition.
- the response content determination unit 12 does not generate a response by using the information in the inquiry table TB of the information DB 13, or wants to generate a response by using the information in the inquiry table TB of the information DB 13. If the information of the inquiry table TB is not stored for the user terminal 50 of 1, the response is generated without using the information of the inquiry table TB. In this case, the response content determination unit 12 asks the user terminal 50 a question to ask back (a question for digging deep in the inquiry of the user terminal 50) according to a predetermined scenario (the output unit 14 asks the question).
- Response may be generated, a response for performing voice recognition may be generated, and a response that the transfer unit 15 connects to the operator terminal 80 (information such as which operator terminal 80 is connected at what timing) is generated. (Including) may be generated.
- the response content determination unit 12 uses the information in the inquiry table TB of the information DB 13 to generate the response, the response content determination unit 12 refers to the inquiry table TB to generate the response.
- the response content determination unit 12 When the response content determination unit 12 generates a response, it outputs a response provision instruction to the output unit 14 or the transfer unit 15.
- the response providing instruction output to the output unit 14 includes the generated response, for example.
- the response providing instruction output to the transfer unit 15 includes, for example, the generated response and information used for determining the response content (inquiry information, information in the inquiry table TB related to the corresponding user terminal 50, etc.). include.
- the output unit 14 provides the user terminal 50 with a response to the inquiry according to the response content determined by the response content determination unit 12.
- the output unit 14 receives the response providing instruction from the response content determining unit 12, and outputs the response included in the response providing instruction to the user terminal 50.
- the response output from the output unit 14 may be provided to the user terminal 50 by, for example, a voice or text message.
- the transfer unit 15 receives a response providing instruction from the response content determining unit 12 and gives a response request to the operator terminal 80 to provide a response to the user terminal 50 in cooperation with the operator terminal 80.
- the transfer unit 15 instructs the operator terminal 80 indicated in the response included in the response providing instruction to request a response.
- the response request includes, for example, information used for determining the response content (inquiry information, information in the inquiry table TB related to the user terminal 50, etc.).
- the operator of the operator terminal 80 may provide the appropriate response to the user terminal 50 by referring to this information.
- the response recording unit 16 records the response record of the operator terminal 80 with the user terminal 50 in the inquiry table TB of the information DB 13 (updates the inquiry table TB).
- the operator terminal 80 provides information such as the telephone number of the user terminal 50, the content of the inquiry from the user terminal 50, the corresponding operator name, and the presence or absence of a complaint from the user of the user terminal 50, according to an input from the operator. Send to 10.
- the response recording unit 16 updates the inquiry table TB of the information DB 13 based on the information transmitted from the operator terminal 80. Specifically, the response recording unit 16 updates the inquiry content, the corresponding operator, and the presence / absence of a complaint regarding the corresponding user terminal 50 in the inquiry table TB.
- FIG. 3 is a flowchart showing a process performed by the dialogue device 10.
- the process of determining the response content based on the inquiry information is a specific process of the process of “determining the response content” in a broad sense performed by the response content determining unit 12 (step S4).
- a process of determining whether to use the information DB steps S5 and S6), a process of generating a response using the information DB (step S7), and a process of generating a response without using the information DB (Step S8) is illustrated.
- the response content determination unit 12 of the dialog device 10 determines that the inquiry information includes predetermined information (specifically, the result of voice recognition). It is determined whether or not it is included (step S2).
- the response content determination unit 12 updates the inquiry table TB (see FIG. 2) of the information DB 13 based on the specified content of the voice recognition (see FIG. 2). Step S3). Specifically, when the inquiry information includes the success or failure of the voice recognition, the response content determination unit 12 updates the number of times of successful voice recognition (or the number of failures) of the inquiry table TB, and the time required for the voice recognition. , The voice recognition utterance time of the inquiry table TB is updated, the language information of the inquiry table TB is updated if the characteristics of the voice are included, and the inquiry content is included. Updates the inquiry contents of the inquiry table TB.
- the response content determination unit 12 determines the response content based on the inquiry information input from the input unit 11 (step S4).
- the response content determination unit 12 determines to use the information in the inquiry table TB of the information DB 13 when making a response related to voice recognition, for example.
- the response content determination unit 12 determines not to use the information in the inquiry table TB of the information DB 13 when, for example, making a response to a fixed question regardless of the information in the information DB 13. .
- the response content determination unit 12 determines whether or not the response uses information (that is, past information) in the inquiry table TB of the information DB 13 based on the response content (step S5). Furthermore, when the response content determination unit 12 determines in step S5 that the response uses the information in the inquiry table TB, the response content determination unit 12 determines whether or not the inquiry table TB stores information on the corresponding user terminal 50. (Step S6).
- step S5 If it is determined in step S5 that the response does not use the information of the inquiry table TB, or if it is determined in step S6 that the information of the corresponding user terminal 50 is not stored in the inquiry table TB, the response content determination unit 12 generates a response without using the information (that is, past information) in the inquiry table TB (step S8). On the other hand, if it is determined in step S6 that the information of the corresponding user terminal 50 is stored in the inquiry table TB, the response content determination unit 12 uses the information of the inquiry table TB (that is, past information). A response is generated (step S7).
- the response content determination unit 12 determines whether or not the generated response relates to the transfer to the operator terminal 80 (step S9).
- the response content determination unit 12 outputs a response providing instruction to the transfer unit 15, and the transfer unit 15 instructs the operator terminal 80 to request a response.
- the predetermined information is transferred to the operator terminal 80 (step S10).
- the response request includes, for example, information used for determining the response content (inquiry information, information in the inquiry table TB related to the user terminal 50, etc.).
- Step S11 a response record is transmitted from the operator terminal 80 to the response recording unit 16, and the response recording unit 16 stores the response record in the inquiry table TB of the information DB 13.
- the response content determination unit 12 outputs the response providing instruction to the output unit 14, and the output unit 14 transmits the response to the user terminal 50. Output (step S12).
- the interactive device 10 of the interactive system 1 that provides a response to the inquiry from the user terminal 50 includes an information DB 13 that stores the content of past voice recognition related to the inquiry for each user, and a telephone number that identifies the user terminal 50 related to the inquiry.
- the input unit 11 that obtains inquiry information including the following from the user terminal 50 and the inquiry table TB of the information DB 13
- the content of past voice recognition of the user terminal 50 specified by the telephone number included in the inquiry information can be displayed.
- a response content determination unit 12 that determines the response content based on the identified content of the past speech recognition, and an output unit 14 that provides a response corresponding to the inquiry according to the response content determined by the response content determination unit 12.
- the inquiry information from the user terminal 50 is acquired, and the response content to the inquiry is determined based on the content of the past voice recognition of the user terminal 50.
- the content of past voice recognition includes, for example, success or failure of voice recognition, voice characteristics, and the like.
- the information DB 13 stores the success or failure of the past voice recognition for each user as the content of the past voice recognition, and the response content determination unit 12 refers to the information DB 13 and is specified by the telephone number included in the inquiry information.
- the response content of the user terminal 50 is determined so that the user is not required to perform voice recognition.
- a response can be provided to the user terminal 50 that is likely to fail in voice recognition by a method other than voice recognition (for example, button push according to voice guidance or transfer to an operator).
- a method other than voice recognition for example, button push according to voice guidance or transfer to an operator.
- the information DB 13 stores the time required for the past voice recognition for each user as the content of the past voice recognition, and the response content determination unit 12 refers to the information DB 13 and uses the telephone number included in the inquiry information.
- the response content is determined such that the user terminal 50 is not required to perform voice recognition. It is assumed that the user terminal 50 that requires time for voice recognition is the user terminal 50 that is not good at performing voice recognition (does not want to perform voice recognition). Therefore, by providing a response to such a user terminal 50 by a method other than voice recognition, it is possible to improve user satisfaction.
- the information DB 13 stores the characteristics of the voice in the past voice recognition for each user as the content of the past voice recognition, and the response content determination unit 12 refers to the information DB 13 and uses the telephone number included in the inquiry information.
- the response content is determined according to the characteristics of the voice in the past voice recognition. For example, a language, a dialect, a generation, a way of speaking, etc. can be specified from the characteristics of voice. Therefore, the user's satisfaction can be improved by making a response such as forwarding to the operator according to such a voice feature.
- the information DB 13 stores the past inquiry content guided by the past speech recognition as the content of the past speech recognition, and the response content determination unit 12 refers to the information DB 13 and refers to the telephone number included in the inquiry information.
- the response content is determined according to the content of past inquiries. As described above, by utilizing the past inquiry content to determine the response content, it is possible to avoid making a response such as asking the user terminal 50 about the information already acquired in the past (performing a listening reply). It is possible to shorten the response time and improve the user's satisfaction.
- the interaction device 10 described above may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
- the word “device” can be read as a circuit, device, unit, or the like.
- the hardware configuration of the dialog device 10 may be configured to include one or a plurality of each device illustrated in the figure, or may be configured not to include some devices.
- Each function in the dialog device 10 causes a predetermined software (program) to be loaded on hardware such as the processor 1001 and the memory 1002, so that the processor 1001 performs an arithmetic operation, communication by the communication device 1004, memory 1002 and storage 1003. It is realized by controlling the reading and / or writing of data in.
- the processor 1001 operates an operating system to control the entire computer, for example.
- the processor 1001 may be composed of a central processing unit (CPU) including an interface with peripheral devices, a control device, a calculation device, a register, and the like.
- CPU central processing unit
- the control function of the response content determination unit 12 or the like of the dialog device 10 may be realized by the processor 1001.
- the processor 1001 reads a program (program code), software module, and data from the storage 1003 and / or the communication device 1004 into the memory 1002, and executes various processes according to these.
- a program program that causes a computer to execute at least part of the operations described in the above-described embodiments is used.
- the control function of the response content determination unit 12 or the like of the dialogue device 10 may be realized by the control program stored in the memory 1002 and operated by the processor 1001, or may be realized similarly for other functional blocks. ..
- the various processes described above are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
- the processor 1001 may be implemented by one or more chips.
- the program may be transmitted from the network via an electric communication line.
- the memory 1002 is a computer-readable recording medium, and is composed of at least one of a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (ElectricallyErasable Programmable ROM), a RAM (Random Access Memory), and the like. May be done.
- the memory 1002 may be called a register, a cache, a main memory (main storage device), or the like.
- the memory 1002 can store a program (program code) executable to implement the wireless communication method according to the embodiment of the present invention, a software module, and the like.
- the storage 1003 is a computer-readable recording medium, for example, an optical disc such as a CD-ROM (Compact Disc ROM), a hard disc drive, a flexible disc, a magneto-optical disc (for example, a compact disc, a digital versatile disc, a Blu-ray disc). (Registered trademark) disk), smart card, flash memory (for example, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
- the storage 1003 may be called an auxiliary storage device.
- the storage medium described above may be, for example, a database including the memory 1002 and / or the storage 1003, a server, or another appropriate medium.
- the communication device 1004 is hardware (transmission / reception device) for performing communication between computers via a wired and / or wireless network, and is also called, for example, a network device, a network controller, a network card, a communication module, or the like.
- the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside.
- the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that performs output to the outside.
- the input device 1005 and the output device 1006 may be integrated (for example, a touch panel).
- Each device such as the processor 1001 and the memory 1002 is connected by a bus 1007 for communicating information.
- the bus 1007 may be composed of a single bus, or may be composed of different buses among devices.
- the dialogue device 10 includes hardware such as a microprocessor, a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured, and the hardware may implement some or all of the functional blocks. For example, processor 1001 may be implemented with at least one of these hardware.
- DSP digital signal processor
- ASIC Application Specific Integrated Circuit
- PLD Program Integrated Circuit
- FPGA Field Programmable Gate Array
- LTE Long Term Evolution
- LTE-A Long Term Evolution-Advanced
- SUPER 3G IMT-Advanced
- 4G 5G
- FRA Full Radio Access
- W-CDMA Wideband Code Division Multiple Access
- GSM Global System for Mobile Communications
- CDMA2000 Code Division Multiple Access 2000
- UMB Universal Mobile Broad-band
- IEEE 802.11 Wi-Fi
- IEEE 802.16 WiMAX
- IEEE 802.20 UWB (Ultra-Wide) Band
- Bluetooth registered trademark
- Information that has been input and output may be stored in a specific location (for example, memory), or may be managed in a management table. Information that is input / output can be overwritten, updated, or added. The output information and the like may be deleted. The input information and the like may be transmitted to another device.
- the determination may be performed by a value represented by 1 bit (whether 0 or 1), may be performed by a Boolean value (Boolean: true or false), and may be performed by comparing numerical values (for example, a predetermined value). (Comparison with the value).
- the notification of the predetermined information (for example, the notification of “being X”) is not limited to the explicit notification, but is performed implicitly (for example, the notification of the predetermined information is not performed). Good.
- software, instructions, etc. may be sent and received via a transmission medium.
- the software may use a wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wireline and / or wireless technologies are included within the definition of transmission medium.
- a wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other
- the information, signals, etc. described herein may be represented using any of a variety of different technologies.
- data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description include voltage, current, electromagnetic waves, magnetic fields or magnetic particles, optical fields or photons, or any of these. May be represented by a combination of
- the information, parameters, and the like described in this specification may be represented by absolute values, relative values from predetermined values, or may be represented by other corresponding information. ..
- User terminals are defined by those skilled in the art as mobile communication terminals, subscriber stations, mobile units, subscriber units, wireless units, remote units, mobile devices, wireless devices, wireless communication devices, remote devices, mobile subscriber stations, access terminals, It may also be referred to as a mobile terminal, wireless terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable term.
- determining and “determining” may encompass a wide variety of actions.
- “Judgment” and “decision” mean, for example, calculating, computing, processing, deriving, investigating, looking up (e.g., table, database or another). (Search in data structure), ascertaining that it is regarded as “judgment” and “decision” can be included.
- “decision” and “decision” include receiving (eg, receiving information), transmitting (eg, transmitting information), input (input), output (output), access (accessing) (for example, accessing data in a memory) may be regarded as “judging” and “deciding”.
- judgment and “decision” are considered to be “judgment” and “decision” when things such as resolving, selecting, choosing, establishing, establishing, and comparing are done. May be included. That is, the “judgment” and “decision” may include considering some action as “judgment” and “decision”.
- the phrase “based on” does not mean “based only on,” unless expressly specified otherwise. In other words, the phrase “based on” means both "based only on” and “based at least on.”
- any reference to that element does not generally limit the amount or order of those elements. These designations may be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements may be employed there, or that the first element must precede the second element in any way.
- a device including a plurality of devices is also included unless it is a device in which only one clearly exists in terms of context or technology.
- SYMBOLS 1 Dialogue system, 10 ... Dialogue device, 11 ... Input part (acquisition part), 13 ... Information DB (storage part), 12 ... Response content determination part (determination part), 14 ... Output part (response provision part), 15 ... Transfer unit (response providing unit), 50 ... User terminal.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Telephonic Communication Services (AREA)
Abstract
ユーザ端末からの問合せに対する応答を提供する対話システムの対話装置は、問合せに係る過去の音声認識の内容をユーザ毎に記憶する情報DBと、問合せに係るユーザ端末を識別する電話番号を含む問合せ情報をユーザ端末から取得する入力部と、情報DBの問合せテーブルを参照することにより、問合せ情報に含まれる電話番号によって特定されるユーザ端末の過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する応答内容決定部と、応答内容決定部によって決定された応答内容に従って問合せに対応する応答を提供する出力部及び転送部と、を備える。
Description
本発明の一側面は、対話システムに関する。
従来、例えばコールセンター等において、ユーザからの問合せに対し音声自動対応にて適切な振り分け先に振り分けた後に、オペレータによる対応を行うシステムが採用されている(例えば特許文献1参照)。
近年、上述したようなコールセンター等のシステムにおいて、音声又はテキストを利用してユーザと対話を行うチャットボットの導入が進められている。チャットボットが用いられることにより、ユーザとの対話をとおして適切な応答(又はオペレータへの転送)を行うことができる。
ここで、通常、チャットボットは、問合せ(電話)を行う各ユーザに対して同じ対応を行う。このことにより、あるユーザにとっては無駄である説明・質問等が繰り返し行われたり、ユーザに無駄な操作を求めてしまうおそれがある。このことで、問合せを行ったユーザの満足度を低減させてしまうおそれがある。
本発明の一側面は上記実情に鑑みてなされたものであり、各ユーザに合った応答を提供することにより、ユーザの満足度を向上させることを目的とする。
本発明の一態様に係る対話システムは、ユーザからの問合せに対する応答を提供する対話システムであって、問合せに係る過去の音声認識の内容をユーザ毎に記憶する記憶部と、問合せに係るユーザを識別するユーザ識別情報を含む問合せ情報をユーザから取得する取得部と、記憶部を参照することにより、問合せ情報に含まれるユーザ識別情報によって特定されるユーザの過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する決定部と、決定部によって決定された応答内容に従って問合せに対応する応答を提供する応答提供部と、を備える。
本発明の一態様に係る対話システムでは、ユーザからの問合せ情報が取得されると共に、該ユーザの過去の音声認識の内容に基づいて、問合せに対する応答内容が決定される。過去の音声認識の内容としては、例えば、音声認識の成否や音声の特徴等が含まれるところ、このような情報を有効活用して応答内容を決定することにより、応答時間を短縮すると共にユーザが求めている応答(ユーザに合った応答)を提供し易くなり、問合せを行ったユーザの満足度を向上させることができる。
記憶部は、過去の音声認識の内容として、過去の音声認識の成否をユーザ毎に記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザに求めない応答を行うように、応答内容を決定してもよい。これにより、音声認識に失敗し易いユーザに対しては、音声認識以外の方法(例えば音声案内に沿ったボタンプッシュ、或いはオペレータへの転送等)により応答を提供することができる。このことで、音声認識が行えない(或いは行うことが得意でない)ユーザの満足度を向上させることができる。
記憶部は、過去の音声認識の内容として、過去の音声認識に要した時間をユーザ毎に記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザに求めない応答を行うように、応答内容を決定してもよい。音声認識に時間を要しているユーザは、音声認識を行うことが得意でない(音声認識を行いたくない)ユーザであると推測される。このため、このようなユーザについては音声認識以外の方法により応答を提供することによって、ユーザの満足度を向上させることができる。
記憶部は、過去の音声認識の内容として、過去の音声認識における音声の特徴をユーザ毎に記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の音声認識における音声の特徴に応じて応答内容を決定してもよい。例えば、音声の特徴から、言語、方言、世代、話し方等を特定することができる。このため、例えばこのような音声の特徴に沿ったオペレータに転送する等の応答を行うことによって、ユーザの満足度を向上させることができる。
記憶部は、過去の音声認識の内容として、過去の音声認識によって導かれた過去の問合せ内容を記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の問合せ内容に応じて応答内容を決定してもよい。このように、過去の問合せ内容を活用して応答内容を決定することにより、例えば過去に既に取得済みの情報をユーザに質問する(聞き返しを行う)等の応答が行われることを回避することができ、応答時間を短縮し、ユーザの満足度を向上させることができる。
本発明の一側面によれば、各ユーザに合った応答を提供することにより、ユーザの満足度を向上させることができる。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
図1は、本実施形態に係る対話システム1に含まれる対話装置10の機能構成を示すブロック図である。図1に示す対話システム1は、ユーザ端末50(ユーザ)と対話装置10とが対話を行うことにより、ユーザ端末50からの問合せに対する応答を提供するシステムである。対話システム1は、例えばコールセンター等に導入されるシステムである。本実施形態では、ユーザ端末50からの着信を対話装置10が受信することにより、ユーザ端末50と対話装置10との対話が開始される。対話システム1は、対話装置10と、オペレータ端末80とを含んで構成されている。
オペレータ端末80は、例えばコールセンター等のオペレータが操作する端末であり、対話装置10を介して受信するユーザ端末50からの問合せに対して、オペレータの操作に応じた応答(回答)をユーザ端末50に提供する。オペレータ端末80は、例えば音声通話によってユーザ端末50に応答(オペレータの音声)を提供する。なお、オペレータ端末80は、例えばテキストメッセージ等をユーザ端末50に送信することによってユーザ端末50に応答を提供するものであってもよい。ユーザ端末50は、音声通話及び無線通信が可能な端末であり、例えばスマートフォン等である。
対話装置10は、ユーザ端末50からの問合せに対する応答を提供する装置であり、いわゆるチャットボットを利用した装置である。チャットボットとは、チャットとボットとを組み合わせた用語であり、例えば人工知能等を活用して、ユーザと対話を行いながらユーザからの問合せに対する応答を提供する自動対話プログラムである。本実施形態では、対話装置10は、ユーザ端末50からの着信を契機として、ユーザ端末50から問合せを受信し、必要に応じてユーザ端末50に問合せに係る質問(聞き返し)を行い、オペレータ端末80と協同して或いは単独で、ユーザ端末50に応答を提供する(詳細は後述)。
図1に示されるように、対話装置10は、入力部11(取得部)と、応答内容決定部12(決定部)と、情報DB13(記憶部)と、出力部14(応答提供部)と、転送部15(応答提供部)と、応対記録部16と、を備えている。
入力部11は、ユーザ端末50からの着信を受けることにより、ユーザ端末50から問合せ情報を取得する。入力部11は、ユーザ端末50からの着信を受け、ユーザ端末50の電話番号を取得する。また、入力部11は、ユーザ端末50から問合せの内容を取得する。入力部11は、ユーザ端末50から着信があった際に行われる音声認識の結果、又は、音声ガイダンスに従ってユーザ端末50において入力される入力結果(番号入力結果)に応じて、ユーザ端末50から問合せの内容を取得する。なお、音声認識は、従来から周知の技術を用いることによって行われる。音声認識は、対話装置10において行われてもよいし、外部装置(不図示)によって行われその結果を対話装置10が取得するものであってもよい。また、音声ガイダンスに従った番号入力は、従来から周知のIVR(Interactive Voice Response)の技術を用いることができる。このようにして、入力部11は、ユーザ端末50から電話番号及び問合せの内容を取得する。そして、入力部11は、電話番号及び問合せの内容を含んだ問合せ情報を応答内容決定部12に出力する。このように、問合せ情報には、問合せに係るユーザを識別するユーザ識別情報として、電話番号が含まれている。なお、本実施形態ではユーザ識別情報が電話番号であるとして説明するがこれに限定されず、ユーザ識別情報はユーザ端末50(すなわちユーザ)を識別可能な他の情報であってもよい。
応答内容決定部12は、入力部11から入力される問合せ情報に基づき、応答内容を決定する。応答内容決定部12は、最初に、問合せ情報に音声認識の結果が含まれているか否かを判定する。上述したように、入力部11がユーザ端末50からの着信を受けた際に音声認識が行われている場合には、問合せ情報に音声認識の結果が含まれている。応答内容決定部12は、問合せ情報に音声認識の結果が含まれている場合には、具体的な内容(音声認識の内容)を特定する。音声認識の内容とは、例えば音声認識の成否、音声認識に要した時間、音声認識における音声の特徴、音声認識によって導かれるユーザ端末50の問合せ内容等である。音声認識における音声の特徴とは、ユーザの音声から推定される言語(日本語、英語等)、方言(どの地方の言葉)、世代、又は話し方(早い、ゆっくり等)等である。応答内容決定部12は、特定した音声認識の内容に基づき、情報DB13の問合せテーブルTBを更新する。情報DB13は、問合せに係る過去の音声認識の内容を含む、過去情報をユーザ毎に記憶している。ユーザ毎とは、例えば、電話番号毎、ユーザ端末の情報(端末製造番号)毎、ユーザからテキスト又は音声で入力されたユーザ識別ID毎等を含むものである。
図2は、情報DB13に記憶されている問合せテーブルTBの一例を示す図である。図2に示されるように、問合せテーブルTBでは、電話番号(ユーザ端末50を識別するユーザ識別情報)に関連付けて、音声認識成功回数と、音声認識失敗回数と、音声認識発話時間と、言語情報と、問合せ内容と、対応オペレータと、クレーム有無とが記憶されている。音声認識成功回数(又は失敗回数)は、例えば、該当のユーザ端末50について音声認識が成功した(又は失敗した)回数の累計である。音声認識発話時間は、例えば一度の音声認識に要した時間であり、複数回音声認識を行っているユーザ端末50については、音声認識の平均時間とされてもよいし最長時間とされてもよい。言語情報は、音声認識における音声の特徴に関する各種情報であり、例えばユーザの音声から推定される言語(日本語、英語等)、方言(どの地方の言葉)、世代、又は話し方(早い、ゆっくり等)等である。問合せ内容は、過去に行われた音声認識によって特定した問合せの内容、音声ガイダンスに従って行われたユーザ端末50における入力によって特定した問合せの内容、又は、オペレータ端末80における応対によって特定した問合せの内容である。対応オペレータは、過去に行われたオペレータ端末80による対応において対応したオペレータを特定する情報である。このような対応オペレータの情報が記録されていることにより、前回と同じオペレータ端末80に繋ぐ等が可能となり、ユーザ満足度を向上させることができる。クレーム有無は、過去に行われたオペレータ端末80による対応において該当のユーザ端末50のユーザからクレームがあったか否かを示す情報である。このようなクレーム有無の情報が記録されていることにより、例えば、クレームが多いユーザ端末50については専用のオペレータ端末80(高スキルのオペレータ端末80)に繋ぐなどを行うことが可能となり、ユーザ満足度を向上させることができる。応答内容決定部12は、問合せ情報に音声認識の成否が含まれている場合には問合せテーブルTBの音声認識成功回数(又は失敗回数)を更新し、音声認識に要した時間が含まれている場合には問合せテーブルTBの音声認識発話時間を更新し、音声の特徴が含まれている場合には問合せテーブルTBの言語情報を更新し、問合せ内容が含まれている場合には問合せテーブルTBの問合せ内容を更新する。
応答内容決定部12は、情報DB13の問合せテーブルTBを参照することにより、問合せ情報に含まれる電話番号によって特定されるユーザ端末50の過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する。
応答内容決定部12は、情報DB13の問合せテーブルTBを参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザ端末50に求めない応答を行うように、応答内容を決定してもよい。失敗回数は、問合せテーブルTBの音声認識失敗回数が参照されることにより取得される。また、失敗率は、問合せテーブルTBの音声認識失敗回数及び音声認識成功回数から導かれる。
また、応答内容決定部12は、情報DB13の問合せテーブルTBを参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザ端末50に求めない応答を行うように、応答内容を決定してもよい。音声認識に要した時間は、問合せテーブルTBの音声認識発話時間が参照されることにより取得される。
また、応答内容決定部12は、情報DB13の問合せテーブルTBを参照し、問合せ情報に含まれる電話番号によって特定されるユーザについて、過去の音声認識における音声の特徴に応じて応答内容を決定してもよい。音声の特徴は、問合せテーブルTBの言語情報が参照されることにより取得される。応答内容決定部12は、例えば、音声の特徴から、ユーザの言語(日本語、英語等)、方言(どの地方の言葉)、世代、又は話し方(早い、ゆっくり等)等を特定し、特定した特徴に応じたオペレータのオペレータ端末80に転送されるように、応答内容を決定する。
また、応答内容決定部12は、情報DB13の問合せテーブルTBを参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の問合せ内容に応じて応答内容を決定してもよい。過去の問合せの内容は、問合せテーブルTBの問合せ内容が参照されることにより取得される。応答内容決定部12は、例えば過去の音声認識等によって既に取得済みの情報については、出力部14からユーザ端末50に聞き返しの質問が行われないように、応答内容を決定する。
応答内容決定部12は、応答内容に基づき、情報DB13の問合せテーブルTBの情報を利用して応答を生成しない場合、または、情報DB13の問合せテーブルTBの情報を利用して応答を生成したいが該当のユーザ端末50について問合せテーブルTBの情報が格納されていない場合には、問合せテーブルTBの情報を用いずに応答を生成する。この場合には、応答内容決定部12は、例えば、所定のシナリオに沿ってユーザ端末50に聞き返しの質問(ユーザ端末50の問合せを深掘りするための質問)を行う(出力部14が質問を行う)応答を生成してもよいし、音声認識を行う応答を生成してもよいし、転送部15がオペレータ端末80に接続する応答(どのオペレータ端末80にどのタイミングで接続する等の情報を含む)を生成してもよい。応答内容決定部12は、情報DB13の問合せテーブルTBの情報を利用して応答を生成する場合、問合せテーブルTBを参照して応答を生成する。
応答内容決定部12は、応答を生成すると、出力部14又は転送部15に応答提供指示を出力する。出力部14に出力される応答提供指示には、例えば、生成された応答が含まれている。転送部15に出力される応答提供指示には、例えば、生成された応答と、応答内容を決定するに際して用いられた情報(問合せ情報、該当ユーザ端末50に係る問合せテーブルTBの情報等)とが含まれている。
出力部14は、応答内容決定部12によって決定された応答内容に従って問合せに対する応答をユーザ端末50に提供する。出力部14は、応答内容決定部12から応答提供指示を受け、該応答提供指示に含まれている応答をユーザ端末50に出力する。出力部14から出力される応答は、例えば音声又はテキストメッセージによりユーザ端末50に提供されてもよい。
転送部15は、応答内容決定部12から応答提供指示を受け、オペレータ端末80に応答依頼を指示することにより、オペレータ端末80と協同して、ユーザ端末50に応答を提供する。転送部15は、応答提供指示に含まれている応答に示されたオペレータ端末80に、応答依頼を指示する。応答依頼には、例えば、応答内容を決定するに際して用いられた情報(問合せ情報、該当ユーザ端末50に係る問合せテーブルTBの情報等)が含まれている。オペレータ端末80のオペレータは、これらの情報を参照することによって、ユーザ端末50に適切な応答を提供してもよい。
応対記録部16は、オペレータ端末80におけるユーザ端末50との応対記録を情報DB13の問合せテーブルTBに記録(問合せテーブルTBを更新)する。オペレータ端末80は、例えばオペレータからの入力に応じて、ユーザ端末50の電話番号、ユーザ端末50からの問合せ内容、対応オペレータ名、及びユーザ端末50のユーザからのクレームの有無等の情報を対話装置10に送信する。応対記録部16は、オペレータ端末80から送信された情報に基づき、情報DB13の問合せテーブルTBを更新する。具体的には、応対記録部16は、問合せテーブルTBにおける該当のユーザ端末50について、問合せ内容、対応オペレータ、及びクレーム有無を更新する。
次に、図3のフローチャートを参照して、対話装置10が行う処理について説明する。図3は、対話装置10が行う処理を示すフローチャートである。なお、図3の説明においては、応答内容決定部12が行う、広義の意味での「応答内容を決定する」処理の具体的処理として、問合せ情報に基づき応答内容を決定する処理(ステップS4)、情報DBを利用するか否かを判定する処理(ステップS5及びステップS6)、情報DBを利用して応答を生成する処理(ステップS7)、及び情報DBを利用せずに応答を生成する処理(ステップS8)を例示している。
図3に示されるように、ユーザ端末50から着信があると(ステップS1)、対話装置10の応答内容決定部12は、問合せ情報に所定の情報(具体的には、音声認識の結果)が含まれているか否かを判定する(ステップS2)。
ステップS2において問合せ情報に音声認識の結果が含まれている場合には、応答内容決定部12は、特定した音声認識の内容に基づき、情報DB13の問合せテーブルTB(図2参照)を更新する(ステップS3)。具体的には、応答内容決定部12は、問合せ情報に音声認識の成否が含まれている場合には問合せテーブルTBの音声認識成功回数(又は失敗回数)を更新し、音声認識に要した時間が含まれている場合には問合せテーブルTBの音声認識発話時間を更新し、音声の特徴が含まれている場合には問合せテーブルTBの言語情報を更新し、問合せ内容が含まれている場合には問合せテーブルTBの問合せ内容を更新する。
つづいて、応答内容決定部12は、入力部11から入力される問合せ情報に基づき、応答内容を決定する(ステップS4)。応答内容決定部12は、例えば音声認識に係る応答を行う場合には、情報DB13の問合せテーブルTBの情報を利用すると決定する。また、応答内容決定部12は、例えば情報DB13の情報に関係なく定型的な質問に係る応答を行う場合には、情報DB13の問合せテーブルTBの情報を利用しないと決定する。。
つづいて、応答内容決定部12は、応答内容に基づき、情報DB13の問合せテーブルTBの情報(すなわち過去情報)を利用する応答であるか否かを判定する(ステップS5)。さらに、応答内容決定部12は、ステップS5において問合せテーブルTBの情報を利用する応答であると判定した場合において、問合せテーブルTBに該当のユーザ端末50の情報が格納されているか否かを判定する(ステップS6)。ステップS5において問合せテーブルTBの情報を利用する応答でないと判定した場合、又は、ステップS6において問合せテーブルTBに該当のユーザ端末50の情報が格納されていないと判定した場合には、応答内容決定部12は、問合せテーブルTBの情報(すなわち過去情報)を利用せずに応答を生成する(ステップS8)。一方で、ステップS6において問合せテーブルTBに該当のユーザ端末50の情報が格納されていると判定した場合には、応答内容決定部12は、問合せテーブルTBの情報(すなわち過去情報)を利用して応答を生成する(ステップS7)。
つづいて、応答内容決定部12は、生成した応答がオペレータ端末80への転送に係るものであるか否かを判定する(ステップS9)。ステップS9においてオペレータ端末80への転送に係る応答であると判定した場合には、応答内容決定部12が転送部15に応答提供指示を出力し、転送部15がオペレータ端末80に応答依頼を指示し、オペレータ端末80に所定の情報が転送される(ステップS10)。応答依頼には、例えば、応答内容を決定するに際して用いられた情報(問合せ情報、該当ユーザ端末50に係る問合せテーブルTBの情報等)が含まれている。そして、オペレータ端末80においてユーザ端末50の応対が行われた後に、オペレータ端末80から応対記録部16に応対記録が送信され、応対記録部16によって該応対記録が情報DB13の問合せテーブルTBに格納される(ステップS11)。一方で、ステップS9においてオペレータ端末80への転送に係る応答でないと判定した場合には、応答内容決定部12が出力部14に応答提供指示を出力し、出力部14が応答をユーザ端末50に出力する(ステップS12)。
次に、本実施形態に係る対話システム1の作用効果について説明する。
ユーザ端末50からの問合せに対する応答を提供する対話システム1の対話装置10は、問合せに係る過去の音声認識の内容をユーザ毎に記憶する情報DB13と、問合せに係るユーザ端末50を識別する電話番号を含む問合せ情報をユーザ端末50から取得する入力部11と、情報DB13の問合せテーブルTBを参照することにより、問合せ情報に含まれる電話番号によって特定されるユーザ端末50の過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する応答内容決定部12と、応答内容決定部12によって決定された応答内容に従って問合せに対応する応答を提供する出力部14及び転送部15と、を備える。
本実施形態に係る対話システム1では、ユーザ端末50からの問合せ情報が取得されると共に、該ユーザ端末50の過去の音声認識の内容に基づいて、問合せに対する応答内容が決定される。過去の音声認識の内容としては、例えば、音声認識の成否や音声の特徴等が含まれるところ、このような情報を有効活用して応答内容を決定することにより、応答時間を短縮すると共にユーザが求めている応答(ユーザに合った応答)を提供し易くなり、問合せを行ったユーザの満足度を向上させることができる。応答時間が短縮されることによって、CPU等の処理部における処理負荷を軽減するという技術的効果も併せて奏する。
情報DB13は、過去の音声認識の内容として、過去の音声認識の成否をユーザ毎に記憶しており、応答内容決定部12は、情報DB13を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザに求めない応答を行うように、応答内容を決定する。これにより、音声認識に失敗し易いユーザ端末50に対しては、音声認識以外の方法(例えば音声案内に沿ったボタンプッシュ、或いはオペレータへの転送等)により応答を提供することができる。このことで、音声認識が行えない(或いは行うことが得意でない)ユーザの満足度を向上させることができる。
情報DB13は、過去の音声認識の内容として、過去の音声認識に要した時間をユーザ毎に記憶しており、応答内容決定部12は、情報DB13を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザ端末50に求めない応答を行うように、応答内容を決定する。音声認識に時間を要しているユーザ端末50は、音声認識を行うことが得意でない(音声認識を行いたくない)ユーザ端末50であると推測される。このため、このようなユーザ端末50については音声認識以外の方法により応答を提供することによって、ユーザの満足度を向上させることができる。
情報DB13は、過去の音声認識の内容として、過去の音声認識における音声の特徴をユーザ毎に記憶しており、応答内容決定部12は、情報DB13を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の音声認識における音声の特徴に応じて応答内容を決定する。例えば、音声の特徴から、言語、方言、世代、話し方等を特定することができる。このため、例えばこのような音声の特徴に沿ったオペレータに転送する等の応答を行うことによって、ユーザの満足度を向上させることができる。
情報DB13は、過去の音声認識の内容として、過去の音声認識によって導かれた過去の問合せ内容を記憶しており、応答内容決定部12は、情報DB13を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末50について、過去の問合せ内容に応じて応答内容を決定する。このように、過去の問合せ内容を活用して応答内容を決定することにより、例えば過去に既に取得済みの情報をユーザ端末50に質問する(聞き返しを行う)等の応答が行われることを回避することができ、応答時間を短縮し、ユーザの満足度を向上させることができる。
最後に、対話システム1に含まれた対話装置10のハードウェア構成について、図4を参照して説明する。上述の対話装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対話装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
対話装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、対話装置10の応答内容決定部12等の制御機能はプロセッサ1001で実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対話装置10の応答内容決定部12等の制御機能は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、対話装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broad-band)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-Wide Band)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
ユーザ端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
1…対話システム、10…対話装置、11…入力部(取得部)、13…情報DB(記憶部)、12…応答内容決定部(決定部)、14…出力部(応答提供部)、15…転送部(応答提供部)、50…ユーザ端末。
Claims (5)
- ユーザからの問合せに対する応答を提供する対話システムであって、
前記問合せに係る過去の音声認識の内容をユーザ毎に記憶する記憶部と、
前記問合せに係るユーザを識別するユーザ識別情報を含む問合せ情報をユーザから取得する取得部と、
前記記憶部を参照することにより、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザの過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する決定部と、
前記決定部によって決定された応答内容に従って問合せに対応する応答を提供する応答提供部と、を備える、対話システム。 - 前記記憶部は、前記過去の音声認識の内容として、過去の音声認識の成否をユーザ毎に記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザに求めない応答を行うように、前記応答内容を決定する、請求項1記載の対話システム。 - 前記記憶部は、前記過去の音声認識の内容として、過去の音声認識に要した時間をユーザ毎に記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザに求めない応答を行うように、前記応答内容を決定する、請求項1又は2記載の対話システム。 - 前記記憶部は、前記過去の音声認識の内容として、過去の音声認識における音声の特徴をユーザ毎に記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の音声認識における音声の特徴に応じて前記応答内容を決定する、請求項1~3のいずれか一項記載の対話システム。 - 前記記憶部は、前記過去の音声認識の内容として、過去の音声認識によって導かれた過去の問合せ内容を記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の問合せ内容に応じて前記応答内容を決定する、請求項1~4のいずれか一項記載の対話システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020554756A JP7093844B2 (ja) | 2018-10-30 | 2019-06-19 | 対話システム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-203680 | 2018-10-30 | ||
JP2018203680 | 2018-10-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020090148A1 true WO2020090148A1 (ja) | 2020-05-07 |
Family
ID=70462562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/024372 WO2020090148A1 (ja) | 2018-10-30 | 2019-06-19 | 対話システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7093844B2 (ja) |
WO (1) | WO2020090148A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002182681A (ja) * | 2000-12-13 | 2002-06-26 | Nec Corp | 音声認識型取引システム |
JP2005142897A (ja) * | 2003-11-07 | 2005-06-02 | Fujitsu Support & Service Kk | 電話受付システム |
JP2015049337A (ja) * | 2013-08-30 | 2015-03-16 | 株式会社東芝 | 音声応答装置、音声応答プログラム及び音声応答方法 |
-
2019
- 2019-06-19 JP JP2020554756A patent/JP7093844B2/ja active Active
- 2019-06-19 WO PCT/JP2019/024372 patent/WO2020090148A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002182681A (ja) * | 2000-12-13 | 2002-06-26 | Nec Corp | 音声認識型取引システム |
JP2005142897A (ja) * | 2003-11-07 | 2005-06-02 | Fujitsu Support & Service Kk | 電話受付システム |
JP2015049337A (ja) * | 2013-08-30 | 2015-03-16 | 株式会社東芝 | 音声応答装置、音声応答プログラム及び音声応答方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020090148A1 (ja) | 2021-09-02 |
JP7093844B2 (ja) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6802364B2 (ja) | 対話システム | |
WO2019202788A1 (ja) | 対話システム | |
JP7323370B2 (ja) | 審査装置 | |
WO2019193796A1 (ja) | 対話サーバ | |
WO2020090147A1 (ja) | 対話システム | |
WO2020090148A1 (ja) | 対話システム | |
JP7043593B2 (ja) | 対話サーバ | |
WO2019216054A1 (ja) | 対話サーバ | |
US11971977B2 (en) | Service providing apparatus | |
JP6745402B2 (ja) | 質問推定装置 | |
JP7016405B2 (ja) | 対話サーバ | |
JP7033195B2 (ja) | 対話装置 | |
JP6934825B2 (ja) | 通信制御システム | |
US11430440B2 (en) | Dialog device | |
US11645477B2 (en) | Response sentence creation device | |
JP6944594B2 (ja) | 対話装置 | |
WO2019102904A1 (ja) | 対話装置及び対話式回答システム | |
JP6960049B2 (ja) | 対話装置 | |
JP7357061B2 (ja) | オーソリゼーション装置 | |
JP6957671B2 (ja) | 情報処理装置 | |
JP2024115929A (ja) | 音声書き起こしシステム及び音声翻訳システム | |
JP2018196017A (ja) | 通信端末および通信システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19878759 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020554756 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19878759 Country of ref document: EP Kind code of ref document: A1 |