KR20200053341A - 차량 및 그 제어방법 - Google Patents
차량 및 그 제어방법 Download PDFInfo
- Publication number
- KR20200053341A KR20200053341A KR1020180136845A KR20180136845A KR20200053341A KR 20200053341 A KR20200053341 A KR 20200053341A KR 1020180136845 A KR1020180136845 A KR 1020180136845A KR 20180136845 A KR20180136845 A KR 20180136845A KR 20200053341 A KR20200053341 A KR 20200053341A
- Authority
- KR
- South Korea
- Prior art keywords
- name
- threshold value
- user
- threshold
- name candidate
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000004891 communication Methods 0.000 claims abstract description 54
- 238000012790 confirmation Methods 0.000 claims description 24
- 230000007423 decrease Effects 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 description 57
- 230000006870 function Effects 0.000 description 26
- 230000015654 memory Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 238000005401 electroluminescence Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 210000003195 fascia Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/023—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for transmission of signals between vehicle parts or subsystems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
- H04M1/6041—Portable telephones adapted for handsfree use
- H04M1/6075—Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle
- H04M1/6083—Portable telephones adapted for handsfree use adapted for handsfree use in a vehicle by interfacing with the vehicle audio system
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
- B60W2040/089—Driver voice
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
- B60W2050/009—Priority selection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Transportation (AREA)
- Navigation (AREA)
Abstract
개시된 일 실시예에 따른 차량은, 통화 기능을 제공하는 단말기과 통신하는 통신부; 사용자의 음성을 입력 받는 음성 입력부; 사용자의 통화 패턴에 관한 사용자 패턴을 저장하는 저장부; 및 사용자의 음성이 입력되면 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고, 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하고, 적어도 하나의 이름 후보 중 입력된 음성에 대응하는 이름을 결정된 임계값에 기초하여 선택하는 제어부;를 포함한다.
Description
사용자의 음성을 인식하고, 인식된 음성에 따라 특정 기능을 수행하는 차량 및 그 제어방법에 관한 것이다.
차량에 대한 기술이 발전함에 따라, 차량이 수행하는 기본적인 기능인 주행 이외에도 사용자의 편의를 위한 다양한 기능이 제공되고 있다.
이처럼 차량이 수행할 수 있는 기능이 다양해지면서 사용자의 조작 부하가 증가되고, 조작 부하의 증가는 운전에 대한 집중도를 저하시켜 안전 운전을 방해하는 요인이 된다.
따라서, 사용자의 조작 부하를 감소시키기 위한 사용자 인터페이스에 대한 연구 및 개발이 요구되는바, 특히, 사용자의 음성을 인식하여 해당 음성에 대응되는 기능을 수행하는 음성 인식 기술이 차량에 적용되면, 사용자의 조작 부하를 효과적으로 감소시킬 수 있을 것으로 기대된다.
일 측면은 사용자의 음성을 인식하고, 사용자의 음성에 대응하는 기능을 제공하는 차량 및 그 제어방법을 제공한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 측면에 따른 차량은, 통화 기능을 제공하는 단말기과 통신하는 통신부; 사용자의 음성을 입력 받는 음성 입력부; 상기 사용자의 통화 패턴에 관한 사용자 패턴을 저장하는 저장부; 및 상기 사용자의 음성이 입력되면 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고, 상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 상기 사용자 패턴에 기초하여 결정하고, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 제어부;를 포함한다.
또한, 상기 제어부는, 상기 단말기의 폰북 정보 및 통화 내역 정보가 수신되면, 상기 수신된 폰북 정보 및 통화 내역 정보에 기초하여 사용자 패턴을 생성할 수 있다.
또한, 상기 제어부는, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보 중 상기 입력된 음성에 대응하는 이름을 선택할 수 있다.
또한, 상기 제어부는, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 1개인 경우, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하는지 여부를 판단하고, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하면, 해당 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택할 수 있다.
또한, 상기 제어부는, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 신뢰도 점수가 상기 제2임계값 이하이면, 해당 이름 후보에 대한 확인을 상기 사용자에게 요청할 수 있다.
또한, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 복수개인 경우, 상기 복수개의 이름 후보의 우선 순위를 상기 신뢰도 점수에 기초하여 결정하고, 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이와 제3임계값을 비교하고, 상기 비교 결과에 기초하여 상기 입력된 음성에 대응하는 이름을 선택할 수 있다.
또한, 상기 제어부는, 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값을 초과하면, 상기 우선 순위가 제1순위인 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택할 수 있다.
또한, 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값 이하이면, 상기 우선 순위가 제1순위인 이름 후보에 대한 확인을 상기 사용자에게 요청할 수 있다.
또한, 상기 제어부는, 상기 단말기의 폰북 정보가 수신되면, 상기 수신된 폰북 정보 중 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고, 상기 검색된 이름 후보의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경할 수 있다.
또한, 상기 제어부는, 상기 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시킬 수 있다.
또한, 상기 제어부는, 상기 폰북 정보로부터 상기 검색된 이름 후보에 대한 카테고리의 개수를 확인하고, 상기 카테고리의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경할 수 있다.
또한, 상기 제어부는, 상기 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시킬 수 있다.
또한, 상기 제어부는, 상기 선택된 이름에 대한 제어 명령을 상기 단말기로 전송하도록 상기 통신부를 제어할 수 있다.
다른 측면에 따른 차량은, 사용자의 음성을 입력 받고; 상기 사용자의 음성이 입력되면 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고; 상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하고; 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것;을 포함한다.
또한, 단말기의 폰북 정보 및 통화 내역 정보가 수신되면, 상기 수신된 폰북 정보 및 통화 내역 정보에 기초하여 사용자 패턴을 생성하는 것;을 더 포함할 수 있다.
또한, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보 중 상기 입력된 음성에 대응하는 이름을 선택하는 것;을 포함할 수 있다.
또한, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 1개인 경우, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하는지 여부를 판단하고, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하면, 해당 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택하는 것;을 포함할 수 있다.
또한, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 신뢰도 점수가 상기 제2임계값 이하이면, 해당 이름 후보에 대한 확인을 상기 사용자에게 요청하는 것;을 더 포함할 수 있다.
또한, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은, 상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 복수개인 경우, 상기 복수개의 이름 후보의 우선 순위를 상기 신뢰도 점수에 기초하여 결정하고; 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이와 제3임계값을 비교하고; 및 상기 비교 결과에 기초하여 상기 입력된 음성에 대응하는 이름을 선택하는 것;을 포함할 수 있다.
또한, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은, 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값을 초과하면, 상기 우선 순위가 제1순위인 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택하는 것;을 포함할 수 있다.
또한, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은, 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값 이하이면, 상기 우선 순위가 제1순위인 이름 후보에 대한 확인을 상기 사용자에게 요청하는 것;을 포함할 수 있다.
또한, 적어도 하나의 이름 후보를 검색하는 것은, 상기 단말기의 폰북 정보가 수신되면, 상기 수신된 폰북 정보 중 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고, 상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하는 것은, 상기 검색된 이름 후보의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것;을 포함할 수 있다.
또한, 상기 검색된 이름 후보의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것은, 상기 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시키는 것;을 포함할 수 있다.
또한, 상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하는 것은, 상기 폰북 정보로부터 상기 검색된 이름 후보에 대한 카테고리의 개수를 확인하고, 상기 카테고리의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것;을 포함할 수 있다.
또한, 상기 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것은, 상기 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시키는 것;을 포함할 수 있다.
또한, 상기 선택된 이름에 대한 제어 명령을 상기 단말기로 전송하는 것;을 더 포함할 수 있다.
일 측면에 따른 차량 및 그 제어방법에 따르면, 보다 정확하고 빠른 음성 인식 기능이 제공될 수 있으므로, 사용자의 편의성이 증대될 수 있다.
도 1은 일 실시예에 따른 차량의 제어 블록도이다.
도2는 일 실시예에 따른 차량의 내부 구성을 나타낸 도면이다.
도 3은 일 실시예에 따른 제어부의 동작을 설명하기 위한 도면이다.
도 4 및 도 5는 일 실시예에 따른 인식 결과의 예시를 나타낸 도면이다.
도 6은 일 실시예에 따른 사용자 패턴의 예시를 나타낸 도면이다.
도 7 및 도 8은 일 실시예에 다른 디스플레이에 표시될 수 있는 화면의 예시를 나타낸 도면이다.
도 9 및 도 10은 일 실시예에 따른 차량의 제어방법을 나타낸 흐름도이다.
도2는 일 실시예에 따른 차량의 내부 구성을 나타낸 도면이다.
도 3은 일 실시예에 따른 제어부의 동작을 설명하기 위한 도면이다.
도 4 및 도 5는 일 실시예에 따른 인식 결과의 예시를 나타낸 도면이다.
도 6은 일 실시예에 따른 사용자 패턴의 예시를 나타낸 도면이다.
도 7 및 도 8은 일 실시예에 다른 디스플레이에 표시될 수 있는 화면의 예시를 나타낸 도면이다.
도 9 및 도 10은 일 실시예에 따른 차량의 제어방법을 나타낸 흐름도이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.
도 1은 일 실시예에 따른 차량의 제어 블록도이고, 도 2는 일 실시예에 따른 차량의 내부 구성을 나타낸 도면이다.
도 1 및 도 2를 참조하면, 일 실시예에 따른 차량(1)은 음성 입력부(110), 통신부(120), 스피커(151), 디스플레이(152), 제어부(130), 저장부(140) 및 입력부(160)를 포함할 수 있다.
차량(1)은 사용자의 제어 명령을 음성 입력부(110)를 통해 음성으로 입력 받을 수 있다. 음성 입력부(110)는 음향을 입력 받아 전기적인 신호로 변환하여 출력할 수 있다. 이를 위해, 음성 입력부(110)는 마이크로폰으로 구현될 수 있으나, 이에 한정되지는 않는다.
효과적인 음성의 입력을 위하여 음성 입력부(110)는 도 2에 도시된 바와 같이 헤드라이닝(64)에 장착될 수 있으나, 차량(1)의 실시예가 이에 한정되는 것은 아니며, 대시보드(61) 위에 장착되거나 스티어링 휠(65)에 장착되는 것도 가능하다. 이 외에도 사용자의 음성을 입력 받기에 적합한 위치이면 어디든 제한이 없다.
통신부(120)는 외부의 서버 또는 단말기(2)와 통신할 수 있다. 통신부(120)는 단말기(2)과 다양한 정보를 송수신할 수 있다. 구체적으로, 통신부(120)는 단말기(2)로부터 폰북 정보 및 통화 내역 정보를 수신할 수 있다.
이 때, 폰북 정보는 이름, 이름별 전화 번호, 이름별 즐겨찾기 설정 정보 및 이름별 카테고리를 포함할 수 있다. 여기서, 이름별 카테고리는 이름별 전화 번호에 대한 종류를 의미하며, 예를 들어, 카테고리는 '모바일', '집' 및 '오피스' 중 적어도 하나일 수 있다.
통화 내역 정보는 이름, 이름별 발신, 수신 정보, 이름별 발신 시간, 이름별 수신시간 정보를 포함한다. 여기서 통화 내역 정보는 최근 통화한 시간부터 시간 순서대로 나열될 수 있다. 아울러 나열된 통화 내역 정보는 발신별, 송신별로 각각 나열되는 것도 가능하고, 발신 및 송신 여부와 상관없이 시간 순서대로 나열되는 것도 가능하다.
한편, 단말기(2)는 통화 기능을 수행할 수 있는 장치를 의미한다. 단말기(2)는 네트워크를 통해 차량(1)에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.
통신부(120)는 외부 장치와 통신을 가능하게 하는 하나 이상의 통신 모듈을 포함할 수 있으며, 예를 들어 근거리 통신 모듈, 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다.
근거리 통신 모듈은 블루투스 모듈, 적외선 통신 모듈, RFID(Radio Frequency Identification) 통신 모듈, WLAN(Wireless Local Access Network) 통신 모ㄴ듈, NFC 통신 모듈, 직비(Zigbee) 통신 모듈 등 근거리에서 무선 통신망을 이용하여 신호를 송수신하는 다양한 근거리 통신 모듈을 포함할 수 있다.
유선 통신 모듈은 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.
무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.
또한, 무선 통신 모듈은 신호를 송수신하는 안테나, 송신기(Transmitter) 및 수신기(Receiver)를 포함할 수 있다.
또한, 무선 통신 모듈은 디지털 제어 신호를 아날로그 형태의 무선 신호로 변조하고, 수신한 아날로그 형태의 무선 신호를 디지털 제어 신호로 복조하기 위한 신호 변환 모듈을 더 포함할 수 있다.
또한, 통신부(120)는 차량(1) 내부의 전자 장치들 사이의 통신을 위한 내부 통신 모듈을 더 포함할 수도 있다. 차량(1)의 내부 통신 프로토콜로는 CAN(Controller Area Network), LIN(Local Interconnection Network), 플렉스레이(FlexRay), 이더넷(Ethernet) 등을 사용할 수 있다.
통신부(120)는 무선 통신 모듈을 이용하여 외부의 서버와 데이터를 주고 받을 수 있고, 근거리 통신 모듈 또는 유선 통신 모듈을 이용하여 모바일 기기와 데이터를 주고 받을 수 있다.
차량(1) 내부의 대시보드(61)의 중앙 영역인 센터페시아(62)에는 오디오 기능, 비디오 기능, 내비게이션 기능, 전화 걸기 기능을 포함하는 차량의 제어를 수행하기 위해 필요한 화면을 표시하는 디스플레이(152)와 사용자의 제어 명령을 입력 받기 위한 입력부(160)가 마련될 수 있다.
디스플레이(152)는 음극선관(Cathode Ray Tube: CRT), 디지털 광원 처리(Digital Light Processing: DLP) 패널, 플라즈마 디스플레이 패널(Plasma Display Penal), 액정 디스플레이(Liquid Crystal Display: LCD) 패널, 전기 발광(Electro Luminescence: EL) 패널, 전기영동 디스플레이(Electrophoretic Display: EPD) 패널, 전기변색 디스플레이(Electrochromic Display: ECD) 패널, 발광 다이오드(Light Emitting Diode: LED) 패널 또는 유기 발광 다이오드(Organic Light Emitting Diode: OLED) 패널 등의 다양한 디스플레이 장치 중 하나로 구현될 수 있다.
사용자는 입력부(160)를 조작하여 차량(1)을 제어하기 위한 명령을 입력할 수 있다. 입력부(160)는 도 2에 도시된 바와 같이 디스플레이(152)와 인접한 영역에 하드 키 타입으로 마련될 수도 있고, 디스플레이(152)가 터치 스크린 타입으로 구현되는 경우에는 디스플레이(152)가 입력부(160)의 기능도 함께 수행할 수 있다.
입력부(160)는 스티어링 휠에도 마련되어 운전 중인 운전자가 스티어링 휠에서 손을 떼지 않은 상태에서도 차량(1)의 제어와 관련된 명령을 입력할 수 있도록 할 수 있다.
또한, 입력부(160)는 죠그 셔틀(jog shuttle) 타입 또는 하드 키 타입의 센터 입력부(43)에도 마련될 수 있으며, 차량(1)의 제어와 관련된 명령을 입력할 수 있는 구성을 모두 포함할 수 있다.
또한, 차량(1) 내부에는 사용자가 원하는 서비스를 제공하기 위해 필요한 음향을 출력하는 스피커(151)가 마련될 수 있다. 일 예로, 스피커(151)는 운전석 도어(71L) 및 조수석 도어(71R) 내측에 마련될 수 있다.
스피커(151)는 통화 기능을 제공하기 위한 음성, 내비게이션 경로 안내를 위한 음성, 오디오/비디오 컨텐츠에 포함되는 음향 또는 음성, 사용자가 원하는 정보나 서비스를 제공하기 위한 음성, 사용자의 발화에 대한 응답으로서 생성된 음성 등을 출력할 수 있다.
제어부(130)는 차량(1)의 내부 구성에 대한 전반적인 제어를 수행할 수 있다.
제어부(130)는 단말기(2)와 다양한 정보를 송수신하도록 통신부(120)를 제어할 수 있다. 구체적으로, 제어부(130)는 단말기(2)로부터 폰북 정보 및 통화 내역 정보 등을 포함하는 다양한 정보들을 수신하도록 통신부(120)를 제어할 수 있다.
제어부(130)는 단말기(2)로부터 수신된 폰북 정보 및 통화 내역 정보에 기초하여 사용자 패턴을 생성할 수 있다. 구체적으로, 제어부(130)는 폰북 정보 및 통화 내역 정보에 기초하여 사용자의 통화 내역의 특징을 파악하기 위해 필요한 정보들을 추출 또는 수집함으로써 사용자 패턴을 생성할 수 있다.
이 때, 사용자 패턴은 사용자의 통화 패턴에 관한 정보를 의미하며, 구체적으로 시간별 사용자의 통화 내역의 특징 정보를 의미할 수 있다. 사용자 패턴은 폰북 정보의 이름, 이름별 카테고리, 이름별 통화 횟수, 이름별 발신 시간, 이름별 수신 시간, 이름별 카테고리에 대한 발신 시간, 이름별 카테고리에 대한 수신 시간 등을 포함할 수 있다. 이 외에도 사용자 패턴은 이름별 신뢰도 점수(confidence score), 이름별 신뢰도 점수에 대한 적어도 하나의 임계값, 이름별 추천된 액션 및 이름별 추천된 액션의 수행 여부 등의 사용자의 통화 패턴을 판단하기 위하여 필요한 다양한 정보들을 포함할 수 있다.
또한, 제어부(130)는 음성 입력부(110)를 통하여 사용자의 음성이 입력되면, 입력된 음성에 대응하는 이름에 대한 제어 명령을 단말기(2)로 전송하도록 통신부(120)를 제어할 수 있다.
이 때, 제어부(130)는 사용자의 음성에 대응하는 이름에 대한 통화 발신 명령을 단말기(2)로 전송하도록 통신부(120)를 제어할 수 있다. 제어부(130)는 사용자의 음성에 대응하는 이름과 매칭된 전화번호를 함께 전송할 수 있으며, 통신부(120)를 통하여 해당 이름에 대한 통화 발신 명령을 단말기(2)로 전송할 수 있다.
이를 위해, 제어부(130)는 사용자의 음성에 대응하는 적어도 하나의 이름 후보를 검색할 수 있고, 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정할 수 있다. 제어부(130)는 적어도 하나의 이름 후보 중 입력된 음성에 대응하는 이름을 결정된 임계값에 기초하여 선택할 수 있다. 이에 관한 자세한 설명은 후술한다.
한편, 제어부는 차량(1) 내 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장하는 메모리(미도시), 및 메모리에 저장된 데이터를 이용하여 전술한 동작을 수행하는 프로세서(미도시)로 구현될 수 있다. 이때, 메모리와 프로세서는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리와 프로세서는 단일 칩으로 구현될 수도 있다.
저장부(140)는 수신된 단말기(2)의 폰북 정보, 통화 내역 정보, 사용자 패턴 등의 다양한 정보를 저장할 수 있다.
또한, 저장부(140)는 음향 모델, 언어 모델, 단어 정보 등의 음성 인식과 관련된 다양한 정보를 저장할 수 있다.
이를 위해, 저장부(140)는 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다. 저장부는 제어부(130)와 관련하여 전술한 프로세서와 별개의 칩으로 구현된 메모리일 수 있고, 프로세서와 단일 칩으로 구현될 수도 있다.
도 1에 도시된 차량(1)의 구성 요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
한편, 도 1에서 도시된 각각의 구성요소는 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.
이하, 구체적인 제어부(130)의 동작에 관하여 상세히 설명한다.
도 3은 일 실시예에 따른 제어부의 동작을 설명하기 위한 도면이다.
도 3을 참조하면, 일 실시예에 따른 제어부(130)는 음성 입력부(110)로부터 수신된 입력 신호에 대한 노이즈 제거를 수행하는 전처리부(131), 입력된 사용자의 음성을 인식하여 텍스트 형태의 발화문을 출력하는 음성 인식부(132), 인식 결과 중 사용자의 음성에 대응하는 이름을 선택하는 후처리부(133)를 포함할 수 있다.
전처리부(131)는 음성 입력부(110)로부터 수신된 입력 신호에 대하여 노이즈 제거를 수행할 수 있다. 또한, 전처리부(131)는 신호 증폭 등의 다양한 신호 처리를 통하여 입력 신호에서 잡음을 제거하는 노이즈 제거를 수행할 수 있다.
또한, 전처리부(131)는 음성 입력부(110)로부터 전달되는 입력 신호를 모니터링하여 사용자의 음성이 입력되는지 여부를 판단할 수 있다.
기존에는 사용자가 음성을 입력하기 위해 PTT(Push to Talk) 버튼을 조작하여 마이크를 오픈하거나, 음성 인식을 활성화시키기 위한 별도의 명령어를 발화하는 등의 트리거 신호를 입력해야 했다. 그러나, 일 실시예에 따른 차량(1)에서는 음성 입력부(110)가 상시 오픈되어 있고, 음성 입력부(110)를 통해 입력되는 신호를 전처리부(131)가 실시간으로 모니터링하여 사용자의 음성 입력 여부를 판단할 수 있다.
사용자의 음성이 입력된 것으로 판단하면, 전처리부(131)는 입력된 신호에 대한 노이즈 제거를 수행할 수 있고, 이러한 신호 처리된 음성 신호를 음성 인식부(132)로 전달할 수 있다.
음성 인식부(132)는 입력된 음성 신호로부터 사용자가 발화한 음성을 인식할 수 있고, 그 인식 결과를 출력할 수 있다. 음성 인식부(132)에서 출력되는 인식 결과는 텍스트 형태의 발화문일 수 있다.
이를 위해, 음성 인식부(132)는 음성 인식 엔진(speech recognition engine)을 포함할 수 있고, 음성 인식 엔진은 입력된 음성에 음성 인식 알고리즘을 적용하여 사용자가 발화한 음성을 인식하고, 인식 결과를 생성할 수 있다.
음성 인식부(132)는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model) 과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)을 이용할 수 있다. 이를 위해, 저장부(140)에는 음향 모델/언어 모델 DB(141, 142)가 저장될 수 있다.
한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어 모델에는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어 모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용된다.
음성 인식부(132)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든 마르코프 모델이 적용된 음향 모델을 사용할 수도 있고, 음향 모델과 음성 모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음향 모델과 언어 모델을 이용하여 N개까지의 인식 결과 후보를 검색한 후, 이들 후보의 순위를 재평가함으로써 인식 성능을 향상시킬 수 있다.
음성 인식부(132)는 인식 결과의 신뢰성을 확보하기 위해 신뢰도 점수(confidence score)를 계산할 수 있다. 신뢰도 점수는 음성 인식 결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도이다. 일 예로, 인식된 결과인 음소나 단어에 대해서, 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰도 점수는 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 10000 사이의 값으로 표현할 수도 있으며, 이에 한정되지 않는다.
또한, 음성 인식부(132)는 사용자의 음성으로부터 출력된 텍스트 형태의 발화문으로부터 이름을 추출할 수 있다. 이 경우, 음성 인식부(132)는 사용자의 음성에 대응하는 이름에 대한 적어도 하나의 이름 후보를 검색할 수 있으며, 인식 결과는 적어도 하나의 이름 후보를 포함할 수 있다. 또한, 적어도 하나의 이름 후보에 대한 신뢰도 점수를 더 포함할 수 있다.
예를 들어, 전술한 N-best 탐색법을 이용하는 경우, 음성 인식부(132)는 N개까지의 이름 후보를 검색할 수 있다. 음성 인식부(132)는 N개의 이름 후보의 순위를 평가함으로써 인식 결과를 출력할 수 있고, N개의 이름 후보에 대하여 신뢰도 점수를 산출할 수 있다.
이러한 음성 인식부(132)에 의해 생성된 인식 결과는 후처리부(133)으로 전달될 수 있다. 후처리부(133)는 인식 결과 중 사용자의 음성에 대응하는 이름을 선택할 수 있고, 선택된 이름에 대한 다양한 제어 명령을 단말기(2)로 전송하도록 통신부(120)를 제어할 수 있다.
예를 들어, 후처리부(133)는 사용자의 음성에 대응하는 이름에 대한 통화 발신 명령을 단말기(2)로 전송하도록 통신부(120)를 제어할 수 있다. 후처리부(133)는 사용자의 음성에 대응하는 이름과 매칭된 전화번호를 함께 전송할 수 있으며, 통신부(120)를 통하여 해당 이름에 대한 통화 발신 명령을 단말기(2)로 전송할 수 있다.
이를 위해, 후처리부(133)는 인식 결과에 포함된 적어도 하나의 이름 후보 중 사용자의 음성에 대응하는 이름을 선택할 수 있다.
구체적으로, 후처리부(153)는 인식 결과에 포함된 적어도 하나의 이름 후보 중 사용자의 음성에 대응하는 이름을 미리 설정된 임계값에 기초하여 선택할 수 있다. 이 때, 미리 설정된 임계값은 인식 결과에 대한 신뢰도 점수에 대한 임계값을 의미하며, 적어도 하나일 수 있다.
후처리부(133)는 이러한 적어도 하나의 임계값을 신뢰도 점수 DB(144)에 저장할 수 있고, 인식 결과에 대한 임계값을 이름 또는 음성을 입력한 사용자별로 저장할 수도 있다.
후처리부(133)는 신뢰도 점수가 미리 설정된 제1임계값(threshold)을 초과하는 이름 후보 중에서 사용자의 음성에 대응하는 이름을 선택함으로써 선택된 이름에 대한 동작이 수행되도록 할 수 있다. 이 때, 제1임계값은 인식 결과에 대한 최소한의 신뢰성을 보장하는 신뢰도 점수를 의미할 수 있다.
후처리부(133)는 인식 결과에 포함된 적어도 하나의 이름 후보 중 신뢰도가 미리 설정된 제1임계값을 초과하는 이름 후보가 존재하지 않으면, 인식 결과에 대한 신뢰성을 보장할 수 없으므로 인식 결과를 거절(rejection)할 수 있다. 즉, 인식 실패를 확인할 수 있다. 이 경우, 후처리부(133)는 사용자에게 음성을 다시 입력할 것을 디스플레이(152) 또는 스피커(151)를 통하여 요청할 수 있다.
또한, 후처리부(133)는 인식 결과에 포함된 적어도 하나의 이름 후보 중 신뢰도가 미리 설정된 제1임계값을 초과하는 이름 후보가 1개인 경우, 해당 이름 후보의 신뢰도 점수가 제2임계값을 초과하는지 여부를 판단할 수 있고, 판단 결과에 기초하여 사용자의 음성에 대응하는 이름을 선택할 수 있다.
이 때, 제2임계값은 인식 결과에 대한 최대한의 신뢰성을 보장할 수 있는 신뢰도 점수를 의미할 수 있고, 제1임계값보다 클 수 있다.
구체적으로, 후처리부(133)는 신뢰도가 제1임계값을 초과하는 이름 후보의 신뢰도 점수가 제2임계값을 초과하면, 높은 신뢰성을 보장하는 경우에 해당하므로, 해당 이름 후보를 입력된 음성에 대응하는 이름으로 선택할 수 있다.
또는, 후처리부(133)는 신뢰도가 제1임계값을 초과하는 이름 후보의 신뢰도 점수가 제2임계값 이하인 경우, 높은 신뢰성을 보장하는 경우에 해당한다고 볼 수 없으므로, 해당 이름 후보에 대한 확인을 사용자에게 시각적 또는 청각적으로 요청할 수 있다.
이를 위해, 후처리부(133)는 해당 이름 후보에 관한 정보에 대한 확인을 사용자에게 요청하도록 디스플레이(152) 또는 스피커(151)를 제어할 수 있고, 사용자로부터 해당 이름 후보에 대한 확인이 이루어지는 경우, 확인된 이름 후보를 사용자 음성에 대응하는 이름으로 선택할 수 있다.
신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 복수개인 경우, 후처리부(133)는 복수개의 이름 후보의 우선 순위를 신뢰도 점수에 기초하여 결정할 수 있다. 후처리부(133)는 결정된 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이와 제3임계값을 비교할 수 있고, 비교 결과에 기초하여 사용자의 음성에 대응하는 이름을 선택할 수 있다.
이 때, 제3임계값은 인식 결과 간의 신뢰도 점수의 차이에 대한 신뢰성을 보장하는 임계값을 의미할 수 있고, 제 1 임계값 및 제2임계값 보다 작은 신뢰도 점수를 갖는 임계값일 수 있다.
우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 제3임계값을 초과하는 경우, 제1순위인 이름 후보에 대한 신뢰성이 보장되므로, 후처리부(133)는 우선 순위가 제1순위인 이름 후보를 사용자의 음성에 대응하는 이름으로 선택할 수 있다.
또는, 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 제3임계값 이하인 경우, 제1순위인 이름 후보에 대한 신뢰성이 보장되지 않는 바, 후처리부(133)는 우선 순위가 제1순위인 이름 후보에 대한 확인을 사용자에게 시각적 또는 청각적으로 요청할 수 있다.
다시 말해, 후처리부(133)는 우선 순위가 제1순위인 이름 후보를 곧바로 사용자의 음성에 대응하는 이름으로 선택하지 않고, 사용자에게 확인을 요청함으로써, 사용자로부터 확인이 이루어지는 경우에만 제1순위인 이름 후보를 사용자 음성에 대응하는 이름으로 선택할 수 있다.
또한, 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 제3임계값 이하인 경우, 후처리부(133)는 제1순위인 이름 후보에 대한 카테고리가 복수개인지 여부를 확인할 수 있다.
이 때, 제1순위인 이름 후보에 대한 카테고리가 복수개가 아닌 경우, 즉 제1순위인 이름 후보가 하나의 카테고리만을 포함하는 경우, 후처리부(133)는 우선 순위가 제1순위인 이름 후보에 대한 확인을 사용자에게 시각적 또는 청각적으로 요청할 수 있다.
즉, 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 제3임계값 이하인 경우는 제1순위인 이름 후보에 대한 신뢰성이 보장되지 않는 경우이므로, 후처리부(133)는 우선 순위가 제1순위인 이름 후보를 곧바로 사용자의 음성에 대응하는 이름으로 선택하지 않고, 사용자에게 확인을 요청할 수 있다. 후처리부(133)는 사용자로부터 확인이 이루어지는 경우에만 제1순위인 이름 후보를 사용자 음성에 대응하는 이름으로 선택함으로써 음성 인식의 정확도를 높일 수 있다.
제1순위인 이름 후보에 대한 카테고리가 복수개인 경우, 즉 제1순위인 이름 후보가 복수개의 카테고리만을 포함하는 경우, 후처리부(133)는 저장된 사용자 패턴에 기초하여 복수개의 카테고리 각각의 확률값을 결정할 수 있다.
이 때, 후처리부(133)는 사용자 패턴의 이름별 카테고리에 대한 발신 시간 또는 이름별 카테고리에 대한 수신 시간 중 적어도 하나에 기초하여 복수개의 카테고리 각각의 확률값을 결정할 수 있다.
후처리부(133)는 복수개의 카테고리별 확률값에 기초하여 최대 확률값을 갖는 카테고리를 선택할 수 있으며, 선택된 카테고리의 확률값이 미리 정해진 신뢰도 점수를 초과하는지 여부를 확인할 수 있다.
선택된 카테고리의 확률값이 미리 정해진 신뢰도 점수를 초과하면, 후처리부(133)는 선택된 카테고리에 대한 제어를 수행할 수 있다. 즉, 후처리부(133)는 제1순위 이름 후보에 대한 선택된 카테고리에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
이 경우, 후처리부(133)는 사용자 개인의 통화 특성을 반영한 사용자 패턴을 이용하므로, 보다 정확한 통화 발신 명령을 전송할 수 있다. 따라서, 음성 인식을 이용한 통화 기능을 제공함에 있어서, 보다 정확한 통화 기능 제공이 가능할 수 있으므로, 사용성 및 편의성이 증대될 수 있다.
또는, 선택된 카테고리의 확률값이 미리 정해진 신뢰도 점수 이하이면, 후처리부(133)는 사용자에게 카테고리에 대한 선택을 요청할 수 있다. 이 경우, 후처리부(133)는 선택된 카테고리에 대한 제어를 바로 수행하지 않고, 미리 정해진 개수의 카테고리 후보를 사용자에게 표시함으로써 사용자에게 카테고리에 대한 선택을 요청할 수 있다.
이후, 사용자로부터 카테고리의 선택이 수신되면, 후처리부(133)는 선택된 카테고리에 대한 제어를 수행할 수 있다. 즉, 후처리부(133)는 제1순위 이름 후보에 대한 선택된 카테고리에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
이를 통해, 보다 정확한 사용자 음성 인식 기능이 제공될 수 있고, 사용자의 음성 인식 성공률이 높아지므로 사용자의 편의성이 증대될 수 있다.
또한, 후처리부(133)는 미리 정해진 임계값을 변경할 수 있다. 구체적으로, 후처리부(133)는 사용자의 통화 패턴에 관한 사용자 패턴에 기초하여 적어도 하나의 임계값을 결정할 수 있다.
이를 위해, 후처리부(133)는 단말기의 폰북 정보 및 통화 내역 정보에 기초하여 사용자 패턴을 생성할 수 있고, 사용자 패턴 DB(143)에 저장할 수 있다.
구체적으로, 후처리부(133)는 폰북 정보 및 통화 내역 정보에 기초하여 사용자의 통화 내역의 특징을 파악하기 위해 필요한 정보들을 추출 또는 수집함으로써 사용자 패턴을 생성할 수 있다.
이 때, 사용자 패턴은 사용자의 통화 패턴에 관한 정보를 의미하며, 구체적으로 시간별 사용자의 통화 내역의 특징 정보를 의미할 수 있다. 사용자 패턴은 폰북 정보의 이름, 이름별 카테고리, 이름별 통화 횟수, 이름별 발신 시간, 이름별 수신 시간, 이름별 카테고리에 대한 발신 시간, 이름별 카테고리에 대한 수신 시간 등을 포함할 수 있다. 이 외에도 사용자 패턴은 이름별 신뢰도 점수(confidence score), 이름별 신뢰도 점수에 대한 적어도 하나의 임계값, 이름별 추천된 액션 및 이름별 추천된 액션의 수행 여부 등의 사용자의 통화 패턴을 판단하기 위하여 필요한 다양한 정보들을 포함할 수 있다.
또한, 후처리부(133)는 단말기(2)의 폰북 정보 중 사용자의 음성에 대응하는 적어도 하나의 이름 후보를 검색할 수 있고, 검색된 이름 후보의 개수에 기초하여 적어도 하나의 임계값을 변경할 수 있다. 즉, 후처리부(133)는 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경할 수 있다.
구체적으로, 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우, 후처리부(133)는 제2임계값을 증가시킬 수 있다. 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우는 폰북에 비슷한 이름이 없다는 의미일 수 있다. 이 경우, 폰북에 비슷한 이름이 많은 경우 보다 사용자의 음성에 대응하는 정확한 이름이 검색될 확률이 높아질 수 있다. 즉, 인식률이 높은 환경일 수 있다. 따라서, 후처리부(133)는 제2임계값을 증가시킴으로써 인식 결과에 포함된 이름 후보의 개수를 줄일 수 있고, 선택된 이름에 대한 제어가 바로 수행될 수 있도록 할 수 있다. 따라서, 사용자의 사용성이 증대될 수 있다.
또한, 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우, 후처리부(133)는 제3임계값을 감소시킬 수 있다. 이 경우, 인식 결과 사이에 대한 신뢰도 점수 차이가 작은 경우에도 사용자에 대한 확인 요청 없이 제1순위인 이름 후보를 선택할 수 있으므로, 사용자의 사용성이 증대될 수 있다.
또한, 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수를 초과하는 경우, 후처리부(133)는 제1임계값 또는 제2임계값 중 적어도 하나를 감소시킬 수 있다. 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수를 초과하는 경우는 폰북에 비슷한 이름이 많다는 의미일 수 있다. 이 경우, 폰북에 비슷한 이름이 적은 경우 보다 사용자의 음성에 대응하는 정확한 이름이 검색될 확률이 낮아질 수 있다. 즉, 인식율이 낮은 환경일 수 있다.
따라서, 후처리부(133)는 제1임계값 또는 제2임계값 중 적어도 하나를 감소시킴으로써 인식 결과에 포함된 이름 후보의 개수를 늘릴 수 있고, 선택된 이름에 대한 제어가 바로 수행되지 않도록 할 수 있다. 따라서, 음성 인식의 정확성 및 인식률이 증대될 수 있다.
또한, 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수를 초과하는 경우, 후처리부(133)는 제3임계값을 증가시킬 수 있다. 이 경우, 인식 결과 사이에 대한 신뢰도 점수 차이가 큰 경우에도 사용자에 대한 확인 요청이 이루어지므로, 음성 인식의 정확성 및 인식률이 증대될 수 있다.
또한, 후처리부(133)는 단말기(2)의 폰북 정보로부터 검색된 이름 후보에 대한 카테고리의 개수를 확인할 수 있고, 확인된 카테고리의 개수에 기초하여 적어도 하나의 임계값을 변경할 수 있다.
구체적으로, 검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우, 후처리부(133)는 제1임계값 또는 제2임계값 중 적어도 하나를 증가시킬 수 있다.
검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우는 이름에 매칭되는 전화번호 종류가 적다는 의미일 수 있다. 이 경우, 이름에 매칭되는 전화번호 종류가 많은 경우 보다 사용자의 요구에 부합하는 기능을 제공할 확률이 높아질 수 있다. 즉, 인식율이 높은 환경일 수 있다.
따라서, 후처리부(133)는 제1임계값 또는 제2임계값 중 적어도 하나를 증가시킴으로써 인식 결과에 포함된 이름 후보의 개수를 줄일 수 있고, 선택된 이름에 대한 제어가 바로 수행될 수 있도록 할 수 있다. 따라서, 사용자의 편의성이 증대될 수 있다.
또한, 검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우, 후처리부(133)는 제3임계값을 감소시킬 수 있다. 이 경우, 인식 결과 사이에 대한 신뢰도 점수 차이가 작은 경우에도 사용자에 대한 확인 요청 없이 제1순위인 이름 후보를 선택할 수 있으므로, 사용자의 편의성이 증대될 수 있다.
또는, 검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수를 초과하는 경우, 후처리부(133)는 제1임계값 또는 제2임계값 중 적어도 하나를 감소시킬 수 있다.
검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수를 초과하는 경우는 이름에 매칭되는 전화번호 종류가 많다는 의미일 수 있다. 이 경우, 이름에 매칭되는 전화번호 종류가 적은 경우 보다 사용자의 요구에 부합하는 기능을 제공할 확률이 낮아질 수 있다. 즉, 인식율이 낮은 환경일 수 있다.
따라서, 후처리부(133)는 제1임계값 또는 제2임계값 중 적어도 하나를 감소시킴으로써 인식 결과에 포함된 이름 후보의 개수를 늘릴 수 있다. 후처리부(133)는 선택된 이름에 대한 제어가 바로 수행되지 않고, 사용자의 확인 요청이 이루어지도록 함으로써 음성 인식의 정확성 및 인식률을 증대시킬 수 있다.
또한, 검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수를 초과하는 경우, 후처리부(133)는 제3임계값을 증가시킬 수 있다. 이 경우, 인식 결과 사이에 대한 신뢰도 점수 차이가 큰 경우에도 사용자에 대한 확인 요청이 수행되고, 사용자로부터 확인된 이름 후보가 선택될 수 있다. 따라서, 음성 인식의 정확성 및 인식률이 증대될 수 있다.
후처리부(133)는 변경된 적어도 하나의 임계값을 신뢰도 점수 DB(144)에 저장함으로서 임계값을 업데이트할 수 있다. 또한, 후처리부(133)는 변경된 임계값에 대한 사용자 패턴을 생성하거나 저장된 사용자 패턴이 포함하는 임계값을 변경된 임계값으로 변경함으로써 사용자 패턴을 업데이트할 수 있다.
한편, 전처리부(131), 음성 인식부(132), 및 후처리부(133)는 각각 별개의 메모리 및 프로세서를 포함할 수도 있고, 메모리와 프로세서를 상호 간에 공유할 수도 있다.
또한, 메모리 및 프로세서는 복수 개 사용될 수도 있는바, 이 경우, 복수의 메모리와 프로세서가 하나의 칩 상에 집적될 수도 있고, 물리적으로 분리된 위치에 마련될 수도 있다.
도 3에 도시된 제어부(130)의 구성 요소들의 성능에 대하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
도 4는 일 실시예에 따른 인식 결과의 예시를 나타낸 도면이다.
도 4를 참조하면, 일 실시예에 따른 제어부(130)는 사용자가 "James에게 전화 걸어줘"라고 발화하는 경우, 이러한 사용자의 음성에서 James라는 이름을 추출할 수 있다.
제어부(130)는 사용자의 음성 'James'에 대한 적어도 하나의 이름 후보들을 검색할 수 있고, 각 이름 후보들의 신뢰도 점수들을 계산할 수 있다.
제어부(130)는 신뢰도 점수가 미리 설정된 제1임계값(T1)을 초과하는 이름 후보(James, Jason, Jameson, Jade, Jane, Mason, Jeremy) 중에서 사용자의 음성에 대응하는 이름을 선택할 수 있고, 제 1 임계값(T1) 이하의 신뢰도 점수를 갖는 이름 후보(Jade, Johnson, John)는 인식 결과에서 제외할 수 있다. 이 때, 제1임계값(T1)은 신뢰도 점수 X8 및 X7 사이의 값일 수 있다.
제어부(130)는 신뢰도 점수가 미리 설정된 제1임계값(T1)을 초과하는 이름 후보의 개수가 복수개이므로, 신뢰도 점수에 따른 우선 순위가 제1순위인 이름 후보(James)와 제2순위인 이름 후보(Jason)의 신뢰도 점수의 차이가 제3임계값(T3)을 초과하는지 여부를 확인할 수 있다.
제1순위인 이름 후보(James)와 제2순위인 이름 후보(Jason)의 신뢰도 점수의 차이가 제3임계값(T3)을 초과하는 경우, 제어부(130)는 제1순위인 이름 후보(James)의 신뢰도가 제2임계값(T2)를 초과하는지 여부에 따라 사용자의 확인을 요청할지 여부를 결정할 수 있다.
제1순위인 이름 후보(James)의 신뢰도가 제2임계값(T2)를 초과하는 경우, 신뢰성이 보장되는 경우이므로, 제어부(130)는 1순위인 이름 후보(James)를 사용자 음성에 대응하는 이름으로 선택할 수 있다.
제어부(130)는 선택된 이름(James)에 대한 전화 발신 명령을 통신부(120)로 전송함으로써 'James'에 매칭된 번호로 전화가 발신되도록 할 수 있다.
또는, 제1순위인 이름 후보(James)의 신뢰도가 제2임계값(T2) 이하인 경우, 신뢰성이 보장되지 않는 경우이므로, 제어부(130)는 1순위인 이름 후보(James)에 대한 확인을 사용자에게 요청할 수 있다.
제1순위인 이름 후보(James)와 제2순위인 이름 후보(Jason)의 신뢰도 점수의 차이가 제3임계값(T3) 이하인 경우, 제어부(130)는 제1순위인 이름 후보(James)에 대한 확인을 사용자에게 시각적 또는 청각적으로 요청할 수 있다. 이를 통해, 제어부(130)는 신뢰성이 보장되지 않는 경우, 적절하게 사용자의 확인을 요청함으로써 음성 인식의 정확도를 높일 수 있다.
도 5는 일 실시예에 따른 인식 결과의 예시를 나타낸 도면이다.
도 5를 참조하면, 일 실시예에 따른 제어부(130)는 사용자가 "James에게 전화 걸어줘"라고 발화하는 경우, 이러한 사용자의 음성에서 James라는 이름을 추출할 수 있다. 제어부(130)는 사용자의 음성 ‘James'에 대한 적어도 하나의 이름 후보들을 검색할 수 있고, 각 이름 후보들의 신뢰도 점수들을 계산할 수 있다.
제어부(130)는 단말기(2)의 폰북 정보 중 'James'에 대응하는 적어도 하나의 이름 후보의 개수가 미리 정해진 제1기준 개수 이하이거나 검색된 이름 후보에 대한 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우 중 적어도 하나의 경우에 제1임계값(T1) 및 제2임계값(T2)를 증가시키고, 제3임계값(T3)을 감소시킬 수 있다.
제어부(130)는 제1임계값(T1)를 증가시킴으로써 제외되는 이름 후보의 수를 2개(Johnson, John)에서 5개(Mason, Jeremy, Jade, Johnson, John)로 증가시킬 수 있다. 즉, 제어부(130)는 고려 범위 내에 포함되는 이름 후보의 수를 감소시킬 수 있다.
또한, 제어부(130)는 제2임계값(T2)를 증가시킴으로써 선택된 이름에 대한 제어가 바로 수행될 수 있도록 할 수 있다. 즉, 제어부(130)는 사용자가 인식률이 높은 환경에 있는 경우, 사용자의 확인 없이 선택된 이름에 대한 제어가 수행되도록 할 수 있다.
또한, 제어부(130)는 제3임계값(T3)를 감소시킴으로써 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수 차이가 작은 경우에도 선택된 이름에 대한 제어가 바로 수행될 수 있도록 할 수 있다. 이 경우, 인식 결과 사이에 대한 신뢰도 점수 차이가 작은 경우에도 사용자에 대한 확인 요청 없이 제1순위인 이름 후보를 선택할 수 있으므로, 사용자의 사용성이 증대될 수 있다.
이를 통해, 제어부(130)는 사용자가 상대적으로 인식률이 높은 환경에 있는 경우를 감지할 수 있고, 음성 인식의 처리 속도를 증대시킬 수 있다. 따라서, 보다 정확하고 빠른 음성 인식을 구현할 수 있다.
도 6은 일 실시예에 따른 사용자 패턴의 예시를 나타낸 도면이다.
도 6을 참조하면, 일 실시예에 따른 제어부(130)는 사용자가 음성을 입력하는 경우 입력된 음성에 대응하여 선택된 이름을 포함하는 사용자 패턴을 생성할 수 있다.
제어부(130)는 사용자가 음성 인식 기능을 이용하면서 제어 기초로 활용된 정보들을 사용자 패턴에 포함시켜 저장할 수 있다. 즉, 제어부(130)는 입력된 사용자 음성에 대응하는 이름을 선택하는데 활용된 정보들을 사용자 패턴에 포함시킬 수 있다.
예를 들어, 제어부(130)는 선택된 이름(홍길동)에 대한 카테고리 정보(모바일), 신뢰도 점수(5100), 제1임계값(3000), 제2임계값(5000), 제3임계값(500)을 사용자 패턴으로 저장할 수 있으며, 추천 액션(Direct call) 및 수행 여부(예)를 포함하는 사용자 패턴을 생성하고, 이를 저장할 수 있다.
이 경우, 추천 액션은 제어부(130)가 생성한 제어 명령의 종류를 나타낼 수 있고, 사용자의 확인 요청 없이 선택된 이름에 대하여 전화 발신 명령이 생성되는 경우(Direct Call), 사용자의 확인을 요청한 후 확인된 이름에 대하여 전화 발신 명령이 생성되는 경우(Confirmation Call) 및 복수개의 후보 중 사용자의 선택을 요청한 후 선택된 이름에 대하여 전화 발신 명령이 생성되는 경우(N-best Call)를 포함할 수 있다.
또한, 제어부(130)는 사용자가 음성 인식 기능을 이용할 때마다 선택된 이름(홍길동)에 대한 사용자 패턴을 생성하여 이를 데이터베이스화할 수 있고, 이를 추후 임계값 결정에 활용할 수 있다. 따라서, 사용자 개개인의 환경에 적합한 음성 인식 기능을 제공할 수 있다.
도 7은 일 실시예에 다른 디스플레이에 표시될 수 있는 화면의 예시를 나타낸 도면이다.
도 7을 참조하면, 일 실시예에 따른 제어부(130)는 사용자로부터 음성("Call James")이 입력되면, 입력된 음성 중 이름(James)에 대응하는 적어도 하나의 이름 후보(152a)를 사용자에게 표시함으로써 사용자에게 이름의 선택을 요청할 수 있다.
사용자는 표시된 이름 후보(152a) 중 하나를 선택할 수 있고, 사용자로부터 사용자의 음성에 대응하는 이름을 수신하면, 제어부(130)는 선택된 이름에 대한 제어 명령을 통신부(120)로 전송할 수 있다. 구체적으로, 제어부(130)는 선택된 이름에 대한 전화 발신 명령을 통신부(120)로 전송할 수 있다.
또한, 제어부(130)는 이름에 대한 선택 뿐만 아니라 사용자의 음성에 대응하는 이름에 대한 카테고리의 선택을 요청할 수 있다.
구체적으로, 제어부(130)는 사용자의 음성에 대응하는 이름에 대한 카테고리의 확률값이 미리 정해진 신뢰도 점수 이하이면, 사용자에게 카테고리에 대한 선택을 요청할 수 있다. 이 경우, 제어부(130)는 미리 정해진 개수의 카테고리 후보를 사용자에게 표시함으로써 사용자에게 카테고리에 대한 선택을 요청할 수 있다.
이후, 사용자로부터 카테고리의 선택이 수신되면, 제어부(130)는 선택된 카테고리에 대한 제어를 수행할 수 있다. 즉, 제어부(130)는 선택된 카테고리에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
도 8은 일 실시예에 다른 디스플레이에 표시될 수 있는 화면의 예시를 나타낸 도면이다.
도 8을 참조하면, 일 실시예에 따른 제어부(130)는 사용자로부터 음성("Call James")에 대응하는 이름 후보(James)에 대한 확인을 시각적으로 요청할 수 있다. 제어부(130)는 선택된 이름 후보(James)에 대한 정보를 표시함으로써 사용자에게 선택된 이름 후보에 대한 확인을 요청할 수 있다. 이 때, 선택된 이름 후보(James)에 대한 정보로써 표시되는 정보는 이름(James), 카테고리(Mobile), 전화 번호(01234567890)를 포함할 수 있다.
표시된 이름이 음성 입력한 이름에 대응되는 경우, 사용자는 디스플레이(152)에 표시된 확인 여부 인터페이스(152b, 152c)를 통하여 이름 후보에 대한 확인을 입력할 수 있다.
사용자로부터 해당 이름 후보에 대한 확인이 이루어지는 경우, 확인된 이름 후보를 사용자 음성에 대응하는 이름으로 선택할 수 있고, 선택된 이름에 대한 제어를 수행할 수 있다. 즉, 제어부(130)는 선택된 이름에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
도 9 는 일 실시예에 따른 차량의 제어방법을 나타낸 흐름도이다.
도 9를 참조하면, 일 실시예에 따른 차량(1)은 사용자로부터 음성이 입력되는지 여부를 확인할 수 있다(701).
사용자로부터 음성이 입력되면(701의 예), 차량(1)은 음성 인식 및 입력된 음성에 대응되는 이름을 검색할 수 있다(702). 구체적으로, 차량(1)은 입력된 음성에 대응되는 적어도 하나의 이름 후보를 검색할 수 있다.
차량(1)은 적어도 하나의 이름 후보에 대한 신뢰도 점수를 계산할 수 있다(703). 예를 들어, N-best 탐색법을 이용하는 경우, 차량(1)은 N개까지의 이름 후보를 검색할 수 있다. 차량(1)은 N개의 이름 후보의 순위를 평가함으로써 인식 결과를 출력할 수 있고, N개의 이름 후보에 대하여 신뢰도 점수를 산출할 수 있다.
이후, 차량(1)은 이름 후보 각각에 대하여 신뢰도 점수가 미리 설정된 제1임계값(threshold)를 초과하는지 여부를 확인할 수 있고, 검색된 이름 후보 중 신뢰도 점수가 제1임계값을 초과하는 이름 후보가 존재하는지 여부를 확인할 수 있다(704). 이 때, 제1임계값은 인식 결과에 대한 최소한의 신뢰성을 보장하는 신뢰도 점수를 의미할 수 있다.
검색된 이름 후보 중 신뢰도 점수가 제1임계값을 초과하는 이름 후보가 존재하는 경우(704의 예), 차량(1)은 검색된 이름 후보 중 신뢰도 점수가 미리 설정된 제1임계값(threshold)을 초과하는 이름 후보를 추출할 수 있고, 추출된 이름 후보의 개수가 하나인지 여부를 확인할 수 있다(705).
또한, 차량(1)은 인식 결과에 포함된 적어도 하나의 이름 후보 중 신뢰도가 미리 설정된 제1임계값을 초과하는 이름 후보가 1개인 경우(705의 예), 검색된 이름 후보를 사용자 음성에 대응하는 이름으로 선택할 수 있고(706), 선택된 이름 후보의 신뢰도 점수가 제2임계값을 초과하는지 여부를 판단할 수 있다(707).
이 때, 제2임계값은 인식 결과에 대한 최대한의 신뢰성을 보장할 수 있는 신뢰도 점수를 의미할 수 있고, 제1임계값보다 클 수 있다.
선택된 이름 후보의 신뢰도 점수가 제2임계값을 초과하는 경우(707의 예), 차량(1)은 선택된 이름에 대한 제어를 수행할 수 있다(708). 구체적으로, 차량(1)은 선택된 이름에 대한 전화 발신 제어 명령을 단말기(2)로 전송함으로써 선택된 이름에 대한 전화 발신 동작을 수행할 수 있다.
이후, 차량(1)은 선택된 이름에 대한 제어 명령에 따른 동작이 취소되는지 여부를 확인할 수 있고(709), 사용자 의하여 동작이 취소되는 경우(709의 예), 신뢰도 점수 DB를 업데이트할 수 있다(710).
구체적으로, 차량(1)은 신뢰도 점수 DB에 저장된 인식 결과에 대한 신뢰도 점수를 변경할 수 있다. 예를 들어, 차량(1)은 사용자에 의하여 동작이 취소되는 경우는, 인식 결과에 오류가 있는 것으로 판단하여, 해당 인식 결과에 대한 신뢰도 점수를 감소시킬 수 있다. 이를 통해, 차량(1)은 음성 인식에 대한 정확도를 향상시킬 수 있다.
다른 예로, 선택된 이름 후보의 신뢰도 점수가 제2임계값 이하인 경우(707의 아니오), 신뢰성이 보장되지 않는 경우이므로, 차량(1)은 선택된 이름에 대한 사용자의 확인을 요청할 수 있다(714).
사용자로부터 해당 이름 후보에 대한 확인이 이루어지는 경우, 차량(1)은 확인된 이름 후보를 사용자 음성에 대응하는 이름으로 선택할 수 있다. 이후, 차량(1)은 708 내지 710의 동작을 수행하며, 전술한 바와 동일하다.
다른 예로, 검색된 이름 후보 중 신뢰도 점수가 제1임계값을 초과하는 이름 후보가 존재하지 않는 경우(704의 아니오), 인식 결과에 대한 신뢰성을 보장할 수 없으므로 차량(1)은 인식 결과를 거절(rejection)할 수 있다(711). 즉, 인식 실패를 확인할 수 있다. 이 경우, 차량(1)은 사용자에게 음성을 다시 입력할 것을 디스플레이(152) 또는 스피커(151)를 통하여 요청할 수 있다.
다른 예로, 인식 결과에 포함된 적어도 하나의 이름 후보 중 신뢰도가 미리 설정된 제1임계값을 초과하는 이름 후보가 복수개인 경우(705의 아니오),
차량(1)은 복수개의 이름 후보의 우선 순위를 신뢰도 점수에 기초하여 결정할 수 있고, 복수개의 이름 후보 중 제1순위와 제2순위 사이의 신뢰도 점수의 차이가 제3임계값을 초과하는지 여부를 확인할 수 있다(712).
이 때, 제3임계값은 인식 결과 간의 신뢰도 점수의 차이에 대한 신뢰성을 보장하는 임계값을 의미할 수 있고, 제 1 임계값 및 제2임계값 보다 작은 신뢰도 점수를 갖는 임계값일 수 있다.
복수개의 이름 후보 중 제1순위와 제2순위 사이의 신뢰도 점수의 차이가 제3임계값을 초과하는 경우(712의 예), 제1순위인 이름 후보에 대한 신뢰성이 보장되므로, 차량(1)은 우선 순위가 제1순위인 이름 후보를 사용자의 음성에 대응하는 이름으로 선택할 수 있다(713). 이후, 차량(1)은 708 내지 710의 동작을 수행하며, 전술한 바와 동일하다.
다른 예로, 복수개의 이름 후보 중 제1순위와 제2순위 사이의 신뢰도 점수의 차이가 제3임계값 이하인 경우(712의 아니오)의 차량(1)의 동작은 도 10을 참조하여 설명한다.
도 10은 일 실시예에 따른 차량의 제어방법을 나타낸 흐름도이다.
도 10을 참조하면, 복수개의 이름 후보 중 제1순위와 제2순위 사이의 신뢰도 점수의 차이가 제3임계값 이하인 경우(도 9, 712의 아니오), 일 실시예에 따른 차량(1)은 이름 후보 중 제1순위에 포함된 카테고리가 복수개인지 여부를 확인할 수 있다(801).
이 때, 카테고리는 전화 번호에 대한 종류를 의미하며, 모바일’, '집' 및 '오피스' 중 적어도 하나일 수 있다.
이름 후보 중 제1순위에 포함된 카테고리가 복수개인 경우(801의 예), 차량(1)은 사용자 패턴에 기초하여 카테고리를 선택할 수 있다(802).
구체적으로, 차량(1)은 사용자 패턴의 이름별 카테고리에 대한 발신 시간 또는 이름별 카테고리에 대한 수신 시간 중 적어도 하나에 기초하여 복수개의 카테고리 각각의 확률값을 결정할 수 있다. 차량(1)은 복수개의 카테고리별 확률값에 기초하여 최대 확률값을 갖는 카테고리를 선택할 수 있다.
그 다음, 차량(1)은 선택된 카테고리의 확률값이 제4임계값을 초과하는지 여부를 확인할 수 있다(803). 이 때, 제4임계값은 미리 정해진 신뢰도 점수를 의미할 수 있으며, 신뢰도 점수 DB(144)에 저장될 수 있다.
선택된 카테고리의 확률값이 제4임계값을 초과하는 경우(803의 예), 차량(1)은 선택된 카테고리에 대한 제어를 수행할 수 있다(804). 즉, 차량(1)은 제1순위 이름 후보에 대한 선택된 카테고리에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
이 경우, 차량(1)은 사용자 개인의 통화 특성을 반영한 사용자 패턴을 이용하므로, 보다 정확한 통화 발신 명령을 전송할 수 있다. 따라서, 음성 인식을 이용한 통화 기능을 제공함에 있어서, 보다 정확한 통화 기능 제공이 가능할 수 있으므로, 사용성 및 편의성이 증대될 수 있다.
다른 예로, 선택된 카테고리의 확률값이 제4임계값 이하인 경우(803의 아니오), 차량(1)은 사용자에게 카테고리에 대한 선택을 요청할 수 있다(806). 이 경우, 차량(1)은 선택된 카테고리에 대한 제어를 바로 수행하지 않고, 미리 정해진 개수의 카테고리 후보를 사용자에게 표시함으로써 사용자에게 카테고리에 대한 선택을 요청할 수 있다.
차량(1)은 사용자로부터 카테고리의 선택이 수신되는지 여부를 확인할 수 있고(807), 사용자로부터 카테고리의 선택이 수신되면(807의 예), 차량(1)은 선택된 카테고리에 대한 제어를 수행할 수 있다. 즉, 차량(1)은 제1순위 이름 후보에 대한 선택된 카테고리에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
이를 통해, 보다 정확한 사용자 음성 인식 기능이 제공될 수 있고, 사용자의 음성 인식 성공률이 높아지므로 사용자의 편의성이 증대될수 있다.
다른 예로, 이름 후보 중 제1순위에 포함된 카테고리가 복수개가 아닌 경우(801의 아니오), 차량(1)은 사용자에게 카테고리에 대한 선택을 요청할 수 있다(805). 이 경우, 차량(1)은 선택된 카테고리에 대한 제어를 바로 수행하지 않고, 미리 정해진 개수의 카테고리 후보를 사용자에게 표시함으로써 사용자에게 카테고리에 대한 선택을 요청할 수 있다.
이후, 사용자로부터 카테고리의 선택이 수신되면, 차량(1)은 선택된 카테고리에 대한 제어를 수행할 수 있다. 즉, 차량(1)은 제1순위 이름 후보에 대한 선택된 카테고리에 매칭되는 전화 번호에 대한 통화 발신 명령을 전송할 수 있다.
이를 통해, 보다 정확한 사용자 음성 인식 기능이 제공될 수 있고, 사용자의 음성 인식 성공률이 높아지므로 사용자의 편의성이 증대될 수 있다.
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.
110: 음성 입력부
120: 통신부
130: 제어부
140: 저장부
151: 스피커
152: 디스플레이
160: 입력부
120: 통신부
130: 제어부
140: 저장부
151: 스피커
152: 디스플레이
160: 입력부
Claims (26)
- 통화 기능을 제공하는 단말기과 통신하는 통신부;
사용자의 음성을 입력 받는 음성 입력부;
상기 사용자의 통화 패턴에 관한 사용자 패턴을 저장하는 저장부; 및
상기 사용자의 음성이 입력되면 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고, 상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 상기 사용자 패턴에 기초하여 결정하고, 상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 제어부;를 포함하는 차량. - 제1항에 있어서,
상기 제어부는,
상기 단말기의 폰북 정보 및 통화 내역 정보가 수신되면, 상기 수신된 폰북 정보 및 통화 내역 정보에 기초하여 사용자 패턴을 생성하는 차량. - 제1항에 있어서,
상기 제어부는,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보 중 상기 입력된 음성에 대응하는 이름을 선택하는 차량. - 제3항에 있어서,
상기 제어부는,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 1개인 경우, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하는지 여부를 판단하고, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하면, 해당 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택하는 차량. - 제4항에 있어서,
상기 제어부는,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 신뢰도 점수가 상기 제2임계값 이하이면, 해당 이름 후보에 대한 확인을 상기 사용자에게 요청하는 차량. - 제3항에 있어서,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 복수개인 경우, 상기 복수개의 이름 후보의 우선 순위를 상기 신뢰도 점수에 기초하여 결정하고, 상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이와 제3임계값을 비교하고, 상기 비교 결과에 기초하여 상기 입력된 음성에 대응하는 이름을 선택하는 차량. - 제6항에 있어서,
상기 제어부는,
상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값을 초과하면, 상기 우선 순위가 제1순위인 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택하는 차량. - 제6항에 있어서,
상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값 이하이면, 상기 우선 순위가 제1순위인 이름 후보에 대한 확인을 상기 사용자에게 요청하는 차량. - 제1항에 있어서,
상기 제어부는,
상기 단말기의 폰북 정보가 수신되면, 상기 수신된 폰북 정보 중 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고, 상기 검색된 이름 후보의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 차량. - 제9항에 있어서,
상기 제어부는,
상기 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시키는 차량. - 제9항에 있어서,
상기 제어부는,
상기 폰북 정보로부터 상기 검색된 이름 후보에 대한 카테고리의 개수를 확인하고, 상기 카테고리의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 차량. - 제11항에 있어서,
상기 제어부는,
상기 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시키는 차량. - 제1항에 있어서,
상기 제어부는,
상기 선택된 이름에 대한 제어 명령을 상기 단말기로 전송하도록 상기 통신부를 제어하는 차량. - 사용자의 음성을 입력 받고;
상기 사용자의 음성이 입력되면 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고;
상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하고;
상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것;을 포함하는 차량의 제어방법. - 제14항에 있어서,
단말기의 폰북 정보 및 통화 내역 정보가 수신되면, 상기 수신된 폰북 정보 및 통화 내역 정보에 기초하여 사용자 패턴을 생성하는 것;을 더 포함하는 차량의 제어방법. - 제14항에 있어서,
상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보 중 상기 입력된 음성에 대응하는 이름을 선택하는 것;을 포함하는 차량의 제어방법. - 제16항에 있어서,
상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 1개인 경우, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하는지 여부를 판단하고, 해당 이름 후보의 신뢰도 점수가 제 2 임계값을 초과하면, 해당 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택하는 것;을 포함하는 차량의 제어방법. - 제17항에 있어서,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 신뢰도 점수가 상기 제2임계값 이하이면, 해당 이름 후보에 대한 확인을 상기 사용자에게 요청하는 것;을 더 포함하는 차량의 제어방법. - 제16항에 있어서,
상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은,
상기 신뢰도 점수가 제1임계값을 초과하는 이름 후보의 개수가 복수개인 경우, 상기 복수개의 이름 후보의 우선 순위를 상기 신뢰도 점수에 기초하여 결정하고;
상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이와 제3임계값을 비교하고; 및
상기 비교 결과에 기초하여 상기 입력된 음성에 대응하는 이름을 선택하는 것;을 포함하는 차량의 제어방법. - 제19항에 있어서,
상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은,
상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값을 초과하면, 상기 우선 순위가 제1순위인 이름 후보를 상기 입력된 음성에 대응하는 이름으로 선택하는 것;을 포함하는 차량의 제어방법. - 제19항에 있어서,
상기 적어도 하나의 이름 후보 중 상기 입력된 음성에 대응하는 이름을 상기 결정된 임계값에 기초하여 선택하는 것은,
상기 우선 순위가 제1순위인 이름 후보와 제2순위인 이름 후보 사이의 신뢰도 점수의 차이가 상기 제3임계값 이하이면, 상기 우선 순위가 제1순위인 이름 후보에 대한 확인을 상기 사용자에게 요청하는 것;을 포함하는 차량의 제어방법. - 제14항에 있어서,
적어도 하나의 이름 후보를 검색하는 것은,
상기 단말기의 폰북 정보가 수신되면, 상기 수신된 폰북 정보 중 상기 입력된 음성에 대응하는 적어도 하나의 이름 후보를 검색하고,
상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하는 것은,
상기 검색된 이름 후보의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것;을 포함하는 차량의 제어방법. - 제22항에 있어서,
상기 검색된 이름 후보의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것은,
상기 검색된 이름 후보의 개수가 미리 정해진 제1기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시키는 것; 을 포함하는 차량의 제어방법. - 제22항에 있어서,
상기 적어도 하나의 이름 후보의 신뢰도 점수(confidence score)에 대한 임계값(threshold)을 사용자 패턴에 기초하여 결정하는 것은,
상기 폰북 정보로부터 상기 검색된 이름 후보에 대한 카테고리의 개수를 확인하고, 상기 카테고리의 개수에 기초하여 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것;을 포함하는 차량의 제어방법. - 제24항에 있어서,
상기 제1임계값, 제2임계값 또는 제3임계값 중 적어도 하나를 변경하는 것은,
상기 카테고리의 개수가 미리 정해진 제2기준 개수 이하인 경우, 상기 제2임계값을 증가시키고, 상기 제3임계값을 감소시키는 것; 을 포함하는 차량의 제어방법. - 제14항에 있어서,
상기 선택된 이름에 대한 제어 명령을 상기 단말기로 전송하는 것;을 더 포함하는 차량의 제어방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180136845A KR102613210B1 (ko) | 2018-11-08 | 2018-11-08 | 차량 및 그 제어방법 |
US16/265,723 US11189276B2 (en) | 2018-11-08 | 2019-02-01 | Vehicle and control method thereof |
CN201910185588.5A CN111161720B (zh) | 2018-11-08 | 2019-03-12 | 车辆及其控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180136845A KR102613210B1 (ko) | 2018-11-08 | 2018-11-08 | 차량 및 그 제어방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200053341A true KR20200053341A (ko) | 2020-05-18 |
KR102613210B1 KR102613210B1 (ko) | 2023-12-14 |
Family
ID=70551822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180136845A KR102613210B1 (ko) | 2018-11-08 | 2018-11-08 | 차량 및 그 제어방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11189276B2 (ko) |
KR (1) | KR102613210B1 (ko) |
CN (1) | CN111161720B (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113875260A (zh) * | 2019-05-30 | 2021-12-31 | 索尼集团公司 | 信息处理设备、操作终端和信息处理方法 |
US11748629B2 (en) * | 2020-01-21 | 2023-09-05 | Moxa Inc. | Device and method of handling anomaly detection |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
CN114067799A (zh) * | 2022-01-05 | 2022-02-18 | 广州小鹏汽车科技有限公司 | 语音交互方法、终端设备、车辆及存储介质 |
EP4210047A1 (en) * | 2022-01-05 | 2023-07-12 | Honeywell International Inc. | Contextual editable speech recognition methods and systems |
US20230267274A1 (en) * | 2022-02-22 | 2023-08-24 | Onetrust Llc | Mapping entities in unstructured text documents via entity correction and entity resolution |
CN115503639A (zh) * | 2022-10-13 | 2022-12-23 | 广州小鹏汽车科技有限公司 | 语音处理方法、语音交互方法、服务器及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001186080A (ja) * | 1999-10-29 | 2001-07-06 | Denso Corp | 携帯電話装置、携帯電話システム、および通信方法 |
US20050049860A1 (en) * | 2003-08-29 | 2005-03-03 | Junqua Jean-Claude | Method and apparatus for improved speech recognition with supplementary information |
KR20070113045A (ko) * | 2006-05-24 | 2007-11-28 | 엘지전자 주식회사 | 음성 인식 시스템 및 그 방법 |
KR20160013720A (ko) * | 2014-07-28 | 2016-02-05 | 현대자동차주식회사 | 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 |
US20170294188A1 (en) * | 2016-04-12 | 2017-10-12 | Fujitsu Limited | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium |
US20170351532A1 (en) * | 2016-06-07 | 2017-12-07 | Google Inc. | Nondeterministic task initiation by a personal assistant module |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030020768A (ko) * | 2001-09-04 | 2003-03-10 | 주식회사 케이티 | 음성인식을 이용한 개인전화번호부 데이터베이스 구축방법및 그를 이용한 개인전화번호부 음성자동연결서비스 방법 |
US20060215821A1 (en) * | 2005-03-23 | 2006-09-28 | Rokusek Daniel S | Voice nametag audio feedback for dialing a telephone call |
US8521235B2 (en) * | 2008-03-27 | 2013-08-27 | General Motors Llc | Address book sharing system and method for non-verbally adding address book contents using the same |
CN101281745B (zh) * | 2008-05-23 | 2011-08-10 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
US8903714B2 (en) * | 2011-12-21 | 2014-12-02 | Nuance Communications, Inc. | Concept search and semantic annotation for mobile messaging |
US9053708B2 (en) * | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
KR101572932B1 (ko) * | 2014-07-11 | 2015-11-30 | 현대자동차주식회사 | 음성 인식 기능이 탑재된 차량에서의 발신 통화 제어 방법 및 장치 |
KR101614756B1 (ko) * | 2014-08-22 | 2016-04-27 | 현대자동차주식회사 | 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법 |
KR101675312B1 (ko) * | 2015-06-15 | 2016-11-11 | 현대자동차주식회사 | 음성 인식 장치, 그를 가지는 차량 및 그 방법 |
US10810212B2 (en) * | 2016-07-29 | 2020-10-20 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Validating provided information in a conversation |
-
2018
- 2018-11-08 KR KR1020180136845A patent/KR102613210B1/ko active IP Right Grant
-
2019
- 2019-02-01 US US16/265,723 patent/US11189276B2/en active Active
- 2019-03-12 CN CN201910185588.5A patent/CN111161720B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001186080A (ja) * | 1999-10-29 | 2001-07-06 | Denso Corp | 携帯電話装置、携帯電話システム、および通信方法 |
US20050049860A1 (en) * | 2003-08-29 | 2005-03-03 | Junqua Jean-Claude | Method and apparatus for improved speech recognition with supplementary information |
KR20070113045A (ko) * | 2006-05-24 | 2007-11-28 | 엘지전자 주식회사 | 음성 인식 시스템 및 그 방법 |
KR20160013720A (ko) * | 2014-07-28 | 2016-02-05 | 현대자동차주식회사 | 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 |
US20170294188A1 (en) * | 2016-04-12 | 2017-10-12 | Fujitsu Limited | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium |
US20170351532A1 (en) * | 2016-06-07 | 2017-12-07 | Google Inc. | Nondeterministic task initiation by a personal assistant module |
Also Published As
Publication number | Publication date |
---|---|
KR102613210B1 (ko) | 2023-12-14 |
US20200152188A1 (en) | 2020-05-14 |
US11189276B2 (en) | 2021-11-30 |
CN111161720A (zh) | 2020-05-15 |
CN111161720B (zh) | 2024-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102613210B1 (ko) | 차량 및 그 제어방법 | |
CN113900529B (zh) | 移动装置上的模态学习 | |
KR102643501B1 (ko) | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 | |
US8762156B2 (en) | Speech recognition repair using contextual information | |
CN109844740B (zh) | 跟进话音查询预测 | |
EP2666159B1 (en) | Speech recognition using device docking context | |
US8738377B2 (en) | Predicting and learning carrier phrases for speech input | |
US20080120102A1 (en) | Predictive speech-to-text input | |
US11004447B2 (en) | Speech processing apparatus, vehicle having the speech processing apparatus, and speech processing method | |
CN105222797B (zh) | 利用口授和部分匹配搜索的导航系统的系统和方法 | |
JP2009530666A (ja) | 外部ユーザの自動音声認識、口述、録音および再生を提供する方法 | |
US11508367B2 (en) | Dialogue system and dialogue processing method | |
JP5688677B2 (ja) | 音声入力支援装置 | |
US20180350364A1 (en) | Apparatus and method for determining operation based on context, vehicle for determining operation based on context, and method of controlling the vehicle | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
KR101001134B1 (ko) | 휴대용 단말기에서의 한글 검색 시스템 및 그 방법 | |
KR100749088B1 (ko) | 대화형 네비게이션 시스템 및 그 제어방법 | |
KR20200076075A (ko) | 차량 및 그 제어방법 | |
KR20170089670A (ko) | 차량 및 그 제어방법 | |
KR20200109995A (ko) | 피싱 분석 장치 및 그 방법 | |
AU2014200663B2 (en) | Integration of embedded and network speech recognizers | |
CN109841209A (zh) | 语音识别设备和系统 | |
EP3489952A1 (en) | Speech recognition apparatus and system | |
WO2008064137A2 (en) | Predictive speech-to-text input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |