KR102545764B1 - 음성 번역을 위한 장치 및 방법 - Google Patents
음성 번역을 위한 장치 및 방법 Download PDFInfo
- Publication number
- KR102545764B1 KR102545764B1 KR1020160040201A KR20160040201A KR102545764B1 KR 102545764 B1 KR102545764 B1 KR 102545764B1 KR 1020160040201 A KR1020160040201 A KR 1020160040201A KR 20160040201 A KR20160040201 A KR 20160040201A KR 102545764 B1 KR102545764 B1 KR 102545764B1
- Authority
- KR
- South Korea
- Prior art keywords
- language
- speaker
- voice
- speech
- segment
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010408 film Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
음성 번역 방법 및 모바일 디바이스가 개시된다.
개시된 실시예에 따른 모바일 디바이스는, 음성 신호를 수신하는 음성 수신부, 음성 신호를 복수의 음성 세그먼트들로 분할하고, 복수의 음성 세그먼트들 각각에 대한 입력 언어 및 화자(speaker)를 결정하고, 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하고, 번역 방향에 따라 상기 음성 세그먼트들을 번역하는 제어부, 및 번역된 결과를 출력하는 출력부를 포함할 수 있다.
개시된 실시예에 따른 모바일 디바이스는, 음성 신호를 수신하는 음성 수신부, 음성 신호를 복수의 음성 세그먼트들로 분할하고, 복수의 음성 세그먼트들 각각에 대한 입력 언어 및 화자(speaker)를 결정하고, 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하고, 번역 방향에 따라 상기 음성 세그먼트들을 번역하는 제어부, 및 번역된 결과를 출력하는 출력부를 포함할 수 있다.
Description
본 발명은 음성 번역을 위한 장치 및 방법에 관한 것으로서, 보다 상세하게는, 휴대용 장치를 이용하여 음성 번역을 하기 위한 장치 및 방법에 관한 것이다.
서로 다른 언어를 사용하는 화자(speaker)들이 대화할 때, 모바일 디바이스에 포함된 음성 번역 기능이 사용될 수 있다. 그리고, 모바일 디바이스에 포함된 음성 번역 기능을 사용할 때, 번역의 대상이 되는 입력 언어 및 출력 언어를 설정함으로써 번역 방향을 결정하는 과정이 필요하다. 이때, 번역 방향은 화자에 의해 수동으로 설정될 수 있다. 그러나, 번역 방향을 수동으로 설정하는 경우, 대화가 진행되는 과정에서 번역 방향을 계속 변경해주어야 하므로, 불편할 수 있다. 따라서, 모바일 디바이스는, 번역 방향을 자동으로 설정함으로써, 서로 다른 언어를 사용하는 화자들이 편리하게 대화하도록 할 수 있다. 그리고, 번역 방향이 자동으로 설정될 때, 화자들이 용이하게 대화하기 위해서는, 모바일 디바이스가 번역 방향을 정확하게 설정하는 것이 중요하다.
개시된 실시예들은, 음성 번역을 위한 장치 및 방법을 제공할 수 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 개시된 일 실시예에 따른 모바일 디바이스는, 음성 신호를 수신하는 음성 수신부, 음성 신호를 복수의 음성 세그먼트들로 분할하고, 복수의 음성 세그먼트들 각각에 대한 입력 언어 및 화자(speaker)를 결정하고, 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하고, 번역 방향에 따라 음성 세그먼트들을 번역함으로써 번역된 결과를 생성하는 제어부, 및 번역된 결과를 출력하는 출력부를 포함한다.
개시된 일 실시예에 따른 제어부는, 음성 세그먼트가 제1 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제1 방향으로 결정하고, 음성 세그먼트가 제2 화자에 의해 제2 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제2 방향으로 결정할 수 있다.
개시된 일 실시예에 따른 제1 방향은 제1 언어에서 제2 언어로 번역하는 방향이고, 제2 방향은 제2 언어에서 제1 언어로 번역하는 방향일 수 있다.
개시된 일 실시에예 따른 제어부는, 음성 세그먼트가 제1 언어로 발화되었을 확률과 음성 세그먼트가 제2 언어로 발화되었을 확률의 차이가 임계치 이하일 때, 음성 세그먼트의 화자에 기초하여 음성 세그먼트의 입력 언어를 결정할 수 있다.
개시된 일 실시예에 따른 제어부는, 음성 세그먼트의 화자가 제1 화자로 결정된 경우, 음성 세그먼트의 입력 언어를 제1 언어로 결정하고, 음성 세그먼트의 화자가 제2 화자로 결정된 경우, 음성 세그먼트의 입력 언어를 제2 언어로 결정할 수 있다.
개시된 일 실시에에 따른 제어부는, 음성 세그먼트가 제1 화자에 의해 제2 언어로 발화된 음성 세그먼트이거나, 제2 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 음성 세그먼트를 번역하지 않을 수 있다.
개시된 일 실시예에 따른 제어부는, 기설정된 길이의 시간 프레임 단위로 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다.
개시된 일 실시예에 따른 제어부는, 인접한 음성 세그먼트들끼리 서로 오버랩되도록, 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다.
개시된 일 실시예에 따른 출력부는, 상기 음성 신호의 번역이 완료된 경우, 번역된 결과를 나타내는 텍스트를 스크린 상에서 회전시켜 표시할 수 있다.
개시된 일 실시예에 따른 음성 번역 방법은, 음성 신호를 수신하는 단계, 음성 신호를 복수의 음성 세그먼트들로 분할하는 단계, 복수의 음성 세그먼트들 각각에 대한 입력 언어 및 화자를 결정하는 단계, 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하는 단계, 번역 방향에 따라 음성 세그먼트들을 번역함으로써 번역된 결과를 생성하는 단계, 및 번역된 결과를 출력하는 단계를 포함할 수 있다.
개시된 일 실시예에 따른 번역 방향을 결정하는 단계는, 음성 세그먼트가 제1 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제1 방향으로 결정하고, 음성 세그먼트가 제2 화자에 의해 제2 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제2 방향으로 결정하는 단계를 포함할 수 있다.
개시된 일 실시예에 따른 제1 방향은 제1 언어에서 제2 언어로 번역하는 방향이고, 제2 방향은 제2 언어에서 제1 언어로 번역하는 방향일 수 있다.
개시된 일 실시예에 따른 음성 세그먼트들의 입력 언어 및 화자를 결정하는 단계는, 음성 세그먼트가 제1 언어로 발화되었을 확률과 음성 세그먼트가 제2 언어로 발화되었을 확률의 차이가 임계치 이하일 때, 음성 세그먼트의 화자에 기초하여 음성 세그먼트의 입력 언어를 결정하는 단계를 포함할 수 있다.
개시된 일 실시예에 따른 음성 세그먼트들의 입력 언어 및 화자를 결정하는 단계는, 음성 세그먼트의 화자가 제1 화자로 결정된 경우, 음성 세그먼트의 입력 언어를 제1 언어로 결정하고, 음성 세그먼트의 화자가 제2 화자로 결정된 경우, 음성 세그먼트의 입력 언어를 제2 언어로 결정하는 단계를 더 포함할 수 있다.
개시된 일 실시에에 따른 음성 세그먼트들을 번역하는 단계는, 음성 세그먼트가 제1 화자에 의해 제2 언어로 발화된 음성 세그먼트이거나, 제2 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 음성 세그먼트를 번역하지 않는 단계를 포함할 수 있다.
개시된 일 실시예에 따른 음성 신호를 복수의 음성 세그먼트들로 분할하는 단계는, 기설정된 길이의 시간 프레임 단위로 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다.
개시된 일 실시예에 따른 음성 신호를 복수의 음성 세그먼트들로 분할하는 단계는, 인접한 음성 세그먼트들끼리 서로 오버랩되도록 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다.
개시된 일 실시예에 따른 번역된 결과를 출력하는 단계는, 음성 신호의 번역이 완료된 경우, 번역된 결과를 나타내는 텍스트를 스크린 상에서 회전시켜 표시하는 단계를 포함할 수 있다.
도 1은 개시된 일 실시예에 따른 음성 번역(speech-to-speech translation) 시스템을 설명하기 위한 도면이다.
도 2는 개시된 일 실시예에 따른 음성 번역 방법을 나타내는 흐름도이다.
도 3a 및 도 3b는 개시된 일 실시예에 따른 모바일 디바이스에서 화자 인식 방법을 사용하여 화자를 결정하는 과정을 나타내는 도면이다.
도 4는 개시된 일 실시예에 따른 모바일 디바이스에서 음성 신호의 입력 언어를 결정하는 과정을 나타내는 도면이다.
도 5a 및 도 5b는 개시된 일 실시예에 따른 모바일 디바이스에서 번역 방향을 결정하는 과정을 나타내는 도면이다.
도 6a는 개시된 일 실시예에 따른 모바일 디바이스에서 번역이 수행되는 일 예를 나타내는 도면이다.
도 6b는 개시된 일 실시예에 따른 모바일 디바이스에서 음성 신호를 복수의 음성 세그먼트들로 분할하는 일 예를 나타내는 도면이다.
도 7a 내지 도 7c는 개시된 일 실시예에 따른 모바일 디바이스에서 번역된 결과를 출력하는 일 예를 나타내는 도면이다.
도 8은 개시된 일 실시예에 따른 모바일 디바이스의 구성을 나타내는 블록도이다.
도 9은 개시된 일 실시예에 따른 제어부의 구성을 나타내는 블록도이다.
도 10은 개시된 다른 실시예에 따른 모바일 디바이스의 구성을 나타내는 블록도이다.
도 2는 개시된 일 실시예에 따른 음성 번역 방법을 나타내는 흐름도이다.
도 3a 및 도 3b는 개시된 일 실시예에 따른 모바일 디바이스에서 화자 인식 방법을 사용하여 화자를 결정하는 과정을 나타내는 도면이다.
도 4는 개시된 일 실시예에 따른 모바일 디바이스에서 음성 신호의 입력 언어를 결정하는 과정을 나타내는 도면이다.
도 5a 및 도 5b는 개시된 일 실시예에 따른 모바일 디바이스에서 번역 방향을 결정하는 과정을 나타내는 도면이다.
도 6a는 개시된 일 실시예에 따른 모바일 디바이스에서 번역이 수행되는 일 예를 나타내는 도면이다.
도 6b는 개시된 일 실시예에 따른 모바일 디바이스에서 음성 신호를 복수의 음성 세그먼트들로 분할하는 일 예를 나타내는 도면이다.
도 7a 내지 도 7c는 개시된 일 실시예에 따른 모바일 디바이스에서 번역된 결과를 출력하는 일 예를 나타내는 도면이다.
도 8은 개시된 일 실시예에 따른 모바일 디바이스의 구성을 나타내는 블록도이다.
도 9은 개시된 일 실시예에 따른 제어부의 구성을 나타내는 블록도이다.
도 10은 개시된 다른 실시예에 따른 모바일 디바이스의 구성을 나타내는 블록도이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.
또한, 본 개시에서 사용된 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다. 단수의 표현은 문맥상 명백하게 단수를 뜻하지 않는 한, 복수의 의미를 포함한다. 또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본 명세서, 특히, 특허 청구 범위에서에서 사용된 “상기” 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 개시된 일 실시예에 따른 음성 번역(speech-to-speech translation) 시스템을 설명하기 위한 도면이다.
제1 화자와 제2 화자가 대화를 할 때, 제1 화자와 제2 화자는 서로 다른 언어를 사용하여 말할 수 있다. 예를 들어, 제1 화자는 제1 언어를 사용하고, 제2 화자는 제2 언어를 사용할 수 있다. 그리고, 제1 화자와 제2 화자는, 제1 언어와 제2 언어 사이에서 번역을 수행하는 모바일 디바이스(1000)를 이용하여 대화할 수 있다.
모바일 디바이스(1000)는, 스마트폰, 태블릿 PC, 노트북 컴퓨터(laptop computer), 전자책 단말기, 웨어러블 디바이스(wearable device) 등을 포함할 수 있으나, 이에 제한되지 않는다.
제1 화자에 의해 제1 언어로 발화된 음성 신호가 수신되면, 모바일 디바이스(1000)는 자동 음성 인식(ASR, Automatic Speech Recognition)을 수행하여, 수신된 음성 신호를 제1 언어의 텍스트로 변환할 수 있다. 자동 음성 인식은, 화자에 의해 발화된 음성 신호를 자동으로 인식해서, 텍스트로 변환하는 과정을 의미한다. 자동 음성 인식은 실시예에 따라 STT(Speech to Text)로 지칭될 수도 있으나, 전술한 용어에 한정되지 않는다.
모바일 디바이스(1000)는, 기계 번역(MT, Machine Translation)을 수행하여, 제1 언어의 텍스트를 제2 언어의 텍스트로 번역할 수 있다. 기계 번역이 수행될 때, 제1 화자가 사용하는 제1 언어는 소스 언어(source language), 제2 화자가 사용하는 제2 언어는 타겟 언어(target language)로 설정될 수 있다. 여기에서, 소스 언어는 제1 화자에 의해 입력된 번역 대상이 되는 언어를 의미하고, 타겟 언어는 번역되어 출력되는 언어를 의미한다.
기계 번역이 완료되면, 모바일 디바이스(1000)는 음성 합성(TTS, Text to Speech)을 수행하여, 제2 언어의 텍스트를 제2 언어의 음성 신호로 변환할 수 있다. 그리고, 모바일 디바이스(1000)는, 제2 언어의 음성 신호를 스피커를 통해 출력할 수 있다. 또는, 모바일 디바이스(1000)는, 번역된 제2 언어의 텍스트를 스크린을 통해 출력할 수 있다.
도 1에 도시된 바와 같이, 2명의 화자(예를 들어, 제1 화자 및 제2 화자)가 서로 다른 언어(예를 들어, 제1 언어 및 제2 언어)를 사용하여 대화할 때, 모바일 디바이스(1000)는 제1 언어를 제2 언어로 번역하거나 또는 제2 언어를 제1 언어로 번역할 수 있다. 이때, 제1 화자와 제2 화자가 대화하기 위해서는, 번역 방향을 정확하게 결정하는 과정이 중요하다. 이하에서는, 설명의 편의상, 제1 언어를 제2 언어로 번역하는 방향을 제1 방향, 제2 언어를 제1 언어로 번역하는 방향을 제2 방향으로 지칭하기로 한다.
도 2는 개시된 일 실시예에 따른 음성 번역 방법을 나타내는 흐름도이다.
단계 S210에서, 모바일 디바이스(1000)는 음성 신호를 수신한다. 이때, 음성 신호는 화자에 의해 적어도 하나의 언어로 발화될 수 있다. 예를 들어, 음성 신호는, "Please wait, I will be back"과 같이 하나의 언어(예를 들어, 영어)로 발화된 것이거나, "When does the Oktoberfest start?"와 같이 2개의 언어(예를 들어, 영어 및 독일어)가 혼용되어 발화된 것일 수 있다.
단계 S220에서, 모바일 디바이스(1000)는 음성 신호를 복수의 음성 세그먼트들로 분할한다.
모바일 디바이스(1000)는, 기설정된 길이의 시간 프레임 단위로 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다. 예를 들어, 시간 프레임의 길이가 20ms인 경우, 모바일 디바이스(1000)는 음성 신호를 20ms 길이의 복수의 음성 세그먼트들로 분할할 수 있다.
그리고, 모바일 디바이스(1000)는, 인접한 음성 세그먼트들끼리 오버랩되도록 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다. 예를 들어, 10ms 만큼 오버랩되는 경우, 0~20ms에 대응되는 음성 신호는 제1 음성 세그먼트, 10ms~30ms에 대응되는 음성 신호는 제2 음성 세그먼트, 20ms~40ms에 대응되는 음성 신호는 제3 음성 세그먼트일 수 있다. 따라서, 10ms 단위로, 서로 다른 음성 세그먼트가 생성될 수 있다. 그러나, 실시예에 따라, 시간 프레임의 길이 및 음성 세그먼트들이 서로 오버랩되는 시간의 길이는 변경될 수 있으며, 전술한 예에 한정되지 않는다.
단계 S230에서, 모바일 디바이스(1000)는 복수의 음성 세그먼트들 각각에 대한 입력 언어 및 화자를 결정한다.
모바일 디바이스(1000)는, 언어 인식(Language Recognition) 방법을 사용하여 음성 세그먼트들의 입력 언어를 결정할 수 있고, 화자 인식(Speaker Recognition) 방법을 사용하여 음성 세그먼트들의 화자를 결정할 수 있다. 이때, 모바일 디바이스(1000)는, 음성 세그먼트 단위로 언어 인식 방법 및 화자 인식 방법을 사용할 수 있다. 그리고, 모바일 디바이스(1000)는, 음성 세그먼트 단위로 입력 언어 및 화자를 결정함으로써, 결정된 입력 언어 및 화자에 대한 신뢰도를 높일 수 있다.
여기서, 언어 인식 방법은 화자에 의해 발화된 음성 신호가 어떤 언어로 발화되었는지 결정하는 방법을 의미하고, 화자 인식 방법은 음성 신호에 포함된 화자 고유의 특징을 추출하여 화자가 누구인지 결정하는 방법을 의미한다. 언어 인식 방법 및 화자 인식 방법을 사용하여 음성 세그먼트들의 입력 언어와 화자를 결정하는 과정은, 도 3a 내지 도 4를 참조하여 후술하기로 한다.
단계 S240에서, 모바일 디바이스(1000)는, 음성 세그먼트들의 입력 언어 및 화자에 기초하여, 번역 방향을 결정한다. 예를 들어, 번역 방향은, 제1 언어를 제2 언어로 번역하는 제1 방향 및 제2 언어를 제1 언어로 번역하는 제2 방향을 포함할 수 있으나, 이에 한정되지 않는다.
모바일 디바이스(1000)는, 음성 세그먼트가 제1 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제1 방향으로 결정할 수 있다. 그리고, 모바일 디바이스(1000)는, 음성 세그먼트가 제2 화자에 의해 제2 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제2 방향으로 결정할 수 있다.
예를 들어, 제1 화자는 영어로 말하고 제2 화자는 독일어로 말할 수 있다. 이때, 제1 화자가 제1 언어인 영어로 "Where can I buy the ticket?"이라고 말하면, 모바일 디바이스(1000)는 "Where can I buy the ticket?"을 제2 언어인 독일어로 번역할 수 있다.
모바일 디바이스(1000)는, 제1 화자에 의해 제2 언어로 발화되거나 제2 화자에 의해 제1 언어로 발화된 음성 세그먼트를 번역하지 않을 수 있다. 예를 들어, 제1 화자는 "When does the Oktoberfest start?"와 같이 2개의 언어(예를 들어, 영어 및 독일어)를 혼용하여 말할 수 있다. 이때, "Oktoberfest"는 제2 언어인 독일어 단어이지만 제1 화자에 의해 발화된 것이므로, 모바일 디바이스(1000)는 "Oktoberfest"를 독일어로 번역할 필요가 없다.
전술한 바와 같이, 음성 세그먼트 단위로 번역 방향이 결정되기 때문에, 모바일 디바이스(1000)는, 한 명의 화자가 2개의 언어를 혼용하여 말하는 경우 번역이 필요하지 않은 음성 세그먼트들을 구분하여 처리할 수 있다.
한편, 언어 인식 방법을 사용한 결과, 음성 세그먼트의 입력 언어가 제1 언어인지 제2 언어인지 불명확할 수 있다. 예를 들어, 언어 인식 방법을 사용한 결과, 음성 세그먼트가 제1 언어에 의해 발화되었을 확률과 제2 언어에 의해 발화되었을 확률의 차이가 임계치 이하일 수 있다. 이때, 모바일 디바이스(1000)는, 화자 인식 방법에 의해 결정된 음성 세그먼트의 화자에 기초하여, 음성 세그먼트의 입력 언어를 결정할 수 있다. 예를 들어, 언어 인식 방법을 사용하여 결정된 음성 세그먼트의 입력 언어가 불명확할 때, 음성 세그먼트가 제1 화자에 의해 발화된 경우, 모바일 디바이스(1000)는 음성 세그먼트의 입력 언어를 제1 언어로 결정할 수 있다. 그리고, 음성 세그먼트가 제2 화자에 의해 발화된 경우, 모바일 디바이스(1000)는 음성 세그먼트의 입력 언어를 제2 언어로 결정할 수 있다. 그리고, 모바일 디바이스(1000)는, 음성 세그먼트의 화자 및 결정된 입력 언어에 기초하여 번역 방향을 결정할 수 있다. 이에 따라, 모바일 디바이스(1000)는, 번역 방향을 보다 정확하게 결정할 수 있다.
단계 S250에서, 모바일 디바이스(1000)는 결정된 번역 방향에 따라 음성 세그먼트들을 번역함으로써 번역된 결과를 생성한다.
예를 들어, 번역 방향이 제1 방향으로 결정된 음성 세그먼트들에 대하여, 모바일 디바이스(1000)는 제1 언어에서 제2 언어로 번역할 수 있다. 그리고, 번역 방향이 제2 방향으로 결정된 음성 세그먼트들에 대하여, 모바일 디바이스(1000)는 제2 언어에서 제1 언어로 번역할 수 있다.
단계 S260에서, 모바일 디바이스(1000)는 번역된 결과를 출력한다.
모바일 디바이스(1000)는 번역된 결과를 음성 또는 텍스트로 출력할 수 있다. 예를 들어, 모바일 디바이스(1000)는 번역된 결과를 스피커를 통해 음성으로 출력하거나, 스크린 상에 텍스트로 출력할 수 있으나, 이에 한정되지 않는다.
도 3a 및 도 3b는 개시된 일 실시예에 따른 모바일 디바이스에서 화자 인식 방법을 사용하여 화자를 결정하는 과정을 나타내는 도면이다.
모바일 디바이스(1000)는 화자 인식 방법을 사용하여 복수의 음성 세그먼트들의 화자를 결정할 수 있다. 예를 들어, 모바일 디바이스(1000)는, 가우시안 혼합 모델(GMM-UBM, Gaussian Mixture Models with Universal Background Model)을 이용하여, 복수의 음성 세그먼트들의 화자를 결정할 수 있다. 또한, 모바일 디바이스(1000)는, SVM(Support Vector Machines), SVM-GSV(Support Vector machines using GMM Super Vector) 방법을 사용하여 복수의 음성 세그먼트들의 화자를 결정할 수 있으며, 전술한 예에 한정되지 않는다. 이하에서는, 설명의 편의상, 가우시안 혼합 모델을 사용하여 화자를 결정하는 경우를 예로 들어 설명하기로 한다.
화자 인식 방법은, 화자 모델 등록 단계(speaker model enrollment process) 와 화자 검증 단계(speaker verification process)를 포함할 수 있다.
도 3a는 화자 모델 등록 단계를 설명하기 위한 도면이다.
도 3a를 참조하면, S300 단계에서, 모바일 디바이스(1000)는, 화자 모델을 등록하기 위하여 음성 신호를 획득할 수 있다. 예를 들어, 모바일 디바이스(1000)는, 마이크를 통해 음성 신호를 획득할 수 있으며, 실시예에 따라 복수의 마이크들이 사용될 수 있다. 이때, 음성 신호는, 화자에 의해 발화된 음성 신호뿐만 아니라 주변 소리들을 포함할 수 있다. 예를 들어, 음성 신호는, 화자에 의해 발화된 음성 신호, 주변 사람들의 대화 소리, 자동차 소리, 및 휴대 전화의 벨소리를 포함할 수 있으나, 이에 한정되지 않는다.
S301 단계에서, 모바일 디바이스(1000)는, 획득한 음성 신호로부터 음성 신호의 특징을 추출할 수 있다.
이때, 모바일 디바이스(1000)는, MFCC(Mel Frequency Cepstral Coefficients)를 사용하여, 추출된 음성 신호의 특징을 나타낼 수 있다. 예를 들어, 모바일 디바이스(1000)는, 음성 신호를 10ms 주기로 20ms 구간에 대하여 STFT(Short-Time Fourier transform)을 수행할 수 있다. 그리고, 모바일 디바이스(1000)는, mel-스케일의 필터 뱅크((mel-scale filter bank)를 이용하여 각 주파수 대역에 대응되는 음성 신호의 에너지 값들을 획득할 수 있다. 모바일 디바이스(1000)는, 획득한 에너지 값들의 로그(log) 값에 DCT(Discrete Cosine Transform)을 수행함으로써, MFCC를 계산할 수 있다. 계산된 MFCC는, 음성 신호의 특징을 나타내는 특징 벡터(feature vector)를 구성한다. 모바일 디바이스(1000)는, MFCC(Mel Frequency Cepstral Coefficients) 이외에도, 추출된 음성 신호의 특징을 선형 예측 계수(Linear Prediction Coefficient, LPC), 필터뱅크 에너지(Filter Bank Energy) 방법을 사용하여 나타낼 수 있으나, 이에 한정되지 않는다.
모바일 디바이스(1000)는, 각각의 음성 세그먼트 단위로 음성 신호의 특징을 추출할 수 있다. 전술한 바와 같이, 모바일 디바이스(1000)는, 기설정된 길이의 시간 프레임 단위로 음성 신호를 분할하여, 복수의 음성 세그먼트들을 생성할 수 있다. 그리고, 모바일 디바이스(1000)는, 인접한 음성 세그먼트들이 서로 오버랩되도록, 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다 . 예를 들어, 인접한 음성 세그먼트들이 서로 10ms만큼 오버랩되는 경우, 모바일 디바이스(1000)는 10ms 단위로 음성 세그먼트의 특징을 추출한다.
S302 단계에서, 모바일 디바이스(1000)는, 각각의 음성 세그먼트가 화자의 목소리를 포함하는지 여부를 감지할 수 있다. 예를 들어, 음성 세그먼트들은 화자의 목소리뿐만 아니라 주변 소리들을 포함할 수 있다. 따라서, 모바일 디바이스(1000)는, 화자의 목소리를 포함하는 음성 세그먼트들을 구분하여 처리함으로써, 화자를 보다 정확하게 결정할 수 있다.
S303 단계에서, 모바일 디바이스(1000)는, 화자의 목소리를 포함하는 음성 세그먼트들을 정규화(normalization)할 수 있다. 모바일 디바이스는, 음성 세그먼트들을 정규화함으로써, 환경에 따라 달라지는 음성 신호 채널(channel)의 영향을 상쇄시킬 수 있다.
S304 단계에서, 모바일 디바이스(1000)는, 화자 모델(speaker model)을 훈련(training)할 수 있다. 모바일 디바이스(1000)는, UBM(Universal Background Model) 및 최대사후(MAP, Maximum a Posteriori) 적응 기법에 기초하여 화자 모델을 훈련할 수 있다.
S305 단계에서, 모바일 디바이스(1000)는 화자 모델을 저장할 수 있다.
화자 모델 등록 과정은 초기에 한 번 수행될 수 있으며, 화자 모델이 등록된 이후에, 모바일 디바이스(1000)는 저장된 화자 모델을 이용하여 화자를 검증할 수 있다.
도 3b는 화자 검증 단계를 설명하기 위한 도면이다.
도 3b를 참조하면, S310 단계에서, 모바일 디바이스(1000)는, 화자를 검증하기 위하여 음성 신호를 획득할 수 있다. 그리고, 화자 등록 단계에서와 마찬가지로, 모바일 디바이스(1000)는, 음성 세그먼트 단위로 음성 신호의 특징을 추출할 수 있고(S311 단계), 음성 세그먼트에 화자의 목소리가 포함되어 있는지 여부를 감지할 수 있다(S312 단계). 그리고, S313 단계에서, 모바일 디바이스(1000)는, 화자의 목소리가 포함된 음성 세그먼트들을 정규화할 수 있다.
S314 단계 및 S315 단계에서, 모바일 디바이스(1000)는 UBM 및 화자 모델을 평가할 수 있다. 이때, 모바일 디바이스(1000)는, 음성 세그먼트로부터 추출된 특징이 UBM 및 화자 모델로부터 생성될 수 있는 확률을 각각 계산할 수 있다.
그리고, S316 단계에서, 모바일 디바이스(1000)는, 음성 세그먼트의 화자를 결정하기 위한 점수를 계산할 수 있다.
S317 단계에서, 모바일 디바이스(1000)는, 복수의 음성 세그먼트들에 대하여 평균 점수를 계산할 수 있다. 예를 들어, 모바일 디바이스(1000)는 10개의 음성 세그먼트들에 대하여 평균 점수를 계산할 수 있으나, 이에 한정되지 않는다.
S318 단계에서, 모바일 디바이스(1000)는, 계산된 평균 점수에 기초하여, 음성 세그먼트의 화자를 결정할 수 있다. S316 단계에서 계산된 점수는 음성 세그먼트 단위로 계산되고, 음성 세그먼트는 상대적으로 짧은 길이의 음성 신호이므로, 결정된 화자에 대한 정확도가 떨어질 수 있다. 따라서, 모바일 디바이스(1000)는, 복수의 음성 세그먼트들에 대하여 계산된 평균 점수에 기초하여 화자를 결정함으로써, 보다 정확하게 화자를 결정할 수 있다.
도 4는 개시된 일 실시예에 따른 모바일 디바이스(1000)에서 음성 신호의 입력 언어를 결정하는 과정을 나타내는 도면이다.
모바일 디바이스(1000)는, 언어 인식 (Language Recognition) 방법을 사용하여, 복수의 음성 세그먼트들의 언어를 결정할 수 있다. 언어 인식 방법은, I-Vector, 음소 디코더(Universal Phoneme Decoder), SDC(Shifted Delta Cepstrum), DNN(Deep Neural Network) 방법을 포함할 수 있으나, 이에 한정되지 않는다. 이하에서는, DNN 방법을 이용하여 복수의 음성 세그먼트들의 입력 언어를 결정하는 과정을 예로 들어 설명한다. DNN(Deep Neural network) 방법은, 입력 계층(input layer)과 출력 계층(output layer) 사이에 복수의 은닉 계층(hidden layer)들을 포함하는 인공 신경망(Artificial Neural Network)으로서, 복잡한 비선형 관계들을 모델링 할 수 있는, 기계 학습(machine learning) 방법 중 하나이다. DNN 방법의 구체적인 내용은 당업자에게 이미 널리 알려져 있다.
도 4를 참조하면, S400 단계에서, 모바일 디바이스(1000)는, 음성 신호를 획득할 수 있다.
그리고, S410 단계에서, 모바일 디바이스(1000)는, 획득한 음성 신호의 특징을 추출할 수 있다. 예를 들어, 모바일 디바이스(1000)는, mel-스케일의 필터 뱅크(mel-scale filter bank)를 사용하여 음성 신호의 특징을 추출할 수 있다.
S420 단계에서, 모바일 디바이스(1000)는, 복수의 음성 세그먼트들을 합칠 수 있다(stack). 예를 들어, 모바일 디바이스(1000)는, 현재 처리되는 음성 세그먼트와 현재 처리되는 음성 세그먼트의 앞/뒤에 위치하는 복수의 음성 세그먼트들을 합칠 수 있다. 예를 들어, 26개의 음성 세그먼트들이 합쳐지는 경우, 모바일 디바이스(1000)는, 현재 처리되는 음성 세그먼트, 현재 처리되는 음성 세그먼트의 앞에 위치하는 20개의 음성 세그먼트들, 및 현재 처리되는 음성 세그먼트의 뒤에 위치하는 5개의 음성 세그먼트들을 합칠 수 있다. 그러나, 전술한 예에 한정되지 않으며, 실시예에 따라, 합쳐지는 음성 세그먼트들의 개수 및 조합은 달라질 수 있다.
S430 단계에서, 모바일 디바이스(1000)는, 각각의 음성 세그먼트에 화자의 목소리가 포함되어 있는지 여부를 감지할 수 있다.
그리고, S440 단계에서, 모바일 디바이스(1000)는, 화자의 목소리가 감지된 음성 세그먼트들을 정규화할 수 있다.
S450 단계에서, 모바일 디바이스(1000)는, DNN 방법에 기초하여 음성 세그먼트들의 입력 언어를 결정하기 위한 점수를 계산할 수 있다.
그리고, S460 단계에서, 모바일 디바이스(1000)는, 복수의 음성 세그먼트들에 대하여 평균 점수를 계산할 수 있다. 예를 들어, 모바일 디바이스(1000)는, 10개의 음성 세그먼트들에 대하여 평균 점수를 계산할 수 있으나, 이에 한정되지 않는다. 각각의 음성 세그먼트가 20ms 길이의 시간 프레임 단위로 분할되고, 각각의 음성 세그먼트가 인접한 세그먼트와 10ms만큼 오버랩될 때, 10ms 단위로 평균 점수가 계산될 수 있다.
S470 단계에서, 모바일 디바이스(1000)는, 계산된 평균 점수에 기초하여, 음성 세그먼트들의 입력 언어를 결정할 수 있다. 예를 들어, 모바일 디바이스(1000)는, 평균 점수가 가장 높은 언어를 음성 세그먼트의 입력 언어로 결정할 수 있다. 모바일 디바이스(1000)는, 평균 점수에 기초하여 음성 세그먼트들의 입력 언어를 결정함으로써, 입력 언어를 보다 정확하게 결정할 수 있다.
도 5a 및 도 5b는 개시된 일 실시예에 따른 모바일 디바이스에서 번역 방향을 결정하는 과정을 나타내는 도면이다.
제1 언어를 사용하는 제1 화자와 제2 언어를 사용하는 제2 화자가 대화할 때, 모바일 디바이스(1000)는, 언어 인식 방법을 이용하여, 수신된 음성 신호의 입력 언어가 제1 언어인지 제2 언어인지 결정할 수 있다. 그리고, 모바일 디바이스(1000)는, 화자 인식 방법을 이용하여, 수신된 음성 신호의 화자가 제1 화자인지 제2 화자인지 결정할 수 있다. 이때, 모바일 디바이스(1000)는, 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있고, 음성 세그먼트 단위로 입력 언어 및 화자를 결정할 수 있다.
예를 들어, 도 5a를 참조하면, 모바일 디바이스(1000)는 언어 인식 방법을 사용하여, 음성 세그먼트의 입력 언어를 제1 언어로 결정할 수 있다. 이에 따라, 모바일 디바이스(1000)는, 제1 언어의 음성 신호를 제1 언어 텍스트로 변환할 수 있다. 그리고, 모바일 디바이스(1000)는 화자 인식 방법을 사용하여, 음성 세그먼트의 화자를 제1 화자로 결정할 수 있다. 그러면, 모바일 디바이스(1000)는, 음성 세그먼트의 입력 언어 및 화자에 기초하여, 번역 방향을 제1 방향으로 결정할 수 있다.
또한, 도 5b를 참조하면, 모바일 디바이스(1000)는 언어 인식 방법을 사용하여, 음성 세그먼트의 입력 언어를 제2 언어로 결정할 수 있다. 이에 따라, 모바일 디바이스(1000)는, 제2 언어의 음성 신호를 제2 언어 텍스트로 변환할 수 있다. 그리고, 모바일 디바이스(1000)는 화자 인식 방법을 사용하여, 음성 세그먼트의 화자를 제2 화자로 결정할 수 있다. 그러면, 모바일 디바이스(1000)는, 음성 세그먼트의 입력 언어 및 화자에 기초하여, 번역 방향을 제2 방향으로 결정할 수 있다.
또한, 전술한 바와 같이, 모바일 디바이스(1000)는, 제1 화자에 의해 제2 언어로 발화된 음성 세그먼트 또는 제2 화자에 의해 제1 언어로 발화된 음성 세그먼트는 번역을 수행하지 않는다.
도 6a는 개시된 일 실시예에 따른 모바일 디바이스에서 번역이 수행되는 일 예를 나타내는 도면이다. 이하에서는, 제1 화자는 영어를 사용하여 말하고, 제2 화자는 독일어를 사용하여 말하는 경우를 예로 들어 설명한다.
예를 들어, 도 6a를 참조하면, 제1 화자(600)가 “When does the Oktoberfest start?”라는 문장을 영어로 말할 수 있다. 그리고, 모바일 디바이스(1000)는, 제1 화자(610)에 의해 발화된 음성 신호를 수신할 수 있다.
모바일 디바이스(1000)는, 제1 화자(600)에 의해 발화된 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다. 음성 신호를 복수의 음성 세그먼트들로 분할하는 과정은, 도 6b를 참조하여 후술한다. 그리고, 모바일 디바이스(1000)는, 각각의 음성 세그먼트에 대한 입력 언어 및 화자를 결정할 수 있다.
도 6a에 도시된 그래프(620)를 참조하면, 모바일 디바이스(1000)는, 각각의 음성 세그먼트의 입력 언어가 영어인지 독일어인지 결정할 수 있다. 예를 들어, 모바일 디바이스(1000)는, 제1 화자(600)에 의해 발화된 음성 신호에서 “Oktoberfest”의 입력 언어는 독일어, 나머지 단어의 입력 언어는 영어로 결정할 수 있다. 그리고, 도 6a에 도시된 그래프(622)를 참조하면, 모바일 디바이스(1000)는, 입력 언어가 영어로 결정된 음성 세그먼트들을 영어 텍스트로 변환할 수 있다. 또한, 모바일 디바이스(1000)는, 입력 언어가 독일어로 결정된 음성 세그먼트들을 독일어 텍스트로 변환할 수 있다.
또한, 도 6a에 도시된 그래프(621)를 참조하면, 모바일 디바이스(1000)는, 각각의 음성 세그머트의 화자가 제1 화자(600)인지 제2 화자(601)인지 결정할 수 있다. 예를 들어, 모바일 디바이스(1000)는, “When does the Oktoberfest start?” 문장에 대응되는 화자를 제1 화자(600)로 결정할 수 있으며, “Nachste Montag” 문장에 대응되는 화자를 제2 화자(601)로 결정할 수 있다.
도 6a에 도시된 그래프(623)를 참조하면, 모바일 디바이스(1000)는, 제1 화자(600)에 의해 영어로 발화된 음성 세그먼트들에 대하여, 번역 방향을 제1 방향으로 결정할 수 있다. 그리고, 모바일 디바이스(1000)는, 제2 화자(601)에 의해 독일어로 발화한 음성 세그먼트들에 대하여, 번역 방향을 제2 방향으로 결정할 수 있다. 이때, 제1 방향은 영어를 독일어로 번역하는 방향이고, 제2 방향은 독일어를 영어로 번역하는 방향을 의미할 수 있다.
한편, 모바일 디바이스(1000)는, 제1 화자(600)에 의해 독일어로 발화된 음성 세그먼트들에 대해서는, 번역을 수행하지 않을 수 있다. 영어를 사용하는 제1 화자(600)와 독일어를 사용하는 제2 화자(601)가 대화할 때, 제1 화자(600)가 문장의 일부 단어를 독일어를 사용하여 말하는 경우, 독일어로 발화된 단어는 번역될 필요가 없다.
예를 들어, 도 6a에 도시된 영역(624)를 참조하면, “Oktoberfest”가 제1 화자(600)에 의해 독일어로 발화되었기 때문에, 모바일 디바이스(1000)는 “Oktoberfest”를 번역하지 않는다.
전술한 바와 같이, 모바일 디바이스(1000)는, 수신된 음성 신호를 복수의 음성 세그먼트들로 분할하고, 각각의 음성 세그먼트들의 입력 언어 및 화자를 고려하여 번역 방향을 결정할 수 있다. 따라서, 모바일 디바이스(1000)는, 한 명의 화자가 두 개 이상의 언어를 혼용하여 말하는 경우에도, 번역 방향을 보다 정확하게 결정할 수 있다.
도 6b는 개시된 일 실시예에 따른 모바일 디바이스가 음성 신호를 복수의 음성 세그먼트들로 분할하는 일 예를 나타내는 도면이다.
모바일 디바이스(1000)는, 제1 화자(600)에 의해 발화된 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다. 예를 들어, 도 6b를 참조하면, 모바일 디바이스(1000)는, 20ms 길이의 시간 프레임 단위로 음성 신호(640)를 복수의 음성 세그먼트들(630 내지 633)로 분할할 수 있다.
또한, 모바일 디바이스(1000)는, 인접한 음성 세그먼트들끼리 오버랩되도록, 음성 신호(640)를 복수의 음성 세그먼트들로 분할할 수 있다. 예를 들어, 도 6b를 참조하면, 모바일 디바이스(1000)는, 인접한 음성 세그먼트들끼리 10ms만큼 오버랩되도록 음성 신호(640)를 분할할 수 있다. 그러면, 0ms~20ms에 대응되는 음성 신호(640)는 제1 음성 세그먼트(630), 10ms~30ms에 대응되는 음성 신호(640)는 제2 음성 세그먼트(631), 20ms~40ms에 대응되는 음성 신호(640)는 제3 음성 세그먼트(632), 30ms-50ms에 대응되는 음성 신호(640)는 제4 음성 세그먼트(633)가 될 수 있다. 이에 따라, 10ms 단위로 서로 다른 음성 세그먼트가 생성될 수 있다. 그러나, 시간 프레임의 길이 및 인접한 음성 세그먼트들이 오버랩되는 길이는 실시예에 따라 달라질 수 있으며, 전술한 예에 한정되지 않는다.
모바일 디바이스(1000)는, 인접한 세그먼트들끼리 오버랩되도록, 음성 신호(640)를 복수의 음성 세그먼트들(630 내지 633)로 분할함으로써, 번역 방향을 보다 정확하게 결정할 수 있다.
도 7a 내지 도 7c는 개시된 일 실시예에 따른 모바일 디바이스에서 번역된 결과를 출력하는 일 예를 나타내는 도면이다.
예를 들어, 제1 화자(600)가 “Where can I buy the ticket?”을 영어로 말하면, 모바일 디바이스(1000)는 제1 화자(600)에 의해 발화된 음성 신호를 독일어로 번역할 수 있다. 그리고, 모바일 디바이스(1000)는, 번역된 결과를 출력할 수 있다. 이때, 모바일 디바이스(1000)는, 스크린 상에 번역된 결과를 텍스트로 표시할 수 있고, 스피커를 통해 번역된 결과를 음성 신호로 출력할 수 있으나, 이에 한정되지 않는다.
도 7a를 참조하면, 모바일 디바이스(1000)는, 제1 화자(600)에 의해 발화된 “Where can I buy the ticket?”(700)을 독일어로 번역하고, 번역된 “Wo Kann ich das ticket kaufen?”을 스크린 상에 텍스트로 표시(701)할 수 있다. 이때, 모바일 디바이스(1000)는, 제1 화자(600)가 번역된 결과를 확인할 수 있도록, 번역된 독일어 텍스트(701)와 제1 화자(600)에 의해 발화된 영어 텍스트(702)를 함께 표시할 수 있다.
그리고, 제1 화자(600)의 발화가 종료되고, 제1 화자(600)로부터 수신된 음성 신호의 번역이 완료된 후에, 모바일 디바이스(1000)는, 스크린 상에 번역된 텍스트만 표시할 수 있다. 이때, 모바일 디바이스(1000)는, 제2 화자(601)가 번역된 텍스트를 확인할 수 있도록 번역된 텍스트를 스크린 상에서 회전시켜 표시할 수 있다.
예를 들어, 도 7b를 참조하면, 제1 화자(600)의 발화(“Where can I buy the ticket?”)가 종료되고, “Where can I buy the ticket?”에 대한 번역(“Wo kann ich das ticket kaufen?”)이 완료된 후에, 모바일 디바이스(1000)는 번역된 텍스트(“Wo kann ich das ticket kaufen?”)를 스크린 상에서 180도 회전시켜 표시(711)할 수 있다. 이에 따라, 제1 화자가 모바일 디바이스(1000)를 회전시키지 않더라도, 제2 화자가 독일어로 번역된 텍스트를 용이하게 확인할 수 있다.
또한, 모바일 디바이스(1000)는, 번역된 텍스트를 스크린 상에서 회전시켜 표시하면서, 번역된 텍스트를 음성 신호로 합성하고, 합성된 음성 신호를 스피커를 통해 출력할 수 있다.
제2 화자(601)는, 모바일 디바이스(1000)에 의해 번역된 결과를 확인하고, 제1 화자에게 응답하는 문장을 독일어로 말할 수 있다. 그러면, 모바일 디바이스(1000)는, 제2 화자(601)에 의해 발화된 음성 신호를 독일어 텍스트로 변환하여 스크린 상에 표시할 수 있다. 이때, 모바일 디바이스(1000)는, 독일어 텍스트를 180도 회전시켜 표시함으로써, 제2 화자가 스크린 상에 표시되는 독일어 텍스트를 용이하게 확인할 수 있도록 한다. 이에 따라, 제2 화자는, 제2 화자에 의해 발화된 음성이 모바일 디바이스(1000)에서 제대로 인식되었는지 여부를 확인할 수 있다.
예를 들어 도 7b에 도시된 바와 같이, 제2 화자(601)는 제1 화자(600)의 질문에 응답하여, “Um Die Ecke”(720)를 독일어로 말할 수 있다. 그러면, 모바일 디바이스(1000)는, 제2 화자(601)에 의해 수신된 음성 신호의 입력 언어를 독일어로 결정하고, 제2 화자(601)에 의해 수신된 음성 신호를 독일어 텍스트로 변환할 수 있다. 그리고, 모바일 디바이스(1000)는, 제2 화자(601)가 변환된 독일어 텍스트(““Um Die Ecke”)를 용이하게 확인할 수 있도록, 스크린 상에 180도 회전시켜 표시(721)할 수 있다.
그리고, 제2 화자(601)의 발화가 종료되면, 모바일 디바이스(1000)는 제2 화자(601)에 의해 발화된 음성 신호를 영어로 번역하고, 번역된 결과를 스크린 상에 텍스트로 표시할 수 있다. 이때, 모바일 디바이스(1000)는, 번역된 영어 텍스트와 제2 화자(601)에 의해 발화된 독일어 텍스트를 함께 표시할 수 있다.
예를 들어, 도 7c를 참조하면, 모바일 디바이스(1000)는, 제2 화자(601)에 의해 발화된 "Um die Ecke"(720)를 영어로 번역할 수 있다. 그리고, 모바일 디바이스(1000)는, 번역된 영어 텍스트("Around the corner")(731) 및 제2 화자(601)에 의해 발화된 독일어 텍스트("Um die Ecke")(732)를 함께 표시할 수 있다.
도 8은 개시된 일 실시예에 따른 모바일 디바이스의 구성을 나타내는 블록도이다.
도 8을 참조하면, 모바일 디바이스(1000)는, 음성 수신부(1100), 제어부(1200), 및 출력부(1300)를 포함할 수 있다. 도시된 구성요소보다 많은 구성요소에 의해 모바일 디바이스(1000)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 모바일 디바이스(1000)는 구현될 수 있다.
이하 상기 구성 요소들에 대해 차례로 살펴본다.
음성 수신부(1100)는 외부의 음성 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 음성 수신부(1100)는 외부 디바이스 또는 화자로부터 음성 신호를 수신할 수 있다. 음성 수신부(1100)는, 음성 신호를 수신하고, 수신된 음성 신호를 제어부(1200)에 전달함으로써, 제어부(1200)에서 번역이 수행되도록 할 수 있다. 또한, 음성 수신부(1100)는, 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다. 음성 수신부(1100)는 마이크(microphone)를 포함할 수 있으며, 실시예에 따라 하나 이상의 마이크를 포함할 수 있다.
제어부(1200)는, 음성 수신부(1100)로부터 수신된 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다. 제어부(1200)는, 기설정된 길이의 시간 프레임 단위로 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다. 또한, 제어부(1200)는, 인접한 음성 세그먼트들끼리 서로 오버랩되도록, 음성 신호를 복수의 음성 세그먼트들로 분할할 수 있다.
제어부(1200)는, 복수의 음성 세그먼트들 각각에 대한 입력 언어 및 화자를 결정하고, 결정된 입력 언어 및 화자에 기초하여 번역 방향을 결정할 수 있다. 제어부(1200)는, 음성 세그먼트가 제1 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제1 방향으로 결정하고, 음성 세그먼트가 제2 화자에 의해 제2 언어로 발화된 음성 세그먼트일 때, 번역 방향을 제2 방향으로 결정할 수 있다.
또한, 제어부(1200)는, 음성 세그먼트가 제1 언어로 발화되었을 확률과 제2 언어로 발화되었을 확률의 차이가 임계치 이하일 때, 음성 세그먼트의 화자에 기초하여 음성 세그먼트의 입력 언어를 결정할 수 있다. 제어부(1200)는, 음성 세그먼트가 제1 언어로 발화되었을 확률과 제2 언어로 발화되었을 확률의 차이가 임계치 이하이고, 음성 세그먼트의 화자가 제1 화자로 결정된 경우, 음성 세그먼트의 입력 언어를 제1 언어로 결정할 수 있다. 그리고, 제어부(1200)는, 음성 세그먼트가 제1 언어로 발화되었을 확률과 제2 언어로 발화되었을 확률의 차이가 임계치 이하이고, 음성 세그먼트의 화자가 제2 화자로 결정된 경우, 음성 세그먼트의 입력 언어를 제2 언어로 결정할 수 있다.
제어부(1200)는, 음성 세그먼트가 제1 화자에 의해 제2 언어로 발화된 음성 세그먼트이거나, 제2 화자에 의해 제1 언어로 발화된 음성 세그먼트일 때, 음성 세그먼트를 번역하지 않을 수 있다. 제어부(1200)는, 결정된 번역 방향에 따라 음성 세그먼트들을 번역함으로써 번역된 결과를 생성할 수 있다.
제어부(1200)는, 실시예에 따라, 하나 이상의 프로세서(processor)로 구현될 수 있다.
출력부(1300)는, 제어부(1200)에 의해 번역된 결과를 출력할 수 있다.
출력부(1300)는, 디스플레이 또는 스피커를 포함할 수 있다. 출력부(1300)는, 번역된 결과를 스크린 상에 텍스트로 표시하거나, 스피커를 통하여 음성으로 출력할 수 있다. 또한, 출력부(1300)는, 화자가 번역된 결과를 용이하게 확인할 수 있도록, 텍스트를 스크린 상에서 회전시켜 표시할 수 있다.
도 9는 개시된 일 실시예에 따른 제어부의 구성을 나타내는 블록도이다.
실시예에 따라, 제어부(1200)는, 언어 인식 모듈(1210), 화자 인식 모듈(1220), 번역방향 결정부(1230), 및 번역부(1240)를 포함할 수 있다.
언어 인식 모듈(1210)은, 다양한 언어 인식 방법들을 이용하여, 복수의 음성 세그먼트들의 입력 언어를 결정할 수 있다. 화자 인식 모듈(1220)은, 다양한 화자 인식 방법들을 이용하여, 복수의 음성 세그먼트들의 화자를 결정할 수 있다. 번역방향 결정부(1230)는, 언어 인식 모듈(1210) 및 화자 인식 모듈(1220)로부터 결정된 음성 세그먼트들의 입력 언어 및 화자에 기초하여, 번역 방향을 결정할 수 있다. 번역 방향은, 제1 언어를 제2 언어로 번역하는 제1 방향 및 제2 언어를 제1 언어로 번역하는 제2 방향을 포함할 수 있으나, 이에 한정되지 않는다.
번역부(1240)는, 번역방향 결정부(1230)에 의해 결정된 번역 방향에 따라 음성 신호를 번역할 수 있다.
제어부(1200)는, 도 9에 도시된 바와 같이 복수의 구성요소를 포함할 수 있으나, 이에 한정되지 않는다. 따라서, 도 9에 도시된 구성요소보다 많은 구성요소에 의해 제어부(1200)가 구현될 수도 있고, 그보다 적은 구성요소에 의해 제어부(1200)가 구현될 수도 있다.
도 10은 개시된 다른 실시예에 따른 모바일 디바이스의 구성을 나타내는 블록도이다.
도 10에 도시된 바와 같이, 모바일 디바이스(1000a)는, 음성 수신부(1100), 제어부(1200), 및 출력부(1300) 이외에, 사용자 입력부(1800), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 및 저장부(1700)를 더 포함할 수 있다.
음성 수신부(1100), 제어부(1200), 및 출력부(1300)에 대하여, 도 8에서 설명한 내용과 중복되는 내용은 도 10에서 생략한다.
사용자 입력부(1800)는, 사용자가 모바일 디바이스(1000a)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1800)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나, 이에 한정되는 것은 아니다.
사용자 입력은, 모바일 디바이스(1000a)의 음성 번역 기능과 관련된 설정을 제어하기 위한 입력일 수 있다. 예를 들어, 사용자 입력은 사용자 편의에 따라, 음성 세그먼트의 길이를 다르게 설정하기 위한 입력일 수 있다. 이에 따라, 사용자는, 모바일 디바이스(1000a)의 성능을 고려하여, 번역을 수행하기 위해 필요한 계산량을 줄일 수 있다.
출력부(1300)는, 디스플레이부(1310), 음향 출력부(1320), 및 진동 모터(1330)를 포함할 수 있다.
디스플레이부(1310)는, 제어부(1200)에서 번역된 결과를 텍스트로 표시할 수 있다. 디스플레이부(1310)는, 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3-dimensional display), 전기 영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고, 실시예에 따라, 모바일 디바이스(1000a)는 디스플레이부(1310)를 두개 이상 포함할 수 있다.
음향 출력부(1320)는, 통신부(1500)로부터 수신되거나 저장부(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1320)는 모바일 디바이스(1000a)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 또한, 음향 출력부(1320)는, 제어부(1200)에서 번역된 결과를 음성으로 출력할 수 있다. 음향 출력부(1320)는 스피커(speaker), 버저(Buzzer) 등을 포함할 수 있다.
진동 모터(1330)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1330)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1330)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다. 그리고, 진동 모터(1330)는, 제어부(1200)에서 번역이 완료되거나, 디스플레이부(1310) 또는 음향 출력부(1320)를 통해 번역된 결과가 출력될 때, 진동 신호를 함께 출력할 수 있다.
센싱부(1400)는, 모바일 디바이스(1000a)의 상태 또는 모바일 디바이스(1000a) 주변의 상태를 감지하고, 감지된 정보를 제어부(1200)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 모바일 디바이스(1000a)가 외부 장치와 통신을 할 수 있는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 실시예에 따라서 모바일 디바이스(1000a)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
A/V(Audio/Video) 입력부(1600)는, 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 음성 수신부(1100) 이외에 카메라(1610)를 포함할 수 있다.
카메라(1610)는, 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 제어부(1200) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. 카메라(1610)에서 처리된 화상 프레임은 저장부(1700)에 저장되거나 통신부(1500)를 통하여 외부로 전송될 수 있다. 카메라(1610)는 실시예에 따라 2개 이상이 구비될 수도 있다.
또한, 카메라(1610)는, 화자의 얼굴을 인식하는데 사용될 수 있다. 모바일 디바이스(1000a)는, 카메라(1610)로부터 수신된 화자의 얼굴 이미지를 분석함으로써, 스크린을 보고 있는 화자가 제1 화자인지 제2 화자인지 감지할 수 있다. 이에 따라, 제어부(1200)는, 음성 수신부(1100)를 통해 수신된 음성 신호의 화자를 보다 정확하게 결정할 수 있다.
저장부(1700)는, 제어부(1200)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 모바일 디바이스(1000a)로 입력되거나 모바일 디바이스(1000a)로부터 출력되는 데이터를 저장할 수도 있다. 예를 들어, 저장부(1700)는, 등록된 화자 모델 및 UBM(Universal Background Model)을 저장할 수 있다.
실시예에 따라, 저장부(1700)는, 화자로부터 수신된 음성 신호를 복수의 음성 세그먼트들로 분할하고, 복수의 음성 세그먼트들 각각에 대하여, 음성 세그먼트들의 입력 언어 및 화자를 결정하고, 결정된 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하고, 결정된 번역 방향에 따라 음성 세그먼트들을 번역하고, 번역된 결과를 출력하도록 출력부를 제어하는 하나 이상의 인스트럭션(instruction)을 포함하는 모듈을 포함할 수 있다.
저장부(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
저장부(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 모바일 디바이스(1000a)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 제어부(1200)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
알림 모듈(1730)은 모바일 디바이스(1000a)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 모바일 디바이스(1000a)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈(1730)은 디스플레이부(1310)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(1320)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(1330)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
한편, 도 8 및 도 10에 도시된 모바일 디바이스(1000 및 1000a)의 블록도는 일 실시예를 위한 블록도이다. 블록도의 각 구성요소는 실제 구현되는 모바일 디바이스(1000 및 1000a)의 사양에 따라 통합, 추가, 또는 생략될 수 있다. 예를 들어, 필요에 따라 2 이상의 구성요소가 하나의 구성요소로 합쳐지거나, 혹은 하나의 구성요소가 2 이상의 구성요소로 세분화되어 구성될 수 있다. 또한, 각 블록에서 수행하는 기능은 실시예들을 설명하기 위한 것이며, 그 구체적인 동작이나 장치는 본 발명의 권리범위를 제한하지 아니한다.
개시된 실시예들은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해하여야 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
Claims (20)
- 음성 수신부;
상기 음성 수신부에 의해 수신된 음성 신호를 인접한 음성 세그먼트들끼리 서로 오버랩되도록 복수의 음성 세그먼트들로 분할하고, 상기 복수의 음성 세그먼트들에 기초하여 입력 언어 및 상기 복수의 음성 세그먼트 각각에 대응하는 화자(speaker)를 결정하고, 상기 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하고, 상기 번역 방향에 따라 상기 음성 세그먼트들을 번역함으로써 번역된 결과를 생성하는, 프로세서; 및
상기 번역된 결과를 출력하는 출력부;를 포함하고,
상기 프로세서는,
제1 음성 세그먼트의 화자가 제1 화자로 결정된 경우, 상기 제1 음성 세그먼트의 입력 언어를 제1 언어로 결정하고, 상기 제1 음성 세그먼트의 화자가 제2 화자로 결정된 경우, 상기 제1 음성 세그먼트의 입력 언어를 제2 언어로 결정하고,
상기 제1 음성 세그먼트가 상기 제1 화자에 의해 상기 제1 언어로 발화된 음성 세그먼트일 때, 상기 번역 방향을 제1 방향으로 결정하고, 상기 제1 음성 세그먼트가 상기 제2 화자에 의해 상기 제2 언어로 발화된 음성 세그먼트일 때, 상기 번역 방향을 제2 방향으로 결정하고,
상기 제1 음성 세그먼트가 상기 제1 화자에 의해 상기 제1 언어가 아닌 상기 제2 언어로 발화된 음성 세그먼트이거나, 상기 제2 화자에 의해 상기 제2 언어가 아닌 상기 제1 언어로 발화된 음성 세그먼트일 때, 상기 제1 음성 세그먼트를 번역하지 않고,
상기 제1 방향은 상기 제1 언어에서 상기 제2 언어로 번역하는 방향이고, 상기 제2 방향은 상기 제2 언어에서 상기 제1 언어로 번역하는 방향인, 전자 디바이스. - 삭제
- 삭제
- 제 1항에 있어서, 상기 프로세서는,
상기 제1 음성 세그먼트가 상기 제1 언어로 발화되었을 확률과 상기 제1 음성 세그먼트가 상기 제2 언어로 발화되었을 확률의 차이가 임계치 이하일 때, 상기 제1 음성 세그먼트의 화자에 기초하여 상기 제1 음성 세그먼트의 입력 언어를 결정하는, 전자 디바이스. - 삭제
- 삭제
- 제 1항에 있어서, 상기 프로세서는,
기설정된 길이의 시간 프레임 단위로 상기 음성 신호를 상기 복수의 음성 세그먼트들로 분할하는, 전자 디바이스. - 삭제
- 제 1항에 있어서, 상기 출력부는,
상기 음성 신호의 번역이 완료된 경우, 상기 번역된 결과를 나타내는 텍스트를 스크린 상에서 회전시켜 표시하는, 전자 디바이스. - 전자 장치가 음성 신호를 수신하는 단계;
프로세서가 상기 음성 신호를 인접한 음성 세그먼트들끼리 서로 오버랩되도록 복수의 음성 세그먼트들로 분할하는 단계;
상기 복수의 음성 세그먼트들에 기초하여 입력 언어 및 상기 복수의 음성 세그먼트들 각각에 대한 화자를 결정하는 단계;
상기 프로세서가 상기 음성 세그먼트들의 입력 언어 및 화자에 기초하여 번역 방향(translation direction)을 결정하는 단계;
상기 번역 방향에 따라 상기 음성 세그먼트들을 번역함으로써 번역된 결과를 생성하는 단계; 및
상기 번역된 결과를 출력하는 단계;를 포함하고,
상기 음성 세그먼트들의 입력 언어 및 화자를 결정하는 단계는,
제1 음성 세그먼트의 화자가 제1 화자로 결정된 경우, 상기 제1 음성 세그먼트의 입력 언어를 제1 언어로 결정하고, 상기 제1 음성 세그먼트의 화자가 제2 화자로 결정된 경우, 상기 제1 음성 세그먼트의 입력 언어를 제2 언어로 결정하는 단계;를 포함하고,
상기 프로세서가 상기 번역 방향을 결정하는 단계는,
상기 제1 음성 세그먼트가 상기 제1 화자에 의해 상기 제1 언어로 발화된 음성 세그먼트일 때, 상기 번역 방향을 제1 방향으로 결정하는 단계; 및
상기 제1 음성 세그먼트가 상기 제2 화자에 의해 상기 제2 언어로 발화된 음성 세그먼트일 때, 상기 번역 방향을 제2 방향으로 결정하는 단계를 포함하고,
상기 제1 방향은 제1 언어에서 제2 언어로 번역하는 방향이고, 상기 제2 방향은 제2 언어에서 제1 언어로 번역하는 방향이고,
상기 음성 세그먼트들을 번역하는 단계는,
상기 제1 음성 세그먼트가 상기 제1 화자에 의해 상기 제1 언어가 아닌 상기 제2 언어로 발화된 음성 세그먼트이거나, 상기 제2 화자에 의해 상기 제2 언어가 아닌 상기 제1 언어로 발화된 음성 세그먼트일 때, 상기 제1 음성 세그먼트를 번역하지 않는 단계를 포함하는, 음성 번역 방법. - 삭제
- 삭제
- 제 10항에 있어서,
상기 음성 세그먼트들의 입력 언어 및 화자를 결정하는 단계는,
상기 제1 음성 세그먼트가 상기 제1 언어로 발화되었을 확률과 상기 제1 음성 세그먼트가 상기 제2 언어로 발화되었을 확률의 차이를 결정하는 단계; 및
상기 결정된 차이가 임계치 이하일 때, 상기 음성 세그먼트의 화자에 기초하여 상기 제1 음성 세그먼트의 입력 언어를 결정하는 단계를 포함하는, 음성 번역 방법. - 삭제
- 삭제
- 제 10항에 있어서, 상기 음성 신호를 복수의 음성 세그먼트들로 분할하는 단계는,
기설정된 길이의 시간 프레임 단위로 상기 음성 신호를 상기 복수의 음성 세그먼트들로 분할하는, 음성 번역 방법. - 삭제
- 제 10항에 있어서, 상기 번역된 결과를 출력하는 단계는,
상기 음성 신호의 번역이 완료된 경우, 상기 번역된 결과를 나타내는 텍스트를 스크린 상에서 회전시켜 표시하는, 음성 번역 방법. - 제 10항에 기재된 방법을 실행하는 프로세서에 의해 실행되는, 컴퓨터 프로그램을 기록한 비일시적인 컴퓨터 판독가능 기록 매체.
- 제 10항에 있어서,
상기 입력 언어를 결정하는 단계는:
DNN(Deep Neural Network) 방법, I-Vector 방법, 음소 디코더(Universal Phoneme Decoder), SDC(Shifted Delta Cepstrum) 중 적어도 하나를 포함하는 언어 인식 방법에 기초하여 상기 복수의 음성 세그먼트들 중에서 적어도 2개의 인접하는 음성 세그먼트들의 상기 입력 언어를 결정하는 단계;
상기 적어도 2개의 인접하는 음성 세그먼트들 각각에 대한 점수를 계산하는 단계; 및
상기 적어도 2개의 인접하는 음성 세그먼트들의 계산된 점수들에 기초하여 각각의 음성 세그먼트의 상기 입력 언어를 결정하는 단계를 포함하고,
상기 각각의 음성 세그먼트의 화자를 결정하는 단계는:
상기 복수의 음성 세그먼트들 중에서 적어도 2개의 인접하는 음성 세그먼트들에 기초하여 화자 모델을 생성하는 단계;
메모리에 저장된 복수의 화자 모델들과 상기 생성된 화자 모델을 비교한 것에 기초하여 점수를 계산하는 단계; 및
상기 계산된 점수에 기초하여 복수의 화자 모델들 중에서 화자 모델을 선택하는 단계를 포함하고,
상기 선택된 화자 모델은 상기 음성 신호의 화자를 나타내는, 음성 번역 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160040201A KR102545764B1 (ko) | 2016-04-01 | 2016-04-01 | 음성 번역을 위한 장치 및 방법 |
US15/427,665 US10402500B2 (en) | 2016-04-01 | 2017-02-08 | Device and method for voice translation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160040201A KR102545764B1 (ko) | 2016-04-01 | 2016-04-01 | 음성 번역을 위한 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170112713A KR20170112713A (ko) | 2017-10-12 |
KR102545764B1 true KR102545764B1 (ko) | 2023-06-20 |
Family
ID=59958844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160040201A KR102545764B1 (ko) | 2016-04-01 | 2016-04-01 | 음성 번역을 위한 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10402500B2 (ko) |
KR (1) | KR102545764B1 (ko) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR102380145B1 (ko) | 2013-02-07 | 2022-03-29 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10964329B2 (en) * | 2016-07-11 | 2021-03-30 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
DE102016114265A1 (de) * | 2016-08-02 | 2018-02-08 | Claas Selbstfahrende Erntemaschinen Gmbh | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
KR101989127B1 (ko) * | 2017-05-31 | 2019-09-30 | 네이버랩스 주식회사 | 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램 |
US11087766B2 (en) * | 2018-01-05 | 2021-08-10 | Uniphore Software Systems | System and method for dynamic speech recognition selection based on speech rate or business domain |
CN108417201B (zh) * | 2018-01-19 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 单信道多说话人身份识别方法及系统 |
US11138390B2 (en) * | 2018-02-09 | 2021-10-05 | Google Llc | Concurrent reception of multiple user speech input for translation |
US10984795B2 (en) * | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
KR102124808B1 (ko) * | 2018-06-12 | 2020-07-23 | (주)메타콤 | 쌍방향 통역 기능을 제공하는 휴대용 Wi-Fi 중계 장치 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109360549B (zh) * | 2018-11-12 | 2023-07-18 | 北京搜狗科技发展有限公司 | 一种数据处理方法、穿戴设备和用于数据处理的装置 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11093720B2 (en) * | 2019-03-28 | 2021-08-17 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for converting multiple language variations |
US11475884B2 (en) * | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
EP3909045A4 (en) * | 2019-05-14 | 2022-03-16 | Samsung Electronics Co., Ltd. | METHOD, APPARATUS, ELECTRONIC DEVICE AND COMPUTER READABLE MATERIAL FOR VOICE TRANSLATION |
CN112037768B (zh) * | 2019-05-14 | 2024-10-22 | 北京三星通信技术研究有限公司 | 语音翻译方法、装置、电子设备及计算机可读存储介质 |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN114175149A (zh) | 2019-07-01 | 2022-03-11 | 谷歌有限责任公司 | 自适应日志模型和用户界面 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN111091809B (zh) * | 2019-10-31 | 2023-05-23 | 国家计算机网络与信息安全管理中心 | 一种深度特征融合的地域性口音识别方法及装置 |
US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
KR20220059207A (ko) | 2020-11-02 | 2022-05-10 | 주식회사 아모센스 | 음성을 처리하기 위한 장치 및 이의 작동 방법 |
KR20220056593A (ko) | 2020-10-28 | 2022-05-06 | 주식회사 아모센스 | 음성을 처리할 수 있는 모바일 단말기 및 이의 작동 방법 |
KR20220059211A (ko) | 2020-11-02 | 2022-05-10 | 주식회사 아모센스 | 음성을 처리하기 위한 장치 및 이의 작동 방법 |
US12020697B2 (en) | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20220043279A (ko) | 2020-09-29 | 2022-04-05 | 주식회사 아모센스 | 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 |
KR20220022674A (ko) | 2020-08-19 | 2022-02-28 | 주식회사 아모센스 | 음성 데이터를 처리하기 위한 음성 처리 장치 및 이의 작동 방법 |
KR20220162247A (ko) | 2021-06-01 | 2022-12-08 | 주식회사 아모센스 | 권한 수준에 따라 화자의 음성을 처리하기 위한 음성 처리 장치 |
KR20220042010A (ko) | 2020-09-25 | 2022-04-04 | 주식회사 아모센스 | 음성 처리 장치와 단말기를 포함하는 음성 처리 시스템 |
KR20220042009A (ko) | 2020-09-25 | 2022-04-04 | 주식회사 아모센스 | 차량과 통신할 수 있는 음성 처리 장치 및 이의 작동 방법 |
KR20220042509A (ko) | 2020-09-28 | 2022-04-05 | 주식회사 아모센스 | 음성 처리 장치 및 이의 작동 방법 |
KR102575293B1 (ko) | 2021-05-27 | 2023-09-06 | 주식회사 아모센스 | 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법 |
US20240104311A1 (en) * | 2022-09-23 | 2024-03-28 | Qualcomm Incorporated | Hybrid language translation on mobile devices |
KR102564560B1 (ko) * | 2022-09-23 | 2023-08-09 | 미디어젠(주) | 투명 디스플레이를 이용한 양방향 통역 장치 |
KR102557092B1 (ko) * | 2022-11-11 | 2023-07-19 | 주식회사 디엠티랩스 | 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
US20120323577A1 (en) | 2011-06-16 | 2012-12-20 | General Motors Llc | Speech recognition for premature enunciation |
US20150134320A1 (en) | 2013-11-14 | 2015-05-14 | At&T Intellectual Property I, L.P. | System and method for translating real-time speech using segmentation based on conjunction locations |
US20170262434A1 (en) | 2016-03-14 | 2017-09-14 | Kabushiki Kaisha Toshiba | Machine translation apparatus and machine translation method |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5689616A (en) | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
US5895447A (en) | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US6088669A (en) | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
GB9927528D0 (en) | 1999-11-23 | 2000-01-19 | Ibm | Automatic language identification |
US6952674B2 (en) | 2002-01-07 | 2005-10-04 | Intel Corporation | Selecting an acoustic model in a speech recognition system |
US20060167677A1 (en) * | 2002-07-30 | 2006-07-27 | Albert Bitzer | Mobile communication terminal |
JP4087400B2 (ja) | 2005-09-15 | 2008-05-21 | 株式会社東芝 | 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム |
DE102006057159A1 (de) | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
US8190420B2 (en) | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
US20120010886A1 (en) | 2010-07-06 | 2012-01-12 | Javad Razavilar | Language Identification |
US9053096B2 (en) | 2011-12-01 | 2015-06-09 | Elwha Llc | Language translation based on speaker-related information |
TWI466101B (zh) | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | 語音識別方法及系統 |
KR20140049922A (ko) * | 2012-10-18 | 2014-04-28 | 한국전자통신연구원 | 사용자 정보를 이용한 다국어 자동통역기의 언어인식 장치 |
KR20140072670A (ko) | 2012-12-05 | 2014-06-13 | 한국전자통신연구원 | 사용자 음성 처리용 인터페이스 장치 및 방법 |
US9501472B2 (en) | 2012-12-29 | 2016-11-22 | Intel Corporation | System and method for dual screen language translation |
US20140365200A1 (en) * | 2013-06-05 | 2014-12-11 | Lexifone Communication Systems (2010) Ltd. | System and method for automatic speech translation |
US9355094B2 (en) | 2013-08-14 | 2016-05-31 | Google Inc. | Motion responsive user interface for realtime language translation |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
KR20150093482A (ko) * | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
-
2016
- 2016-04-01 KR KR1020160040201A patent/KR102545764B1/ko active IP Right Grant
-
2017
- 2017-02-08 US US15/427,665 patent/US10402500B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
US20120323577A1 (en) | 2011-06-16 | 2012-12-20 | General Motors Llc | Speech recognition for premature enunciation |
US20150134320A1 (en) | 2013-11-14 | 2015-05-14 | At&T Intellectual Property I, L.P. | System and method for translating real-time speech using segmentation based on conjunction locations |
US20170262434A1 (en) | 2016-03-14 | 2017-09-14 | Kabushiki Kaisha Toshiba | Machine translation apparatus and machine translation method |
Also Published As
Publication number | Publication date |
---|---|
US10402500B2 (en) | 2019-09-03 |
US20170286407A1 (en) | 2017-10-05 |
KR20170112713A (ko) | 2017-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102545764B1 (ko) | 음성 번역을 위한 장치 및 방법 | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US9911416B2 (en) | Controlling electronic device based on direction of speech | |
US20200294488A1 (en) | Method, device and storage medium for speech recognition | |
US9953632B2 (en) | Keyword model generation for detecting user-defined keyword | |
US9864745B2 (en) | Universal language translator | |
US9443527B1 (en) | Speech recognition capability generation and control | |
CN108346425B (zh) | 一种语音活动检测的方法和装置、语音识别的方法和装置 | |
CN110959159A (zh) | 话语分类器 | |
US11715480B2 (en) | Context-based speech enhancement | |
CN108292502A (zh) | 语音对话装置及语音对话方法 | |
US11848029B2 (en) | Method and device for detecting audio signal, and storage medium | |
CN111684521B (zh) | 用于说话者识别的处理语音信号方法及实现其的电子装置 | |
US11830501B2 (en) | Electronic device and operation method for performing speech recognition | |
US20180350360A1 (en) | Provide non-obtrusive output | |
KR20210042520A (ko) | 전자 장치 및 이의 제어 방법 | |
CN110337030A (zh) | 视频播放方法、装置、终端和计算机可读存储介质 | |
US12001808B2 (en) | Method and apparatus for providing interpretation situation information to one or more devices based on an accumulated delay among three devices in three different languages | |
CN116229962A (zh) | 终端设备及语音唤醒方法 | |
CN109102810B (zh) | 声纹识别方法和装置 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
US20240212681A1 (en) | Voice recognition device having barge-in function and method thereof | |
US20240119930A1 (en) | Artificial intelligence device and operating method thereof | |
KR20230075915A (ko) | 전자 장치 및 그 동작 방법 | |
KR20240160493A (ko) | 음성 신호를 처리하기 위한 전자 장치, 그 동작 방법 및 저장 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |