KR20180010923A - 개별화된 핫워드 검출 모델들 - Google Patents
개별화된 핫워드 검출 모델들 Download PDFInfo
- Publication number
- KR20180010923A KR20180010923A KR1020160099402A KR20160099402A KR20180010923A KR 20180010923 A KR20180010923 A KR 20180010923A KR 1020160099402 A KR1020160099402 A KR 1020160099402A KR 20160099402 A KR20160099402 A KR 20160099402A KR 20180010923 A KR20180010923 A KR 20180010923A
- Authority
- KR
- South Korea
- Prior art keywords
- hot word
- user
- utterance
- detection model
- sound data
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 abstract description 13
- 238000012549 training Methods 0.000 description 29
- 238000004891 communication Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 229920001690 polydopamine Polymers 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/086—Detection of language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
- G10L15/075—Adaptation to the speaker supervised, i.e. under machine guidance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
도 3은 개별화된 핫워드 검출 모델을 생성하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 예시적인 컴퓨팅 디바이스들의 다이어그램이다.
여러 도면들에서 동일한 도면 부호들은 동일한 요소들을 나타난다.
Claims (20)
- 컴퓨터로 구현되는 방법에 있어서,
등록 프로세스(enrollment process) 동안, 사용자가 특정 핫워드(hotword)를 말하게 하기 위해 프롬프트(prompt)를 제공하는 단계, 그리고 상기 사용자에 의한 특정 핫워드의 단일의 발언(a single utterance)에만 대응하는 오디오 데이터를 수신하는 단계;
상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신함에 응답하여, 핫워드 검출 모델을 획득하는 단계; 그리고
후속적으로 수신된 오디오 데이터에서 상기 특정 핫워드의 가능성 있는 발언(likely utterance)을 검출하기 위해 상기 핫워드 검출 모델을 사용하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 청구항 1 에 있어서,
상기 등록 프로세스 동안, 사용자가 특정 핫워드를 말하게 하기 위해 프롬프트를 제공하는 단계, 그리고 상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신하는 단계는:
상기 사용자가 하나 이상의 용어들의 의미론적 해석을 트리거(trigger)하는 상기 하나 이상의 용어들 또는 상기 특정 핫워드에 후속하는 하나 이상의 용어들을 말하게 하기 위한 프롬프트를 제공하는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 청구항 1 에 있어서,
상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신함에 응답하여, 핫워드 검출 모델을 획득하는 단계는:
상기 사용자에 의한 상기 특정 핫워드의 상기 단일의 발언에만 대응하는 상기 오디오 데이터를 수신하는 단계 이후에 상기 핫워드 검출 모델을 생성하는 것 그리고 상기 특정 핫워드의 다른 발언에 대응하는 추가적인 오디오 데이터를 수신하지 않는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 청구항 1 에 있어서,
상기 핫워드 검출 모델을 획득하는 단계 이후에 상기 등록 프로세스를 종료(end)하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 청구항 1 에 있어서,
상기 핫워드 검출 모델은 상기 단일의 발언에 적어도 기초하고 상기 특정 핫워드의 다른 발언에 기초하지 않는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 청구항 1 에 있어서,
상기 후속적으로 수신된 오디오 데이터에서 상기 특정 핫워드의 가능성 있는 발언을 검출하기 위해 상기 핫워드 검출 모델을 사용하는 단계는:
후속 발언에 대응하는 오디오 데이터를 수신하는 것; 그리고
상기 핫워드 검출 모델에 적어도 기초하여, 상기 후속 발언이 상기 특정 핫워드를 포함할 가능성이 있는지 여부를 결정하는 것을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 청구항 6 에 있어서,
상기 핫워드 검출 모델에 적어도 기초하여, 상기 후속 발언이 상기 특정 핫워드를 포함할 가능성이 있는지 여부를 결정하는 것에 응답하여, 상기 후속 발언의 적어도 일부에 대해 의미론적 해석을 수행하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 시스템에 있어서,
하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며,
상기 동작들은:
등록 프로세스 동안, 사용자가 특정 핫워드를 말하게 하기 위해 프롬프트를 제공하는 동작, 그리고 상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신하는 동작;
상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신함에 응답하여, 핫워드 검출 모델을 획득하는 동작; 그리고
후속적으로 수신된 오디오 데이터에서 상기 특정 핫워드의 가능성 있는 발언을 검출하기 위해 상기 핫워드 검출 모델을 사용하는 동작을 포함하는 것을 특징으로 하는 시스템. - 청구항 8 에 있어서,
상기 등록 프로세스 동안, 사용자가 특정 핫워드를 말하게 하기 위해 프롬프트를 제공하는 동작, 그리고 상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신하는 동작은:
상기 사용자가 하나 이상의 용어들의 의미론적 해석을 트리거하는 상기 하나 이상의 용어들 또는 상기 특정 핫워드에 후속하는 하나 이상의 용어들을 말하게 하기 위한 프롬프트를 제공하는 것을 포함하는 것을 특징으로 하는 시스템. - 청구항 8 에 있어서,
상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신함에 응답하여, 핫워드 검출 모델을 획득하는 동작은:
상기 사용자에 의한 상기 특정 핫워드의 상기 단일의 발언에만 대응하는 상기 오디오 데이터를 수신하는 동작 이후에 상기 핫워드 검출 모델을 생성하는 것 그리고 상기 특정 핫워드의 다른 발언에 대응하는 추가적인 오디오 데이터를 수신하지 않는 것을 포함하는 것을 특징으로 하는 시스템. - 청구항 8 에 있어서,
상기 핫워드 검출 모델을 획득하는 동작 이후에 상기 등록 프로세스를 종료하는 동작을 더 포함하는 것을 특징으로 하는 시스템. - 청구항 8 에 있어서,
상기 핫워드 검출 모델은 상기 단일의 발언에 적어도 기초하고 상기 특정 핫워드의 다른 발언에 기초하지 않는 것을 특징으로 하는 시스템. - 청구항 8 에 있어서,
상기 후속적으로 수신된 오디오 데이터에서 상기 특정 핫워드의 가능성 있는 발언을 검출하기 위해 상기 핫워드 검출 모델을 사용하는 동작은:
후속 발언에 대응하는 오디오 데이터를 수신하는 것; 그리고
상기 핫워드 검출 모델에 적어도 기초하여, 상기 후속 발언이 상기 특정 핫워드를 포함할 가능성이 있는지 여부를 결정하는 것을 포함하는 것을 특징으로 하는 시스템. - 청구항 13 에 있어서,
상기 핫워드 검출 모델에 적어도 기초하여, 상기 후속 발언이 상기 특정 핫워드를 포함할 가능성이 있는지 여부를 결정하는 것에 응답하여, 상기 후속 발언의 적어도 일부에 대해 의미론적 해석을 수행하는 동작을 더 포함하는 것을 특징으로 하는 시스템. - 하나 이상의 컴퓨터들에 의해 실행가능한 명령어들을 포함하는 비-일시적인 컴퓨터-판독가능한 매체로서, 상기 명령어들은 실행 시, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 실행하게 하며,
상기 동작들은:
등록 프로세스 동안, 사용자가 특정 핫워드를 말하게 하기 위해 프롬프트를 제공하는 동작, 그리고 상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신하는 동작;
상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신함에 응답하여, 핫워드 검출 모델을 획득하는 동작; 그리고
후속적으로 수신된 오디오 데이터에서 상기 특정 핫워드의 가능성 있는 발언을 검출하기 위해 상기 핫워드 검출 모델을 사용하는 동작을 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체. - 청구항 15 에 있어서,
상기 등록 프로세스 동안, 사용자가 특정 핫워드를 말하게 하기 위해 프롬프트를 제공하는 동작, 그리고 상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신하는 동작은:
상기 사용자가 하나 이상의 용어들의 의미론적 해석을 트리거하는 상기 하나 이상의 용어들 또는 상기 특정 핫워드에 후속하는 하나 이상의 용어들을 말하게 하기 위한 프롬프트를 제공하는 것을 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체. - 청구항 15 에 있어서,
상기 사용자에 의한 특정 핫워드의 단일의 발언에만 대응하는 오디오 데이터를 수신함에 응답하여, 핫워드 검출 모델을 획득하는 동작은:
상기 사용자에 의한 상기 특정 핫워드의 상기 단일의 발언에만 대응하는 상기 오디오 데이터를 수신하는 동작 이후에 상기 핫워드 검출 모델을 생성하는 것 그리고 상기 특정 핫워드의 다른 발언에 대응하는 추가적인 오디오 데이터를 수신하지 않는 것을 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체. - 청구항 15 에 있어서,
상기 핫워드 검출 모델을 획득하는 동작 이후에 상기 등록 프로세스를 종료하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체. - 청구항 15 에 있어서,
상기 핫워드 검출 모델은 상기 단일의 발언에 적어도 기초하고 상기 특정 핫워드의 다른 발언에 기초하지 않는 것을 특징으로 하는 컴퓨터-판독가능한 매체. - 청구항 15 에 있어서,
상기 후속적으로 수신된 오디오 데이터에서 상기 특정 핫워드의 가능성 있는 발언을 검출하기 위해 상기 핫워드 검출 모델을 사용하는 동작은:
후속 발언에 대응하는 오디오 데이터를 수신하는 것; 그리고
상기 핫워드 검출 모델에 적어도 기초하여, 상기 후속 발언이 상기 특정 핫워드를 포함할 가능성이 있는지 여부를 결정하는 것을 포함하는 것을 특징으로 하는 컴퓨터-판독가능한 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/805,753 | 2015-07-22 | ||
US14/805,753 US10438593B2 (en) | 2015-07-22 | 2015-07-22 | Individualized hotword detection models |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160092851A Division KR101859708B1 (ko) | 2015-07-22 | 2016-07-21 | 개별화된 핫워드 검출 모델들 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180010923A true KR20180010923A (ko) | 2018-01-31 |
KR102205371B1 KR102205371B1 (ko) | 2021-01-20 |
Family
ID=56204080
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160092851A KR101859708B1 (ko) | 2015-07-22 | 2016-07-21 | 개별화된 핫워드 검출 모델들 |
KR1020160099402A KR102205371B1 (ko) | 2015-07-22 | 2016-08-04 | 개별화된 핫워드 검출 모델들 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160092851A KR101859708B1 (ko) | 2015-07-22 | 2016-07-21 | 개별화된 핫워드 검출 모델들 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10438593B2 (ko) |
EP (2) | EP3121809B1 (ko) |
JP (2) | JP6316884B2 (ko) |
KR (2) | KR101859708B1 (ko) |
CN (1) | CN106373564B (ko) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437837B2 (en) * | 2015-10-09 | 2019-10-08 | Fujitsu Limited | Generating descriptive topic labels |
WO2017151443A1 (en) * | 2016-02-29 | 2017-09-08 | Myteamcalls Llc | Systems and methods for customized live-streaming commentary |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
EP4293661A3 (en) | 2017-04-20 | 2024-02-21 | Google LLC | Multi-user authentication on a device |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
JP2019066702A (ja) | 2017-10-02 | 2019-04-25 | 東芝映像ソリューション株式会社 | 対話型電子装置制御システム、対話型電子装置、対話型電子装置制御方法 |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
WO2019128550A1 (en) * | 2017-12-31 | 2019-07-04 | Midea Group Co., Ltd. | Method and system for controlling home assistant devices |
US10244286B1 (en) * | 2018-01-30 | 2019-03-26 | Fmr Llc | Recommending digital content objects in a network environment |
JP2019210197A (ja) | 2018-06-07 | 2019-12-12 | 株式会社Ihi | セラミック基複合材料 |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
WO2019246239A1 (en) | 2018-06-19 | 2019-12-26 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
WO2020005202A1 (en) | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
KR102563817B1 (ko) | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
KR102483774B1 (ko) * | 2018-07-13 | 2023-01-02 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
KR20200023088A (ko) * | 2018-08-24 | 2020-03-04 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
EP3667512A1 (en) * | 2018-12-11 | 2020-06-17 | Siemens Aktiengesellschaft | A cloud platform and method for efficient processing of pooled data |
US10964324B2 (en) * | 2019-04-26 | 2021-03-30 | Rovi Guides, Inc. | Systems and methods for enabling topic-based verbal interaction with a virtual assistant |
US11222622B2 (en) | 2019-05-05 | 2022-01-11 | Microsoft Technology Licensing, Llc | Wake word selection assistance architectures and methods |
US11132992B2 (en) | 2019-05-05 | 2021-09-28 | Microsoft Technology Licensing, Llc | On-device custom wake word detection |
US11158305B2 (en) * | 2019-05-05 | 2021-10-26 | Microsoft Technology Licensing, Llc | Online verification of custom wake word |
WO2020231181A1 (en) * | 2019-05-16 | 2020-11-19 | Samsung Electronics Co., Ltd. | Method and device for providing voice recognition service |
GB2588689B (en) * | 2019-11-04 | 2024-04-24 | Nokia Technologies Oy | Personalized models |
US11238847B2 (en) | 2019-12-04 | 2022-02-01 | Google Llc | Speaker awareness using speaker dependent speech model(s) |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
CN111105788B (zh) * | 2019-12-20 | 2023-03-24 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
JP7274441B2 (ja) * | 2020-04-02 | 2023-05-16 | 日本電信電話株式会社 | 学習装置、学習方法および学習プログラム |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
US11798530B2 (en) * | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089780A (ja) * | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2007111169A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
US20090319270A1 (en) * | 2008-06-23 | 2009-12-24 | John Nicholas Gross | CAPTCHA Using Challenges Optimized for Distinguishing Between Humans and Machines |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
US6073096A (en) | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6978238B2 (en) | 1999-07-12 | 2005-12-20 | Charles Schwab & Co., Inc. | Method and system for identifying a user by voice |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
DE60231617D1 (de) * | 2001-06-19 | 2009-04-30 | Speech Sentinel Ltd | Sprecherverifikation |
JP2005107550A (ja) | 2001-09-13 | 2005-04-21 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
EP1293964A3 (en) | 2001-09-13 | 2004-05-12 | Matsushita Electric Industrial Co., Ltd. | Adaptation of a speech recognition method to individual users and environments with transfer of data between a terminal and a server |
US7203652B1 (en) * | 2002-02-21 | 2007-04-10 | Nuance Communications | Method and system for improving robustness in a speech system |
EP1376537B1 (en) | 2002-05-27 | 2009-04-08 | Pioneer Corporation | Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech |
US7212613B2 (en) | 2003-09-18 | 2007-05-01 | International Business Machines Corporation | System and method for telephonic voice authentication |
US7552055B2 (en) * | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US7386448B1 (en) | 2004-06-24 | 2008-06-10 | T-Netix, Inc. | Biometric voice authentication |
US20070055517A1 (en) | 2005-08-30 | 2007-03-08 | Brian Spector | Multi-factor biometric authentication |
JP2007111169A (ja) * | 2005-10-19 | 2007-05-10 | Nelson Precision Casting Co Ltd | ゴルフクラブヘッドのワックスパターンの製造方法 |
US20100064047A1 (en) * | 2007-03-05 | 2010-03-11 | Sullivan Alan T | Internet lookup engine |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US9092781B2 (en) | 2007-06-27 | 2015-07-28 | Verizon Patent And Licensing Inc. | Methods and systems for secure voice-authenticated electronic payment |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
CN101593519B (zh) | 2008-05-29 | 2012-09-19 | 夏普株式会社 | 检测语音关键词的方法和设备及检索方法和系统 |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
CN101447185B (zh) | 2008-12-08 | 2012-08-08 | 深圳市北科瑞声科技有限公司 | 一种基于内容的音频快速分类方法 |
JP5610304B2 (ja) | 2011-06-24 | 2014-10-22 | 日本電信電話株式会社 | モデルパラメータ配列装置とその方法とプログラム |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US8818810B2 (en) | 2011-12-29 | 2014-08-26 | Robert Bosch Gmbh | Speaker verification in a health monitoring system |
GB2514943A (en) * | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9323912B2 (en) | 2012-02-28 | 2016-04-26 | Verizon Patent And Licensing Inc. | Method and system for multi-factor biometric authentication |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9378733B1 (en) * | 2012-12-19 | 2016-06-28 | Google Inc. | Keyword detection without decoding |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9123330B1 (en) * | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US9620123B2 (en) * | 2013-05-02 | 2017-04-11 | Nice Ltd. | Seamless authentication and enrollment |
JP2014232258A (ja) * | 2013-05-30 | 2014-12-11 | 株式会社東芝 | 連携業務支援装置、方法およびプログラム |
US9336781B2 (en) * | 2013-10-17 | 2016-05-10 | Sri International | Content-aware speaker recognition |
US10019985B2 (en) * | 2013-11-04 | 2018-07-10 | Google Llc | Asynchronous optimization for sequence training of neural networks |
CN103559881B (zh) | 2013-11-08 | 2016-08-31 | 科大讯飞股份有限公司 | 语种无关的关键词识别方法及系统 |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US9548979B1 (en) * | 2014-09-19 | 2017-01-17 | United Services Automobile Association (Usaa) | Systems and methods for authentication program enrollment |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
-
2015
- 2015-07-22 US US14/805,753 patent/US10438593B2/en active Active
-
2016
- 2016-06-29 US US15/197,268 patent/US10535354B2/en active Active
- 2016-07-12 EP EP16179113.2A patent/EP3121809B1/en active Active
- 2016-07-12 EP EP16186281.8A patent/EP3125234B1/en active Active
- 2016-07-21 KR KR1020160092851A patent/KR101859708B1/ko active IP Right Grant
- 2016-07-21 JP JP2016143155A patent/JP6316884B2/ja active Active
- 2016-07-22 CN CN201610586197.0A patent/CN106373564B/zh active Active
- 2016-08-04 KR KR1020160099402A patent/KR102205371B1/ko active IP Right Grant
-
2017
- 2017-03-17 US US15/462,160 patent/US20170194006A1/en not_active Abandoned
-
2018
- 2018-03-28 JP JP2018061958A patent/JP6630765B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000089780A (ja) * | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2007111169A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
US20090319270A1 (en) * | 2008-06-23 | 2009-12-24 | John Nicholas Gross | CAPTCHA Using Challenges Optimized for Distinguishing Between Humans and Machines |
Also Published As
Publication number | Publication date |
---|---|
US20170194006A1 (en) | 2017-07-06 |
CN106373564A (zh) | 2017-02-01 |
EP3121809A1 (en) | 2017-01-25 |
JP2017027049A (ja) | 2017-02-02 |
CN106373564B (zh) | 2019-11-22 |
EP3125234B1 (en) | 2019-05-15 |
KR102205371B1 (ko) | 2021-01-20 |
JP6316884B2 (ja) | 2018-04-25 |
KR20170012112A (ko) | 2017-02-02 |
US20170025125A1 (en) | 2017-01-26 |
EP3125234A1 (en) | 2017-02-01 |
JP6630765B2 (ja) | 2020-01-15 |
US20170186433A1 (en) | 2017-06-29 |
JP2018109789A (ja) | 2018-07-12 |
EP3121809B1 (en) | 2018-06-06 |
US10438593B2 (en) | 2019-10-08 |
US10535354B2 (en) | 2020-01-14 |
KR101859708B1 (ko) | 2018-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101859708B1 (ko) | 개별화된 핫워드 검출 모델들 | |
EP3559944B1 (en) | Server side hotwording | |
US10269346B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US9805713B2 (en) | Addressing missing features in models | |
EP3014608B1 (en) | Computer-implemented method, computer-readable medium and system for pronunciation learning | |
US9293136B2 (en) | Multiple recognizer speech recognition | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
US9123339B1 (en) | Speech recognition using repeated utterances | |
CN110825340B (zh) | 提供预先计算的热词模型 | |
US8775177B1 (en) | Speech recognition process | |
CN107066494B (zh) | 语音查询的搜索结果预获取 | |
US20160307569A1 (en) | Personalized Speech Synthesis for Voice Actions | |
US12165641B2 (en) | History-based ASR mistake corrections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
PA0107 | Divisional application |
Comment text: Divisional Application of Patent Patent event date: 20160804 Patent event code: PA01071R01D Filing date: 20160721 Application number text: 1020160092851 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20200129 Comment text: Request for Examination of Application Patent event code: PA02011R04I Patent event date: 20160804 Comment text: Divisional Application of Patent |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200219 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20201029 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210114 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210115 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20241226 Start annual number: 5 End annual number: 5 |