[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20040078595A - 블록 동기 디코딩 - Google Patents

블록 동기 디코딩 Download PDF

Info

Publication number
KR20040078595A
KR20040078595A KR1020040014528A KR20040014528A KR20040078595A KR 20040078595 A KR20040078595 A KR 20040078595A KR 1020040014528 A KR1020040014528 A KR 1020040014528A KR 20040014528 A KR20040014528 A KR 20040014528A KR 20040078595 A KR20040078595 A KR 20040078595A
Authority
KR
South Korea
Prior art keywords
state
processing
pattern
point
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020040014528A
Other languages
English (en)
Inventor
윌리엄에이치. 로켄베크
줄리안제이. 오델
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20040078595A publication Critical patent/KR20040078595A/ko
Ceased legal-status Critical Current

Links

Classifications

    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41DOUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
    • A41D19/00Gloves
    • A41D19/0055Plastic or rubber gloves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41DOUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
    • A41D19/00Gloves
    • A41D19/0055Plastic or rubber gloves
    • A41D19/0068Two-dimensional gloves, i.e. obtained by superposition of two sheets of material
    • AHUMAN NECESSITIES
    • A41WEARING APPAREL
    • A41DOUTERWEAR; PROTECTIVE GARMENTS; ACCESSORIES
    • A41D19/00Gloves
    • A41D19/0055Plastic or rubber gloves
    • A41D19/0082Details
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47LDOMESTIC WASHING OR CLEANING; SUCTION CLEANERS IN GENERAL
    • A47L17/00Apparatus or implements used in manual washing or cleaning of crockery, table-ware, cooking-ware or the like

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Textile Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 패턴 인식 시스템(pattern recognition system) 및 방법을 제공한다. 본 발명의 특징은 특히 다중 상태 은닉 마코프 모델(multi-state Hidden Markov Models)과 결합하면 유용하다. 패턴 인식은 은닉 마코프 모델 블록을 프로세싱함으로써 달성된다. 이 블록 프로세싱은, 데이터가 캐쉬 메모리에 있는 동안, 프로세서로 하여금 데이터에 대하여 더 많은 동작을 수행할 수 있게 한다. 이와 같이 캐쉬 로컬리티(locality)를 증가시킴으로써, 본 발명의 특징은 상당히 개선된 패턴 인식 속도를 제공한다.

Description

블록 동기 디코딩{BLOCK SYNCHRONOUS DECODING}
본 발명은 패턴 인식(pattern recognition)에 관한 것이다. 더욱 구체적으로는, 본 발명은 패턴 인식에 사용되는 신호를 프로세싱하는 것과 관련된다.
음성 인식 시스템(speech recognition system)과 같은 패턴 인식 시스템은 입력 신호를 받아 들여, 신호에 의하여 표현된 패턴을 찾기 위하여 신호를 디코딩하려고 시도한다. 예를 들어, 음성 인식 시스템에 있어서, (종종 시험 신호라고 하는) 음성 신호가 인식 시스템에 의하여 수신되고, 음성 신호에 의하여 표현된 단어들의 문자열(a string of words)를 식별하기 위하여 디코딩된다.
입력된 시험 신호를 디코딩하기 위하여, 대부분의 시스템은 시험 신호의 일부가 특정 패턴을 표현할 확률에 대해 기술하는 하나 이상의 모델을 이용한다. 이러한 모델의 예는, 신경망(Neural Nets), 동적 시각 워핑(Dynamic Time Warping), 세그먼트 모델(segment models), 및 은닉 마코프 모델(Hidden Markov Models, HMMs)을 포함한다.
대부분의 상업적으로 사용 가능한 음성 인식 시스템은 HMM들을 사용하여 음성의 음성 패턴을 대조하는데, 음성 패턴은 종종 대략 10ms로 서로 분리되는 중첩되는(overlapping) "프레임(frame)"으로 분할된다. 음성을 이와 같이 10ms의 프레임으로 분해하는 것은 입력을 일련의 시간 순차 프레임들(a series of time-sequenced frames)로 변환하는 일 예에 불과하다. 전통적으로, 한 번에 하나의 프레임에 대하여 이러한 프레임의 판정(evaluation)이 이루어진다; 모든 HMM들은, 다음 프레임으로 이동되기 전에 라운드-로빈 방식(round-robin fashion)으로 단일 프레임에 대하여 갱신된다.
도 3은, 예를 들어 Huang, Acero, 및 Hon의 "Spoken Language Processing"의 제8장을 포함하는 많은 문서에서 상세하게 설명된 것과 같은 HMM의 기본적인 표현을 도시한다. 임의의 주어진 시간에, 모델은 임의의 다양한 상태의 주어진 확률(probability)을 갖는다. 각 상태는 출력 확률 분포 및 다른 상태로의 전이(transition)를 갖는다. 음성의 경우에, 출력 분포는, 10ms 프레임으로 쪼개어진 로우 음성 파형(raw speech waveforms)으로부터 유도되는 음향 특성 세트(an acoustic feature set)를 모델링한다. 이러한 전이 및 출력 확률은 알려져 있는 기술에 따라 훈련 단계(training step)에 의하여 생성된다.
HMM들에 있어서의 디코딩 문제는, HMM 및 관찰들의 시퀀스(a sequence of observations)가 주어졌을 때, 가장 관찰들의 시퀀스를 생성할 것 같은 상태 시퀀스가 무엇인지이다. 이 문제를 해결하는 표준 방법은 동적 프로그래밍(Dynamic programming)이라고 하며, 도 4에 도시되어 있다. 도 3과 관련하여 설명한 6-상태 HMM이 측면에 기재되어 있으며, 시간은 수평축을 따라 진행된다. 이 격자에 있어서의 각 "점(point)"(상태와 시간의 조합)은, 주어진 관측에 대하여, 그 시간에 HMM이 그 상태에 있을 확률을 나타낸다. DP 행렬을 통한 한 가지 가능한 경로가 굵은 선(1-8-14-21-27-33-40-47-53-59-66)으로 강조되어 있고, 이는 특정 배열 또는 상태 시퀀스를 나타낸다. 점에 대한 확률은, 그 시간 단계에 대한 전이 확률및 출력 확률에 있어서, 이전 점들(previous points)의 확률에 의존한다. 각 점은 몇 개의 이전 점에 의존하기 때문에, 그 점에 대한 확률을 계산하는 것은 이전 점이 우선 계산될 것을 요구하고, 그럼으로써 계산의 순서(order)에 제한을 두게 된다. "시간 동기(time-synchronous)" 판정 순서는 도 4에 점 내의 번호에 의하여 도시되어 있다. 시스템은 다음 시간 단계에 다시 시작하기 전에 주어진 시간 단계 동안 모든 상태를 판정한다. 다만, 이전의 것(predecessors)이 계산된 후에만 점을 계산하는 임의의 순서가 허용되기 때문에, 이러한 순서는 단지 하나의 가능한 판정 순서임을 유의하여야 한다. 회색 점은, 도달할 수 없거나 가능한 최종 상태로 인도하지 않는 상태를 나타내고, 따라서 이들은 판정될 필요가 없다. 그러나 많은 구현 예에 있어서는 어쨌든 이들을 판정한다.
실시간 시스템에 있어서, 동시에 실행되는 이러한 HMM들이 수만 개 존재할 수 있다. 이러한 모델들은 충분한 컴퓨터 메모리를 소비하고, 전체 모델 세트를 각각 통과하는 것은 종종 CPU 캐쉬 용량을 다 써버린다. CPU 캐쉬만 관련된 메모리 동작은 보다 고 레벨 메모리와 관련된 메모리 동작보다 몇 배 빠르게 발생하기 때문에 이는 음성 처리를 상당히 지연시키게 된다.
이 문제를 해결하는 다른 방법은 Tony Robinson 및 James Christie의 논문 "Time-First Search For Large Vocabulary Speech Recognition"에 설명되어 있다. 이 방법은, 근본적으로 HMM 판정의 순서를 주어진 시간 프레임에 대한 복수의 모델을 판정하는 것으로부터 주어진 모델에 대한 복수의 시간 프레임을 판정하는 것으로 바꾼다. 이러한 방법은, 다수의 동작이 동일한 물리적 메모리 범위에 속하기때문에 표준 CPU 메모리 캐쉬 동작과 협동하는 동안, 프로세싱 메모리 요구를 감소시키는 것을 목적으로 한다.
대형 단어 애플리케이션(large vocabulary application)에 대하여, 실시간의 연속적인 음성 인식을 제공하기 위하여, CPU 캐쉬 사용의 효율뿐만 아니라 프로세싱 루틴 자체의 효율을 개선하기 위한 개발이 요구된다. 따라서 프로세싱 속도뿐만 아니라 프로세싱 정확도 또한 대단히 중요하다.
발명의 개요
본 발명은 패턴 인식 시스템 및 방법을 제공한다. 본 발명의 특징은 구체적으로 다중 상태 은닉 마코프 모델(multi-state Hidden Markov Models)과 결합하면 유용하다. 패턴 인식은 은닉 마코프 모델 블록을 프로세싱함으로써 달성될 수 있다. 이 블록-프로세싱은, 데이터가 캐쉬 메모리에 있는 동안 그러한 데이터에 대하여 더 많은 동작을 수행할 수 있게 한다. 캐쉬 로컬리티(locality)가 증가됨으로써, 본 발명의 특징은 상당히 개선된 패턴 인식 속도를 제공한다.
도 1은 본 발명이 실시될 수 있는 컴퓨팅 환경을 도시한 블록도.
도 2는 본 발명이 실시될 수 있는 다른 컴퓨팅 환경을 도시한 블록도.
도 3은 6-상태 HMM(six-state Hidden Markov Model)를 도표로 도시한 도면
도 4는 도 3의 HMM을 가로축에 시간과 함께 도표로 도시한 도면.
도 5는 3-상태(three-state) HMM의 3개로 이루어진 짝을 도표로 도시한 도면.
도 6은 본 발명의 실시예에 따른 은닉 마코프 모델 블록들(HMMBs)을 도표로 도시한 도면.
<도면의 주요부분에 대한 부호의 설명>
200 모바일 장치
202 프로세서
203 캐쉬 메모리
206 입출력 구성요소
208 통신 인터페이스
212 오퍼레이팅 시스템
214 애플리케이션
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안 된다.
본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램 가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 캐쉬 메모리(122)(레벨 1 캐쉬) 및 캐쉬 메모리(123)(레벨 2 캐쉬)를 포함하는 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 캐쉬 메모리는, 데이터의 블록을 상대적으로 저속인 시스템 메모리로부터 상대적으로 고속인 캐쉬 메모리로 전송시키는 것을 가능하게 함으로써 프로세싱 속도를 증가시킨다. 현재 2가지 주요 유형의 캐쉬 메모리가 있다. 레벨 1 캐쉬 메모리는 마이크로프로세서 자체의 메모리의 일부이다. 이 메모리는 일반적으로 시스템의 다른 모든 메모리보다 고속이지만, 마이크로프로세서의 실리콘 풋프린트(footprint)에 직접 부가되어야 하기 때문에 비교적 고가이다. 레벨 2 캐쉬는 일반적으로 마이크로프로세서 근방에 배치되며, 마이크로프로세서 상에 배치되지는 않는다. 이 메모리는 전형적으로 시스템 메모리보다 고속이지만 레벨 1 캐쉬 메모리보다는 저속이다. 매우 대략적인 가이드라인으로서, 레벨 1 캐쉬는 레벨 2 캐쉬보다 수십배 정도(about an order of magnitude) 고속으로 동작하고, 레벨 2 캐쉬는 전체적인 시스템 RAM보다 수십배 정도 고속으로 동작한다. 따라서, 시스템 프로세싱 속도는 캐시 메모리가 가장 효율적으로 사용될 때 최대화된다.
시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇 가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 (메자닌(Mezzanine) 버스로도 알려진) 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 분리형(removable) 및 비분리형(non-removable) 매체를 둘 다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 둘 다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(140), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드와 같은 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다.모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드핼드 장치(hand-held device), 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 메모리 장치(181)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 모바일 장치(mobile device, 200)의 블록도인데, 이는 예시적인 컴퓨팅 환경을 나타낸다. 모바일 장치(200)는, 캐쉬 메모리(203)를 포함하는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 구성요소(206), 및 원격 컴퓨터 또는 다른 모바일 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에 있어서, 상술한 구성요소는 적절한 버스(210)를 통하여 서로 통신하기 위하여 연결되어 있다.
메모리(204)는 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리로서 (도시하지 않은) 배터리 백업 모듈과 함께 구현되어, 모바일 장치(200)로의 전체적인 전원이 끊겼을 때 메모리(204)에 저장된 정보가 손실되지 않도록 한다. 메모리(204)의 일부는 바람직하게는 프로그램 실행을 위하여 액세스 가능한 메모리로서 할당되는 것이 좋지만, 메모리(204)의 나머지 부분은 바람직하게는 디스크 드라이브의 저장부(storage)를 시뮬레이션하도록 저장부를 위해 사용되는 것이 좋다.
메모리(204)는 객체 스토어(object store, 216)뿐만 아니라, 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214)을 포함한다. 동작 중, 오퍼레이팅 시스템(212)은 바람직하게는 메모리(204)로부터 프로세서(202)에 의하여 실행된다. 바람직한 실시예에 있어서, 오퍼레이팅 시스템(212)은 Microsoft사로부터 상업적으로 사용 가능한 WINDOWS? CE 상표 오퍼레이팅 시스템이다. 오퍼레이팅시스템(212)은 모바일 장치를 위하여 설계되는 것이 바람직하고, 공개된 애플리케이션 프로그래밍 인터페이스 및 방법의 세트를 통하여 애플리케이션(214)에 의해서 사용될 수 있는 데이터 베이스 특성을 구현한다. 객체 스토어(216)의 객체는 공개된 애플리케이션 프로그래밍 인터페이스 및 방법의 호출에 적어도 부분적으로 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(213)에 의하여 유지된다.
통신 인터페이스(208)는, 모바일 장치가 정보를 전송하고 수신할 수 있도록 하는 수많은 장치 및 기술을 나타낸다. 장치는 몇 가지 예를 들자면, 유선 및 무선 모뎀, 위성 수신기, 방송 튜너를 포함한다. 모바일 장치(200)는 데이터를 교환하기 위하여 컴퓨터로 직접 접속될 수도 있다. 이러한 경우에는, 통신 인터페이스(208)는 스트리밍 정보를 전송할 수 있는 모든 적외선 송수신기, 직렬 또는 병렬 통신 접속일 수 있다.
입출력 구성요소(206)는 오디오 생성기(audio generator), 진동 장치(vibrating device) 및 디스플레이와 같은 다양한 출력 장치뿐만 아니라, 터치 감지 스크린(touch-sensitive screen), 버튼, 롤러(rollers), 및 마이크로폰과 같은 입력 장치도 포함한다. 위에 열거한 장치는 예시를 위한 것이며, 모바일 장치(200)에 모두 존재할 필요는 없다. 또한, 본 발명의 범위 내에서 다른 입출력 장치가 모바일 장치(200)에 부착되거나 모바일 장치(200)에 있을 수 있다.
본 발명의 특징 하에서, 시스템 캐쉬 로컬리티를 상당히 증가시키기 위하여 HMM 프로세싱에 적용되는 시스템 및 방법이 제공된다. 이에 따라, 시스템 캐쉬가 플러시(flush)되기 전에 더 많은 수의 HMM 동작이 행해진다. 따라서, 일반 시스템메모리를 호출하는 횟수가 과거에 요구되던 것에 비하여 적어진다. 따라서, 프로세싱 속도가 상당히 증가한다. 이러한 개선점에 대하여 음성 프로세싱과 관련하여 설명하겠지만, 본 발명의 실시예는 HMM을 사용하는 임의의 형태의 패턴 인식을 위한 프로세싱을 개선하기 위하여 실시될 수 있다.
음성을 모델링하기에 유용한 몇몇 모델은 "3-상태의, 건너뜀 없이 좌에서 우로의 진행(three-state left-to-right without skipping)"으로 알려진 특정 HMM 토폴로지(topology)를 사용한다. 이 토폴로지는 도 5 및 도 6에 도시되어 있다. 본 발명의 실시예는 근본적으로 HMM 판정을 재정리하여, 다른 HMM을 판정하기 전에 하나의 HMM 동안 3개의 프레임이 판정되도록 한다. 이는 캐쉬 로컬리티를 상당히 개선하고, 따라서 프로세싱 속도를 증가시킨다.
도 6은 은닉 마코프 모델 블록들(Hidden Markov Model Blocks, HMMBs)로 그룹핑된 도 5의 모델을 나타낸다. 굵은 선으로 나타낸 각 마름모꼴(rhombus, 400)은 음성 단위(speech unit)(즉, 음소(phoneme))에 해당하는 HMMB를 나타낸다. 각 HMMB에 있어서, 각 상태의 프레임의 고유의 번호가 제공된다. 따라서 HMMB #1에는 0 상태의 3개의 프레임, 1 상태의 3개의 프레임, 및 2 상태의 3개의 프레임이 있다. 본 발명의 실시예의 장점은 HMM에서의 상태의 수와 다른 수의 프레임으로 실현될 수 있다는 것일 수 있지만, 프레임의 수는 HMM 상태의 수와 동일한 것이 바람직하다. 또한, 상술한 바와 같이 임의의 주어진 점은 그 이전 점에 대하여 판정이 되어야만 판정이 되기 때문에 마름모꼴 형상을 취하고 있다. 도 6에 도시된 HMMB들의 크기는 사용되는 상태의 수(3-상태의, 좌에서 우로의 HMMs)에 일치시켜 선택되었다. 본 발명의 사상 및 범위에 속하는, 다른 HMM 토폴로지는 다른 형상의 HMMB들을 발생시킬 수 있다는 것을 주의하여야 한다. 예를 들어, 10-상태의, 좌에서 우로의 HMM(필기 인식과 같은 몇몇 다른 형태의 패턴 인식을 위하여 유용할 수 있음)은 10-프레임 HMMB들로 수정될 수 있을 것이다. 또한, 5개의 상태를 갖는 가끔 사용되는 토폴로지는 각 프레임 상에서, 그 상태 자신 또는 다음 상태 또는 그 다음 상태로 전이할 수 있다. 이 경우에, 3-상태의 HMMB들은 (HMM으로의 임의의 입력은 출력에 도달하기 위하여 적어도 3개의 프레임을 거치기 때문에) 여전히 유용하지만, HMMB의 형상은 3 프레임의 "폭(wide)"과 5 상태의 "높이(high)"를 가질 것이다.
본 발명의 실시예에 따르면, 각 HMMB은 하나의 단위로서 판정된다. 여기서 사용되는 것과 같이, HMMB는 HMM 프로세싱 시스템의 모든 점의 부분집합이다. 블록은, 시간 및 상태 모두에 있어서 서로 다른 적어도 2개의 점을 포함한다. 각 HMMB의 판정은 오로지 이전의 HMMB들의 출력에 의존한다.
각 HMMB는 인터 블록 입구점(inter-block entry points), 인트라 블록 입구점(intra-block exit points), 인터 블록 출구점(inter-block exit points), 및 인트라 블록 출구점(intra-block exit points)을 포함한다. 도 6을 참조하면, 점(402, 408, 및 414)이 인터 블록 입구점이며, 이들은 다른 HMMB들로부터 점수(scores) 또는 값을 수신할 수 있다. 점(402, 404, 및 406)은 인트라 블록 입구점인데, 이들은 같은 HMM의 이전 블록으로부터 점수를 수신할 수 있다. 블록 4와 관련하여, 블록 1은 동일한 HMM에서 이전 블록으로 고려된다. 점(402)은 인터블록 입구점일 뿐만 아니라 인트라 블록 입구점이기도 하다. 점(406, 412, 및 418)은 인터 블록 출구점인데, 이들은 블록 5와 같이 다른 블록의 인터 블록 입구점으로 그들의 값을 제공할 수 있기 때문이다. 마지막으로, 점(414, 416, 및 418)은 인트라 블록 출구점으로 볼 수 있다.
블록의 프로세싱이 개시되기 전에, 인터 블록 입구점 및 인트라 블록 입구점에서 끝나는 최적의 경로에 대한 점수가 미리 결정된다. 또한, 이 최적의 경로에 따른 선행 상태로의 포인터가 입구점에 저장된다.
블록의 프로세싱은 시간 상으로 첫 번째 점에서 시작된다. 도 6에 있어서, 그 점은 "402"로 나타내었다. 점(402)은, 점(402, 404, 406)으로부터 전이될 수 있는 각 점에 대한 전이 확률과 그 점수를 곱함으로써 프로세싱된다. 그리고 이 점수가 전이된 점의 현재 존재하는 값과 비교되어, 점(402)을 통한 점수가 전이된 점의 현재 존재하는 점수보다 높은지 여부가 결정된다. 점(402)을 통한 점수가 더 크다면, 전이된 점은 새로운 최대값을 반영하여 갱신되고, 점(402)과 관련된 포인터가 설정된다.
점(402)이 프로세싱되면, 점(404)이 프로세싱될 수 있다. 점(404)은 동일한 HMM의 직전 블록 및 블록(402)의 점수로부터 대응하는 인트라 블록 출구점 중 큰 쪽으로 초기에 설정된다는 점에서, 점(404)의 프로세싱은 비교적 수월하다(straightforward). 점(406)은 점(404)과 유사하게 프로세싱된다. 그러나, 점(406)은 인터 블록 출구점이기 때문에, 다른 블록의 몇몇 인터 블록 입구점을 갱신하기 위하여 그 점수가 사용된다.
점(402)이 처리되면, 점(408)도 처리될 수 있다. 점(404)과 점(408) 사이의 프로세싱의 상대적인 순서는 설계 선택 상의 문제이다. 점(408)은 그 전이 확률과 조합되어 점(404)으로 접속될 수 있는 모든 출구점 및 점(402) 중에서 최대 점수를 취한다는 점에서, 점(408)은 점(402)과 어느 정도 유사하게 프로세싱된다. 최대 점수를 보증하는 점을 표시하기 위하여 포인터 또는 다른 적당한 레코드가 다시 설정된다. 점(408)을 프로세싱하는 것은 그 점수와 전이 확률을 곱하는 것을 포함하고, 이를 통하여 점(408)은 점(410 및 414)의 값을 잠정적으로 갱신하기 위하여 전이될 수 있다.
점(410, 412, 416, 및 418)은 점(404, 및 406)과 유사하게 프로세싱된다. 또한, 점(414)의 프로세싱은 점(408)과 관련하여 설명한 것과 유사하다.
블록 1 내의 모든 프로세싱이 완료되면, 출구 점수 프로세싱(exit score processing)이 행해진다. 구체적으로는, 각 인터 블록 출구점에 대하여, 언어 모델이 참고된다. 언어 모델은, 음성 단위 사이에서 전이되는 전이 확률뿐만 아니라 어느 전이가 허용 가능한지를 보여준다. 따라서, 예를 들어, 언어 모델은 블록 1의 음성 단위로부터 다른 음성 단위로 전이되는 허용 확률 및 확률을 나타낸다. 이 확률은 점(406)과 같은 인터 블록 출구점의 점수와 조합되어, 다음 시간 프레임의 (언어 모델에 의하여) 임의의 허용 가능한 인터 블록 입구점에 현재 존재하는 점수보다 그 조합이 큰지 여부가 결정된다. 조합이 실제로 더 크다면, 새로운 최대값, 및 관련 포인터 또는 다른 적절한 레코드가 설정된다. 인터 블록 출구점(412 및 418)에 대해서도 이 프로세스가 반복된다. 도 6에 점선으로 나타낸바와 같이, 인터 블록 출구점이 동일한 음성 단위에 대하여 시간상 다음 블록의 인터 블록 입구점에 접속될 수도 있다(즉, 406이 420으로 접속됨).
점(416 및 418)은 동일한 음성 단위에 대하여, 시간상 다음 블록의 인트라 블록 입구점으로 그들의 점수를 제공한다. 마지막으로, 점(420)이 점(402)에 대하여 설명한 바와 같이 프로세싱되고, 다음 블록에서 프로세스가 계속된다.
블록 1의 프로세싱이 완료되면, 또 다른 음성 단위에 해당하는 블록의 프로세싱이 개시되는 것이 바람직하다. 예시적인 블록 프로세싱 순서가 도 6에 블록 1-2-3-4-5-6-7-8-9로 도시되어 있다. 그러나, 본 발명의 범위를 벗어나지 않고 다른 순서가 실행될 수 있다. 점들의 일부는 회색으로 표시되어 있는데, 이들은 도달 가능하지 않거나 가능한 최종 상태로 유도되지 않는 경우이다. 추가적인 프로세싱 효율은 이러한 점들을 실제로 프로세싱하지 않음으로써 달성될 수 있다.
특정 실시예와 관련하여 본 발명에 대하여 설명하였지만, 당업자라면 본 발명의 사상 및 범위를 벗어나지 않고 형태 및 세부사항에 있어서 변경이 가해질 수 있다는 것을 인식할 것이다.
은닉 마코프 모델 블록의 프로세싱은, 데이터가 캐쉬 메모리에 있는 동안, 프로세서로 하여금 데이터에 대하여 더 많은 동작을 수행할 수 있게 하며, 이와 같이 캐쉬 로컬리티(locality)를 증가시킴으로써, 본 발명은 상당히 개선된 패턴 인식 속도를 제공한다.

Claims (17)

  1. 연속 패턴 인식 시스템(a continuous pattern recognition system)에 있어서,
    입력의 디지털 표시(digital representation)를 제공하기에 적합한 입력 장치;
    상기 입력 장치에 동작 가능하게(operably) 연결되는, 상기 디지털 표시 및 상기 디지털 표시와 관련된 복수의 다중 상태 모델들(multi-state models)을 저장하기 위한 메모리; 및
    상기 입력 장치 및 상기 메모리에 연결되고, 캐쉬 메모리(cache memory)를 포함하는, 상기 디지털 표시를 복수의 시간 순차 프레임(time-sequenced frames)으로 변환하기에 적합한 프로세서
    를 포함하고,
    상기 프로세서는 상기 캐쉬 메모리에 저장된 상기 다중 상태 모델들의 블록들 및 상기 시간 순차 프레임의 프로세싱에 기초하여 인식된 패턴의 출력을 생성하기에 적합한 시스템.
  2. 제1항에 있어서, 상기 다중 상태 모델은 3-상태 은닉 마코프 모델들(three-state Hidden Markov Models)인 시스템.
  3. 제1항에 있어서, 상기 입력 장치는 마이크로폰인 시스템.
  4. 제1항에 있어서, 상기 인식된 패턴의 출력은 단어(words)를 포함하는 시스템.
  5. 제1항에 있어서, 상기 시스템은 컴퓨터 내에 내장되는 시스템.
  6. 제1항에 있어서, 상기 시스템은 모바일 장치(mobile device)에 내장되는 시스템.
  7. 시간 순차 프레임의 형태의 입력에서 패턴을 인식하는 방법에 있어서,
    복수의 다중 상태 은닉 마코프 모델을 사용하여 패턴을 모델링하는 단계; 및
    상기 시간 순차 프레임 중 모델링된 패턴을 인식하기 위하여 은닉 마코프 모델 블록들(Hidden Markov Model Blocks; HMMBs)을 프로세싱하여, 인식된 모델링된 패턴의 시퀀스를 생성하는 단계
    를 포함하는 방법.
  8. 제7항에 있어서, 상기 시간 순차 프레임은 음성(speech)에 해당하는 방법.
  9. 제7항에 있어서, 상기 다중 상태 은닉 마코프 모델은 3-상태 은닉 마코프 모델인 방법.
  10. 제9항에 있어서, 각 HMMB는, 상태 대 시간 도표(state vs. time chart)로 도시할 때 3 대 3의 마름모꼴(three by three rhombus)인 방법.
  11. 제9항에 있어서, 각 블록을 프로세싱하는 단계는 시스템 캐쉬 메모리와만 상호 작용하는 단계를 포함하는 방법.
  12. 제7항에 있어서, 상기 HMMB들을 프로세싱하는 단계는 언어 모델(language model)을 액세스하는 단계를 포함하는 방법.
  13. 패턴 인식 방법에 있어서,
    시간 순차 프레임들의 시리즈(a series of time-sequenced frames)로서 입력을 표시하는 단계; 및
    HMMB들 및 상기 시리즈를 프로세싱하여, 상기 입력에 대응하는 인식된 패턴의 출력 시퀀스를 생성하는 단계
    를 포함하는 방법.
  14. 제13항에 있어서, 상기 입력은 음성에 해당하는 방법.
  15. 제13항에 있어서, 각 HMMB는 3개의 상태를 포함하는 방법.
  16. 시간 순차 프레임의 형태의 입력에서 패턴을 인식하는 방법에 있어서,
    a) 복수의 다중 상태 은닉 마코프 모델로서 패턴을 모델링하는 단계;
    b) 제1 다중 상태 은닉 마코프 모델의 제1 점을 프로세싱하는 단계;
    c) 상기 제1 다중 상태 은닉 마코프 모델의 제2 점- 상기 제2 점은 상태 및 시간에 있어서 상기 제1 점과 다름 -을 프로세싱하는 단계; 및
    d) 상기 시간 순차 프레임 중 상기 모델링된 패턴을 인식하여, 인식된 모델링된 패턴을 생성하기 위하여, 제1 은닉 마코프 모델의 나머지 점 및 복수의 다중 상태 은닉 마코프 모델의 점들을 프로세싱하는 단계
    를 포함하는 방법.
  17. 제16항에 있어서, 상기 제1 점 및 제2 점은 HMMB를 포함하는 방법.
KR1020040014528A 2003-03-04 2004-03-04 블록 동기 디코딩 Ceased KR20040078595A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/379,244 2003-03-04
US10/379,244 US7529671B2 (en) 2003-03-04 2003-03-04 Block synchronous decoding

Publications (1)

Publication Number Publication Date
KR20040078595A true KR20040078595A (ko) 2004-09-10

Family

ID=32824766

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040014528A Ceased KR20040078595A (ko) 2003-03-04 2004-03-04 블록 동기 디코딩

Country Status (5)

Country Link
US (1) US7529671B2 (ko)
EP (1) EP1455341A3 (ko)
JP (1) JP2004272251A (ko)
KR (1) KR20040078595A (ko)
CN (1) CN1532807A (ko)

Families Citing this family (215)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
JP4801108B2 (ja) * 2008-03-06 2011-10-26 日本電信電話株式会社 音声認識装置、方法、プログラム及びその記録媒体
JP4801107B2 (ja) * 2008-03-06 2011-10-26 日本電信電話株式会社 音声認識装置、方法、プログラム及びその記録媒体
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101057191B1 (ko) * 2008-12-30 2011-08-16 주식회사 하이닉스반도체 반도체 소자의 미세 패턴 형성방법
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
WO2013033119A1 (en) * 2011-08-29 2013-03-07 Accumente, Llc Utilizing multiple processing units for rapid training of hidden markov models
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
WO2014124332A2 (en) 2013-02-07 2014-08-14 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11978436B2 (en) 2022-06-03 2024-05-07 Apple Inc. Application vocabulary integration with a digital assistant

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH071435B2 (ja) * 1993-03-16 1995-01-11 株式会社エイ・ティ・アール自動翻訳電話研究所 音響モデル適応方式
JPH0792676B2 (ja) * 1993-03-26 1995-10-09 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識方法
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JP3531198B2 (ja) * 1994-02-18 2004-05-24 松下電器産業株式会社 言語識別装置
JP3033514B2 (ja) * 1997-03-31 2000-04-17 日本電気株式会社 大語彙音声認識方法及び装置
JP3039634B2 (ja) * 1997-06-16 2000-05-08 日本電気株式会社 音声認識装置
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
DE69919842T2 (de) * 1998-12-21 2005-09-01 Philips Intellectual Property & Standards Gmbh Sprachmodell basierend auf der spracherkennungshistorie
US7269558B2 (en) * 2000-07-31 2007-09-11 Texas Instruments Incorporated Decoding multiple HMM sets using a single sentence grammar
WO2002029612A1 (en) 2000-09-30 2002-04-11 Intel Corporation Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition

Also Published As

Publication number Publication date
JP2004272251A (ja) 2004-09-30
EP1455341A2 (en) 2004-09-08
US7529671B2 (en) 2009-05-05
EP1455341A3 (en) 2007-06-20
US20040176956A1 (en) 2004-09-09
CN1532807A (zh) 2004-09-29

Similar Documents

Publication Publication Date Title
KR20040078595A (ko) 블록 동기 디코딩
US11961513B2 (en) Low-power automatic speech recognition device
TWI802602B (zh) 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統
JP2020112787A (ja) 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20050159952A1 (en) Pattern matching for large vocabulary speech recognition with packed distribution and localized trellis access
JP6138148B2 (ja) 演算論理ユニットアーキテクチャ
US9142209B2 (en) Data pattern analysis
CN108288468A (zh) 语音识别方法及装置
CN110070859B (zh) 一种语音识别方法及装置
CN113744755A (zh) 一种从音频信号生成语音动画的装置及方法
CN113450771B (zh) 唤醒方法、模型训练方法和装置
CN113851113B (zh) 模型训练方法及装置、语音唤醒方法及装置
US12094453B2 (en) Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice
US20230107493A1 (en) Predicting Word Boundaries for On-Device Batching of End-To-End Speech Recognition Models
US9514739B2 (en) Phoneme score accelerator
US9230548B2 (en) Hybrid hashing scheme for active HMMS
JP2022020062A (ja) 特徴情報のマイニング方法、装置及び電子機器
CN115226408A (zh) 用于会话式ai应用的说话者自适应语音结束检测
JP4069715B2 (ja) 音響モデル作成方法および音声認識装置
US9224384B2 (en) Histogram based pre-pruning scheme for active HMMS
CN114882880A (zh) 基于解码器的语音唤醒方法及其相关设备
Bourke A low-power hardware architecture for speech recognition search
US20240233706A1 (en) Text-based speech generation
WO2024008215A2 (zh) 语音情绪识别方法及装置
CN116229968A (zh) 标点、顺滑一体化的语音识别方法、系统和电子设备

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20040304

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20090212

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20040304

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20100817

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20101119

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20100817

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I