[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR100735820B1 - 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 - Google Patents

휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 Download PDF

Info

Publication number
KR100735820B1
KR100735820B1 KR1020060020089A KR20060020089A KR100735820B1 KR 100735820 B1 KR100735820 B1 KR 100735820B1 KR 1020060020089 A KR1020060020089 A KR 1020060020089A KR 20060020089 A KR20060020089 A KR 20060020089A KR 100735820 B1 KR100735820 B1 KR 100735820B1
Authority
KR
South Korea
Prior art keywords
music
matching
phoneme
music information
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020060020089A
Other languages
English (en)
Inventor
최인정
김남훈
한익상
정상배
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060020089A priority Critical patent/KR100735820B1/ko
Priority to US11/704,271 priority patent/US8200490B2/en
Application granted granted Critical
Publication of KR100735820B1 publication Critical patent/KR100735820B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 휴대 단말기에서 사용자가 검색하고자 하는 멀티미디어 데이터의 일부 정보(음악의 경우 곡명, 가수명, 앨범명 또는 재생 목록 등)의 일부분만 발성해도 부분 매칭을 통해 멀티미디어 데이터를 검색하는 방법 및 그 장치에 관한 것이다. 본 발명에 의하면, 휴대 단말기에서 음소 디코더에 의한 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭 과정을 통해 곡명, 가수명, 앨범명 등과 같은 일부 또는 전체 발화를 인식하여 음악 등의 멀티미디어 데이터를 검색할 수 있는 방법 및 장치를 제공할 수 있다.
부분 매칭, 음성, 인식, 음악, 검색

Description

휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색 방법 및 그 장치{SPEECH RECOGNITION METHOD AND APPARATUS FOR MULTIMEDIA DATA RETRIEVAL IN MOBILE DEVICE}
도 1은 본 발명의 일실시예에 따른 음악 검색 장치의 구성을 나타내는 도면이다.
도 2는 본 발명에 따른 음악 검색 장치에 있어서, 음악 정보 생성부의 일례를 나타내는 도면이다.
도 3은 본 발명에 따른 음악 검색 장치에 있어서, 기준 패턴과 인식 심볼 시퀀스에 대한 매칭의 일례를 나타내는 도면이다.
도 4는 본 발명에 따른 음악 검색 장치에 있어서, 음소 혼동 매트릭스의 일례를 나타내는 도면이다.
도 5는 본 발명에 따른 음악 검색 장치에 있어서, 음악 정보 검색 결과를 디스플레이하는 일례를 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 음악 검색 방법의 흐름을 나타내는 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 음악 검색 장치
110: 음악 데이터베이스
120: 특징 추출부
130: 음소 디코딩부
140: 매칭부
150: 계산부
160: 디스플레이부
200: 음악 제공 서버
201: 제1 음악 정보 생성부
210: 휴대 단말기
211: 제2 음악 정보 생성부
본 발명은 휴대 단말기에서 사용자가 검색하고자 하는 멀티미디어 데이터의 일부 정보(음악의 경우 곡명, 가수명, 앨범명 또는 재생 목록 등)의 일부분만 발성해도 부분 매칭을 통해 멀티미디어 데이터를 검색하는 방법 및 그 장치에 관한 것이다.
종래 음성 인식을 이용한 곡목 검색 및 재생 방법의 일례로 미국 공개특허 US2004/0064306 "Voice Activated Music Playback System"(Mitsubishi Electric)은 사용자가 음성을 음소 인식(phone lattice)하고, 상기 인식된 음소로 텍스트 쿼리 (text query)를 생성하고, 상기 생성된 텍스트를 이용하여 재생 목록을 검색하고, 음악 샘플에 의한 음악 검색을 수행한다. 하지만, 종래 음성 인식을 이용한 곡목 검색 및 재생 방법은 음소 래티스(phone lattice)에서 텍스트 쿼리로 변환할 때 정확성 및 언어 이식성 등과 같은 문제점이 있다.
한편, 하드 디스크 드라이버 네비게이션 장치에서 음성 인식에 의한 음악 검색 방법의 일례로 일본공개특허2005-078705 "재생장치 및 프로그램"은 가수명, 앨범명, 곡명에 대한 인식어를 등록하여 음성 인식에 의한 음악을 검색하고, 그 결과를 가수명, 앨범명, 곡명과 같은 각 카테고리별 매칭 여부와 카테고리 유형을 고려하여 디스플레이한다. 하지만, 종래 음성 인식에 의한 음악 검색 방법은 사용자가 가수명, 앨범명, 곡명을 확실하게 알아야만 검색이 가능한 문제점이 있다.
이와 같이, 종래 음성 인식에 의한 음악 검색 방법은 텍스트 쿼리의 변환 문제가 발생하거나 또는 사용자가 음악 정보를 정확하게 알지 못하는 경우 음악 검색을 제대로 수행하지 못하는 문제점이 있다.
따라서, 휴대 단말기에서 사용자로부터 멀티미디어 데이터와 연관된 부분적인 음성을 입력 받더라도 입력된 음성을 이용하여 원하는 음악 등의 멀티미디어 데이터를 검색할 수 있는 방안이 절실하게 요청되어 오고 있다.
본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 휴대 단말기에서 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭 과정을 통해 곡명, 가수명, 앨범명의 일부 또는 전체 발화를 인식하여 음악 등의 멀티미디 어 데이터를 검색할 수 있는 방법 및 그 장치를 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 곡목 리스트로부터 인식에 사용되는 음악 정보를 변환하는 기능을 음악 저장이나 음악 다운로드 사이트에서 실행하거나 휴대 단말기에서 자체적으로 실행할 수 있는 음악 정보 검색 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 휴대 단말기에서 부분 심볼 매칭 과정을 통해 언어의 제한을 적용하여 매칭 정확도를 높일 수 있는 음악 정보 검색 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 휴대 단말기에서 음소 혼동 매트릭스를 이용하여 음소 인식 결과와 어휘 발음 열 사이의 부분 매칭 점수와 매칭 부분을 이용하여 음악 정보 검색 방법 및 그 장치를 제공하는 것이다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 사용자에 의해 발성된 음성 신호를 음소 열로 인식하는 단계 및 상기 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭을 통해 음악 정보를 검색하는 단계를 포함하는 것을 특징으로 하는 음악 검색 방법을 제공한다.
본 발명의 일측에 따르는 음악 검색 장치는 음악 및 음악 정보에 대한 발음 사전을 저장하는 음악 데이터베이스와, 사용자의 음성 신호를 후보 음소 열로 디코딩하는 음소 디코딩부와, 상기 후보 음소 열과 상기 음악 정보에 대한 발음 사전의 기준 음소 패턴을 매칭하는 매칭부와, 상기 매칭 결과에 따른 매칭 스코어를 계산 하는 계산부 및 상기 계산된 매칭 스코어에 따라 음악 정보 검색 결과를 디스플레이하는 디스플레이부를 포함한다.
이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 음악 검색 방법 및 그 장치를 상세히 설명한다.
도 1은 본 발명의 일실시예에 따른 음악 검색 장치의 구성을 나타내는 도면이다.
도 1을 참조하면, 음악 검색 장치(100)는 음악 데이터베이스(110), 특징 추출부(120), 음소 디코딩부(130), 매칭부(140), 계산부(150) 및 디스플레이부(160)를 포함한다.
음악 데이터베이스(110)는 음악, 음악 정보 및 상기 음악 정보에 대한 발음 사전을 저장한다. 상기 음악 정보는 가수명, 곡명, 앨범명, 재생 리스트, 장르 등과 같이 음악과 연관된 각종 정보이다. 상기 음악 정보에 대한 발음 사전(lexicon)은 사용자가 음악 검색을 하기 위해 음성으로 입력된 쿼리에 대해 인식된 음소 열과 비교하기 위한 기준 발음 패턴에 해당된다.
특징 추출부(120)는 상기 사용자로부터 음악을 검색하기 위한 쿼리로서 음성 신호를 입력 받으면, 상기 음성 신호에 대한 특징 벡터를 추출한다. 즉, 특징 추출부(120)는 상기 사용자로부터 입력되는 음성 쿼리에 대한 음성 신호의 배경 잡음을 억제하고, 상기 사용자의 음성 신호 중 음성 구간만을 검출한 후 상기 검출된 음성 구간에서 음성 인식에 사용될 특징 벡터 열을 추출한다.
음소 디코딩부(130)는 상기 추출된 특징 벡터 열을 N개의 후보 음소 열로 디 코딩한다. 즉, 음소 디코딩부(130)는 상기 추출된 특징 벡터 열을 음소 또는 트라이폰(tri-phone) 음향 모델을 사용하여 N개의 후보 음소 열로 변환하는 디코딩을 수행한다. 또한, 음소 디코딩부(130)는 상기 추출된 특징 벡터 열을 N개의 후보 음소 열로 변환할 때 음소 레벨 문법(phone-level grammar)를 적용한다. 또한, 음소 디코딩부(130)는 상기 트라이폰 음향 모델을 사용하는 경우 문맥(context)간의 연결성을 적용할 수 있다.
매칭부(140)는 동적 프로그래밍(dynamic programming) 기법에 근거하여 상기 후보 음소 열과 음악 데이터베이스(110)에 저장된 발음 사전에 포함된 기준 패턴을 매칭한다. 즉, 매칭부(140)는 상기 인식된 후보 음소 열과 상기 기준 패턴을 음소 혼동 매트릭스(phone confusion matrix) 및 언어 경계 제한(linguistic constraints)에 의해 도 3에 도시된 것과 같은 최적 경로 검색에 대한 매칭을 수행한다. 또한, 매칭부(140)는 어느 지점에서든지 상기 매칭이 시작되거나 끝날 수 있도록 허용 가능하며, 단어 또는 어절 경계와 같은 언어적 지식에 근거하여 상기 매칭의 시작 또는 끝 부분을 제한할 수 있다.
예를 들어 곡명이 "저녁 달빛의 노래"인 경우, 상기 발음 사전에 'ㅈ ㅓ ㄴ ㅕ ㄱ* ㄸ ㅏ ㄹ* ㅃ ㅣ ㅊ ㅢ ㄴ ㅗ ㄹ ㅐ'로 등록되어 있고, 상기 곡명의 부분 명칭인 "달빛"의 경우, 상기 발음 사전에 'ㄷ ㅏ ㄹ* ㅃ ㅣ ㄷ*'로 등록되어 있다. 여기서, *기호가 붙은 발음 표시는 종성을 나타낸다. 상기 전체 발음에서의 달빛과 부분 명칭에서 달빛의 발음을 부분 매칭할 때 'ㄷ'이 연음 현상으로 'ㅊ'이 됨에 따라 발음 사전의 양 끝에서 불일치하는 경우가 발생된다. 이와 같이, 매칭부 (140)는 연음 현상으로 인해 동일한 단어인데도 발음 상의 차이로 인해 부분 매칭인 경우 불일치되는 단점을 극복하기 위해 상세 매칭을 수행한다.
즉, 매칭부(140)는 상기 부분 매칭을 수행한 후 상기 연음 현상이 반영된 부분의 발음 열을 고립 발성 형태의 원래 발음 열로 변환한 후 상기 변환된 발음 열을 상기 발음 사전의 기준 음소 패턴과 상세 매칭을 수행한다. 상기 원래 발음 열로 변환은 발음 규칙으로부터 역으로 추적하여 규칙화하는 것이 가능하다.
계산부(150)는 상기 매칭 결과에 따른 매칭 스코어를 계산한다. 즉, 계산부(150)는 상기 매칭 결과에 따른 매칭 스코어를 음소 혼동 매트릭스(phone confusion matrix)의 확률 값을 사용하여 계산한다. 또한, 계산부(150)는 음소의 삽입(insertion)과 삭제(deletion) 확률도 고려하여 상기 매칭 스코어를 계산한다.
디스플레이부(160)는 상기 계산된 매칭 스코어에 따라 음악 정보 검색 결과를 도 5에 도시된 것과 같이 디스플레이한다. 디스플레이부(160)는 상기 계산된 매칭 스코어가 소정의 기준 값 이상인 음악 정보 검색 결과만을 디스플레이한다.
또한, 디스플레이부(160)는 상기 음악 정보 검색 결과에서 상기 매칭 스코어가 동일한 경우 소정의 우선 조건에 따라 상기 음악 정보 검색 결과를 정렬하여 디스플레이한다. 상기 우선 조건은 리스트의 유형, 최장 일치, 좌측 일치 등과 같은 조건일 수 있다. 상기 우선 순위는 상기 리스트의 유형인 경우 곡명, 앨범명, 가수명 등과 음악 정보를 사용자 또는 자체적으로 정해진 순서에 따라 결정된다. 상기 우선 순위는 상기 최장 일치인 경우 상기 매칭되는 내용이 긴 것을 우선으로 하고, 좌측 일치인 경우 상기 매칭되는 내용이 좌측에 있는 것을 우선으로 하는 것이 다.
또한, 디스플레이부(160)는 상기 음악 정보 검색 결과를 각 리스트별로 유형에 따라 다른 아이콘으로 표시할 수 있다. 즉, 디스플레이부(160)는 상기 음악 정보 검색 결과가 예를 들어 가수명인 경우, 상기 리스트의 유형이 가수명임을 나타내는 아이콘을 표시할 수 있고, 상기 음악 정보 검색 결과가 곡명인 경우, 상기 리스트의 유형이 곡명임을 나타내는 아이콘을 표시할 수도 있다.
또한, 디스플레이부(160)는 상기 음악 정보 검색 결과를 디스플레이할 때 사용자로부터 입력된 음성 쿼리의 부분에 대응하는 부분을 하이라이트로 처리하여 디스플레이할 수 있다. 즉, 디스플레이부(160)는 상기 사용자로부터 "사랑해"가 음성 쿼리로 입력된 경우 상기 음악 정보 검색 결과를 디스플레이할 때 "사랑해"부분을 다른 색, 밑줄 또는 더 진하게 처리하여 디스플레이할 수 있다.
이와 같이, 본 발명에 따른 음악 검색 장치는 음소 디코더에 의한 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭 과정을 통해 곡명, 가수명, 앨범명 등과 같은 일부 또는 전체 발화를 인식하여 사용자가 원하는 음악을 손쉽게 검색할 수 있다.
도 2는 본 발명에 따른 음악 검색 장치에 있어서, 음악 정보 생성부의 일례를 나타내는 도면이다.
도 2를 참조하면, 음악 제공 서버(200)는 음악 콘텐츠를 제공하는 음악 콘텐츠 제공 서버 또는 상기 음악 콘텐츠 제공 서버로부터 다운로드된 음악을 저장하는 컴퓨터 등을 포함한다. 제1 음악 정보 생성부(201)는 상기 음악 콘텐츠 제공 서버 또는 상기 컴퓨터에 저장된 음악 파일을 이용하여 상기 음악 파일과 연관된 각종 음악 정보를 생성한다. 상기 음악 정보는 예를 들어, 상기 음악 파일이 MP3 파일인 경우, 상기 MP3 파일의 IP3 태그에 곡명, 가수명, 앨범명 등과 같은 상기 MP3 파일과 연관된 데이터가 기록될 수 있다. 제1 음악 정보 생성부(201)는 상기 음악 파일이 MP3 파일인 경우, 상기 IP3 태그에 기록된 데이터를 추출하여 상기 음악 정보를 생성할 수 있다.
또한, 제1 음악 정보 생성부(201)는 상기 음악 파일이 자체적으로 음악 정보를 포함하지 않는 경우, 상기 음악 파일을 분석하여 상기 음악 정보를 생성할 수 있다. 또한, 제1 음악 정보 생성부(201)는 각 인식 대상 어휘에 대한 발음 사전을 생성하고, 전체 어휘에 대한 매칭 속도를 개선하기 위해 상기 생성된 발음 사전을 정렬할 수도 있다.
한편, 휴대 단말기(210)는 음악 제공 서버(200)로부터 음악 파일, 상기 음악 파일에 대한 음악 정보 및 상기 발음 사전을 다운로드 받는다. 즉, 음악 데이터베이스(110)는 상기 다운로드된 음악 파일, 상기 음악 파일에 대한 음악 정보 및 상기 발음 사전을 저장한다.
제2 음악 정보 생성부(211)는 음악 제공 서버(200)로부터 다운로드된 음악 파일에 대한 음악 정보가 존재하지 않은 경우, 휴대 단말기(210)에서 자체적으로 상기 다운로드된 음악 파일을 분석하여 음악 정보를 생성한다.
또한, 제2 음악 정보 생성부(211)는 음악 제공 서버(200)로부터 다운로드된 음악 파일에 대한 발음 사전이 존재하지 않는 경우, 휴대 단말기(210)에서 자체적 으로 각 인식 대상 어휘에 대한 발음 사전을 생성하고, 전체 어휘에 대한 매칭 속도를 개선하기 위해 발음 사전을 정렬한다.
아울러, 제2 음악 정보 생성부(211)는 휴대 단말기(210)가 상기 음악 파일을 다운로드하는 순간에 동작하거나 또는 사용자에 의해 음성 인식 버튼이 조작될 때 상기 음악 정보에 대한 발음 사전을 생성할 수 있다.
따라서, 휴대 단말기(210)는 제1 음악 정보 생성부(201) 또는 제2 음악 정보 생성부(211)에 의해 생성된 음악 정보 및 발음 사전을 음악 데이터베이스(110)에 저장할 수 있다.
도 3은 본 발명에 따른 음악 검색 장치에 있어서, 기준 패턴과 인식 심볼 시퀀스에 대한 매칭의 일례를 나타내는 도면이다.
도 3을 참조하면, 가로축은 음소 디코딩부(130)의 출력인 인식 심볼 시퀀스(recognition symbol sequence)의 일례로서 "샤랑에"를 나타내고, 세로축은 어휘 목록의 기준 패턴(reference pattern)의 일례로서 "널 사랑해"를 나타낸다.
본 발명에 따른 음악 검색 장치는 상기 기준 패턴에서 "널(nvL)"부분이 상기 인식 심볼 시퀀스와 매칭되지 않으므로 상기 인식 심볼 시퀀스와 매칭되는 "사랑해"부분부터 매칭시킨다.
도 4는 본 발명에 따른 음악 검색 장치에 있어서, 음소 혼동 매트릭스의 일례를 나타내는 도면이다.
도 4를 참조하면, 상기 음소 혼동 매트릭스는 인식 심볼(recognition symbol) 및 기준 심볼(reference symbol)들 사이의 혼동(confusion) 정도를 확률 값으로 표현하며, 상기 인식 심볼에 대한 삽입(insertion) 확률 값과 상기 기준 심볼에 대한 삭제(deletion) 확률 값이 사용된다. 상기 음소 혼동 매트릭스의 값은 log P(a|b)로 표현될 수 있다.
인식 심볼 세트(recognition symbol set)는 음소 디코딩부(130)에서 사용되는 음소 세트(phone set)이고, 기준 심볼 세트(reference symbol set)는 발음 사전 대표(Lexicon representation)에서 사용되는 음소 세트이다. 상기 인식 심볼 세트와 상기 기준 심볼 세트는 동일할 수도 있고 상이할 수도 있다.
도 5는 본 발명에 따른 음악 검색 장치에 있어서, 음악 정보 검색 결과를 디스플레이하는 일례를 나타내는 도면이다.
도 5를 참조하면, 본 발명에 따른 음악 검색 장치는 사용자로부터 '사랑해'라는 음성 쿼리를 입력 받고, 상기 음성 쿼리를 음소로 인식하여 음악 데이터베이스에 저장된 발음 사전의 기준 패턴과 매칭하여 매칭 스코어가 소정 기준 값 이상인 음악 정보 검색 결과를 상기 매칭 스코어에 따라 디스플레이한다.
도 6은 본 발명의 일실시예에 따른 음악 검색 방법의 흐름을 나타내는 도면이다.
도 6을 참조하면, 단계(610)에서 휴대 단말기는 사용자로부터 음성 쿼리를 입력 받는다. 즉, 단계(610)에서 상기 휴대 단말기는 상기 사용자로부터 예를 들어 '사랑해'라는 문장이 포함된 곡명을 검색하고자 하는 경우, 상기 음성 쿼리로 상기 사용자에 의해 발음된 "사랑해"라는 음성 신호를 입력 받을 수 있다.
단계(620)에서 상기 휴대 단말기는 상기 입력된 음성 쿼리로부터 음성 특징 벡터를 추출한다. 즉, 단계(620)에서 상기 휴대 단말기는 상기 입력된 음성 신호에 대한 배경 잡음을 억제하고, 상기 사용자의 음성 신호 중 음성 구간만을 검출한 후 상기 검출된 음성 구간에서 음성 인식에 사용될 특징 벡터를 추출한다.
단계(630)에서 상기 휴대 단말기는 상기 추출된 음성 특징 벡터 열을 후보 음소 열로 디코딩한다. 즉, 단계(630)에서 상기 휴대 단말기는 음소 디코더(phone decoder)를 통해 상기 추출된 특징 벡터 열을 음소 또는 트라이폰(tri-phone) 음향 모델을 사용하여 N개의 후보 음소 열로 변환하는 디코딩을 수행한다.
단계(640)에서 상기 휴대 단말기는 상기 후보 음소 열과 음악 데이터베이스에 저장된 발음 사전의 기준 패턴을 이용하여 부분 매칭을 수행한다. 즉, 단계(640)에서 상기 휴대 단말기는 상기 인식된 후보 음소 열과 상기 기준 패턴을 음소 혼동 매트릭스 및 언어 제한에 의해 도 3에 도시된 것과 같은 부분 매칭을 수행한다.
iTunes 등과 같은 음악 저장 사이트 또는 Yepp studio 등과 같은 음악 다운로드 사이트인 음악 제공 서버는 하나의 구성 요소로서 음악 정보 생성 모듈을 포함한다. 상기 음악 제공 서버의 음악 정보 생성 모듈은 음악 파일로부터 인식 대상 어휘인 곡명, 가수명, 앨범명, 폴더명, 재생 목록, 장르 등과 같은 정보를 추출하고, 상기 추출된 정보를 이용하여 인식 대상 어휘에 대한 인덱스 또는 타입 등과 같은 음악 정보를 생성한다. 상기 음악 제공 서버는 상기 음악 파일 또는 상기 생성된 음악 정보를 상기 휴대 단말기로 전송하거나 다운로드시킬 수 있다.
한편, 상기 휴대 단말기는 음악 파일을 다운로드받는 순간에 자체적으로 내 장된 음악 정보 생성 모듈을 동작시켜 상기 음악 파일에 포함된 음악 정보를 추출하거나 또는 사용자가 음성 인식 버튼을 누르는 경우 음악 데이터베이스에 저장된 음악 파일을 분석하여 상기 음악 파일에 대한 음악 정보를 생성할 수 있다. 또한, 상기 휴대 단말기는 상기 음악 제공 서버로부터 상기 음악 파일 및 상기 음악 파일에 대한 음악 정보를 다운로드 받아 상기 음악 데이터베이스에 저장할 수 있다. 즉, 상기 휴대 단말기는 상기 음악 정보 생성 모듈을 통해 상기 음악 파일에 대한 인식 대상 어휘를 추출하고, 상기 추출된 어휘에 대한 인덱스 또는 유형 등과 같은 음악 정보를 생성한다. 또한, 상기 휴대 단말기는 상기 각 인식 대상 어휘에 대한 발음 사전을 생성하고, 전체 어휘에 대한 매칭 속도를 개선하기 위해 상기 발음 사전을 정렬할 수도 있다.
단계(650)에서 상기 휴대 단말기는 상기 부분 매칭 단계에서 얻어진 후보 인식 리스트의 매칭된 음소 세그먼트 부분에 대해 비터비 정렬(viterbi alignment)에 의한 상세 매칭을 수행한다. 즉, 단계(650)에서 상기 휴대 단말기는 연음 현상이 반영된 부분에 대한 발음 열을 고립 발성 형태의 발음 열로 변환한 후 상세 매칭을 수행한다.
단계(660)에서 상기 휴대 단말기는 상기 수행된 매칭 결과에 따른 매칭 스코어를 계산한다. 즉, 단계(660)에서 상기 휴대 단말기는 상기 수행된 매칭 결과에 따른 음소 혼동 매트릭스를 이용하여 상기 매칭 스코어를 계산한다. 상기 매칭 스코어는 상기 음소 혼동 매트릭스의 확률 값을 사용하여 계산되고, 음소의 추가 확률과 삭제 확률도 고려될 수 있다.
단계(670)에서 상기 휴대 단말기는 상기 계산된 매칭 스코어에 따라 음악 정보 검색 결과를 디스플레이 수단을 통해 디스플레이한다. 즉, 단계(670)에서 상기 휴대 단말기는 상기 음소 인식 열과 상기 표준 발음 열 사이의 부분 심볼 매칭을 통해 계산된 상기 매칭 스코어가 높은 후보 목록을 검색하고, 상기 검색된 후보 목록 중 상기 매칭 스코어가 높은 순서에 따라 상기 음악 정보 검색 결과를 상기 디스플레이 수단을 통해 디스플레이할 수 있다.
단계(670)에서 상기 휴대 단말기는 상기 계산된 매칭 스코어가 소정의 기준 값 이상인 음악 정보 검색 결과만을 상기 디스플레이 수단을 통해 디스플레이할 수 있다.
또한, 단계(670)에서 상기 휴대 단말기는 상기 음악 정보 검색 결과에서 상기 매칭 스코어가 동일한 경우 소정의 우선 조건에 따라 상기 음악 정보 검색 결과를 정렬하여 상기 디스플레이 수단을 통해 디스플레이한다. 상기 우선 조건은 리스트의 유형, 최장 일치, 좌측 일치 등과 같은 조건일 수 있다. 상기 우선 순위는 상기 리스트의 유형인 경우 곡명, 앨범명, 가수명 등과 음악 정보를 사용자 또는 자체적으로 정해진 순서에 따라 결정될 수 있다.
또한, 단계(670)에서 상기 휴대 단말기는 상기 음악 정보 검색 결과를 각 리스트별로 유형에 따라 다른 아이콘으로 표시할 수 있다. 즉, 단계(670)에서 상기 휴대 단말기는 상기 음악 정보 검색 결과가 예를 들어 가수명인 경우, 상기 리스트의 유형이 가수명임을 나타내는 아이콘을 표시할 수 있고, 상기 음악 정보 검색 결과가 곡명인 경우, 상기 리스트의 유형이 곡명임을 나타내는 아이콘을 표시할 수도 있다.
또한, 단계(670)에서 상기 휴대 단말기는 상기 음악 정보 검색 결과를 디스플레이할 때 사용자로부터 입력된 음성 쿼리의 부분에 대응하는 부분을 하이라이트로 처리하여 디스플레이할 수 있다. 즉, 단계(670)에서 상기 휴대 단말기는 상기 사용자로부터 "사랑해"가 음성 쿼리로 입력된 경우 상기 음악 정보 검색 결과를 디스플레이할 때 "사랑해"부분을 다른 색, 밑줄 또는 더 진하게 처리하여 디스플레이할 수 있다.
이와 같이, 본 발명에 따른 음악 검색 방법은 휴대 단말기에서 음소 디코더에 의한 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭 과정을 통해 곡명, 가수명, 앨범명 등과 같은 일부 또는 전체 발화를 인식하여 사용자가 원하는 음악을 손쉽게 검색할 수 있다.
상술한 바와 같이 본 발명은 실시예로서 휴대 단말기에서 음성 인식에 의한 음악 검색 방법 및 그 장치를 위주로 설명하였으나, 실시예인 음악 검색에만 한정된 것이 아니라 휴대 단말기에서 음성 인식을 통해, 상기 휴대 단말기에 저장된 사진, 동영상 등과 같은 멀티미디어 데이터에 대한 검색에도 적용될 수 있다. 이러한 멀티미디어 데이터 검색 방법의 일례로, 사진 또는 동영상 데이터의 경우 파일명 등을 음성 인식의 대상이 되는 검색 쿼리로 이용할 수 있다.
또한 본 발명에 따른 음악 검색 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
본 발명에 따르면, 휴대 단말기에서 음소 디코더에 의한 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭 과정을 통해 곡명, 가수명, 앨범명 등과 같은 일부 또는 전체 발화를 인식하여 음악 등의 멀티미디어 데이터를 검색할 수 있는 방법 및 장치를 제공할 수 있다.
또한 본 발명에 따르면, 휴대 단말기에서 곡목 리스트로부터 인식에 사용되는 정보를 변환하는 과정을 음악 저장 또는 음악 다운로드 사이트에서 실행하거나 휴대 단말기가 자체적으로 실행할 수 있는 음악 검색 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 휴대 단말기에서 부분 심볼 매칭 과정을 통해 언어의 제한을 적용하여 매칭 정확도를 높일 수 있는 음악 검색 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 휴대 단말기에서 음소 혼동 매트릭스를 이용하여 음소 인식 결과와 어휘의 발음 열 사이의 부분 매칭을 통해 음악을 검색할 수 있는 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 휴대 단말기에서 부분 매칭된 발음 열에서 단어나 어절 경계에서 발음 변이를 고립 발성 형태의 원래 발음으로 변환하여 최종 음성 인식 점수를 계산하여 보다 정확한 음악 정보를 검색할 수 있는 방법 및 그 장치를 제공할 수 있다.
또한 본 발명에 따르면, 휴대 단말기에서 검색 대상 어휘 리스트를 미리 분석 등에 의한 부분 개체명의 추출이 필요 없기 때문에 어휘 검색을 위한 검색망도 필요 없는 이점이 있다.
또한 본 발명에 따르면, 휴대 단말기에서 언어/어플리케이션 확장성이 높기 때문에 다양한 언어와 어플리케이션을 사용할 수 있다.
또한 본 발명에 따르면, 휴대 단말기에서 쿼리로 입력된 음성 신호를 어휘로 인식하는 것이 아니라 음소 열로 인식하므로 인식 어휘 수가 증가하더라도 메모리의 증가량이 적은 이점이 있다.

Claims (15)

  1. 삭제
  2. 휴대 단말기에서의 음성 인식을 통한 음악 검색 방법에 있어서,
    사용자에 의해 발성된 음성 신호를 음소 열로 인식하는 단계;
    상기 음소 인식 열과 표준 발음 열 사이의 부분 심볼 매칭을 수행하는 단계;
    상기 수행된 매칭 결과에 따른 매칭 스코어를 계산하는 단계; 및
    상기 매칭 스코어에 따라 음악 정보 검색 결과를 디스플레이하는 단계
    를 포함하는 것을 특징으로 하는 음악 검색 방법.
  3. 제2항에 있어서,
    사용자에 의해 발성된 음성 신호를 음소 열로 인식하는 상기 단계는,
    상기 사용자에 의해 발성된 음성 신호의 특징을 추출하는 단계; 및
    상기 추출된 음성 신호의 특징에 따라 음소 디코딩하는 단계
    를 포함하는 것을 특징으로 하는 음악 검색 방법.
  4. 제2항에 있어서,
    상기 매칭 스코어는,
    음소 혼동 매트릭스에 의해 계산되는 것을 특징으로 하는 음악 검색 방법.
  5. 제2항에 있어서,
    상기 매칭 스코어에 따라 음악 정보 검색 결과를 디스플레이하는 상기 단계는,
    상기 매칭 스코어가 소정의 기준 값 이상인 음악 정보 검색 결과만을 디스플레이하는 것을 특징으로 하는 음악 검색 방법.
  6. 제2항에 있어서,
    소정의 음악 파일로부터 인식 대상 어휘를 추출하고, 상기 추출된 인식 대상 어휘에 대한 상기 음악 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음악 검색 방법.
  7. 제6항에 있어서,
    상기 인식 대상 어휘에 대한 발음 사전을 생성하는 단계; 및
    상기 생성된 발음 사전을 정렬하는 단계
    를 더 포함하는 것을 특징으로 하는 음악 검색 방법.
  8. 제2항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
  9. 음악 검색 장치에 있어서,
    음악 및 음악 정보에 대한 발음 사전을 저장하는 음악 데이터베이스;
    사용자의 음성 신호를 후보 음소 열로 디코딩하는 음소 디코딩부;
    상기 후보 음소 열과 상기 음악 정보에 대한 발음 사전의 기준 음소 패턴을 매칭하는 매칭부;
    상기 매칭 결과에 따른 매칭 스코어를 계산하는 계산부; 및
    상기 계산된 매칭 스코어에 따라 음악 정보 검색 결과를 디스플레이하는 디스플레이부
    를 포함하는 것을 특징으로 하는 음악 검색 장치.
  10. 제9항에 있어서,
    상기 매칭부는,
    음소 혼동 매트릭스 및 언어 경계 정보를 이용하여 상기 후보 음소 열과 상기 음악 정보에 대한 발음 사전의 기준 음소 패턴을 매칭하는 것을 특징으로 하는 음악 검색 장치.
  11. 제9항에 있어서,
    상기 매칭부는,
    연음 현상이 반영된 부분의 발음 열을 고립 발성 형태의 원래 발음 열로 변환한 후 상기 변환된 발음 열을 상기 발음 사전의 기준 음소 패턴과 매칭하는 것을 특징으로 하는 음악 검색 장치
  12. 제9항에 있어서,
    상기 디스플레이부는,
    상기 매칭 스코어가 소정의 기준 값 이상인 음악 정보 검색 결과만을 디스플레이하는 것을 특징으로 하는 음악 검색 장치.
  13. 제12항에 있어서,
    상기 디스플레이부는,
    상기 음악 정보 검색 결과에서 상기 매칭 스코어가 동일한 경우 소정의 우선 조건에 따라 상기 음악 정보 검색 결과를 정렬하여 디스플레이하는 것을 특징으로 하는 음악 검색 장치.
  14. 제9항에 있어서,
    상기 후보 음소 열을 디코딩하기 전에 사용자의 음성 신호로부터 음성 특징 벡터를 추출하는 특징 추출부를 더 포함하는 것을 특징으로 하는 음악 검색 장치.
  15. 제9항에 있어서,
    소정의 음악 파일로부터 인식 대상 어휘를 추출하고, 상기 추출된 인식 대상 어휘에 대한 상기 음악 정보를 생성하는 음악 정보 생성부를 더 포함하는 것을 특징으로 하는 음악 검색 장치.
KR1020060020089A 2006-03-02 2006-03-02 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 Expired - Fee Related KR100735820B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060020089A KR100735820B1 (ko) 2006-03-02 2006-03-02 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US11/704,271 US8200490B2 (en) 2006-03-02 2007-02-09 Method and apparatus for searching multimedia data using speech recognition in mobile device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060020089A KR100735820B1 (ko) 2006-03-02 2006-03-02 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR100735820B1 true KR100735820B1 (ko) 2007-07-06

Family

ID=38472466

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060020089A Expired - Fee Related KR100735820B1 (ko) 2006-03-02 2006-03-02 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치

Country Status (2)

Country Link
US (1) US8200490B2 (ko)
KR (1) KR100735820B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160056734A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9626956B2 (en) 2014-09-26 2017-04-18 Samsung Electronics Co., Ltd. Method and device for preprocessing speech signal

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20060104515A1 (en) * 2004-07-19 2006-05-18 King Martin T Automatic modification of WEB pages
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US7801729B2 (en) * 2007-03-13 2010-09-21 Sensory, Inc. Using multiple attributes to create a voice search playlist
US8190627B2 (en) * 2007-06-28 2012-05-29 Microsoft Corporation Machine assisted query formulation
KR101478173B1 (ko) 2007-08-29 2014-12-31 삼성전자주식회사 외부기기 연결 방법 및 이를 적용한 멀티미디어 재생장치
US20090150159A1 (en) * 2007-12-06 2009-06-11 Sony Ericsson Mobile Communications Ab Voice Searching for Media Files
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
WO2010096191A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Automatically capturing information, such as capturing information using a document-aware device
US8626508B2 (en) * 2009-02-26 2014-01-07 National University Corporation Toyohashi University Of Technology Speech search device and speech search method
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
CN102349087B (zh) 2009-03-12 2015-05-06 谷歌公司 自动提供与捕获的信息例如实时捕获的信息关联的内容
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8903793B2 (en) 2009-12-15 2014-12-02 At&T Intellectual Property I, L.P. System and method for speech-based incremental search
US8688443B2 (en) * 2009-12-23 2014-04-01 At&T Intellectual Property I, L.P. Multimodal augmented reality for location mobile information service
US20120096018A1 (en) * 2010-10-16 2012-04-19 Metcalf Michael D Method and system for selecting music
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
US8433577B2 (en) * 2011-09-27 2013-04-30 Google Inc. Detection of creative works on broadcast media
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US20140075306A1 (en) * 2012-09-12 2014-03-13 Randy Rega Music search and retrieval system
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
US9529907B2 (en) * 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
US9002835B2 (en) * 2013-08-15 2015-04-07 Google Inc. Query response using media consumption history
US9860367B1 (en) * 2016-09-27 2018-01-02 International Business Machines Corporation Dial pattern recognition on mobile electronic devices
KR102773717B1 (ko) 2018-11-15 2025-02-27 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980000037A (ko) * 1996-06-01 1998-03-30 이준 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법
KR980010839A (ko) * 1996-07-05 1998-04-30 양승택 무제한 음성 명령어 인식기의 인식 성능 및 처리 속도 개선 방법
KR20010076508A (ko) * 2000-01-26 2001-08-16 구자홍 Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
KR20060006282A (ko) * 2004-07-15 2006-01-19 주식회사 현원 휴대용 파일 재생기와 그 재생기에서 파일검색방법
KR20060067107A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 조음모델을 이용한 연속음성인식 장치 및 그 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073095A (en) * 1997-10-15 2000-06-06 International Business Machines Corporation Fast vocabulary independent method and apparatus for spotting words in speech
JP3279299B2 (ja) 1998-10-30 2002-04-30 ヤマハ株式会社 楽音要素抽出装置及び方法並びに記憶媒体
WO2000045375A1 (en) * 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6721705B2 (en) 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
JP4030808B2 (ja) 2002-06-20 2008-01-09 Necビッグローブ株式会社 楽曲検索サーバ、音声認識装置、楽曲提供システム、楽曲提供方法、およびそのプログラム
US20040024599A1 (en) * 2002-07-31 2004-02-05 Intel Corporation Audio search conducted through statistical pattern matching
US20040064306A1 (en) 2002-09-30 2004-04-01 Wolf Peter P. Voice activated music playback system
US8321427B2 (en) * 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
KR20050003814A (ko) 2003-07-04 2005-01-12 엘지전자 주식회사 음정 인식 장치
JP3873953B2 (ja) 2003-08-29 2007-01-31 株式会社デンソー 再生装置及びプログラム
KR20050053903A (ko) 2003-12-03 2005-06-10 학교법인 영남학원 허밍과 음성인식을 이용한 음악정보검색방법
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
JP4587165B2 (ja) * 2004-08-27 2010-11-24 キヤノン株式会社 情報処理装置及びその制御方法
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980000037A (ko) * 1996-06-01 1998-03-30 이준 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법
KR980010839A (ko) * 1996-07-05 1998-04-30 양승택 무제한 음성 명령어 인식기의 인식 성능 및 처리 속도 개선 방법
KR20010076508A (ko) * 2000-01-26 2001-08-16 구자홍 Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
KR20060006282A (ko) * 2004-07-15 2006-01-19 주식회사 현원 휴대용 파일 재생기와 그 재생기에서 파일검색방법
KR20060067107A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 조음모델을 이용한 연속음성인식 장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626956B2 (en) 2014-09-26 2017-04-18 Samsung Electronics Co., Ltd. Method and device for preprocessing speech signal
KR20160056734A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR102298457B1 (ko) * 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체

Also Published As

Publication number Publication date
US8200490B2 (en) 2012-06-12
US20070208561A1 (en) 2007-09-06

Similar Documents

Publication Publication Date Title
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
EP2477186B1 (en) Information retrieving apparatus, information retrieving method and navigation system
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US8527272B2 (en) Method and apparatus for aligning texts
US8380505B2 (en) System for recognizing speech for searching a database
TWI543150B (zh) 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統
CN101593519B (zh) 检测语音关键词的方法和设备及检索方法和系统
US20100121637A1 (en) Semi-Automatic Speech Transcription
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20090234854A1 (en) Search system and search method for speech database
KR20070087399A (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US11922944B2 (en) Phrase alternatives representation for automatic speech recognition and methods of use
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
GB2451938A (en) Methods and apparatus for searching of spoken audio data
Yu et al. Searching the audio notebook: keyword search in recorded conversation
JP2002278579A (ja) 音声データ検索装置
CN111712790A (zh) 计算设备的语音控制
JP2009025411A (ja) 音声認識装置およびプログラム
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
US20060149545A1 (en) Method and apparatus of speech template selection for speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20060302

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20070226

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20070621

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20070628

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20070629

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
G170 Re-publication after modification of scope of protection [patent]
PG1701 Publication of correction
PR1001 Payment of annual fee

Payment date: 20100412

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20110530

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20120530

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20130530

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20140529

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20150528

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20160530

Start annual number: 10

End annual number: 10

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 11

PR1001 Payment of annual fee

Payment date: 20170529

Start annual number: 11

End annual number: 11

FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 12

PR1001 Payment of annual fee

Payment date: 20180530

Start annual number: 12

End annual number: 12

PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20200409