KR102272453B1 - 음성 신호 전처리 방법 및 장치 - Google Patents
음성 신호 전처리 방법 및 장치 Download PDFInfo
- Publication number
- KR102272453B1 KR102272453B1 KR1020140129479A KR20140129479A KR102272453B1 KR 102272453 B1 KR102272453 B1 KR 102272453B1 KR 1020140129479 A KR1020140129479 A KR 1020140129479A KR 20140129479 A KR20140129479 A KR 20140129479A KR 102272453 B1 KR102272453 B1 KR 102272453B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- supplementary
- frames
- voice signal
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 일실시예에 따라 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 예시를 나타낸 도면이다.
도 3 및 도 4는 일실시예에 따라 적어도 하나의 프레임을 복사하여 보완 프레임을 생성하는 예시를 나타낸 도면이다.
도 5 및 도 6은 일실시예에 따라 적어도 하나의 프레임이 재구성된 보완 프레임을 생성하는 예시를 나타낸 도면이다.
도 7은 일실시예에 따라 적어도 하나의 프레임의 손실 범위에 기초하여 보완 프레임을 생성하는 예시를 나타낸 도면이다.
도 8은 일실시예에 따른 음성 신호 전처리 방법을 나타낸 도면이다.
도 9는 다른 일실시예에 따른 음성 신호 전처리 장치의 세부 구성을 나타낸 도면이다.
도 10은 다른 일실시예에 따른 음성 신호 전처리 방법을 나타낸 도면이다.
Claims (20)
- 음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 단계;
상기 적어도 하나의 프레임에 기초하여, 상기 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하는 단계; 및
상기 보완 프레임 및 상기 복수의 프레임들로 구성된 음성 신호를 출력하는 단계
를 포함하는 음성 신호 전처리 방법. - 제1항에 있어서,
상기 복수의 프레임들은,
상기 음성 신호를 프레임의 길이보다 짧은 간격으로 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함하고,
상기 적어도 하나의 프레임을 추출하는 단계는,
상기 복수의 프레임들 중에서 상기 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출하는, 음성 신호 전처리 방법. - 제1항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법. - 제1항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법. - 제4항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임 중에서 상기 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법. - 제4항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 상기 적어도 하나의 프레임에 적용하여 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법. - 제1항에 있어서,
상기 보완 프레임을 생성하는 단계는,
상기 적어도 하나의 프레임의 손실 범위에 기초하여, 상기 추출된 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하거나 또는 상기 추출된 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 방법. - 제7항에 있어서,
상기 적어도 하나의 프레임의 손실 범위는,
상기 적어도 하나의 프레임에서 상기 음성 인식 범위를 제외한 나머지 범위에 해당하는, 음성 신호 전처리 방법. - 제1항에 있어서,
상기 음성 신호를 출력하는 단계는,
상기 보완 프레임의 시간 정보에 기초하여 상기 보완 프레임이 상기 복수의 프레임들 사이에 배치된 음성 신호를 출력하는, 음성 신호 전처리 방법. - 제1항에 있어서,
상기 음성 인식 범위는,
상기 음성 신호에 포함된 음소, 음절 및 어휘 중 어느 하나의 단위에 기초하여 결정되는, 음성 신호 전처리 방법. - 제1항 내지 제10항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
- 음성 신호를 입력받는 입력부;
상기 음성 신호를 전처리하는 프로세서; 및
전처리된 음성 신호를 출력하는 출력부
를 포함하고,
상기 프로세서는,
음성 신호를 구성하는 복수의 프레임들 중에서 음성 인식 범위에 대응하는 적어도 하나의 프레임을 추출하는 단계,
상기 적어도 하나의 프레임에 기초하여, 상기 음성 인식 범위에 대한 음성 인식을 보완하는 보완 프레임을 생성하는 단계,
상기 출력부를 통해 상기 보완 프레임 및 상기 복수의 프레임들로 구성된 음성 신호를 출력하는 단계
를 수행하는 음성 신호 전처리 장치. - 제12항에 있어서,
상기 복수의 프레임들은,
상기 음성 신호를 프레임의 길이보다 짧은 간격으로 나누어 생성되고, 연속되는 프레임들 간에 서로 중복되는 범위를 포함하고,
상기 프로세서는,
상기 복수의 프레임들 중에서 상기 음성 인식 범위를 나누는 경계 정보를 포함하는 적어도 하나의 프레임을 추출하는, 음성 신호 전처리 장치. - 제12항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치. - 제12항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치. - 제15항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임 중에서 상기 음성 인식 범위에 해당하는 부분에 기초하여 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치. - 제15항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임의 시간 정보에 기초한 가중치를 상기 적어도 하나의 프레임에 적용하여 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치. - 제12항에 있어서,
상기 프로세서는,
상기 적어도 하나의 프레임의 손실 범위에 기초하여, 상기 추출된 적어도 하나의 프레임을 복사함으로써 상기 보완 프레임을 생성하거나 또는 상기 추출된 적어도 하나의 프레임이 재구성된 상기 보완 프레임을 생성하는, 음성 신호 전처리 장치. - 제18항에 있어서,
상기 적어도 하나의 프레임의 손실 범위는,
상기 적어도 하나의 프레임에서 상기 음성 인식 범위를 제외한 나머지 범위에 해당하는, 음성 신호 전처리 장치. - 제12항에 있어서,
상기 프로세서는,
상기 보완 프레임의 시간 정보에 기초하여 상기 보완 프레임이 상기 복수의 프레임들 사이에 배치된 음성 신호를 출력하는, 음성 신호 전처리 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140129479A KR102272453B1 (ko) | 2014-09-26 | 2014-09-26 | 음성 신호 전처리 방법 및 장치 |
US14/680,366 US9626956B2 (en) | 2014-09-26 | 2015-04-07 | Method and device for preprocessing speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140129479A KR102272453B1 (ko) | 2014-09-26 | 2014-09-26 | 음성 신호 전처리 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160036995A KR20160036995A (ko) | 2016-04-05 |
KR102272453B1 true KR102272453B1 (ko) | 2021-07-02 |
Family
ID=55585144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140129479A Active KR102272453B1 (ko) | 2014-09-26 | 2014-09-26 | 음성 신호 전처리 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9626956B2 (ko) |
KR (1) | KR102272453B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11495210B2 (en) * | 2019-10-18 | 2022-11-08 | Microsoft Technology Licensing, Llc | Acoustic based speech analysis using deep learning models |
CN113851115A (zh) * | 2021-09-07 | 2021-12-28 | 中国海洋大学 | 一种基于一维卷积神经网络的复杂声音识别方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0173923B1 (ko) | 1995-12-22 | 1999-04-01 | 양승택 | 다층구조 신경망을 이용한 음소 분할 방법 |
KR100317905B1 (ko) | 2000-01-25 | 2001-12-22 | 백종관 | 음성합성용 자동 브레이크 인덱싱 방법 |
WO2004003887A2 (en) | 2002-06-28 | 2004-01-08 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
TWI245259B (en) | 2002-12-20 | 2005-12-11 | Ibm | Sensor based speech recognizer selection, adaptation and combination |
KR20040061070A (ko) | 2002-12-30 | 2004-07-07 | 주식회사 케이티 | 음성인식시스템에서의 음성인식장치 및 그 방법 |
US6999922B2 (en) * | 2003-06-27 | 2006-02-14 | Motorola, Inc. | Synchronization and overlap method and system for single buffer speech compression and expansion |
US20050240397A1 (en) | 2004-04-22 | 2005-10-27 | Samsung Electronics Co., Ltd. | Method of determining variable-length frame for speech signal preprocessing and speech signal preprocessing method and device using the same |
EP1746580B1 (en) * | 2004-05-10 | 2010-03-24 | Nippon Telegraph and Telephone Corporation | Acoustic signal packet communication method, transmission method, reception method, and device and program thereof |
KR100735820B1 (ko) | 2006-03-02 | 2007-07-06 | 삼성전자주식회사 | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 |
KR100908444B1 (ko) | 2006-12-05 | 2009-07-21 | 한국전자통신연구원 | 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 |
KR20110010243A (ko) | 2009-07-24 | 2011-02-01 | 고려대학교 산학협력단 | 음성의 음소간 경계 탐색 시스템 및 그 방법 |
KR101862352B1 (ko) * | 2010-10-19 | 2018-05-30 | 삼성전자주식회사 | 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법 |
KR20120056661A (ko) | 2010-11-25 | 2012-06-04 | 한국전자통신연구원 | 음성 신호 전처리 장치 및 방법 |
KR20120072145A (ko) | 2010-12-23 | 2012-07-03 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
KR101359689B1 (ko) | 2012-01-20 | 2014-02-10 | 한국과학기술원 | 준-마르코프 모델을 이용한 연속 음소 인식 방법, 이를 처리하는 시스템 및 기록매체 |
CN103714048B (zh) | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
-
2014
- 2014-09-26 KR KR1020140129479A patent/KR102272453B1/ko active Active
-
2015
- 2015-04-07 US US14/680,366 patent/US9626956B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20160093293A1 (en) | 2016-03-31 |
KR20160036995A (ko) | 2016-04-05 |
US9626956B2 (en) | 2017-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106373561B (zh) | 声学得分计算和语音识别的设备和方法 | |
KR102371770B1 (ko) | 음성 인식 장지 및 방법 | |
KR101805976B1 (ko) | 음성 인식 장치 및 방법 | |
KR102396983B1 (ko) | 문법 교정 방법 및 장치 | |
EP3192070B1 (en) | Text-to-speech with emotional content | |
KR102117082B1 (ko) | 음성 인식 방법 및 음성 인식 장치 | |
KR102444411B1 (ko) | 음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치 | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
KR102795172B1 (ko) | 음성 인식 장치 및 방법 | |
CN106328127A (zh) | 语音识别设备,语音识别方法和电子装置 | |
CN106601240B (zh) | 归一化声学模型的输入数据的设备和方法和语音识别设备 | |
KR102272453B1 (ko) | 음성 신호 전처리 방법 및 장치 | |
KR102758478B1 (ko) | 음성 인식 방법 및 장치 | |
US12073825B2 (en) | Method and apparatus for speech recognition | |
KR102140438B1 (ko) | 오디오 컨텐츠 및 텍스트 컨텐츠의 동기화 서비스를 위해 텍스트 데이터를 오디오 데이터에 매핑하는 방법 및 시스템 | |
KR102125549B1 (ko) | 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법 | |
KR102824643B1 (ko) | 음성 합성 방법 및 장치 | |
KR20190093268A (ko) | 디바이스 제어 방법 및 그 장치 | |
KR20250047093A (ko) | 다중 출력 모델을 이용한 음성 및 감정 인식 방법 및 시스템 | |
KR20230064466A (ko) | 음성 인식 방법 및 장치 | |
KR20150061437A (ko) | 로봇 자동 스토리텔링을 위해 화자 캐릭터에 음성을 매핑하는 방법 및 시스템 | |
KR20200080681A (ko) | 음성 합성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140926 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20190924 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20140926 Comment text: Patent Application |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210326 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210628 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210629 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240516 Start annual number: 4 End annual number: 4 |