KR101943381B1 - 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 - Google Patents
심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 Download PDFInfo
- Publication number
- KR101943381B1 KR101943381B1 KR1020160106225A KR20160106225A KR101943381B1 KR 101943381 B1 KR101943381 B1 KR 101943381B1 KR 1020160106225 A KR1020160106225 A KR 1020160106225A KR 20160106225 A KR20160106225 A KR 20160106225A KR 101943381 B1 KR101943381 B1 KR 101943381B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- voice
- neural network
- end point
- detection result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 201
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 206010019133 Hangover Diseases 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 본 발명의 실시 예에 따른 음성 구간을 설명하기 위한 예시도이다.
도 3 및 도 4는 본 발명의 실시 예에 따른 끝점 검출 장치를 설명하기 위한 구성도이다.
도 5 및 도 6은 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 흐름도이다.
도 8는 본 발명의 다른 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 예시도이다.
도 9은 본 발명의 다른 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 흐름도이다.
20: 음성 구간 판단부
100: 끝점 검출 장치
200: 특징 추출 장치
300: 음성 인식 장치
400: 음향 모델
500: 음성 인식 시스템
Claims (7)
- 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서,
상기 끝점 검출 장치는
현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습부와,
상기 학습된 신경망 모델을 이용하여 입력되는 음성 신호에서의 음성 끝점을 검출하여 음성 구간을 판단하는 음성 구간 판단부를
포함하는 것을 특징으로 하는 끝점 검출 장치. - 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서,
상기 끝점 검출 장치는
현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력 받는 입력 레이어와,
현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력하는 출력 레이어와,
상기 입력 레이어와 출력 레이어 사이에 위치하며 상기 출력 레이어를 통해 해당하는 파라미터가 출력되도록 상기 입력 레이어와 출력 레이어의 노드들에 대한 링크 가중치를 설정하는 적어도 하나 이상의 은닉 레이어로 구성되는 신경망 모델을 포함하며,
상기 신경망 모델을 통해 음성 구간을 판단하는 것을 특징으로 하는 끝점 검출 장치. - 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치를 사용한 심층 신경망을 이용한 음성 끝점 검출 방법에 있어서,
현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습하는 단계와,
상기 학습된 신경망 모델을 이용하여 입력되는 음성 신호에서 음성 끝점을 검출하여 음성 구간을 판단하는 단계를,
포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법. - 제3항에 있어서,
상기 학습하는 단계는
현재 프레임을 기준으로 상기 현재 프레임을 포함하는 일정 범위의 프레임에 대응하여 추출된 각각의 음성 특징 파라미터와, 상기 현재 프레임의 이전의 어느 한 프레임부터 상기 현재 프레임의 이전 프레임까지의 연속된 음성 검출 결과 파라미터와, 상기 연속된 음성 검출 결과 파라미터를 이용하여 판단된 상기 현재 프레임 이전의 어느 한 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고,
상기 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법. - 제3항에 있어서,
상기 학습하는 단계는
상기 입력에 따라 상기 출력으로 설정된 파라미터들이 출력되도록 심층 신경망의 가중치들을 설정하여 심층 신경망 모델을 학습하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법. - 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치를 사용한 심층 신경망을 이용한 음성 끝점 검출 방법에 있어서,
현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 음성 검출 결과 파라미터를 출력으로 설정하여 제1 신경망 모델을 학습하여 생성하는 단계와,
상기 제1 신경망 모델을 통해 출력되는 음성 검출 결과 파라미터를 프레임 단위로 누적하고, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 누적된 음성 검출 결과 파라미터와 상기 음성 검출 결과 파라미터를 이용하여 판단된 상기 현재 프레임의 이전 프레임에 대한 끝점 검출 결과 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 제2 신경망 모델을 학습하여 생성하는 단계와,
상기 생성된 제1 신경망 모델 및 제2 신경망 모델을 이용하여 입력되는 음성 신호에서의 음성 끝점을 검출하여 음성 구간을 판단하는 단계를,
포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법. - 제3항 내지 제6항 중 어느 하나의 항에 기재된 심층 신경망을 이용한 음성 끝점 검출 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160106225A KR101943381B1 (ko) | 2016-08-22 | 2016-08-22 | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160106225A KR101943381B1 (ko) | 2016-08-22 | 2016-08-22 | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180021531A KR20180021531A (ko) | 2018-03-05 |
KR101943381B1 true KR101943381B1 (ko) | 2019-01-29 |
Family
ID=61726875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160106225A Active KR101943381B1 (ko) | 2016-08-22 | 2016-08-22 | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101943381B1 (ko) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101950374B1 (ko) * | 2018-05-25 | 2019-02-20 | 뉴브로드테크놀러지(주) | 비표준 프로토콜 역공학 분석 장치 |
KR102563817B1 (ko) | 2018-07-13 | 2023-08-07 | 삼성전자주식회사 | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
KR102720650B1 (ko) * | 2018-07-13 | 2024-10-23 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
CN109243498B (zh) * | 2018-11-20 | 2023-03-14 | 南京莱斯信息技术股份有限公司 | 一种基于fft语音信号的端点检测系统及检测方法 |
CN111968680B (zh) * | 2020-08-14 | 2024-10-01 | 北京小米松果电子有限公司 | 一种语音处理方法、装置及存储介质 |
CN112420079B (zh) * | 2020-11-18 | 2022-12-06 | 青岛海尔科技有限公司 | 语音端点检测方法和装置、存储介质及电子设备 |
CN114141234A (zh) * | 2021-10-18 | 2022-03-04 | 浙江大搜车软件技术有限公司 | 一种基于帧分类的语音端点检测方法及装置 |
CN115273914B (zh) * | 2022-07-28 | 2024-07-16 | 杭州鲸道科技有限公司 | 一种数据自适应降采样方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016502140A (ja) * | 2012-11-29 | 2016-01-21 | 株式会社ソニー・コンピュータエンタテインメント | 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0442299A (ja) * | 1990-06-08 | 1992-02-12 | Sharp Corp | 音声区間検出装置 |
KR20080059881A (ko) | 2006-12-26 | 2008-07-01 | 삼성전자주식회사 | 음성 신호의 전처리 장치 및 방법 |
KR101640188B1 (ko) * | 2014-12-17 | 2016-07-15 | 서울대학교산학협력단 | 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 |
-
2016
- 2016-08-22 KR KR1020160106225A patent/KR101943381B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016502140A (ja) * | 2012-11-29 | 2016-01-21 | 株式会社ソニー・コンピュータエンタテインメント | 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ |
Non-Patent Citations (1)
Title |
---|
Xiao Lei Zhang et al., ‘Deep belief networks based voice activity detection’, IEEE Trans. on Audio, Speech, and Language processing, Vol.21, No.4, pp. 697~710, April 2013.* |
Also Published As
Publication number | Publication date |
---|---|
KR20180021531A (ko) | 2018-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101943381B1 (ko) | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 | |
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
Wijethunga et al. | Deepfake audio detection: a deep learning based solution for group conversations | |
Ahmad et al. | A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network | |
KR101988222B1 (ko) | 대어휘 연속 음성 인식 장치 및 방법 | |
KR101893789B1 (ko) | 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 | |
WO2017114201A1 (zh) | 一种设定操作的执行方法及装置 | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Shannon et al. | Improved End-of-Query Detection for Streaming Speech Recognition. | |
Mahmood et al. | Speech recognition based on convolutional neural networks and MFCC algorithm | |
US20170301347A1 (en) | Phonotactic-Based Speech Recognition & Re-synthesis | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
KR20200119377A (ko) | 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치 | |
KR20200023893A (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
CN113284513B (zh) | 基于音素时长特征的虚假语音检测方法及装置 | |
KR101992955B1 (ko) | 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
EP3267438B1 (en) | Speaker authentication with artificial neural networks | |
KR20170073113A (ko) | 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치 | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
Nigro et al. | Multimodal system for audio scene source counting and analysis | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JPH06110488A (ja) | 音声検出方法および音声検出装置 | |
Mendelev et al. | Robust voice activity detection with deep maxout neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20160822 |
|
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20170119 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20160822 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20180112 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20180725 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20190103 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20190123 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20190123 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20220103 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20231212 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20241219 Start annual number: 7 End annual number: 7 |