KR100901371B1 - 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 - Google Patents
서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 Download PDFInfo
- Publication number
- KR100901371B1 KR100901371B1 KR1020080099029A KR20080099029A KR100901371B1 KR 100901371 B1 KR100901371 B1 KR 100901371B1 KR 1020080099029 A KR1020080099029 A KR 1020080099029A KR 20080099029 A KR20080099029 A KR 20080099029A KR 100901371 B1 KR100901371 B1 KR 100901371B1
- Authority
- KR
- South Korea
- Prior art keywords
- music
- voice
- classification
- speech
- smv
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012706 support-vector machine Methods 0.000 title claims description 30
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000007635 classification algorithm Methods 0.000 claims abstract description 5
- 230000000737 periodic effect Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 description 13
- 238000012360 testing method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 229910052751 metal Inorganic materials 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/081—Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 서포트 벡터 머신(Support Vector Machine; SVM)을 이용하여 기존의 3GPP2 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 성능을 향상시키는 방법에 관한 것으로서, 보다 구체적으로는, (1) SMV 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구하는 제1 단계; (2) 상기 제1 단계에서 구한 상기 특징 벡터를 통계적 학습이론인 SVM에 적용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아내는 제2 단계; 및 (3) 상기 제2 단계에서 구한 상기 최적 분류 초평면을 이용하여 음성/음악을 분류하는 제3 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성/음악 분류 방법에 따르면, SMV 코덱의 음성/음악 분류 알고리즘에 SVM을 접목시킴으로써, 즉 SMV 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구한 후, 이를 이용하여 SVM에서 최적 분류 초평면을 구하고 이를 이용하여 음성/음악을 분류함으로써 음성/음악 분류 성능을 크게 향상시킬 수 있다.
음성/음악 분류 성능 향상, 서포트 벡터 머신(Support Vector Machine; SVM), 3GPP2 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱, 최적 분류 초평면, 커널 함수, ROC 곡선, 검출 확률, 미검출 확률
Description
본 발명은 음성/음악 분류 방법에 관한 것으로서, 특히 서포트 벡터 머신(Support Vector Machine; SVM)을 이용한 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 방법에 관한 것이다.
최근 IT기술의 발달로 이동통신기기 내에서의 다양한 멀티미디어 서비스가 본격적으로 사용화되기 시작하면서, 제한된 주파수 대역에서 효율적인 통신 환경을 구축하기 위한 연구가 활발히 진행되고 있다. 제한된 통신망을 효과적으로 사용하기 위하여 입력 음성 신호 특징에 따라 선택적으로 프레임마다 4단계로 나누어 전송률을 결정해 부호화하는 방식을 3GPP2의 표준 코덱인 선택 모드 보코더(Selectable Mode Vocoder; SMV)에서 사용하고 있다. 따라서 입력 음성 신호의 종류에 의해 매 프레임마다 전송률을 적절히 부여하는 것이 이동통신기기에서의 통화 음질을 결정짓는 중요한 과제이다. 특히, 최근의 이동통신 환경은 음성 전달에만 국한되는 것이 아니라 음악, 사진, 영상 등과 같이 다양한 멀티미디어 정보를 전송해야 하기 때문에 효과적으로 음성 및 음악을 분류하는 방법을 찾기 위한 연구가 활발히 진행되고 있다.
한편, 서포트 벡터 머신(Support Vector Machine; SVM)은 기존의 학습 방법과 다르게 패턴을 고차원 특징 공간으로 사상시킬 수 있다는 점과 대역적으로 최적의 식별이 가능할 뿐만 아니라 알려지지 않은 확률 분포를 갖는 데이터에 대하여 잘못 분류하는 확률을 최소화하는 구조적인 위험 최소화(Structural Risk Minimization) 방법에 기초하고 있다는 점에서 우수한 분류 방법으로서 주목받고 있다. 특히, SVM은 선형적으로 분류 가능한 데이터에 대한 이진 분류에 있어 두 개의 클래스를 분류할 수 있는 무수히 많은 초평면(Hyperplane) 중 클래스의 가장 가까운 점들과 마진이 최대가 되는 최적 초평면을 구함으로써 높은 일반화 성능을 기대할 수 있다.
이와 같은 연구 결과들을 고려해 볼 때, SVM을 SMV 코덱의 음성/음악 분류 방법에 접목하여 이용함으로써, 음성/음악 분류 성능 향상을 시도해 볼 필요가 있다.
본 발명은, 상기와 같은 필요성의 인식에서 비롯된 것으로서, 서포트 벡터 머신(SVM)을 선택 모드 보코더(SMV) 코덱의 음성/음악 분류에 접목시킴으로써, 즉 기존의 SMV 인코딩 부분의 전처리 과정에서 자동으로 추출되는 파라미터 중 통계적 학습 분류 성능이 우수한 것들을 모아 별도의 계산 과정 없이 특징 벡터들로 이용하여 서포트 벡터 머신(SVM)을 적용함으로써, 향상된 성능의 음성 및 음악 분류 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 음성 및 음악 분류 방법은,
(1) 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구하는 제1 단계;
(2) 상기 제1 단계에서 구한 상기 특징 벡터를 통계적 학습이론인 서포트 벡터 머신(Support Vector Machine; SVM)을 이용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아내는 제2 단계; 및
(3) 상기 제2 단계에서 구한 상기 최적 분류 초평면을 이용하여 음성/음악을 분류하는 제3 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 제1 단계에서, 상기 특징 벡터에는, 이동 평균 에너지, 잡음 및 묵음의 이동 평균 반사계수, 부분적 잔류 에너지의 이동 평균, 정규화된 피치 상관도의 이동 평균, 주기적 계수, 음악 연속 계수의 이동 평균 중 적어도 하나 이상이 포함될 수 있다.
본 발명의 음성/음악 분류 방법에 따르면, 서포트 벡터 머신(SVM)을 선택 모드 보코더(SMV) 코덱의 음성/음악 분류 방법에 접목시킴으로써, 즉 기존의 SMV 인코딩 부분의 전처리 과정에서 자동적으로 추출되는 파라미터 중 통계적 학습 분류 성능이 우수한 것들을 모아 별도의 계산과정 없이 특징 벡터들로 이용하여 서포트 벡터 머신(SVM)을 적용함으로써, 음성 및 음악 분류 성능을 크게 향상시킬 수 있다.
이하에서는 첨부된 도면들을 참조하여, 본 발명에 따른 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성/음악 분류 방법의 구성을 나타내는 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성/음악 분류 방법은, 특징 벡터 추출 단계(S10), 최적 분류 초평면 추출 단계(S20), 및 음성/음악 분류 단계(S30)를 포함한다.
먼저, 특징 벡터 추출 단계(S10)에서는, 선택 모드 보코더(SMV) 코덱의 음성 /음악 분류 알고리즘에서 사용되어진 특징 벡터만을 선택적으로 구하게 된다. 추출되는 특징 벡터에는, 이동 평균 에너지, 잡음 및 묵음의 이동 평균 반사계수, 부분적 잔류 에너지의 이동 평균, 정규화된 피치 상관도의 이동 평균, 주기적 계수, 음악 연속 계수의 이동 평균 중 적어도 하나 이상이 포함될 수 있다.
다음으로, 최적 분류 초평면 추출 단계(S20)에서는, 단계 S10에서 구한 특징 벡터를 통계적 학습이론인 서포트 벡터 머신(SVM)에 적용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아낸다.
마지막으로, 음성/음악 분류 단계(S30)에서는, 단계 S20에서 구한 최적 분류 초평면을 이용하여 음성/음악을 분류한다.
본 발명의 상세한 설명에서는, 먼저 선별한 특징 벡터들을 이용하여 통계적 학습이론인 서포트 벡터 머신(SVM)을 이용하여 훈련 데이터 사이의 최적 분류 초평면을 찾는 과정부터 설명한 후, 이에 기초하여 음성/음악을 분류 방법을 상세히 설명하기로 한다.
1. 최적 분류 초평면
서포트 벡터 머신(SVM)의 학습 능률을 높이기 위해서는 최적의 초평면을 구해야 한다. 최적의 초평면을 구하는 과정은, 다음 수학식 1의 제약 조건을 가지 고, 수학식 2로 표현되는 마진의 역수가 최소가 되도록 하는 최적화 문제라고 할 수 있다.
상기 수학식 1의 두 가지 조건식은, 다음 수학식 3과 같이 하나의 조건식으로 만들 수 있다.
초평면에 대한 단위(Normal) 법선 벡터 w와 중심에서 초평면까지의 거리 b만 주어지면 최적 분류 초평면을 구할 수 있으므로, 모든 데이터 점이 정확히 어느 클래스에 속하는지 판별할 수 있고 마진의 폭도 계산할 수 있다. 모든 데이터 점에 적합하고 가장 넓은 마진을 이루는 최적의 와 은 라그랑지안 최적화(Lagrangian Optimization) 기법을 이용하여 목적식과 제약식을 결합한 후, 라그랑제 승수 αi를 포함하여 다음 수학식 4로부터 구한다.
2. 최적 분류 초평면을 이용하여 음성/음악을 분류하는 방법
(1) 음성/음악 판별함수
(2) 커널함수(Kernel Function)
한편, 우리가 접하는 대부분의 패턴은 명확하게 선형 분리가 되지 않는 경우가 대부분이며, 음성 신호 또한 마찬가지이기 때문에 비선형 변환함수를 이용하여 보다 고차원의 공간으로 사상(Mapping)시킨 후 선형 분리를 적용할 필요가 있다. 사상된 공간에서도 원 공간에서의 거리 관계를 어느 정도는 보존시킬 필요가 있기 때문에, 사상함수를 이용하며 커널함수(Kernel Function)를 다음 수학식 8과 같이 수정한다.
다음 표 1은 커널함수의 종류와 각각의 커널함수의 종류에 따른 수학식을 나타낸 것이다.
(3) 최종 음성/음악 판별함수
판별함수와 최적화 문제에 Φ(x)을 쓰지 않고 K()로만 나타낼 수 있는데 이러한 계산 회피 방법을 커널 트릭(Kernel Trick)이라 한다. 커널 트릭은 Φ가 존재할 수 있는 커널함수가 주어진 경우에만 유용하며, 상기 표 1에서와 같이 주어진다. 결론적인 비선형 SVM의 최종판별 함수는 다음 수학식 9와 같다.
3. 실험 결과
본 발명을 위해서 사용된 음성 데이터베이스는 8 kHz로 샘플링된 약 6초 정도의 깨끗한 음성으로, 326명의 남자와 138명의 여자 화자에 의해서 각각 10개의 파일이 발음된 TIMIT 데이터베이스가 사용되었다. 음악 데이터베이스는 CD로부터 여러 장르의 음악을 모바일 폰을 통해서 녹음하여 8 kHz로 다운 샘플링되었으며, 5분 정도의 음악 파일이 사용되었다. 제안된 음성/음악 분류 알고리즘의 모델은 음성 파일 4200개와 음악 파일 60개(메탈 12개, 재즈 12개, 블루스 12개, 힙합 12개, 클래식 12개)를 이용하여 트레이닝하였다.
SMV와 제안된 알고리즘의 객관적인 성능을 평가하기 위해서 테스트 파일을 만들었다. 동일한 데이터에 의한 성능 향상을 피하기 위해서 트레이닝에 사용된 음성/음악 데이터는 테스트에 사용하지 않았다. 테스트 파일은 5개 음성 파일(6∼12초), 5개 음악 파일(28∼32초), 10개 무음(3∼15초)을 사용하여 만들었다.
다양한 음악 장르에 대한 음성/음악 분류 성능을 확인하기 위해서, 테스트 파일의 음악을 2가지 형태로 각 장르별(힙합, 메탈, 재즈, 블루스, 클래식)로 구성된 형태의 테스트 파일 60개, 음악 장르가 혼합된 형태의 테스트 파일 24개와 같이 총 84개의 테스트 파일을 만들었다. 두 시스템의 실제 성능을 알아보기 위해서 테스트 파일의 20ms마다 실제로 결과를 0(무음), 1(음성), 2(음악)로 수동으로 작성한 것과 비교하였다.
다음 표 2는 기존의 SMV와 제안된 SVM 기반의 알고리즘에서 음성/음악 검출 확률(Pd)을 나타낸다. SVM에서는 문턱 값의 변화에 따라 음성 또는 음악의 Pd 값을 조절할 수 있으므로 필요에 따라서 원하는 비율로 사용할 수 있다. 우측에 함께 표시된 오차 확률(Probability of Error; Pe)은 음성과 음악에 대한 미검출 확률(1-Pd)의 합이다. 표 2로부터 확인할 수 있는 바와 같이, 본 발명에서 제안하고 있는 음성/음악 분류 방법은, 전반적으로 우수한 분류 성능을 보였으며, 특히 메탈, 블루스, 힙합, 클래식, 혼합에서 뛰어난 성능을 보였다. 표 2의 결과로부터, 본 발명에서 제안된 음성/음악 분류 방법이 기존의 SMV 코덱의 음성/음악 분류 방법보다 훨씬 향상된 결과를 보인다는 것을 분명하게 확인할 수 있다.
TEST | Method | Music | Speech | Pe |
Metal | SMV | 0.22 | 0.91 | 0.44 |
Proposed | 0.90 | 0.92 | 0.09 | |
Blues | SMV | 0.15 | 0.90 | 0.43 |
Proposed | 0.90 | 0.90 | 0.10 | |
Hiphop | SMV | 0.28 | 0.90 | 0.37 |
Proposed | 0.66 | 0.90 | 0.18 | |
Jazz | SMV | 0.27 | 0.92 | 0.41 |
Proposed | 0.35 | 0.90 | 0.38 | |
Classic | SMV | 0.50 | 0.90 | 0.30 |
Proposed | 0.81 | 0.91 | 0.14 | |
Mixed | SMV | 0.21 | 0.93 | 0.43 |
Proposed | 0.72 | 0.90 | 0.19 |
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성/음악 분류 방법의 구성을 나타내는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
S10: 특징 벡터 추출 단계
S20: 최적 분류 초평면 추출 단계
S30: 음성/음악 분류 단계
Claims (2)
- (1) 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구하는 제1 단계;(2) 상기 제1 단계에서 구한 상기 특징 벡터를 통계적 학습이론인 서포트 벡터 머신(Support Vector Machine; SVM)에 적용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아내는 제2 단계; 및(3) 상기 제2 단계에서 구한 상기 최적 분류 초평면을 이용하여 음성/음악을 분류하는 제3 단계를 포함하는 것을 특징으로 하는, 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법.
- 제1항에 있어서,상기 제1 단계에서, 상기 특징 벡터에는, 이동 평균 에너지, 잡음 및 묵음의 이동 평균 반사계수, 부분적 잔류 에너지의 이동 평균, 정규화된 피치 상관도의 이동 평균, 주기적 계수, 음악 연속 계수의 이동 평균 중 적어도 하나 이상이 포함되 는 것을 특징으로 하는, 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080099029A KR100901371B1 (ko) | 2008-10-09 | 2008-10-09 | 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080099029A KR100901371B1 (ko) | 2008-10-09 | 2008-10-09 | 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100901371B1 true KR100901371B1 (ko) | 2009-06-05 |
Family
ID=40982384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080099029A KR100901371B1 (ko) | 2008-10-09 | 2008-10-09 | 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100901371B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130042783A (ko) * | 2011-10-19 | 2013-04-29 | 한국전자통신연구원 | 특징 벡터 분류 장치 및 방법 |
CN108172234A (zh) * | 2017-12-25 | 2018-06-15 | 天津天地伟业电子工业制造有限公司 | 一种基于svm的音频噪声检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060091063A (ko) * | 2005-02-11 | 2006-08-18 | 한국정보통신대학교 산학협력단 | 음악 컨텐츠 분류 방법 그리고 이를 이용한 음악 컨텐츠 제공 시스템 및 그 방법 |
KR20080077719A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
-
2008
- 2008-10-09 KR KR1020080099029A patent/KR100901371B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060091063A (ko) * | 2005-02-11 | 2006-08-18 | 한국정보통신대학교 산학협력단 | 음악 컨텐츠 분류 방법 그리고 이를 이용한 음악 컨텐츠 제공 시스템 및 그 방법 |
KR20080077719A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130042783A (ko) * | 2011-10-19 | 2013-04-29 | 한국전자통신연구원 | 특징 벡터 분류 장치 및 방법 |
KR101725121B1 (ko) | 2011-10-19 | 2017-04-12 | 한국전자통신연구원 | 특징 벡터 분류 장치 및 방법 |
CN108172234A (zh) * | 2017-12-25 | 2018-06-15 | 天津天地伟业电子工业制造有限公司 | 一种基于svm的音频噪声检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Serizel et al. | Acoustic features for environmental sound analysis | |
West et al. | Exploiting social network structure for person-to-person sentiment analysis | |
CN109034147B (zh) | 基于深度学习和自然语言的光学字符识别优化方法和系统 | |
Kouw et al. | Feature-level domain adaptation | |
US20230334332A1 (en) | Detecting adversarial examples using latent neighborhood graphs | |
KR100792016B1 (ko) | 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법 | |
Chaturvedi et al. | Classification of sound using convolutional neural networks | |
KR100901371B1 (ko) | 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 | |
Rajaratnam et al. | Speech coding and audio preprocessing for mitigating and detecting audio adversarial examples on automatic speech recognition | |
Barkana et al. | Environmental noise classifier using a new set of feature parameters based on pitch range | |
Sheikh et al. | Sentiment analysis using imperfect views from spoken language and acoustic modalities | |
US8560488B2 (en) | Pattern determination devices, methods, and programs | |
Kim et al. | Audio-based objectionable content detection using discriminative transforms of time-frequency dynamics | |
Lim et al. | Enhancing support vector machine-based speech/music classification using conditional maximum a posteriori criterion | |
Ghasemzadeh | Calibrated steganalysis of mp3stego in multi-encoder scenario | |
Le et al. | Ent-Boost: Boosting using entropy measures for robust object detection | |
Nava et al. | A comprehensive study of texture analysis based on local binary patterns | |
Joneidi et al. | Union of low‐rank subspaces detector | |
Miranda et al. | Multi-objective optimization for self-adjusting weighted gradient in machine learning tasks | |
Dumpala et al. | Sentiment classification on erroneous ASR transcripts: a multi view learning approach | |
Jin et al. | Quantum hashing for multimedia | |
Huang et al. | Enhancing density-based data reduction using entropy | |
KR20110021328A (ko) | 에스브이엠의 입력벡터에 최적화된 가중치를 적용하여 에스엠브이 코덱의 음성/음악 분류 성능을 향상시키는 방법 | |
Poh et al. | Noise-robust multi-stream fusion for text-independent speaker authentication | |
Day et al. | Evolution of superFeatures through genetic programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130325 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140320 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |