[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR100901371B1 - 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 - Google Patents

서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 Download PDF

Info

Publication number
KR100901371B1
KR100901371B1 KR1020080099029A KR20080099029A KR100901371B1 KR 100901371 B1 KR100901371 B1 KR 100901371B1 KR 1020080099029 A KR1020080099029 A KR 1020080099029A KR 20080099029 A KR20080099029 A KR 20080099029A KR 100901371 B1 KR100901371 B1 KR 100901371B1
Authority
KR
South Korea
Prior art keywords
music
voice
classification
speech
smv
Prior art date
Application number
KR1020080099029A
Other languages
English (en)
Inventor
장준혁
김상균
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020080099029A priority Critical patent/KR100901371B1/ko
Application granted granted Critical
Publication of KR100901371B1 publication Critical patent/KR100901371B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 서포트 벡터 머신(Support Vector Machine; SVM)을 이용하여 기존의 3GPP2 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 성능을 향상시키는 방법에 관한 것으로서, 보다 구체적으로는, (1) SMV 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구하는 제1 단계; (2) 상기 제1 단계에서 구한 상기 특징 벡터를 통계적 학습이론인 SVM에 적용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아내는 제2 단계; 및 (3) 상기 제2 단계에서 구한 상기 최적 분류 초평면을 이용하여 음성/음악을 분류하는 제3 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명의 음성/음악 분류 방법에 따르면, SMV 코덱의 음성/음악 분류 알고리즘에 SVM을 접목시킴으로써, 즉 SMV 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구한 후, 이를 이용하여 SVM에서 최적 분류 초평면을 구하고 이를 이용하여 음성/음악을 분류함으로써 음성/음악 분류 성능을 크게 향상시킬 수 있다.
음성/음악 분류 성능 향상, 서포트 벡터 머신(Support Vector Machine; SVM), 3GPP2 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱, 최적 분류 초평면, 커널 함수, ROC 곡선, 검출 확률, 미검출 확률

Description

서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법{A SPEECH AND MUSIC CLASSIFICATION METHOD FOR 3GPP2 SMV CODEC USING A SUPPORT VECTOR MACHINE}
본 발명은 음성/음악 분류 방법에 관한 것으로서, 특히 서포트 벡터 머신(Support Vector Machine; SVM)을 이용한 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 방법에 관한 것이다.
최근 IT기술의 발달로 이동통신기기 내에서의 다양한 멀티미디어 서비스가 본격적으로 사용화되기 시작하면서, 제한된 주파수 대역에서 효율적인 통신 환경을 구축하기 위한 연구가 활발히 진행되고 있다. 제한된 통신망을 효과적으로 사용하기 위하여 입력 음성 신호 특징에 따라 선택적으로 프레임마다 4단계로 나누어 전송률을 결정해 부호화하는 방식을 3GPP2의 표준 코덱인 선택 모드 보코더(Selectable Mode Vocoder; SMV)에서 사용하고 있다. 따라서 입력 음성 신호의 종류에 의해 매 프레임마다 전송률을 적절히 부여하는 것이 이동통신기기에서의 통화 음질을 결정짓는 중요한 과제이다. 특히, 최근의 이동통신 환경은 음성 전달에만 국한되는 것이 아니라 음악, 사진, 영상 등과 같이 다양한 멀티미디어 정보를 전송해야 하기 때문에 효과적으로 음성 및 음악을 분류하는 방법을 찾기 위한 연구가 활발히 진행되고 있다.
한편, 서포트 벡터 머신(Support Vector Machine; SVM)은 기존의 학습 방법과 다르게 패턴을 고차원 특징 공간으로 사상시킬 수 있다는 점과 대역적으로 최적의 식별이 가능할 뿐만 아니라 알려지지 않은 확률 분포를 갖는 데이터에 대하여 잘못 분류하는 확률을 최소화하는 구조적인 위험 최소화(Structural Risk Minimization) 방법에 기초하고 있다는 점에서 우수한 분류 방법으로서 주목받고 있다. 특히, SVM은 선형적으로 분류 가능한 데이터에 대한 이진 분류에 있어 두 개의 클래스를 분류할 수 있는 무수히 많은 초평면(Hyperplane) 중 클래스의 가장 가까운 점들과 마진이 최대가 되는 최적 초평면을 구함으로써 높은 일반화 성능을 기대할 수 있다.
이와 같은 연구 결과들을 고려해 볼 때, SVM을 SMV 코덱의 음성/음악 분류 방법에 접목하여 이용함으로써, 음성/음악 분류 성능 향상을 시도해 볼 필요가 있다.
본 발명은, 상기와 같은 필요성의 인식에서 비롯된 것으로서, 서포트 벡터 머신(SVM)을 선택 모드 보코더(SMV) 코덱의 음성/음악 분류에 접목시킴으로써, 즉 기존의 SMV 인코딩 부분의 전처리 과정에서 자동으로 추출되는 파라미터 중 통계적 학습 분류 성능이 우수한 것들을 모아 별도의 계산 과정 없이 특징 벡터들로 이용하여 서포트 벡터 머신(SVM)을 적용함으로써, 향상된 성능의 음성 및 음악 분류 방법을 제안하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 음성 및 음악 분류 방법은,
(1) 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구하는 제1 단계;
(2) 상기 제1 단계에서 구한 상기 특징 벡터를 통계적 학습이론인 서포트 벡터 머신(Support Vector Machine; SVM)을 이용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아내는 제2 단계; 및
(3) 상기 제2 단계에서 구한 상기 최적 분류 초평면을 이용하여 음성/음악을 분류하는 제3 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 제1 단계에서, 상기 특징 벡터에는, 이동 평균 에너지, 잡음 및 묵음의 이동 평균 반사계수, 부분적 잔류 에너지의 이동 평균, 정규화된 피치 상관도의 이동 평균, 주기적 계수, 음악 연속 계수의 이동 평균 중 적어도 하나 이상이 포함될 수 있다.
본 발명의 음성/음악 분류 방법에 따르면, 서포트 벡터 머신(SVM)을 선택 모드 보코더(SMV) 코덱의 음성/음악 분류 방법에 접목시킴으로써, 즉 기존의 SMV 인코딩 부분의 전처리 과정에서 자동적으로 추출되는 파라미터 중 통계적 학습 분류 성능이 우수한 것들을 모아 별도의 계산과정 없이 특징 벡터들로 이용하여 서포트 벡터 머신(SVM)을 적용함으로써, 음성 및 음악 분류 성능을 크게 향상시킬 수 있다.
이하에서는 첨부된 도면들을 참조하여, 본 발명에 따른 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성/음악 분류 방법의 구성을 나타내는 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성/음악 분류 방법은, 특징 벡터 추출 단계(S10), 최적 분류 초평면 추출 단계(S20), 및 음성/음악 분류 단계(S30)를 포함한다.
먼저, 특징 벡터 추출 단계(S10)에서는, 선택 모드 보코더(SMV) 코덱의 음성 /음악 분류 알고리즘에서 사용되어진 특징 벡터만을 선택적으로 구하게 된다. 추출되는 특징 벡터에는, 이동 평균 에너지, 잡음 및 묵음의 이동 평균 반사계수, 부분적 잔류 에너지의 이동 평균, 정규화된 피치 상관도의 이동 평균, 주기적 계수, 음악 연속 계수의 이동 평균 중 적어도 하나 이상이 포함될 수 있다.
다음으로, 최적 분류 초평면 추출 단계(S20)에서는, 단계 S10에서 구한 특징 벡터를 통계적 학습이론인 서포트 벡터 머신(SVM)에 적용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아낸다.
마지막으로, 음성/음악 분류 단계(S30)에서는, 단계 S20에서 구한 최적 분류 초평면을 이용하여 음성/음악을 분류한다.
본 발명의 상세한 설명에서는, 먼저 선별한 특징 벡터들을 이용하여 통계적 학습이론인 서포트 벡터 머신(SVM)을 이용하여 훈련 데이터 사이의 최적 분류 초평면을 찾는 과정부터 설명한 후, 이에 기초하여 음성/음악을 분류 방법을 상세히 설명하기로 한다.
1. 최적 분류 초평면
서포트 벡터 머신(SVM)의 학습 능률을 높이기 위해서는 최적의 초평면을 구해야 한다. 최적의 초평면을 구하는 과정은, 다음 수학식 1의 제약 조건을 가지 고, 수학식 2로 표현되는 마진의 역수가 최소가 되도록 하는 최적화 문제라고 할 수 있다.
Figure 112008070446463-pat00001
Figure 112008070446463-pat00002
상기 수학식 1의 두 가지 조건식은, 다음 수학식 3과 같이 하나의 조건식으로 만들 수 있다.
Figure 112008070446463-pat00003
초평면에 대한 단위(Normal) 법선 벡터 w와 중심에서 초평면까지의 거리 b만 주어지면 최적 분류 초평면을 구할 수 있으므로, 모든 데이터 점이 정확히 어느 클래스에 속하는지 판별할 수 있고 마진의 폭도 계산할 수 있다. 모든 데이터 점에 적합하고 가장 넓은 마진을 이루는 최적의
Figure 112008070446463-pat00004
Figure 112008070446463-pat00005
은 라그랑지안 최적화(Lagrangian Optimization) 기법을 이용하여 목적식과 제약식을 결합한 후, 라그랑제 승수 αi를 포함하여 다음 수학식 4로부터 구한다.
Figure 112008070446463-pat00006
마진을 최대화하기 위하여, KKT(Karush-Kuhn-Tucker) 조건을 적용하여 다음 수학식 5 및 6에서 각각 최적 가중치 벡터
Figure 112008070446463-pat00007
와 최적 바이어스
Figure 112008070446463-pat00008
을 구한다.
Figure 112008070446463-pat00009
Figure 112008070446463-pat00010
2. 최적 분류 초평면을 이용하여 음성/음악을 분류하는 방법
(1) 음성/음악 판별함수
임의의 패턴 x가 주어질 때, 상기 수학식 5 및 6에서 구해진
Figure 112008070446463-pat00011
Figure 112008070446463-pat00012
을 사용하여 다음 수학식 7의 판별함수에 의해 분류 결과가 계산된다.
Figure 112008070446463-pat00013
(2) 커널함수(Kernel Function)
한편, 우리가 접하는 대부분의 패턴은 명확하게 선형 분리가 되지 않는 경우가 대부분이며, 음성 신호 또한 마찬가지이기 때문에 비선형 변환함수를 이용하여 보다 고차원의 공간으로 사상(Mapping)시킨 후 선형 분리를 적용할 필요가 있다. 사상된 공간에서도 원 공간에서의 거리 관계를 어느 정도는 보존시킬 필요가 있기 때문에, 사상함수를 이용하며 커널함수(Kernel Function)를 다음 수학식 8과 같이 수정한다.
Figure 112008070446463-pat00014
다음 표 1은 커널함수의 종류와 각각의 커널함수의 종류에 따른 수학식을 나타낸 것이다.
Kernel function Type of Classifier
Polynomial
Figure 112008070446463-pat00015
RBF
Figure 112008070446463-pat00016
Sigmoid
Figure 112008070446463-pat00017
(3) 최종 음성/음악 판별함수
판별함수와 최적화 문제에 Φ(x)을 쓰지 않고 K()로만 나타낼 수 있는데 이러한 계산 회피 방법을 커널 트릭(Kernel Trick)이라 한다. 커널 트릭은 Φ가 존재할 수 있는 커널함수가 주어진 경우에만 유용하며, 상기 표 1에서와 같이 주어진다. 결론적인 비선형 SVM의 최종판별 함수는 다음 수학식 9와 같다.
Figure 112008070446463-pat00018
3. 실험 결과
본 발명을 위해서 사용된 음성 데이터베이스는 8 kHz로 샘플링된 약 6초 정도의 깨끗한 음성으로, 326명의 남자와 138명의 여자 화자에 의해서 각각 10개의 파일이 발음된 TIMIT 데이터베이스가 사용되었다. 음악 데이터베이스는 CD로부터 여러 장르의 음악을 모바일 폰을 통해서 녹음하여 8 kHz로 다운 샘플링되었으며, 5분 정도의 음악 파일이 사용되었다. 제안된 음성/음악 분류 알고리즘의 모델은 음성 파일 4200개와 음악 파일 60개(메탈 12개, 재즈 12개, 블루스 12개, 힙합 12개, 클래식 12개)를 이용하여 트레이닝하였다.
SMV와 제안된 알고리즘의 객관적인 성능을 평가하기 위해서 테스트 파일을 만들었다. 동일한 데이터에 의한 성능 향상을 피하기 위해서 트레이닝에 사용된 음성/음악 데이터는 테스트에 사용하지 않았다. 테스트 파일은 5개 음성 파일(6∼12초), 5개 음악 파일(28∼32초), 10개 무음(3∼15초)을 사용하여 만들었다.
다양한 음악 장르에 대한 음성/음악 분류 성능을 확인하기 위해서, 테스트 파일의 음악을 2가지 형태로 각 장르별(힙합, 메탈, 재즈, 블루스, 클래식)로 구성된 형태의 테스트 파일 60개, 음악 장르가 혼합된 형태의 테스트 파일 24개와 같이 총 84개의 테스트 파일을 만들었다. 두 시스템의 실제 성능을 알아보기 위해서 테스트 파일의 20ms마다 실제로 결과를 0(무음), 1(음성), 2(음악)로 수동으로 작성한 것과 비교하였다.
다음 표 2는 기존의 SMV와 제안된 SVM 기반의 알고리즘에서 음성/음악 검출 확률(Pd)을 나타낸다. SVM에서는 문턱 값의 변화에 따라 음성 또는 음악의 Pd 값을 조절할 수 있으므로 필요에 따라서 원하는 비율로 사용할 수 있다. 우측에 함께 표시된 오차 확률(Probability of Error; Pe)은 음성과 음악에 대한 미검출 확률(1-Pd)의 합이다. 표 2로부터 확인할 수 있는 바와 같이, 본 발명에서 제안하고 있는 음성/음악 분류 방법은, 전반적으로 우수한 분류 성능을 보였으며, 특히 메탈, 블루스, 힙합, 클래식, 혼합에서 뛰어난 성능을 보였다. 표 2의 결과로부터, 본 발명에서 제안된 음성/음악 분류 방법이 기존의 SMV 코덱의 음성/음악 분류 방법보다 훨씬 향상된 결과를 보인다는 것을 분명하게 확인할 수 있다.
TEST Method Music Speech Pe
Metal SMV 0.22 0.91 0.44
Proposed 0.90 0.92 0.09
Blues SMV 0.15 0.90 0.43
Proposed 0.90 0.90 0.10
Hiphop SMV 0.28 0.90 0.37
Proposed 0.66 0.90 0.18
Jazz SMV 0.27 0.92 0.41
Proposed 0.35 0.90 0.38
Classic SMV 0.50 0.90 0.30
Proposed 0.81 0.91 0.14
Mixed SMV 0.21 0.93 0.43
Proposed 0.72 0.90 0.19
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성/음악 분류 방법의 구성을 나타내는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
S10: 특징 벡터 추출 단계
S20: 최적 분류 초평면 추출 단계
S30: 음성/음악 분류 단계

Claims (2)

  1. (1) 선택 모드 보코더(Selectable Mode Vocoder; SMV) 코덱의 음성/음악 분류 알고리즘에서 사용된 특징 벡터만을 선택적으로 구하는 제1 단계;
    (2) 상기 제1 단계에서 구한 상기 특징 벡터를 통계적 학습이론인 서포트 벡터 머신(Support Vector Machine; SVM)에 적용하여 훈련 데이터 사이의 최적 분류 초평면을 찾아내는 제2 단계; 및
    (3) 상기 제2 단계에서 구한 상기 최적 분류 초평면을 이용하여 음성/음악을 분류하는 제3 단계
    를 포함하는 것을 특징으로 하는, 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법.
  2. 제1항에 있어서,
    상기 제1 단계에서, 상기 특징 벡터에는, 이동 평균 에너지, 잡음 및 묵음의 이동 평균 반사계수, 부분적 잔류 에너지의 이동 평균, 정규화된 피치 상관도의 이동 평균, 주기적 계수, 음악 연속 계수의 이동 평균 중 적어도 하나 이상이 포함되 는 것을 특징으로 하는, 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법.
KR1020080099029A 2008-10-09 2008-10-09 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법 KR100901371B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080099029A KR100901371B1 (ko) 2008-10-09 2008-10-09 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080099029A KR100901371B1 (ko) 2008-10-09 2008-10-09 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법

Publications (1)

Publication Number Publication Date
KR100901371B1 true KR100901371B1 (ko) 2009-06-05

Family

ID=40982384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080099029A KR100901371B1 (ko) 2008-10-09 2008-10-09 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법

Country Status (1)

Country Link
KR (1) KR100901371B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130042783A (ko) * 2011-10-19 2013-04-29 한국전자통신연구원 특징 벡터 분류 장치 및 방법
CN108172234A (zh) * 2017-12-25 2018-06-15 天津天地伟业电子工业制造有限公司 一种基于svm的音频噪声检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060091063A (ko) * 2005-02-11 2006-08-18 한국정보통신대학교 산학협력단 음악 컨텐츠 분류 방법 그리고 이를 이용한 음악 컨텐츠 제공 시스템 및 그 방법
KR20080077719A (ko) * 2007-02-21 2008-08-26 인하대학교 산학협력단 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060091063A (ko) * 2005-02-11 2006-08-18 한국정보통신대학교 산학협력단 음악 컨텐츠 분류 방법 그리고 이를 이용한 음악 컨텐츠 제공 시스템 및 그 방법
KR20080077719A (ko) * 2007-02-21 2008-08-26 인하대학교 산학협력단 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130042783A (ko) * 2011-10-19 2013-04-29 한국전자통신연구원 특징 벡터 분류 장치 및 방법
KR101725121B1 (ko) 2011-10-19 2017-04-12 한국전자통신연구원 특징 벡터 분류 장치 및 방법
CN108172234A (zh) * 2017-12-25 2018-06-15 天津天地伟业电子工业制造有限公司 一种基于svm的音频噪声检测方法

Similar Documents

Publication Publication Date Title
Serizel et al. Acoustic features for environmental sound analysis
West et al. Exploiting social network structure for person-to-person sentiment analysis
CN109034147B (zh) 基于深度学习和自然语言的光学字符识别优化方法和系统
Kouw et al. Feature-level domain adaptation
US20230334332A1 (en) Detecting adversarial examples using latent neighborhood graphs
KR100792016B1 (ko) 오디오 및 비디오 정보를 이용한 등장인물 기반 비디오요약 장치 및 그 방법
Chaturvedi et al. Classification of sound using convolutional neural networks
KR100901371B1 (ko) 서포트 벡터 머신을 이용한 선택 모드 보코더 코덱의 음성 및 음악 분류 방법
Rajaratnam et al. Speech coding and audio preprocessing for mitigating and detecting audio adversarial examples on automatic speech recognition
Barkana et al. Environmental noise classifier using a new set of feature parameters based on pitch range
Sheikh et al. Sentiment analysis using imperfect views from spoken language and acoustic modalities
US8560488B2 (en) Pattern determination devices, methods, and programs
Kim et al. Audio-based objectionable content detection using discriminative transforms of time-frequency dynamics
Lim et al. Enhancing support vector machine-based speech/music classification using conditional maximum a posteriori criterion
Ghasemzadeh Calibrated steganalysis of mp3stego in multi-encoder scenario
Le et al. Ent-Boost: Boosting using entropy measures for robust object detection
Nava et al. A comprehensive study of texture analysis based on local binary patterns
Joneidi et al. Union of low‐rank subspaces detector
Miranda et al. Multi-objective optimization for self-adjusting weighted gradient in machine learning tasks
Dumpala et al. Sentiment classification on erroneous ASR transcripts: a multi view learning approach
Jin et al. Quantum hashing for multimedia
Huang et al. Enhancing density-based data reduction using entropy
KR20110021328A (ko) 에스브이엠의 입력벡터에 최적화된 가중치를 적용하여 에스엠브이 코덱의 음성/음악 분류 성능을 향상시키는 방법
Poh et al. Noise-robust multi-stream fusion for text-independent speaker authentication
Day et al. Evolution of superFeatures through genetic programming

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140320

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee