KR20200039530A - 오디오 신호의 부호화 방법 및 장치, 그리고 복호화 방법 및 장치 - Google Patents
오디오 신호의 부호화 방법 및 장치, 그리고 복호화 방법 및 장치 Download PDFInfo
- Publication number
- KR20200039530A KR20200039530A KR1020190018134A KR20190018134A KR20200039530A KR 20200039530 A KR20200039530 A KR 20200039530A KR 1020190018134 A KR1020190018134 A KR 1020190018134A KR 20190018134 A KR20190018134 A KR 20190018134A KR 20200039530 A KR20200039530 A KR 20200039530A
- Authority
- KR
- South Korea
- Prior art keywords
- binary
- encoding
- neural network
- decoding
- derived
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 147
- 230000005236 sound signal Effects 0.000 title claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 89
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000013139 quantization Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000007906 compression Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000000926 separation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 229910052709 silver Inorganic materials 0.000 description 2
- 239000004332 silver Substances 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
오디오 신호의 부호화 방법 및 장치, 그리고 복호화 방법 및 장치가 개시된다. 오디오 신호의 부호화 및 복호화를 위해 오토 인코더의 학습 과정이 요구되며, 학습 과정을 통해 이진 신경망을 통해 구동 시간을 개선하는 동시에 이진 신경망에서 이진화로 인한 양자화 잡음이 감소할 수 있다.
Description
본 발명은 오디오 신호의 부호화 방법 및 장치, 그리고 오디오 신호의 복호화 방법 및 장치에 관한 것으로, 보다 구체적으로는 이진화를 이용한 오디오 신호의 부호화 방법 및 장치, 그리고 오디오 신호의 복호화 방법 및 장치에 관한 것이다.
최근에 딥러닝 기술이 개발되면서 다양한 응용 분야에 적용하는 시도가 있으며, 그중에 오디오 분야도 그중 하나이다. 딥러닝 기술과 관련하여 신경망 모델의 한 종류인 오토 인코더(autoencoder)가 사용되고 있다. 오토 인코더는 고차원의 입력 데이터를 저차원으로 변환하고, 저차원 표현을 다시 원래 형태인 고차원의 입력 데이터로 복원한다. 여기서, 고차원의 입력 데이터를 저차원으로 변환하는 과정은 부호화 과정에 대응하고, 저차원의 입력 데이터를 다시 고차원의 입력 데이터로 복원하는 과정은 복호화 과정에 대응한다.
오토인코더의 부호화 과정을 통해 도출된 저차원 표현을 잠재 표현(latent representation) 또는 코드(code)라고 정의되고, 코드를 출력하는 계층을 코드 계층(code layer)이라고 한다. 오토인코더의 모델 파라미터는 훈련 과정에서 오토인코더의 출력과 입력 간의 오류를 최소화함으로써 획득된다.
신경망의 깊이에 해당하는 은닉 계층의 개수에 따라 얕은 신경망(Shallow Neural Network)과 깊은 신경망(Deep Neural Network: DNN)으로 구분할 수 있다. 이 때, 얕은 신경망으로부터 얻어진 잠재 표현은 완벽하지 않기 때문에, 추가적인 은닉 계층을 통해 학습을 함으로써 변환 과정을 강화할 수 있다. 추가적인 은닉 계층을 이용하는 오토 인코더를 딥-오토인코더로 정의한다.
하지만, 이러한 딥-오토인코더의 경우, 제한된 상황에서 테스트를 수행해야 하는데 변환 과정을 강화하기 위한 은닉 계층의 추가로 인해서 연산 시간이 증가하는 문제가 있다.
본 발명은 오디오 신호의 부호화와 오디오 신호의 복호화를 위한 딥-오토인코딩과 관련되며, 이진 신경망을 통해 구동 시간이 줄어드는 방법 및 장치를 제공한다.
본 발명은 오디오 신호의 부호화와 오디오 신호의 복호화를 위한 딥-오토인코딩과 관련되며, 이진 신경망에서 이진화로 인한 양자화 잡음을 줄일 수 있는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따르면, 입력 신호 및 모델 파라미터를 이진화하는 방법을 통해 기존의 방식과 동일한 품질을 제공하면서도, 복잡도 및 구동 시간을 개선할 수 있다.
본 발명의 일실시예에 따르면, 상대적으로 적은 자원을 가지는 이동 단말에서도 일정 수준의 품질을 유지하면서도 신속한 처리가 가능한 오디오 코덱을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 신호의 부호화 방법과 오디오 신호의 복호화 방법을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 오토 인코더를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 XNOR 연산의 진리표를 제시한 도면이다.
도 4는 본 발명의 일실시예에 따른 계수 이진화 방법을 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 두 개의 하이퍼플레인(hyperplane)으로 XOR 문제를 풀기 위한 BNN의 예시를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 두 개의 하이퍼플레인(hyperplane)을 필요로 하는 BNN에 기초하여 선형적으로 분리 가능한 문제의 예시를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 선형적으로 분리 가능한 문제를 해결하기 위해 0의 가중치를 허용하는 BNN의 예시를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 하나의 하이퍼플레인(hyperplane)으로 BNN이 해결하지 못하는 선형적으로 분리 가능한 문제의 예시를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 오토 인코더를 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 XNOR 연산의 진리표를 제시한 도면이다.
도 4는 본 발명의 일실시예에 따른 계수 이진화 방법을 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 두 개의 하이퍼플레인(hyperplane)으로 XOR 문제를 풀기 위한 BNN의 예시를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 두 개의 하이퍼플레인(hyperplane)을 필요로 하는 BNN에 기초하여 선형적으로 분리 가능한 문제의 예시를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 선형적으로 분리 가능한 문제를 해결하기 위해 0의 가중치를 허용하는 BNN의 예시를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 하나의 하이퍼플레인(hyperplane)으로 BNN이 해결하지 못하는 선형적으로 분리 가능한 문제의 예시를 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 오디오 신호의 부호화 방법과 오디오 신호의 복호화 방법을 도시한 도면이다.
본 발명은 이진 신경망을 이용하여 가중치 및 바이어스 등의 모델 파라미터와 입력 데이터를 XNOR 논리 연산에 적합하도록 이진화하고 이를 오토인코더에 기반한 오디오 신호의 부호화 및 오디오 신호의 복호화에 적용하기 위한 신경망 훈련 및 테스트 방법을 제공한다. 특히, 본 발명의 일실시예에 따르면, 고속화를 위해 별도의 테이블을 이용하지 않고 XNOR 논리 연산자를 이용하기 때문에 테이블 저장을 위한 추가적인 메모리를 필요로 하지 않는다.
도 1은 이진 연산이 적용되는 오토 인코더를 이용하여 오디오 신호를 부호화하고, 오디오 신호를 복호화하는 과정을 나타낸다. 여기서, 원본 테스트 신호를 부호화하고, 부호화된 원본 테스트 신호를 복호화하여 복원 테스트 신호를 출력하는 과정은 도 1의 테스트 과정에 해당한다. 그리고, 학습 신호로 학습하는 과정은 도 1의 학습 과정에 해당한다. 여기서, 원본 텍스트 신호, 복원 테스트 신호, 및 학습 신호 모두 오디오 신호를 의미한다.
부호화 과정, 복호화 과정, 학습 과정은 프로세서 및 메모리를 포함하는 서로 다른 디바이스를 통해 수행되거나 또는 서로 동일한 디바이스에서 수행될 수도 있다. 부호화 과정, 복호화 과정, 학습 과정은 각각 프로세서에 의해 수행될 수 있으며, 각각의 과정에 입력되는 데이터와 출력되는 데이터는 메모리에 저장될 수 있다.
본 발명의 오디오 신호의 부호화 과정과 오디오 신호와 복호화 과정을 위해 학습 과정이 필요하다. 이 때, 학습 과정에서 도출된 결과는 오디오 신호의 부호화 과정과 복호화 과정에 적용된다.
도 1에서 테스트 과정에 해당하는 부호화 과정은 주파수 변환(S101), 계수 이진화(S102), 부호화 계층 피드 포워드(S103) 및 엔트로피 부호화(S104)를 포함한다. 그리고, 부호화 과정을 통해 도출된 오디오 신호인 원본 테스트 신호의 부호화 결과는 비트스트림을 통해 복호화 과정의 입력이 된다.
특히, 본 발명의 일실시예에 따르면, 주파수 변환(S109), 계수 이진화(S110) 및 오토 인코더 학습(S111)을 포함하는 학습 과정을 제시한다. 이진 연산에 기초한 오토 인코더의 학습 과정은 대규모의 학습용 DB에 포함된 오디오 신호를 이용하여 신경망의 모델 파라미터를 학습하는 과정을 의미한다. 여기서, 학습용 DB에 포함된 오디오 신호는 학습 신호(Strain)에 해당한다.
주파수 변환(S109)는 STFT(Short-Time Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)과 같은 변환 알고리즘을 이용하여 학습용 DB에 포함된 시간 도메인의 오디오 신호를 프레임 단위에 따라 주파수 도메인으로 변환하며, 이를 통해 주파수 도메인의 계수를 출력하는 과정이다.
계수 이진화(S110)는 주파수 변환(S109)를 통해 도출된 주파수 도메인의 계수를 이진 벡터로 재구성하는 과정이다.
오토 인코더 학습(S111)은 재구성된 이진 벡터를 이용하여 오토 인코더의 모델 학습 파라미터를 학습하는 과정을 의미한다. 오토 인코더 학습(S111)은 신호 이진화, 가중치 압축 및 양자화 잡음을 포함한 오류 역전파를 통해 수행된다. 신경망에서 입력 레이어(input layer)를 통해 입력된 값들에 가중치 또는 모델 파라미터를 적용하여 출력 레이어(output layer)로 전달하고 그 과정에서 활성화 함수를 통해 비선형 변환을 구현하는 것이 순전파(Forward propagation)이다. 이에 반해, 역전파는 순전파의 결과값과 학습 데이터에 포함되어 있는 목표값의 차이를 오류(error)로 설정한 후 오류를 감소시키는 방향으로 가중치를 재업데이트하는 과정을 의미한다. 역전파를 통해 결과값에 영향을 많이 미친 노드(뉴런)에 더 많은 오류가 피드백될 수 있다.
다만, 본 발명에서 제안하는 바와 같이 학습 파라미터가 이산값 또는 이진값을 가지는 경우, 오류 함수를 미분하고 이를 이용한 최적화를 수행하기가 어렵다는 문제가 있다. 이를 해소하기 위한 방식으로 본 발명에서는 양자화 잡음을 포함하는 오류 역전파 방식을 제안한다.
최종적으로 학습 과정을 통해 도출된 학습 모델 파라미터는 부호화 과정과 복호화 과정에 적용된다.
부호화 과정에서 주파수 변환(S101)와 계수 이진화(S102)는 학습 과정에서의 주파수 변환(S109)와 계수 이진화(S110)와 동일하게 수행된다.
그리고, 부호화 계층 피드 포워드(S103)는 계수 이진화(S102)의 출력인 재구성된 이진 벡터와 훈련 과정에서 도출된 부호화 계층 모델 파라미터를 이용하여 잠재 표현 비트스트림을 출력한다. 여기서, 잠재 표현은 오토 인코더의 부호화 과정에서 출력되는 저차원의 표현을 의미한다.
엔트로피 부호화(S104)는 압축률을 더 높이기 위해 잠재 표현 비트스트림의 확률 분포를 기반으로 허프만 부호화(Huffman coding) 또는 산술 코딩(arithmetic coding)와 같은 엔트로피 부호화를 수행한다. 부호화 과정을 통해 최종적으로 비트스트림이 출력된다.
엔트로피 부호화(S104)에서 허프만 부호화를 이용하는 경우, 학습 과정에서 형성된 허프만 테이블을 이용할 수 있다. 학습 과정에서 고유한 이진 비트열 집합을 이용하여 허프만 테이블을 생성할 수 있다. 다만, 학습용 DB에 포함된 오디오 신호의 개수가 충분하지 않는 경우, 테스트 과정인 부호화 과정에서 발생된 이진 비트열은 학습 과정에서 생성된 허프만 테이블에서 발견되지 않을 수 있다. 그래서, 엔트로피 부호화(S104)는 학습용 DB에 포함된 오디오 신호의 구성에 따라 엔트로피 부호화(S104)를 위한 허프만 테이블이 불완전할 수 있으므로, 학습 과정에서 생성된 허프만 테이블에 포함되지 않는 잠재 표현(latent representation) 비트열을 예외적으로 처리할 필요가 있다.
본 발명의 일실시예에 따르면, 학습 과정을 통해 도출된 허프만 테이블에 포함되지 않은 잠재 표현 비트열을 처리하기 위한 복수의 방법들이 제공된다.
첫번째 방법은 엔트로피 부호화(S104)에서 허프만 부호화를 위한 허프만 테이블을 생성할 때, 학습용 DB에 포함된 오디오 신호에서 포함되지 않더라도 발생가능한 모든 경우의 수에 해당하는 비트열을 위한 허프만 테이블을 미리 준비하는 것이다.
두번째 방법은 학습 과정에서 포함되지 않은 잠재 표현 비트열이 출현하는 경우, 허프만 부호화를 생략하고 해당 잠재 표현 비트열을 그대로 전송 또는 저장하는 것이다.
세번째 방법은 학습 과정에서 생성된 허프만 테이블에 포함되지 않은 잠재 표현 비트열이 확인되는 경우, 허프만 테이블에서 상기 확인된 잠재 표현 비트열과 가장 가까운 해밍(Hamming) 거리에 대응하는 다른 잠재 표현 비트열을 검색한 다음 검색된 잠재 표현 비트열에 대한 코드워드를 대신 전송하는 것이다.
복호화 과정은 엔트로피 복호화(S105), 복호화 계층 피드 포워드(S106), 실수 변환(S107) 및 주파수 역변환(S108)를 포함한다.
엔트로피 복호화(S105)는 부호화기의 출력인 부호화된 비트스트림으로부터 일 실시예에 따른 이진 연산 오토인코더를 이용한 오디오 코덱의 훈련기는 엔트로피 복호화 과정을 거쳐 잠재 표현 비트스트림을 출력한다.
복호화 계층 피드 포워드(S106)는 잠재 표현 비트스트림을 입력으로 훈련기에서 학습된 복호화 계층 모델 파라미터를 이용하여 재구성된 이진 벡터를 복원한다.
실수 변환(S107)은 재구성된 이진 벡터로부터 N 비트씩 묶어 실수로 변환하여 복원된 주파수 영역 계수를 출력한다.
주파수 역변환(S108)은 복원된 주파수 영역 계수를 역-변환 알고리즘을 이용하여 복원된 오디오 신호를 출력한다.
도 2는 본 발명의 일실시예에 따른 오토 인코더를 설명하기 위한 도면이다.
오토인코딩 네트워크는 차원 축소를 통한 부호화 과정을 어느 정도 수행할 수 있으나 효과적인 부호화 도구로서 활용하기 위해서는 잠재 표현을 이진화하거나 적어도 이진화가 용이하도록 하는 과정이 필수적으로 요구된다. 시맨틱 해싱(semantic hashing) 방식의 경우 코드 계층 의 입력에 잡음을 추가하여 코드 계층 출력을 극단값(extreme value)로 강제함으로써 이러한 문제를 해결할 수 있다.
그러나, 시맨틱 해싱 네트워크의 경우 대용량의 파라미터들로 인해 테스트 시간 동안 과도한 자원이 필요하다는 중대한 단점이 존재한다. 딥러닝의 경우에는 주로 훈련 과정에서 대규모의 연산량과 같은 많은 노력이 투입되어야 하지만 테스트 단계에서는 상대적으로 작은 연산량을 필요로 한다.
그러나, 제한된 자원을 가진 장치에서 테스트를 수행하기 위해서는 시간 측면에서도 여전히 부담이 된다. 특히, DNN을 오디오 부호화 및 복호화와 같은 실시간 응용에 적용하기 위해서는 DNN의 과도한 복잡도가 장애요소로 작용하며, 이로 인해 우수한 성능을 제공함에도 불구하고 DNN이 가장 좋은 해법이 되지 못할 수도 있다. 예를 들어, 계층당 1024 개의 은닉 유닛을 가진 일반적인 신경망에서 덧셈과 곱셈 연산 수는 쉽게 수백만 개의 부동 소수점 연산을 초과하게 되며, 이는 네트워크가 깊어질수록 선형적으로 증가한다.
본 발명에서는 오디오 신호 압축 도구로서 부호화부와 복호화부로 이루어진 오토인코더를 사용하며, 적은 수의 은닉 유닛을 갖는 것을 선호하는 특정한 은닉 계층인 코드 계층을 선택한다. 이와 관련하여 본 발명에서 해결하고자 하는 두 가지 중요한 문제들이 있다.
그 첫번째로, 신경망의 부호화부가 차원 축소 역할을 수행하기 때문에 코드 계층이 가능한 작은 수의 은닉 유닛을 갖도록 해야 하며, 저차원으로 표현된 코드를 원 신호로 복원하는 역할을 수행하는 복호화부에서는 차원 축소로 인한 artifact가 크지 않아야 한다.
두번째는 코드 계층 출력의 분포에 초점을 맞추어 코드를 이진화와 같은 양자화 과정을 수행해야 한다. 즉, 코드 계층의 출력을 쉽게 이진화할 수 있다면 코드 계층의 차원은 압축된 신호의 비트 스트림 표현인 코드의 길이에 직접 해당된다. 코드 계층을 양자화하기 위한 방법으로 입력에 대한 포화된(saturated) 출력을 제공하는 로지스틱(logistic) 또는 쌍곡선 탄젠트와 같은 시그모이드(sigmoid) 계열 함수를 사용할 수 있다.
그러나, 이러한 방법들은 매우 포화된 분포를 산출하지 않기 때문에 코드 계층의 입력 신호에 가우시안(Gaussian) 잡음을 일부 더함으로써 코드 계층 출력의 분포가 매우 극단적인 형태를 갖는 시맨틱 해싱 방법이 제안되었다. 이 경우에 얻어지는 분포의 모양은 로지스틱 함수의 경우에 0과 1의 주변에 집중된 두 피크를 갖게 되며, 이진화 작업은 단순하게 0.5의 문턱치를 이용하여 값들을 경계화한다. 시맨틱 해싱에 대한 딥-오토인코더를 나타낸 것으로 32개의 유닛을 갖는 계층이 코드 계층으로 사용될 수 있다.
DNN의 경우와 마찬가지로 시맨틱 해싱은 feedforward 단계에서 몇 개의 큰 행렬곱을 수행해야 하므로 대규모 데이터(big data)를 해싱하거나 신호를 실시간으로 변환하는데 한계가 있다. 실시간 응용 및 휴대 단말에서의 음악 재생과 같은 제한된 자원을 가진 환경에서는 여전히 부담이 된다.
효과적인 실행 시간 개선을 위한 네트워크 압축과 관련하여, 본 발명에서는 모델 파라미터와 데이터와 관련된 비트 수를 획기적으로 줄일 수 있는 이진화(binarization)이라는 강력한 양자화 기술을 적용한다. 종래의 이산적인(discrete) 파라미터로 동작하는 신경망은 한정된 양자화 레벨을 갖는 하드웨어 상에서 사용되었으나 이로 인해 상당한 성능 저하를 초래하였다. 최종 하드웨어 구현과 더불어 훈련 단계에서 미리 양자화를 수행함으로써 이러한 문제를 어느 정도 완화할 수 있다.
도 3은 본 발명의 일실시예에 따른 XNOR 연산의 진리표를 제시한 도면이다.
본 발명은 고속화를 위해 별도의 XNOR 논리 연산에 적합하도록 가중치와 신호 모두를 (+1, 0, -1)의 세가지 값을 갖는 극단적인 이진화 방법을 채용한다. 또한 본 발명의 고속화 과정을 오디오 부호화에 적용하기 위한 훈련 및 테스트 방법을 개시한다.
본 발명에서는 이진 신경망(Binary Neural Network: BNN)에 기반하여 오디오 부호화 및 복호화를 위한 오토인코더의 모델 파라미터와 연산을 이진 연산 방식으로 재정의한다. 예를 들어, 모델 가중치(weight)가 +1 또는 -1의 값을 가지고 양극(bipolar) 이진 입력에 곱해진 결과의 크기는 1이 된다. 즉, 양극 이진 수의 곱은 단일 XNOR gate 연산이 된다. 도 3은은 XNOR 연산의 진리표를 나타낸 것이다.
BNN은 은닉 유닛의 출력이 양극 이진수가 되도록 활성 함수(activation function)를 쌍곡선 탄젠트(hyperbolic tangent: tanh) 함수에서 부호 함수(sign function)로 대체한다. 부호 함수 또한 +1의 개수와 -1의 개수를 비교함으로써 이진 연산 방식으로 계산될 수 있다. 이러한 개념을 이용하여 신경망의 feedforward 과정은 훨씬 간단하게 수행될 수 있다. 예를 들어, 가중치들이 N-비트 부호화를 갖는 신경망에 비해 메모리를 1/N로 줄일 수 있다.
도 4는 본 발명의 일실시예에 따른 계수 이진화 방법을 설명하는 도면이다.
본 발명은 고속화를 위해 별도의 XNOR 논리 연산에 적합하도록 가중치와 신호 모두를 (+1, 0, -1)의 세가지 값을 갖는 극단적인 이진화 방법을 채용한다. 또한 본 발명의 고속화 과정을 오디오 부호화에 적용하기 위한 훈련 및 테스트 방법을 개시한다.
계수 이진화기에서는 주파수 영역 계수를 적절히 이진 벡터로 재구성하는 전처리 과정을 수행하며, 본 발명에서는 Quantization-and-Dispersion(QaD)를 사용한다. QaD에서 D-차원의 입력 벡터 x∈R^(D×1)의 각 실수 항 x_i를 Lloyd-Max 알고리즘을 이용해서 2^N 개의 양자화 레벨을 갖도록 N 비트로 양자화한 다음, 양자화된 정수 값을 N 비트의 이진 값들로 유닛당 한 비트가 되도록 N 개의 서로 다른 입력 유닛으로 분산시킨다. 이 분산 과정을 통해 입력 계층의 유닛 개수는 D 개에서 D×N 개로 증가된다.
도 4는 일 실시예에 따른 계수 이진화 방법에 대한 예시를 나타낸 것이다. 예를 들어, 실수 항을 2 비트로 양자화했을 때 정수값 3을 갖는 경우 이진수 11로 표현된다. 이진수 11의 각 비트를 두 개의 입력 유닛에 각각 +1로 분산시킨다. 만약 이진수 10으로 양자화된 정수값 2의 경우에는 두 개의 입력 유닛에 각각 +1과 -1로 분산시킨다.
QaD 단계를 통해 재구성된 이진 연산 입력을 실제 이진 연산 오토인코더 훈련기에 직접 적용하기에 앞서, 모델 파라미터인 가중치와 바이어스를 압축하는 과정을 거친다. 이 과정은 모델 파라미터를 임의의 값으로 초기화하기보다 초기값으로 잘 설정함으로써 훈련 과정에서 local minimum에 머무르는 것을 방지하기 위한 것으로, 훈련하고자 하는 이진 연산 오토인코더와 동일한 신경망 구조를 갖는 실수 네트워크를 훈련한 다음 그 결과를 실제 이진 연산 오토인코더 훈련을 위한 초기 모델 파라미터로 사용한다.
이 모델 파라미터 압축 과정에서는 QaD를 통해 재구성된 입력 비트 열을 위해 신경망의 입력 계층 크기를 N 배 증가시키고, 피드 포워드(feedforward) 과정에서 가중치와 바이어스(W,b)에 tanh 함수를 취함으로써 모델 파라미터들이 -1과 +1 사이 값에 한정되도록 한다.
모델 파라미터 학습을 위한 역전파 과정에서는 모델 파라미터 압축으로 인해 tanh 함수의 미분치, tanh'(W)과 tanh'(b)를 더해 주어야 한다. 이러한 모델 파라미터 압축의 결과로 얻어지는 tanh(W)과 tanh(b)를 이진 연산 오토인코더 훈련기의 초기 모델 파라미터로 사용한다.
이진 연산 오토인코더의 l-번째 계층에 대한 이진 가중치와 바이어스, 은 번째 계층의 유닛 수 차원을 가진 양극 이진 수 로, 실수 모델 파라미터 에 부호 함수를 각각 취해서 얻어진 이진화된 버전이다.
잡음 역전파를 위해서 먼저 이진화된 모델 파라미터들을 이용해서 다음 수식과 같이 feedforward 과정을 수행한다.
여기서, 은 번째 계층의 입력으로 번째 은닉 계층의 출력 또는 입력 계층()에 해당한다. 그러나 부호 함수는 0 근처에서 미분이 불가능하므로 역전파 과정에서 가중치(W)와 바이어스(b)을 갱신할 수 없기 때문에 부호 함수의 미분치 대신에 tanh의 미분치를 대신 사용한다.
또한 훈련 단계에서 추가적인 성능 개선을 위해 이진화된 모델 파라미터가 0의 값을 갖도록 허용할 수 있다. 이 경우 모델 파라미터 압축 과정은 세가지 레벨, 즉 -1, 0, +1을 갖는 양자화 또는 비활성 가중치를 가진 이진 양자화를 수행하는 것으로 볼 수 있다.
도 5는 본 발명의 일실시예에 따른 두 개의 하이퍼플레인(hyperplane)으로 XOR 문제를 풀기 위한 BNN의 예시를 도시한 도면이다. XOR 문제는 선형 분리가 불가능한 문제로, BNN이 적합한 두 개의 하이퍼플레인을 학습함으로써 비선형 문제를 풀 수 있음을 보여주고 있다.
이에 반해 도 6은 본 발명의 일실시예에 따른 두 개의 하이퍼플레인(hyperplane)을 필요로 하는 BNN에 기초하여 선형적으로 분리 가능한 문제의 예시를 도시한 도면이다. 도 6의 문제는 선형 분리가 가능하기 때문에 일반적인 실수 기반의 신경망은 단 하나의 하이퍼플레인으로도 문제를 풀 수 있다. (예를 들어 ). 다만 BNN의 경우 정의할 수 있는 하이퍼플레인이 제한적이기 때문에 반드시 두 개 이상의 하이퍼플레인을 사용해야만 이 문제를 풀 수 있으므로, 도 6은 BNN의 모델 복잡도가 일반적인 신경망보다 커질 수 있음을 암시한다.
도 7은 본 발명의 일실시예에 따른 선형적으로 분리 가능한 문제를 해결하기 위해 0의 가중치를 허용하는 BNN의 예시를 도시한 도면이다. 양극 이진수인 +1과 -1에 추가적으로 0을 이용함으로써, BNN이 정의할 수 있는 하이퍼플레인이 좀 더 유연해질 수 있다. 그리고, 0의 가중치를 허용함으로써 하나의 하이퍼플레인으로 문제를 푸는 것이 가능해진다.
도 8은 본 발명의 일실시예에 따른 하나의 하이퍼플레인(hyperplane)으로 BNN이 해결하지 못하는 선형적으로 분리 가능한 문제의 예시를 도시한 도면이다. 도 8은 0의 가중치를 추가로 사용했음에도 BNN이 선형 분리할 수 없는 문제를 설명한다. 도 8의 예시는 일반적인 신경망이 여전히 선형 분리를 할 수 있음을 통해, BNN이 일반적인 신경망보다 추가적인 모델 복잡도를 요구하는 예이다. 다만, 위에서 언급한 모델 복잡도는 신경망이 가지는 뉴런의 개수에 기반한 것으로, 각각의 뉴런과 가중치가 하드웨어 상에서의 순전파 과정에 미치는 실질적인 계산 복잡도를 의미하는 것은 아니다. BNN의 경우 이진 표현에 따른 효율적인 순전파가 가능하므로 더 많은 뉴런을 가진 BNN이 더 적은 뉴런을 가진 일반 신경망보다 효율적인 순전파를 수행할 수 있다.
BNN은 최초에 양극 이진 파라미터들이 도 5의 XOR와 같은 비선형 문제를 풀기 위한 능력을 갖도록 완전한 이진 연산 신경망으로 제안되었다. 그러나 BNN은 일반적으로 실수 값을 갖는 네트워크에 비해서 더 많은 hyperplane을 필요로 한다.
예를 들어, 도 6와 같이 선형적으로 분리 가능한 경우에도 두 개의 hyperplane이 있다. 이 경우 도 7과 같이 가중치가 0을 갖도록 함으로써 해결할 수 있지만 0의 가중치를 허용함에도 불구하고 이진 연산 가중치를 이용해서 선형적으로 분리할 수 없는 특별한 경우가 존재한다(도 8). 그러나, BNN이 훨씬 더 간단한 산술 연산 세트를 가지고 있기 때문에 동일한 문제를 푸는데 있어 BNN이 항상 DNN보다 더 많은 연산량을 필요로 한다는 것을 의미하는 것은 아니다.
BNN에서 네트워크의 이진화가 훈련 단계에서도 수행된다면 Stochastic Gradient Descent(SGD) 방법은 원 훈련 오류와 함께 이진화된 가중치와 신호들에 의해서 초래된 추가적인 오류도 감소시킬 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
S101: 주파수 변환
S102: 계수 이진화
S103: 부호화 계층 피드 포워드
S104: 엔트로피 부호화
S105: 엔트로피 복호화
S106: 복호화 계층 피드 포워드
S107: 실수 변환
S108: 주파수 역변환
S109: 주파수 변환
S110: 계수 이진화
S111: 오토 인코더 학습
S102: 계수 이진화
S103: 부호화 계층 피드 포워드
S104: 엔트로피 부호화
S105: 엔트로피 복호화
S106: 복호화 계층 피드 포워드
S107: 실수 변환
S108: 주파수 역변환
S109: 주파수 변환
S110: 계수 이진화
S111: 오토 인코더 학습
Claims (20)
- 오디오 신호인 시간 도메인의 원본 테스트 신호를 주파수 도메인으로 변환하는 단계;
상기 주파수 도메인의 원본 테스트 신호의 계수를 이진화하는 단계;
상기 이진화된 계수와 학습 과정에서 도출된 학습 모델 파라미터를 이용하여 부호화 계층 피드 포워드를 수행하는 단계;
상기 부호화 계층 피드 포워드를 수행한 결과에 기초하여 엔트로피 부호화를 수행하는 단계
를 포함하는 부호화 방법. - 제1항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
이진 신경망을 이용하여 오토 인코더의 모델 파라미터와 연산을 이진 연산 방식으로 재정의함으로써 도출되는 부호화 방법. - 제1항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
상기 모델 파라미터의 가중치에 기초한 양극(bipolar) 이진 입력을 XNOR 연산에 적용한 결과에 기초하여 도출되는 부호화 방법. - 제2항에 있어서,
상기 이진 신경망은,
은닉 유닛의 출력이 양극 이진수가 되도록 활성 함수를 쌍곡선 함수에서 부호 함수로 대체된 신경망인 부호화 방법. - 제1항에 있어서,
상기 이진화하는 단계는,
양자화 및 분산 과정을 통해 상기 주파수 도메인의 계수를 이진 벡터로 재구성하는 부호화 방법. - 제1항에 있어서,
상기 엔트로피 부호화를 수행하는 단계는,
잠재 표현 비트스트림의 확률 분포에 기초하여 엔트로피 부호화를 수행하는 부호화 방법. - 엔트로피 복호화를 통해 비트스트림으로부터 잠재 표현 비트스트림을 출력하는 단계;
상기 잠재 표현 비트스트림과 학습 과정을 통해 도출된 학습 모델 파라미터를 이용하여 복호화 계층 피드 포워드를 통해 재구성된 이진 벡터를 복원하는 단계;
상기 재구성된 이진 벡터를 N비트씩 그룹핑하여 실수로 변환함으로써 주파수 도메인의 계수를 출력하는 단계;
상기 주파수 도메인의 계수를 시간 도메인으로 변환하는 단계
를 포함하는 복호화 방법. - 제7항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
이진 신경망을 이용하여 오토 인코더의 모델 파라미터와 연산을 이진 연산 방식으로 재정의함으로써 도출되는 복호화 방법. - 제7항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
상기 모델 파라미터의 가중치에 기초한 양극(bipolar) 이진 입력을 XNOR 연산에 적용한 결과에 기초하여 도출되는 복호화 방법. - 제8항에 있어서,
상기 이진 신경망은,
은닉 유닛의 출력이 양극 이진수가 되도록 활성 함수를 쌍곡선 함수에서 부호 함수로 대체된 신경망인 복호화 방법. - 부호화 장치에 있어서,
상기 부호화 장치는
오디오 신호인 시간 도메인의 원본 테스트 신호를 주파수 도메인으로 변환하고, 상기 주파수 도메인의 원본 테스트 신호의 계수를 이진화하고, 상기 이진화된 계수와 학습 과정에서 도출된 학습 모델 파라미터를 이용하여 부호화 계층 피드 포워드를 수행하고, 상기 부호화 계층 피드 포워드를 수행한 결과에 기초하여 엔트로피 부호화를 수행하는 프로세서를 포함하는 부호화 장치. - 제11항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
이진 신경망을 이용하여 오토 인코더의 모델 파라미터와 연산을 이진 연산 방식으로 재정의함으로써 도출되는 부호화 장치. - 제11항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
상기 모델 파라미터의 가중치에 기초한 양극(bipolar) 이진 입력을 XNOR 연산에 적용한 결과에 기초하여 도출되는 부호화 장치. - 제12항에 있어서,
상기 이진 신경망은,
은닉 유닛의 출력이 양극 이진수가 되도록 활성 함수를 쌍곡선 함수에서 부호 함수로 대체된 신경망인 부호화 장치. - 제1항에 있어서,
상기 프로세서는,
양자화 및 분산 과정을 통해 상기 주파수 도메인의 계수를 이진 벡터로 재구성함으로써 계수 이진화하는 부호화 장치. - 제11항에 있어서,
상기 프로세서는,
잠재 표현 비트스트림의 확률 분포에 기초하여 엔트로피 부호화를 수행하는 부호화 장치. - 복호화 장치에 있어서,
상기 복호화 장치는,
엔트로피 복호화를 통해 비트스트림으로부터 잠재 표현 비트스트림을 출력하고,
상기 잠재 표현 비트스트림과 학습 과정을 통해 도출된 학습 모델 파라미터를 이용하여 복호화 계층 피드 포워드를 통해 재구성된 이진 벡터를 복원하고,
상기 재구성된 이진 벡터를 N비트씩 그룹핑하여 실수로 변환함으로써 주파수 도메인의 계수를 출력하고,
상기 주파수 도메인의 계수를 시간 도메인으로 변환하는 복호화 장치. - 제17항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
이진 신경망을 이용하여 오토 인코더의 모델 파라미터와 연산을 이진 연산 방식으로 재정의함으로써 도출되는 복호화 장치. - 제17항에 있어서,
상기 학습 과정을 통해 도출된 학습 모델 파라미터는,
상기 모델 파라미터의 가중치에 기초한 양극(bipolar) 이진 입력을 XNOR 연산에 적용한 결과에 기초하여 도출되는 복호화 장치. - 제18항에 있어서,
상기 이진 신경망은,
은닉 유닛의 출력이 양극 이진수가 되도록 활성 함수를 쌍곡선 함수에서 부호 함수로 대체된 신경망인 복호화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/541,959 US20200111501A1 (en) | 2018-10-05 | 2019-08-15 | Audio signal encoding method and device, and audio signal decoding method and device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862742095P | 2018-10-05 | 2018-10-05 | |
US62/742,095 | 2018-10-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200039530A true KR20200039530A (ko) | 2020-04-16 |
Family
ID=70454833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190018134A KR20200039530A (ko) | 2018-10-05 | 2019-02-15 | 오디오 신호의 부호화 방법 및 장치, 그리고 복호화 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200039530A (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177638A (zh) * | 2020-12-11 | 2021-07-27 | 联合微电子中心(香港)有限公司 | 用于生成神经网络的二值化权重的处理器和方法 |
WO2022252957A1 (zh) * | 2021-05-29 | 2022-12-08 | 华为技术有限公司 | 音频数据编解码方法和相关装置及计算机可读存储介质 |
US11862183B2 (en) | 2020-07-06 | 2024-01-02 | Electronics And Telecommunications Research Institute | Methods of encoding and decoding audio signal using neural network model, and devices for performing the methods |
WO2024167252A1 (ko) * | 2023-02-09 | 2024-08-15 | 한국전자통신연구원 | 오디오 신호 코딩 방법 및 이를 수행하는 장치 |
-
2019
- 2019-02-15 KR KR1020190018134A patent/KR20200039530A/ko not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11862183B2 (en) | 2020-07-06 | 2024-01-02 | Electronics And Telecommunications Research Institute | Methods of encoding and decoding audio signal using neural network model, and devices for performing the methods |
CN113177638A (zh) * | 2020-12-11 | 2021-07-27 | 联合微电子中心(香港)有限公司 | 用于生成神经网络的二值化权重的处理器和方法 |
CN113177638B (zh) * | 2020-12-11 | 2024-05-28 | 联合微电子中心有限责任公司 | 用于生成神经网络的二值化权重的处理器和方法 |
WO2022252957A1 (zh) * | 2021-05-29 | 2022-12-08 | 华为技术有限公司 | 音频数据编解码方法和相关装置及计算机可读存储介质 |
WO2024167252A1 (ko) * | 2023-02-09 | 2024-08-15 | 한국전자통신연구원 | 오디오 신호 코딩 방법 및 이를 수행하는 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Towards model compression for deep learning based speech enhancement | |
KR20200039530A (ko) | 오디오 신호의 부호화 방법 및 장치, 그리고 복호화 방법 및 장치 | |
US20200111501A1 (en) | Audio signal encoding method and device, and audio signal decoding method and device | |
CN113853613B (zh) | 神经网络解码方法、装置和介质 | |
CN114402596B (zh) | 神经网络模型解码方法、装置、系统和介质 | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
Elliott et al. | Tiny transformers for environmental sound classification at the edge | |
Boopathi et al. | An image compression approach using wavelet transform and modified self organizing map | |
Wicker et al. | A nonlinear label compression and transformation method for multi-label classification using autoencoders | |
Wijayanto et al. | Towards robust compressed convolutional neural networks | |
Räsänen | Generating Hyperdimensional Distributed Representations from Continuous-Valued Multivariate Sensory Input. | |
Kinsner | Is entropy suitable to characterize data and signals for cognitive informatics? | |
CN116018589A (zh) | 用于基于乘积量化的矩阵压缩的方法和系统 | |
Ahn et al. | Double Viterbi: Weight encoding for high compression ratio and fast on-chip reconstruction for deep neural network | |
US11790926B2 (en) | Method and apparatus for processing audio signal | |
Gray et al. | Vector quantization and density estimation | |
CN113196385A (zh) | 音频信号处理 | |
US7711761B2 (en) | Method and system for digital signal processing, program product therefor | |
WO2024011426A1 (zh) | 一种点云几何数据增强、编解码方法、装置和系统 | |
US20220005488A1 (en) | Methods of encoding and decoding audio signal using neural network model, and devices for performing the methods | |
Liguori | Pyramid vector quantization for deep learning | |
Wijayanto et al. | Robustness of compressed convolutional neural networks | |
KR20200047268A (ko) | 오디오 신호의 부호화 방법, 복호화 방법, 그리고 상기 방법을 수행하는 부호화기 및 복호화기 | |
Marinò et al. | Efficient and Compact Representations of Deep Neural Networks via Entropy Coding | |
Zhang et al. | An image compression method based on wavelet transform and neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |