[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102431737B1 - 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치 - Google Patents

멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치 Download PDF

Info

Publication number
KR102431737B1
KR102431737B1 KR1020170026767A KR20170026767A KR102431737B1 KR 102431737 B1 KR102431737 B1 KR 102431737B1 KR 1020170026767 A KR1020170026767 A KR 1020170026767A KR 20170026767 A KR20170026767 A KR 20170026767A KR 102431737 B1 KR102431737 B1 KR 102431737B1
Authority
KR
South Korea
Prior art keywords
highlight
frames
present disclosure
metadata
frame
Prior art date
Application number
KR1020170026767A
Other languages
English (en)
Other versions
KR20180099375A (ko
Inventor
올렉산드르 쉬츄르
김선경
예브겐 야키쉰
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170026767A priority Critical patent/KR102431737B1/ko
Priority to US16/489,626 priority patent/US10819884B2/en
Priority to PCT/KR2018/002476 priority patent/WO2018160007A1/ko
Priority to EP18760912.8A priority patent/EP3575989B1/en
Publication of KR20180099375A publication Critical patent/KR20180099375A/ko
Application granted granted Critical
Publication of KR102431737B1 publication Critical patent/KR102431737B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 개시는 파일의 형식으로 저장 또는 전송되는 멀티미디어에서 하이라이트에 해당되는 구간을 찾는 방법에 관한 것으로서, 멀티미디어 파일을 적어도 하나의 프레임으로 파싱하는 과정과, 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과, 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과, 적어도 하나의 메타데이터 매개변수에 기반하여 멀티미디어 파일의 하이라이트에 해당하는 구간을 판단하는 과정을 포함한다.

Description

멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치{METHOD OF SEARCHING HIGHLIGHT IN MULTIMEDIA DATA AND APPARATUS THEROF}
본 개시는 멀티미디어 데이터에서 하이라이트에 해당되는 구간을 찾는 방법에 관한 것이다.
종래에는 사용자가 카세트 테잎이나 CD(Compact Disc)등의 저장 매체를 이용하여 멀티미디어 데이터를 재생하였다. 따라서 사용자가 보거나 들을 수 있는 멀티미디어 데이터는 한정적일 수 밖에 없었다. 하지만 최근에는 휴대폰, MP3 플레이어 등의 전자 기기의 개발로 인해, 사용자는 다수의 멀티미디어 데이터를 전자기기 내에 파일로 저장하여 재생하거나, 인터넷을 통해 실시간으로 재생할 수 있게 되었다. 따라서 사용자는 종래보다 더 많은 수의 멀티미디어 데이터를 선택하여 재생할 수 있게 되었다.
음원 제공 사업자들은 사용자들로 하여금 음원 파일의 정보를 확인할 수 있도록 제작자, 작곡가, 가수, 장르 등의 메타데이터를 표시하여 제공하고 있다. 더 나아가 음원 제공 사업자들은 사용자들에게 미리 듣기 서비스도 제공하고 있다. 하지만 이러한 메타데이터나 미리 듣기 서비스로는 사용자로 하여금 원하는 음악을 찾는데 도움이 되지 않을 수도 있다.
따라서 사용자로 하여금 음악 트랙 중 가장 중요한 부분, 즉 하이라이트만을 들을 수 있게 하는 것이 미리듣기 서비스에서 가장 중요하다.
도 1은 종래의 미리듣기 서비스의 동작을 나타내는 도면이다.
도 1을 참조하면, 재생 시작점(110, 120, 130, 140)은 이에 각각 대응되는 재생 종료점(111, 121, 131, 141)을 갖는다.
재생 시작점(110, 120, 130, 140)이 0초에 위치하는 경우가 있을 수 있고, 재생 시작점(110, 120, 130, 140)이 0초가 아닌 고정된 일정 시점에 위치하는 경우가 있을 수 있다.
하지만 도 1에 도시된 종래의 방법에 의하는 경우, 재생 시작점이 고정되어 있어 음악 트랙의 하이라이트를 정확하게 재생할 수 없다는 문제가 있다. 예를 들어 음악 트랙 중 1분이 경과한 시점으로 재생시작점이 고정된 경우, 하이라이트가 아닌 경우도 있다는 문제점이 존재한다.
이와는 다르게, 음원의 트랙에서 하이라이트 부분을 결정하기 위해 음악 데이터 분석을 수행하는 방법이 고려될 수도 있다. 이 방법은 가장 좋은 결과를 제공할 수 있다. 하지만, 멀티미디어 파일은 사용자 장치에서 압축된 형태로 저장되기 때문에, 미리듣기/하이라이트/미리보기 부분을 찾을 수 있는 오디오 데이터를 얻기 위해서는 압축된 데이터를 압축 해제해야 한다. 따라서 이 방법은 모바일 기기에서는 적당하지 않다. 예를 들어, 5분의 재생 시간을 갖는 음악 트랙 하나를 모바일 장치에서 압축 해제하는 데에 필요한 시간이 15초이기 때문이다.
또 다른 방안으로서 SNS(Social Network Services), 클라우드(Cloud), 스트리밍(Streaming) 음악 서비스등에서 사용자들이 직접 하이라이트를 지정하는 방법이 고려될 수 있다. 이 경우 지정된 하이라이트가 지정되어 있으므로, 하이라이트를 검색할 필요가 없다는 장점이 존재한다. 다만 이러한 방법은 비인기/희귀 음악에 대해서는 하이라이트가 지정되지 않을 가능성이 높으며, 인터넷 연결이 필요하고, 사생활 침해 문제도 있을 수 있다.
본 개시는 멀티미디어 데이터에서 하이라이트를 빠르게 찾는 방법 및 이를 이용한 장치를 제안한다.
본 개시의 실시 예에 따른 파일의 형식으로 저장 또는 전송되는 멀티미디어에서 하이라이트에 해당되는 구간을 찾는 방법에 있어서, 멀티미디어 파일을 적어도 하나의 프레임으로 파싱하는 과정과, 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과, 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과, 적어도 하나의 메타데이터 매개변수에 기반하여 멀티미디어 파일의 하이라이트에 해당하는 구간을 판단하는 과정을 포함한다.
본 개시의 실시예에 따른 파일의 형식으로 저장 또는 전송되는 멀티미디어에서 하이라이트에 해당되는 구간을 찾는 장치는, 멀티미디어 파일을 적어도 하나의 프레임으로 파싱하는 파싱부와, 적어도 하나의 프레임을 부분 압축 해제하는 부분 압축 해제부와, 부분 압축 해제된 프레임에서 메타데이터 매개변수를 추출하는 메타데이터 매개변수 추출부와, 추출된 메타데이터 매개변수를 기반으로 하이라이트를 판단하는 하이라이트 판단부를 포함한다.
본 개시는 멀티미디어 데이터의 하이라이트를 찾는 방법을 제안한다.
본 개시에 따르면, 프레임 전체를 압축 해제 하지 않고 MP3 프레임의 일부만 압축 해제를 하므로 하이라이트를 찾는 속도가 빨라진다. 이와 더불어 프레임 일부만 압축 해제하므로 메모리 소비용량을 줄일 수 있다.
사용자에 의해 하이라이트가 지정되지 않는바 인기/ 희귀 여부와 무관하게 모든 음악 파일에서 하이라이트를 찾을 수 있다. 사생활 침해 문제도 발생하지 않는다.
도 1은 기존의 미리 듣기 서비스의 동작을 나타내는 도면이다.
도 2는 음악레벨 측정과 관련된 표준에서 정의된 곡선군을 나타내는 그래프이다.
도 3은 본 개시의 실시예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 나타내는 순서도이다
도 4a는 프레임 전체를 압축 해제하는 일반적인 과정을 나타내는 도면이고, 도 4b는 본 개시의 실시예에 따른 적어도 하나의 프레임을 부분 압축 해제하는 과정을 나타내는 도면이다.
도 5a는 MP3 프레임의 일반적인 구조를 나타내는 구조도이고, 도 5b는 MP3프레임의 헤더 구조의 예를 나타낸 예시도이다. 그리고 도 5c는 본 개시의 실시예에 따른 메타데이터 매개변수를 나타내는 도면이다.
도 6은 본 개시에 따른 부분 압축 해제에서 추출된 값들의 3차원 그래프를 나타내는 도면이다.
도 7a는 전체 압축 해제를 기반으로 하이라이트를 찾는데 사용되는 파형도이고, 도 7b는 본 개시의 실시예에 따른 멀티미디어 파일의 부분 압축 해제를 이용하는 하이라이트 판단 과정을 나타낸 도면이다.
도 8a 및 도 8b는 본 개시에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 모바일 기기에 적용한 예시도이다. 도 8c는 본 개시의 실시예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법이 적용하여 재생하는 과정을 나타낸 예시도이다.
도 9는 본 개시에 제2 실시예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 나타내는 도면이다.
도 10은 본 개시의 제3 실시예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 나타낸 도면이다.
도 11은 본 개시의 실시예에 따른 멀티미디어 파일에서 하이라이트를 찾는 장치의 구조도이다.
본 개시를 설명하기에 앞서, 미리 알아두어야 할 사항들을 살펴본다.
이하, 음악 파일(예, mp3(MPEG(Motion Picture Expert Group)-1 Audio Layer III) 파일)을 기초로 본 개시의 실시예를 설명하지만, 이에 한정되지 않고 모든 멀티미디어 파일(예를 들어, avi 파일과 같은 동영상 파일)을 포함한다.
본 개시에 따른 멀티미디어 파일에서 하이라이트를 찾을 수 있는 방법에 대해 살펴보기 전에, 하이라이트 구간의 정의와, 음악레벨 측정과 관련된 표준에서 정의된 곡선군(group of curve)에 대해 알아본다.
하이라이트 구간은 멀티미디어의 미리보기 또는 미리듣기 서비스에서 제공되는 멀티미디어의 내용을 구매자들로 하여금 직관적으로 알 수 있도록 하는 부분, 특정 구간 내에서 소리가 가장 큰 구간, 또는 소리와 관련된 메타데이터들의 합산 값이 가장 큰 구간을 의미한다.
대중 음악에 있어 일반적으로 절은 AABB 또는 ABAB 운율 체계로 대체로 이루어진다. 노래의 두 개 이상의 섹션이 거의 동일한 곡과 상이한 가사를 갖는 경우, 각 섹션은 하나의 절로 간주된다. 하지만 노래의 도입부를 노래의 시작 절 사이의 간주인 사전 절(pre-verse)과 혼동하면 안된다. 그리고 후렴구는 서정적 또는 음악적으로 표현되는 주요 아이디어 또는 큰 그림을 포함한다. 후렴구는 노래 전체에 걸쳐서 반복되고, 멜로디와 가사는 거의 달라지지 않는다.
대부분의 클래식 음악의 경우, 우리는 종결부 및 정점을 가장 대표적인 부분으로 정의할 수 있다. 이는 보통 오케스트라 튜티(Tutti:독주자가 아니라 오케스트라 전체를 위한 용어)에 의해 수행된다. 이것은 음악에서 가장 소리가 큰 부분이다.
락/팝/일렉트로닉의 경우, 대부분의 음악은 절-후렴구의 간단한 형태를 갖는다. 여기서, 구조는 A가 절이고 B가 후렴구이며, 우리는 AABAABABA 등과 같은 곡 구성으로 A와 B의 조합을 갖는다. 보통, B(후렴구)는 A(절)보다 소리가 크다.
경험/환경/노이즈/기타 음악 장르의 경우, 정점은 가장 소리가 크고/가장 빠른 부분이다. 변화가 없는 환경 트랙 사운드의 경우, 그의 임의의 부분이 대표적인 부분이 될 것이다.
따라서, 대부분의 경우, 가장 소리가 큰 부분이 음악의 가장 대표적인 부분인 하이라이트로 간주될 수 있다.
도 2는 음악레벨 측정과 관련된 표준에서 정의된 곡선군을 나타내는 그래프이다.
사람의 귀는 낮은 오디오 주파수에 덜 민감하기 때문에 사람의 귀로 인식되는 상대적 음량을 계산하기 위해 기기로 측정된 사운드 레벨에 A가중치가 적용된다. 즉, dB단위로 측정된 음압 레벨에 옥타브 또는 제3 옥타브 대역으로 나열된 값들이 산술적으로 추가되어 적용된다. 그래프의 가로축은 로그 스케일(log scale) 단위를 갖고, 그래프의 세로축은 dB 단위를 갖는다.
이하, 본 개시를 도면과 함께 상세히 설명한다. 본 개시를 설명함에 있어서 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
본 개시는 하이라이트를 장치 상에서 획득하는 방법 및 장치를 제공한다. 이러한 장치는 모바일 기기에 제한되지 않는다. 즉, 장치의 범위는 텔레비젼(TV), 스마트 폰, 웨어러블, 사물인터넷(IoT, Internet of Things), 헤드폰 등일 수 있다
도 3은 본 개시의 실시예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 나타내는 순서도이다
도 3을 참조하여 본 개시의 멀티미디어 파일에서 하이라이트에 해당되는 구간을 찾는 방법을 설명한다. 본 개시에 따른 멀티미디어 파일에서 하이라이트에 해당되는 구간을 찾는 방법은, 인코딩된 멀티미디어 파일을 적어도 하나의 프레임으로 파싱하는 과정(310)과, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정(320)과, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정(330)과, 상기 적어도 하나의 메타데이터 매개변수에 기반하여 멀티미디어 파일의 하이라이트에 해당되는 구간을 판단하는 과정(340)을 포함한다.
멀티미디어 파일을 적어도 하나의 프레임으로 파싱하는 과정에서 인코딩된 멀티미디어 파일을 적어도 하나의 프레임으로 파싱한다. 이에 따라 부호에 불과한 스트림으로 이루어진 멀티미디어 파일을 의미있는 프레임 단위로 구분이 가능하게 된다. 한편, 아래에서 설명하겠지만, 인코딩된 멀티미디어 파일을 대상으로 하며, 디코딩된 멀티미디어 파일을 대상으로 하지 않는다.
도 4a는 프레임 전체를 압축 해제하는 일반적인 과정을 나타내는 도면이고, 도 4b는 본 개시의 실시예에 따른 적어도 하나의 프레임을 부분 압축 해제하는 과정을 나타내는 도면이다.
본 개시의 실시예에 따른 프레임을 부분 압축 해제하는 과정에 대해 설명하기 앞서, 일반적으로 사용되는 프레임 전체를 압축 해제하는 과정을 간략하게 설명하면 다음과 같다.
도 4a를 참조하면, 동기 및 에러 체크 과정(401)에서 비트스트림으로 전달되는 멀티미디어 데이터가 동기화되고, 비트스트림으로 전달되는 멀티미디어 데이터의 오류 여부가 검사되고, 비트스트림으로 전달되는 멀티미디어 데이터가 허프만 코드 비트들(Huffman code bits), 허프만 정보(Huffman information), 스케일 인자(Scale factor)로 분류된다.
허프만 코드 비트들(Huffman code bits), 허프만 정보(Huffman information), 스케일팩터(Scalefactor)는 각각 허프만 디코딩 과정(Huffman decoding, 402), 허프만 정보 디코딩 과정(Huffman Info Decoding, 403), 스케일인자 디코딩 과정(Scalefactor decoding, 404)에서 디코딩된다.
재양자화 과정(Requantization, 405)에서 디코딩된 데이터의 주파수 라인이 재구성된다. 재정렬 과정(Reordering, 406)에서 서브 밴드의 짧은 윈도우를 포함하는 경우에 인코더의 출력 순서에 따라 주파수 라인이 재조립된다. 조인트 스테레오 디코딩 과정(407)에서, 재정렬 과정(406)에서 재조립된 주파수 라인을 스테레오 디코딩 과정(407)에서인코딩된 오디오 신호로부터 좌측 및 우측 오디오 신호를 복원한다. 이에 따라 오디오 신호가 좌측 및 우측 채널들로 분할된다.
좌측 및 우측 채널들로 분할된 오디오 신호 각각은 에일리어스 저감 과정(alias reduction, 408)과, IMDCT과정(410)과, 주파수 역변환 과정(Frequency Inversion, 412)과, 조합 다상 필터뱅크 과정(Synthesis Polyphase FilterBank, 414)을 통하여 적어도 하나의 프레임 전체가 압축 해제된다.
프레임 전체를 압축 해제하는 과정은 상기와 같은 여러 과정을 거치기 때문에 오랜 시간이 걸린다. 예를 들어 MP3파일 하나를 압축 해제하는 데에 필요한 시간은 15초이다. 음원 제공 사업자가 제공하는 미리듣기 서비스에 있어서, MP3파일 1개당 압축해제에 필요한 15초는 매우 긴 시간이다. 따라서 이용자들이 미리듣기 서비스를 제공받는데 기다리는 시간을 없애기 위해 압축해제에 필요한 시간을 줄일 필요가 있다.
도 4b를 참조하여 본 개시에 따른 적어도 하나의 프레임을 부분 압축 해제하는 과정은 다음과 같다.
비트스트림으로 전달되는 멀티미디어 데이터는 동기 및 에러 체크 과정(401)에서 동기화 및 에러가 검출된 뒤, 허프만 정보 디코딩이 수행된다.
구체적으로 동기 및 에러 체크 과정(401)에서 비트스트림으로 전달되는 멀티미디어 파일에서 특정 정보가 추출될 수 있다. 특정 정보는 헤더 정보(Header Information), CRC(Cyclic Redundancy Check) 정보, 그리고 부가 정보(Side Information)을 포함할 수 있다.
헤더 정보는 MP3 파일의 타입, 전송에 있어서 비트레이트(bitrate), 샘플링 주파수 중 적어도 하나를 특정하는 정보이고, CRC 정보는 데이터의 무결성을 위한 정보이다. 부가정보는 스케일인자(scale factor) 및 데이터의 디코딩에 필요한 파라미터들을 포함한다. 이에 대한 설명은 메타데이터 매개변수를 추출하는 과정에서 설명한다.
즉, 프레임의 부분 압축 해제는 허프만 정보 디코딩(203)만 수행될 수 있다. 또는 허프만 정보 디코딩(203) 및 스케일 팩터 디코딩(204)만 수행될 수도 있다.
재양자화 과정 이후의 과정이 수행되지 않아도 멀티미디어 데이터의 하이라이트 부분을 찾을 수 있다.
도 4a에 따른 멀티미디어 파일을 압축 해제하는 방법은 많은 리소스를 필요로 하며, 시간도 많이 걸린다. 예를 들어 도 4a에 따른 멀티미디어 파일의 전체 압축 해제에 필요한 시간은 276.30초이다. 하지만 동일한 멀티미디어 파일에 도 4b에서 도시된 부분 압축 해제 방법이 사용되는 경우 부분 압축 해제에 3.45초만 필요하다. 결국, 본 개시에 따른 부분 압축 해제 과정은 전체 압축 해제 과정의 경우보다 압축 해제 속도가 80배 정도 향상된다.
도 5a는 MP3 프레임의 일반적인 구조를 나타내는 구조도이고, 도 5b는 MP3프레임의 헤더 구조의 예를 나타낸 예시도이다. 그리고 도 5c는 본 개시의 실시예에 따른 메타데이터 매개변수를 나타내는 도면이다.
본 개시에 따른 메타데이터 매개변수를 추출하는 과정을 살펴보기에 앞서, 도 5a 및 도 5b를 참조하여 MP3 프레임의 구조를 간략하게 설명하면 다음과 같다. 도 5a에 도시된 바와 같이, 하나의 MP3파일은 MP3 헤더(MP3 Header) 및 MP3 데이터(MP3 data)를 반복된 형태로 포함한다. ID3v2x Metadata와 같은 위치정보를 포함하는 4바이트의 정보를 메타태그를 포함하고 있을 수 있다.
하나의 MP3프레임은 하나의 MP3헤더 필드와 MP3데이터 필드를 포함한다. MP3헤더는 MP3 Sync Word, Version, Layer, Error Protection, Bit Rate, Frequency, Pad. Bit, Priv. Bit, Mode, Mode Extension, Copy, Original, Emphasis등의 필드를 포함할 수 있다.
도 5b는 도 5a의 MP3 헤더(Header)의 예를 나타낸 도면이다. 즉, MP3 헤더가 FFFBA040의 정보를 가질 때의 의미는 Sync Word version은 MPEG, layer는 Layer3, error protection은 No, Bit rate는 160, Frequency는 44100Hz, Pad bit는 Frame is not padded, Priv Bit는 Unknown, Mode는 Joint Stereo, Mode Extension은 Intensity Stereo off, MS Stereo Off, Copy는 Not Copy righted, Original은 Copy of Original Media, Emphasis는 None을 나타낸다.
본 개시의 따른 하이라이트를 찾는 방법에서는 도 5a에 도시된 모든 필드의 정보를 필요로 하지 않을 수 있다. 본 개시의 하이라이트를 찾는 방법에서 필요한 정보는 도 5c에 도시된 바와 같다.
메타데이터 매개변수를 추출하는 과정에서 멀티미디어 파일의 하이라이트에 해당되는 구간을 찾기 위한 스케일인자들(Scale factors)과 부가정보(Side Information)이 추출된다.
구체적으로 MP3파일을 구성하는 프레임은 크게 5가지의 섹션으로 분할될 수 있다. 5가지 섹션은 헤더(Header), CRC(cyclical redundancy check), 부가정보(Side Information), 메인데이터(Main Data), 선택적인 보조데이터(Ancillary Data)로 구성된다.
메인데이터는 코딩된 오디오 데이터이며 granule0과 granule1의 필드를 포함한다. 각각의 granule0 및 granule1필드는 left channel과 right channel 필드를 포함한다. 또한 각각의 left channel과 right channel 필드는 각각 스케일인자(Scale factor)와 허프만코드 비트들(Huffman code bits)을 포함한다.
본 개시는 멀티미디어 파일의 하이라이트를 찾기 위해, 스케일 인자들(Scale factors)과 부가 정보(Side Information)를 이용한다. 특히 스케일 인자들(Scale factors)과 부가 정보(Side Information)에서 추출하여 메타데이터 시퀀스를 얻을 수 있다.
예를 들면, 스케일 인자들(Scale factors)과 부가 정보(Side Information)에서 추출하여 메타데이터 시퀀스는 다음 표 1과 같이 glolbal_gain값들과 subblock_gain값들의 조합으로 표현될 수 있다.
Figure 112017020759195-pat00001
여기에서, global_gains 및 subblock_gains의 다차원 어레이들은 왼쪽 및 오른쪽 채널, 제1 및 제2 그래뉼(granule)에 의해 확립된다.
실제 mp3 파일에 대해, 부분 압축 해제에서 추출된 이들 값의 그래픽 표현 도 6에 도시된다. 부가정보는 MP3를 압축 해제하는 데 필요한 고급 필드들이 포함되어 있다. 상술한 바와 같이 global_gain 및 subblock gain을 이용하였지만, 시계열로 도시된 부가정보는 더 많은 값들을 포함할 수 있다. 즉, 부가정보는 0- big_valuses 필드, 1-global_gain필드, 2-main_data end필드, 3- part2_3_length필드, 4-scalefac_compress필드, 5-지상 검증 자료(전문가가 결정한 메인 테마를 포함할 수 있다.
적어도 하나의 메타데이터 매개변수에 기반하여 멀티미디어 파일의 하이라이트 구간을 판단하는 과정은 스케일 인자들(Scale factors)과 부가 정보(Side Information)에서 추출하여 메타데이터 시퀀스를 이용하여 판단한다.
판단 방법으로는 슬라이딩 윈도우(sliding window)를 이용한 합산을 고려할 수 있다. 한편, 본 개시의 실시 예에 따른 멀티미디어 파일의 하이라이트 구간을 판단하는 과정을 살펴보기 앞서, 하이라이트를 판단하는데 일반적으로 이용되는 과정을 먼저 살펴본다.
도 7a는 전체 압축 해제를 기반으로 하이라이트를 찾는데 사용되는 파형도이고, 도 7b는 본 개시의 실시예에 따른 멀티미디어 파일의 부분 압축 해제를 이용하는 하이라이트 판단 과정을 나타낸 도면이다.
도 7a에 도시된 파형은 음악 파일을 전체 압축 해제하고 A-가중 곡선이 적용된 파형이다. 이러한 파형에서 슬라이딩 윈도우를 이용하여 RMS(Root Mean Square)의 합이 최대인 윈도우의 위치를 발견하는 단계를 포함할 수 있다. 도 7a에 도시된 바와 같이, 파형은 일정부분(710)에서 파형의 진폭이 크다. 하나의 하이라이트를 찾는 경우, 파형의 RMS값을 계산해서 슬라이딩 윈도우 합산 방법을 고려할 수 있다.
구체적으로, 시계열로 구성된 RMS결과 값이 56, 55, 51, 57, 58, 57, 54, 52인 경우를 예로 들어 설명하면 다음과 같다.
슬라이딩 윈도두 크기가 4인 경우, 첫 번째 합은 56+55+51+57=219가 된다. 그 다음 두번째 합은 55+51+57+58=221이 된다. 세 번째 합은 223, 네 번째 합은 226, 다섯 번째 합은 221이 된다. 가장 큰 값은 226이며, 이와 관련된 부분이 하이라이트에 해당되는 구간으로 결정될 수 있다.
도 7b를 참조하여, 본 개시의 실시 예에 따른 하이라이트 판단방법에 대해 알아본다.
각 프레임에서 부가 정보(Side info) 또는 부가 정보 및 메인 데이터(Main Info)로부터 추출된 시계열로 나열된 메타데이터 매개변수를 이용한다.
우선 슬라이딩 윈도우(sliding window)를 이용하여 누적합을 계산함에 있어서, 슬라이딩 윈도우의 크기는 하이라이트로 하고자 하는 오디오 단편의 길이로 미리 결정될 수 있다. 예를 들어, 전형적인 MP3(MPEG 계층 III, 버전 1)는 프레임 당 1152 샘플을 가지며, 샘플 속도는 보통 44100 Hz이다. 따라서, 프레임 당 (1152 / 44100) * 1000 = 26ms이다. 10초의 하이라이트 지속 시간을 갖고자 하면, 슬라이딩 윈도우의 길이를 10000/26 = 385 값으로 설정해야 한다. 따라서, 우선 첫 번째 385 개의 합을 계산하고 나서 앞으로 움직이고, 이 합에 다음 값을 추가하고 최초 값을 뺀다. 각각의 이러한 단계에서, 합과 최대 값 크기를 비교한다. 슬라이딩 윈도우의 크기 내의 누적합 결과값이 최대가 되는 부분이 하이라이트로 결정된다.
구체적으로, Global_gain과 scale_factors의 조합 데이터가 56, 55, 51, 57, 58, 57, 54, 52이고, 슬라이딩 윈도우 크기가 4인 경우를 예로 들어 설명하면 다음과 같다.
첫 번째 합은 56+55+51+57=219가 된다. 그리고 결과값은 순차적으로 221, 223, 226, 221이 된다. 이 중 가장 큰 값은 226으로 4번째 합산 값이며, 4번째 합산 값에 관련된 부분을 하이라이트로 결정한다.
즉 하이라이트는 앞서 살펴본 바와 같이 소리 크기로 결정되는바, 소리크기와 관련된 인자들만을 이용하는 경우, 전부 압축 해제된 멀티미디어 파일을 이용하는 것과 효과상 크게 차이가 나지 않는다.
즉, 부분적 압축 해제를 통한 메타데이터 매개변수를 이용하여 하이라이틀 계산하는 경우, 하이라이트 검색 인식의 품질이 84개의 음악 트랙을 갖는 음악 컬렉션에서 단지 2%만 저하되었으나, 속도는 프레임 전체를 압축 해제하는 방법보다 80배 이상 빨라질 수 있다.
한편, 슬라이딩 윈도우를 이용하여 합산 값을 계산 시 필터링을 적용할 수 있다. 예를 들어, 일부 mp3 파일은 처음100개의 mp3 프레임에서 global_gain 필드의 극한 값을 갖는 경우가 있다. 따라서 첫 번째 프레임 및/또는 마지막 프레임이 계산에서 제거될 수 있다. 일부 다른 방법으로서 극한 값 등이 필터링될 수도 있다.
도 8a 및 도 8b는 본 개시에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 모바일 기기에 적용한 예시도이다. 도 8c는 본 개시의 실시예에 따른 멀티미디어 파일에서 하이라이트에 해당되는 구간을 찾는 방법을 적용하여 멀티미디어 파일을 재생하는 과정을 나타낸 예시 도이다.
도 8a에 도시된 도면을 참조하면, 사용자는 호버링(hovering)(810)만으로 MP3파일의 하이라이트를 들을 수 있다.
도 8b에 도시된 도면을 참조하면, 사용자는 미리 듣기 다음 버튼으로 다음 하이라이트에 해당되는 구간으로 건너 뛸 수 있고, 미리 듣기 이전 버튼으로 이전 하이라이트에 해당되는 구간으로 건너 뛸 수 있다. 하이라이트에 해당되는 구간은 MP3파일당 1개에 제한되지 않을 수 있다. 하이라이트 부분이 MP3파일당 1개인 경우 미리 듣기 다음 버튼을 누르는 경우 다음 MP3파일의 하이라이트 부분을 재생할 수 있다. 하이라이트 부분이 MP3파일당 2개 이상인 경우 미리 듣기 다음버튼을 누르는 경우 다음 하이라이트 부분을 재생할 수 있다. 사용자는 미리 듣기 온/오프 버튼을 이용하여 미리 듣기 기능의 적용여부를 결정한다.
도 8c를 참조하면, 본 개시의 실시 예에 따른 하이라이트 부분이 적용된 미리 듣기 서비스를 나타낸 도면이다. 트랙1 내지 트랙4에서 시작점(841, 851, 861, 871)은 모두 고정되어 있지 않다. 종료점(842, 852, 862, 872)는 재생시작점으로부터 일정 구간 지난 지점이다. 한편 일정 구간에 한정되지 않을 수도 있는바 이에 한정되는 것은 아니다.
도 9는 본 개시에 제2 실시 예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 나타내는 도면이다.
도 9을 참조하여 본 개시의 실시 예에 따른 하이라이트를 찾는 방법에 기계 학습 방법들이 더 적용될 수 있다.
관리된 기계 학습 접근 방법이 도9에서 도시된 바와 같이 사용될 수 있다. 학습 단계에서, 모델(930)은 훈련 데이터베이스(전문가에 의해 마크업(markup)된 음악 컬렉션)(910)에서 학습하는 것(920)에 의해 획득된다. 사용 단계에서, 부분적으로 압축 해제된(940) 멀티미디어 파일은 훈련된 기계 학습 알고리즘에 의해 처리되고(950), 결과의 하이라이트들이 얻어진다(960).
부분적 압축 해제 알고리즘에서 추출된 매개변수들로부터 피처들을 획득하기 위한 방법들은 동적 시간 워핑(Dynamic Time Warping), 은닉 마코브 모델(Hidden Markov Models), 신경 네트워크(neural networks), LSTM, GRU 등과 같은 회선 또는 반복(convolution or recurrent), 딥 자동인코더(deep autoencoders) 등), 지원 벡터 기계 로지스틱 회귀(support vector machines logistic regression) 등일 수 있지만, 이에 제한되지는 않는다.
도 10은 본 개시의 제3 실시 예에 따른 멀티미디어 파일에서 하이라이트를 찾는 방법을 나타낸 도면이다.
도 10에 도시된 바와 같이, 본 개시의 제3 실시 예에 따른 하이라이트를 찾는 방법은 산술 계산이 이용되지 않고, 멀티미디어 파일의 유사성 분석을 이용하는 방법이다. 단일 파일 내의 유사 부분들을 발견하는 것. 팝/댄스 등의 음악의 경우, 노래 구조는 보통 반복 부분(후렴구)을 갖는다. 이러한 이유로, 오디오 신호에서 지기 유사성을 발견하기 위한 신호 처리 방법들을 적용함으로써, 음악 파일에서 코러스 부분을 추론할 가능성이 있다.
음악 파일에서의 자체 유사성의 일 예이다. 이것은 가공하지 않은 PCM(pulse code modulation) 파일에서 추출된 MFCC(Mel-frequency cepstral coefficients) 피처들이다. 동일한 파일이 시프트 되면서 유사한 단편들이 도시된다.
부분적으로 압축 해제된 데이터에 대해 예를 들어, 허프만 테이블 번호는 mp3 프레임에서 개별적 그래뉼(granule)의 음색 특징에 의존한다.
이와는 다르게, 음악 파일을 기술하는 피처들에 클러스터링을 적용하는 것이다. 클러스터링은 상이한 사운딩 음악 단편들을 분리할 수 있다. 하이라이트들에 대해, 가장 빈번한 클러스터가 추출을 위해 사용될 수 있다. 한편, 이러한 음악 비디오 클립에 대한 VR 하이라이트 검출도 가능하다. VR에서 음악 비디오 클립을 보는 사용자들을 위한 VR에서의 하이라이트 검출. VR에서 사용자의 상호 작용 가능성은 사용자가 타임 라인에서 검색 작업을 하고 있는 손을 볼 수 없기 때문에 다소 제한될 수 있다.
당업자에게 음악 비디오 파일이 동기화되는 비디오 트랙과 오디오 트랙 모두를 포함하는 것은 명백하다. 오디오 트랙을 분석하고 개시된 방법을 사용하여 하이라이트에 해당되는 구간을 발견함으로써, 비디오 이미지의 하이라이트에 해당되는 구간들은 오디오의 하이라이트들과 동기화된다.
한편 본 개시는 곡의 가장 표현이 풍부한/대표적인 부분을 자동 검출함으로써 벨소리를 추출할 수 있다.
본 사용 사례는 사용자가 음악 파일의 가장 큰 소리 선택으로부터 벨소리를 간단하게 추출할 수 있을 때에 한한다.
또한 NFC(Near Field Communication)빔(S-빔)을 사용하여 다른 장치로부터 음악 미리듣기도 가능하다.
그리고 음악 하이라이트 추출을 기반으로 하는 음악 비디오로부터의 썸네일을 생성할 수 있다. NFC s-빔 공유에서 보여진 비디오의 썸네일(Thumbnails) 사용 사례는 미리 듣기 음악 사용 사례 및 비디오 섬네일 생성 사용 사례의 조합이다. 사용자는 다른 장치로부터 비디오의 하이라이트를 볼 수 있다. 이러한 기능은 개시된 알고리즘의 매우 높은 유효성으로 인해 가능해질 수 있다.
도 11은 본 개시의 실시 예에 따른 하이라이트를 찾는 장치의 구조도이다.
도 11에 도시된 바와 같이, 하이라이트를 찾는 장치(1100) 또는 제어부(1100)는 파싱부(1110), 부분 압축 해제부(1120), 메타 데이터 매개 변수 추출부(1130), 하이라이트 판단부(1140)을 포함한다.
파싱부(1110)는 도 3의 멀티미디어 파일을 적어도 하나의 프레임으로 파싱하는 과정(310)을 수행한다. 부분 압축 해제부(1120)는 도 3의 적어도 하나의 프레임을 부분 압축 해제하는 (320)과정을 수행한다. 메타 데이터 매개 변수 추출부(1130)는 부분 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타 데이터 매개변수를 추출하는 과정(330)을 수행한다. 하이라이트 판단부(1140)는 도3의 적어도 하나의 메타 데이터 매개 변수에 기반하여 멀티미디어 파일의 하이라이트를 판단하는 과정(340)을 수행한다. 구체적인 내용은 도 3에서 설명한 바와 같다.
부분 압축 해제부(1120), 메타 데이터 매개 변수 추출부(1130), 하이라이트 판단부(1140)를 포함하는 제어부는 적어도 하나의 프로세서에 의해 동작된다.
상기 도 2 내지 도 11이 예시하는 장치의 구성도, 하이라이트를 찾는 방법의 예시도는 본 개시의 권리범위를 한정하기 위한 의도가 없음을 유의하여야 한다. 즉, 상기 도 2 내지 도 11에 기재된 모든 구성부, 또는 동작의 단계가 본 개시의 실시를 위한 필수구성요소인 것으로 해석되어서는 안되며, 일부 구성요소 만을 포함하여도 본 개시의 본질을 해치지 않는 범위 내에서 구현될 수 있다.
앞서 설명한 동작들은 PC, 모바일 기기 등의 제어부는 메모리 장치 내에 저장된 프로그램 코드를 프로세서 혹은 CPU(Central Processing Unit)에 의해 읽어내어 실행함으로써 앞서 설명한 동작들을 실행할 수 있다.
한편 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
310: 멀티미디어 파이를 적어도 하나의 프레임으로 파싱
320: 적어도 하나의 프레임을 부분 압축 해제
330: 부분 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타 데이터 매개변수를 추출
340: 적어도 하나의 메타 데이터 매개변수를 기반하여 멀티미디어 파일의 하이라이트를 판단
1110: 파싱부
1120: 부분 압축 해제부
1130: 메타 데이터 매개 변수 추출부
1140: 하이라이트 판단부

Claims (10)

  1. 멀티미디어 데이터를 처리하는 방법에 있어서,
    상기 멀티미디어 데이터를 프레임들로 파싱하는 과정과;
    상기 프레임들을 부분적으로 압축 해제하는 과정과;
    상기 부분적으로 압축 해제된 프레임들 각각으로부터 적어도 2개의 메타데이터 매개변수들을 추출하는 과정과 - 상기 적어도 2개의 메타데이터 매개 변수들은 부가 정보(side information) 및 스케일 인자들(scale factors)을 포함함 -;
    상기 추출된 적어도 2개의 메타데이터 매개변수들에 기초하여 상기 부분적으로 압축 해제된 프레임들 각각에 대한 RMS(Root Mean Square) 를 식별하는 과정과;
    적어도 하나의 RMS의 합을 결정하는 과정과; 그리고
    각각의 슬라이딩 윈도우에 대해 상기 결정된 적어도 하나의 RSM의 합 중 최대 합을 갖는 슬라이딩 윈도우에 대응하는 적어도 하나의 프레임을 하이라이트 부분으로 결정하는 과정을 포함하는,
    방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 프레임들은 허프만 정보 복호화(huffman infomation decoding)만이 수행된 프레임들인 방법.
  4. 제1항에 있어서,
    상기 멀티미디어 데이터는 MP3 프레임 형식으로 구성되고,
    상기 적어도 2개의 메타데이터 매개변수는, 상기 부분적 압축 해제된 프레임들의 부가 정보에서 추출된 메타데이터 매개변수인 방법.
  5. 제4항에 있어서,
    상기 적어도 2개의 메타데이터 매개변수는 상기 부분적 압축 해제된 프레임들의 메인 데이터에서 추출된 메타데이터 매개변수를 더 포함하는 방법.
  6. 멀티미디어 데이터를 처리하는 장치에 있어서,
    프로세서를 포함하고,
    상기 프로세서는,
    상기 멀티미디어 데이터를 프레임들로 파싱하고,
    상기 프레임들을 부분적으로 압축 해제하고,
    상기 부분적으로 압축 해제된 프레임들 각각으로부터 적어도 2개의 메타데이터 매개변수들을 추출하고 - 상기 적어도 2개의 메타데이터 매개 변수들은 부가 정보(side information) 및 스케일 인자들(scale factors)을 포함함 -,
    상기 추출된 적어도 2개의 메타데이터 매개변수들에 기초하여 상기 부분적으로 압축 해제된 프레임들 각각에 대한 RMS(Root Mean Square)를 식별하고,
    적어도 하나의 RMS의 합을 결정하고,
    각각의 슬라이딩 윈도우에 대해 상기 결정된 적어도 하나의 RSM의 합 중 최대 합을 갖는 슬라이딩 윈도우에 대응하는 적어도 하나의 프레임을 하이라이트 부분으로 결정하도록 구성되는,
    장치.
  7. 삭제
  8. 제6항에 있어서,
    상기 프레임들은 허프만 정보 복호화(huffman information decoding)만이 수행된 프레임들인 장치.
  9. 제6항에 있어서,
    상기 멀티미디어 데이터는 MP3 프레임 형식으로 구성되고,
    상기 적어도 2개의 메타데이터 매개변수는, 상기 부분적 압축 해제된 프레임들의 부가 정보에서 추출된 메타데이터 매개변수인 장치.
  10. 제6항에 있어서,
    상기 적어도 2개의 메타데이터 매개변수는 상기 부분적 압축 해제된 프레임들의 메인 데이터에서 추출된 메타데이터 매개변수를 더 포함하는 장치.
KR1020170026767A 2017-02-28 2017-02-28 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치 KR102431737B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020170026767A KR102431737B1 (ko) 2017-02-28 2017-02-28 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
US16/489,626 US10819884B2 (en) 2017-02-28 2018-02-28 Method and device for processing multimedia data
PCT/KR2018/002476 WO2018160007A1 (ko) 2017-02-28 2018-02-28 멀티미디어 데이터를 처리하는 방법 및 장치
EP18760912.8A EP3575989B1 (en) 2017-02-28 2018-02-28 Method and device for processing multimedia data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170026767A KR102431737B1 (ko) 2017-02-28 2017-02-28 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치

Publications (2)

Publication Number Publication Date
KR20180099375A KR20180099375A (ko) 2018-09-05
KR102431737B1 true KR102431737B1 (ko) 2022-08-11

Family

ID=63371083

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170026767A KR102431737B1 (ko) 2017-02-28 2017-02-28 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치

Country Status (4)

Country Link
US (1) US10819884B2 (ko)
EP (1) EP3575989B1 (ko)
KR (1) KR102431737B1 (ko)
WO (1) WO2018160007A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102177854B1 (ko) * 2018-12-10 2020-11-11 서울대학교 산학협력단 개인화된 하이라이트 동영상 생성 시스템
CN112148902B (zh) * 2020-10-23 2024-08-06 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325154A1 (en) * 2012-05-30 2013-12-05 Samsung Electronics Co. Ltd. Apparatus and method for high speed visualization of audio stream in an electronic device

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2836213A1 (en) * 2001-02-20 2002-08-29 3D Radio, Llc Multiple radio signal processing and storing method and apparatus
JP3674950B2 (ja) 2002-03-07 2005-07-27 ヤマハ株式会社 音楽データのテンポ推定方法および装置
JP2006525537A (ja) 2003-04-14 2006-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ解析を用いて音楽ビデオを要約する方法及び装置
US7409407B2 (en) 2004-05-07 2008-08-05 Mitsubishi Electric Research Laboratories, Inc. Multimedia event detection and summarization
TWI273562B (en) 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
WO2007020544A2 (en) 2005-08-12 2007-02-22 Koninklijke Philips Electronics N.V. Method and apparatus for extracting feature information from a multimedia file
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
JP5440051B2 (ja) 2009-09-11 2014-03-12 株式会社Jvcケンウッド コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
KR20130057868A (ko) 2011-11-24 2013-06-03 엘지전자 주식회사 휴대 단말기 및 그 동작방법
KR101796580B1 (ko) 2011-11-28 2017-11-14 한국전자통신연구원 음악 하이라이트 구간 추출 장치 및 방법
US10108633B2 (en) * 2014-12-27 2018-10-23 Ascava, Inc. Using a distributed prime data sieve for efficient lossless reduction, search, and retrieval of data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325154A1 (en) * 2012-05-30 2013-12-05 Samsung Electronics Co. Ltd. Apparatus and method for high speed visualization of audio stream in an electronic device

Also Published As

Publication number Publication date
KR20180099375A (ko) 2018-09-05
WO2018160007A1 (ko) 2018-09-07
US20200028993A1 (en) 2020-01-23
US10819884B2 (en) 2020-10-27
EP3575989A4 (en) 2020-01-15
EP3575989B1 (en) 2023-07-19
EP3575989A1 (en) 2019-12-04

Similar Documents

Publication Publication Date Title
US7953504B2 (en) Method and apparatus for selecting an audio track based upon audio excerpts
US8017852B2 (en) Music content reproduction apparatus, method thereof and recording apparatus
AU2015355209B2 (en) System and method for continuous media segment identification
EP1760693B1 (en) Extraction and matching of characteristic fingerprints from audio signals
WO2020113733A1 (zh) 动画生成方法、装置、电子设备及计算机可读存储介质
US20110112672A1 (en) Systems and Methods of Constructing a Library of Audio Segments of a Song and an Interface for Generating a User-Defined Rendition of the Song
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
US8190441B2 (en) Playback of compressed media files without quantization gaps
TW201142818A (en) Complexity scalable perceptual tempo estimation
JP2007219178A (ja) 楽曲抽出プログラム、楽曲抽出装置及び楽曲抽出方法
US10832700B2 (en) Sound file sound quality identification method and apparatus
WO2023040520A1 (zh) 视频配乐方法、装置、计算机设备和存储介质
JP2003177784A (ja) 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響再生システム、音響配信システム、情報提供装置、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
JP2017525023A (ja) コンテンツ・ソースの拡張
KR102431737B1 (ko) 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치
JP2004265376A (ja) メモリに格納されたデータベースから録音物を選択する方法及び装置
JP2005522744A (ja) 音声コンテンツを特定する方法
US20240314499A1 (en) Techniques for audio track analysis to support audio personalization
JP2006202127A (ja) 推奨情報提示装置及び推奨情報提示方法等
WO2006087891A1 (ja) 情報選択方法及び情報選択装置
JP2004334160A (ja) 特徴量抽出装置
JP2006050045A (ja) 動画像データ編集装置及び動画像データ編集方法
US20230197114A1 (en) Storage apparatus, playback apparatus, storage method, playback method, and medium
EP4375984A1 (en) Method and system for accelerated decomposing of audio data using intermediate data
KR20230091455A (ko) 사운드 이펙트 효과 설정 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant