KR100737176B1

KR100737176B1 - 신호 처리 방법 및 영상 음성 처리 장치

Info

Publication number: KR100737176B1
Application number: KR1020007011374A
Authority: KR
Inventors: 월커토비; 마쯔바라히로시
Original assignee: 소니 가부시끼 가이샤
Priority date: 1999-02-15
Filing date: 2000-02-10
Publication date: 2007-07-10
Also published as: EP1073272A4; WO2000048397A1; US6710822B1; KR20010042672A; EP1073272A1; EP1073272B1

Abstract

영상 음성 처리 장치(10)는, 단계 S1에서, 세그먼트를, r 세그먼트의 후보가 되는 서브세그먼트로 분할하고, 단계 S2에서, 얻어진 서브세그먼트 중 서로 유사한 서브세그먼트끼리를 그룹화한다. 그리고, 영상 음성 처리 장치(10)는, 단계 S3에서, 얻어진 그룹 중 시그너처의 대상 그룹을 선택하고, 단계 S4에서, 선택된 그룹 각각으로부터 1개의 r 세그먼트를 선택한 후, 단계 S5에서, 얻어진 r 세그먼트의 각각에 대한 가중치를 산출한다.

세그먼트, 영상 음성 처리 장치, 서브 세그먼트, 신호 처리 방법

Description

신호 처리 방법 및 영상 음성 처리 장치{SIGNAL PROCESSING METHOD AND VIDEO/AUDIO PROCESSING DEVICE}

본 발명은 신호를 구성하는 서로 다른 임의의 세그먼트간의 유사성을 측정하는 신호 처리 방법 및 비디오 신호를 구성하는 서로 다른 임의의 영상 및/또는 음성 세그먼트간의 유사성을 측정하는 영상 음성 처리 장치에 관한 것이다.

예를 들면, 비디오 데이터에 녹화된 텔레비전 프로그램과 같은 대량의 다른 영상 데이터로 구성되는 영상 어플리케이션 중에서, 흥미있는 부분 등의 소망의 부분을 탐색하여 재생하고 싶은 경우가 있다.

이와 같이, 비디오 데이터와 같은 멀티미디어 데이터를 탐색하는 경우에는, 많은 컴퓨터 어플리케이션에서 사용되고 있는 데이터와는 본질적으로 달라서, 정확하게 일치하는 것 끼리를 발견하는 것은 기대할 수 없으며, 오히려, 유사한 것을 탐색하게 된다. 그 때문에, 멀티미디어 데이터의 내용에 기초하는 탐색에 관한 기술 중 거의 모든 기술은, 예를 들면, "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996" 등에 기재되어 있는 바와 같이, 유사성에 기초한 탐색을 기초로 하고 있다.

이러한 유사성에 기초한 탐색을 행하는 기술에 있어서는 우선 내용의 유사성이 수치적으로 측정된다. 그리고, 이 기술에 있어서는 유사성의 측정 결과를 사용하여, 대상으로 하는 아이템과의 유사성 측정 기준에 기초하여 유사성이 높은 것부터 순위를 부가한다. 그 결과 얻어진 리스트에 있어서는, 가장 유사한 것끼리는 그의 리스트의 선두 부근에 나타나게 된다.

이러한 멀티미디어 데이터의 내용에 기초한 탐색 방법에 있어서는, 영상 데이터 및 음성 데이터, 및 본질적으로는 신호 처리에 의한 비디오 처리 기술을 사용하여, 우선 멀티미디어 데이터로부터 저레벨의 특징량을 추출한다. 그리고, 이 탐색방법에 있어서는, 추출한 특징량을 사용하여, 유사성에 기초한 탐색을 위해 필요하게 되는 유사성 측정 기준을 구한다.

멀티미디어 데이터의 내용에 기초한 탐색에 관한 연구는, 최초는 이미지(정지 화상)의 탐색에 초점을 맞춘 것이 많다. 이러한 연구에 있어서는, 이미지끼리의 유사성을 측정하기 위해서, 소위 색, 텍스쳐, 형상과 같은 다수의 저레벨 영상 특징량을 사용하고 있다.

또한, 최근에는 비디오 데이터에 대한 내용에 기초한 탐색에 관한 연구도 행해지고 있다. 비디오 데이터의 경우에는, 통상적으로, 긴 비디오 데이터 중에서 일치하는 부분을 탐색하기 때문에, 비디오 CBR(Contents Base Retrieval)에 관한 대개의 기술에 있어서는, 우선 비디오 데이터를 세그먼트라고 하는 연속하는 프레임의 일련 단위로 분할한다. 이들 세그먼트는 유사성에 기초한 탐색을 행할 때의 대상이 되는 것이다. 이 비디오 데이터를 세그먼트로 분할하는 기존의 방법으로서는, 예를 들면, 상술한 "G. Ahanger and T. D. C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4,1996"에 기재되어 있는 바와 같이, 통상적으로, 샷 검출 알고리즘(shot detection algorithm)을 사용하여, 비디오 데이터를 소위 샷으로 분할하는 것이 있다. 그리고, 탐색을 행할 때에는, 얻어진 샷으로부터 유사성에 기초한 비교를 가능하게 하는 특징량을 추출한다.

그렇지만, 샷에서의 우수한 특징량을 파악하고, 또한, 유사성에 기초한 샷끼리의 비교를 가능하게 하도록 특징량을 검출하는 것은 곤란하다. 그래서, 비디오 데이터에 대한 내용에 기초한 탐색에 대한 기존의 접근법으로서는 통상적으로, 각 샷으로부터 대표 프레임을 추출하고, 이들 대표 프레임의 집합에 대하여 탐색을 행하는 것으로 대체된다. 이들 대표 프레임은 통상적으로, 키 프레임이라고 칭하는 것이다. 즉, 샷 내용에 기초한 탐색 기술은 샷ㆍ키 프레임의 비교를 행함으로써, 이미지 내용에 기초한 탐색 기술로 귀착된다. 예를 들면, 샷에 대해서 키 프레임으로부터 컬러 히스토그램을 추출한 경우, 이들 키 프레임의 히스토그램을 사용하여 2개의 샷의 유사성을 측정할 수 있다. 이 접근법은 키 프레임을 선택할 때에도 유효하다.

간단한 접근법으로서는 각 샷으로부터 고정적으로 1개의 정해진 프레임을 선택하는 것이 있다. 또한, 다수의 프레임을 선택하기 위한 다른 방법으로서는 "B.L.Yeo and B.Liu, Rapid Scene analysis on compressed video, IEEE Transactions on Circuits and Systems for Video Technology, vol. 5, no.6, pp.533, December 1995"에 기재되어 있는 프레임차나, "W.Wolf, Key frame selection by motion analysis, Proceedings of IEEE Int'l Conference on Acoustic, Speech and Signal Proceeding, 1996"에 기재되어 있는 운동 분석이나, "Y. Zhuang, Y. Rui, T.Huang and S.Mehrotra, Adaptive key frame extraction using unsupervised clustering, Proceedings of IEEE Int'l Conference on Image Proceeding, Chicago, IL, , 0ctober 4-7 1998"에 기재되어 있는 클러스터링 기술을 사용하는 것이 있다.

그런데, 키 프레임에 기초한 상술한 탐색 기술은 샷의 유사성에 기초한 탐색에 한정되는 것이다. 그렇지만, 예를 들면, 대표적인 30분의 텔레비전 프로그램 중에는 수백개나 되는 샷이 포함되어 있기 때문에, 상술한 종래의 탐색 기술에서는 추출된 방대한 수의 샷을 조사할 필요가 있으며, 이러한 방대한 수의 데이터를 탐색 대상으로 하는 것은 큰 부담이었다.

그 때문에, 예를 들면, 세그먼트를 어떤 관련에 기초하여 정리한 장면이나 프로그램과 같은 샷보다도 긴 영상 세그먼트 및 음성 세그먼트끼리의 유사성을 비교함으로써, 부담을 경감할 필요가 있었다.

그렇지만, 종래의 탐색 기술은, 예를 들면, 특정 커머셜(specific commercials)과 유사한 세그먼트를 탐색하거나, 어떤 텔레비전 프로그램에 있어서, 동일 연기를 그린 관련 샷군으로 구성된 어떤 장면과 유사한 장면을 탐색하게 하는 요구에 응할 수 있는 것은 아니었다.

이와 같이, 샷 레벨보다도 높은 레벨의 세그먼트의 유사성에 기초한 비교를 논한 간행 완료의 연구는 거의 보이지 않는다. 이러한 종류의 유일한 연구로서는 "J. Kender and B.L.Yeo, Video Secne Segmentation via Continuous Video Coherence, IBM Research Report, RC21061, December 18, 1997"가 있다. 이 연구는 2개의 장면의 유사성을 비교하기 위한 방법을 제공하고 있다. 이 연구에서의 탐색 기술은 비디오 데이터의 모든 샷을 카테고리로 분류한 후, 각 장면에 대해서, 각 카테고리에 속하는 장면 중의 샷의 수를 센다. 얻어진 결과는 표준의 유사성 측정 기준을 사용하여 비교하는 것이 가능한 히스토그램이다. 이 연구에서는 유사한 장면끼리의 유사성을 비교하는 데에 있어서, 어느 정도 성공한 것이 보고되어 있다.

그렇지만, 이 방법은 비디오 데이터의 모든 샷을 분류할 필요가 있었다. 모든 샷을 분류하기는 곤란한 것으로서, 통상적으로, 방대한 계산을 요하는 기술을 필요로 한다.

또한, 이 방법은 예를 들면 모든 샷을 정확히 분류할 수 있다고 해도, 카테고리끼리의 유사성을 고려하지 않고 있기 때문에, 혼동되기 쉬운 결과를 줄 가능성이 있다. 예를 들면, 비디오 데이터의 샷이 3개의 카테고리(A, B, C)로 분할되는 것으로 하거나, 혹은 장면(X)이 카테고리(B) 및 카테고리(C)의 샷을 전혀 갖지 않고, 카테고리(A)의 샷을 2개 갖는 것으로 하고, 다른 장면(Y)이 카테고리(A) 및 카테고리(C)의 샷을 전혀 갖고 있지 않고, 카테고리(B)의 샷을 2개 갖는 것으로 한다. 이 경우, 이 방법에 있어서는 장면(X)과 장면(Y)의 유사성이 없는 것으로 판단한다. 그렇지만, 카테고리(A)와 카테고리(B)의 샷이 서로 유사한 경우에는, 유사성의 값은 제로는 아닌 것이다. 즉, 이 방법에 있어서는 샷 자체의 유사성을 고려하고 있지 않기 때문에, 이러한 잘못된 판단이 이루어지는 일이 있었다.

본 발명은 이러한 실정을 감안하여 이루어진 것으로, 상술한 종래의 탐색 기술의 문제를 해결하고, 여러가지의 비디오 데이터에서의 다양한 레벨의 세그먼트의 유사성에 기초한 탐색을 행하는 신호 처리 방법 및 영상 음성 처리 장치를 제공하는 것을 목적으로 하는 것이다.

상술한 목적을 달성하는 본 발명에 따른 신호 처리 방법은, 공급된 신호를 구성하는 세그먼트에 포함되는 서브세그먼트 중, 세그먼트의 내용을 대표하는 서브세그먼트인 대표 세그먼트와, 이 대표 세그먼트에 가중치를 할당하는 가중 함수로 정의되는 시그너처(signature)를 추출하는 신호 처리 방법으로서, 서브세그먼트를 임의의 속성에 기초하여 분류하여 얻은 그룹 중, 시그너처의 대상으로 하는 그룹을 선택하는 그룹 선택 단계와, 이 그룹 선택 단계에서 선택한 그룹으로부터 1개의 대표 세그먼트를 선택하는 대표 세그먼트 선택 단계와, 이 대표 세그먼트 선택 단계에서 얻은 대표 세그먼트에 대한 가중치를 산출하는 가중치 산출 단계를 포함하는 것을 특징으로 하고 있다.

이러한 본 발명에 따른 신호 처리 방법은 세그먼트에 관한 시그너처를 추출한다.

또한, 상술한 목적을 달성하는 본 발명에 따른 영상 음성 처리 장치는, 공급된 비디오 신호를 구성하는 영상 및/또는 음성 세그먼트에 포함되는 영상 및/또는 음성 서브세그먼트 중, 영상 및/또는 음성 세그먼트의 내용을 대표하는 영상 및/또는 음성 서브세그먼트인 대표 세그먼트와, 이 대표 세그먼트에 가중치를 할당하는 가중 함수로 정의되는 시그너처를 추출하는 영상 음성 처리 장치로서, 영상 및/또는 음성 서브세그먼트를 임의의 속성에 기초하여 분류하여 얻은 그룹 중, 시그너처의 대상으로 하는 그룹을 선택하고, 이 선택한 그룹으로부터 1개의 대표 세그먼트를 선택하고, 얻어진 대표 세그먼트에 대한 가중치를 산출하는 실행 수단을 구비하는 것을 특징으로 하고 있다.

이와 같이 구성된 본 발명에 따른 영상 음성 처리 장치는 영상 및/또는 음성 세그먼트에 관한 시그너처를 추출한다.

도 1은 본 발명에서 적용하는 비디오 데이터의 구성을 설명하는 도면으로, 모델화한 비디오 데이터의 구조를 설명하는 도면.

도 2는 샷에 대한 영상 프레임 시그너처를 설명하는 도면.

도 3은 장면에 대한 샷 시그너처를 설명하는 도면.

도 4는 장면에 대한 음성 세그먼트 시그너처를 설명하는 도면.

도 5는 텔레비전 프로그램에 대한 샷 시그너처를 설명하는 도면.

도 6은 본 발명의 실시예로서 도시하는 영상 음성 처리 장치의 구성을 설명하는 블록도.

도 7은 상기 영상 음성 처리 장치에서 시그너처를 추출할 때의 일련의 단계를 설명하는 흐름도.

도 8은 도 7에서의 일련의 단계를 구체적으로 설명하기 위해 적용한 장면을 설명하는 도면.

도 9는 도 8에 도시하는 장면에서 선택된 r 세그먼트를 설명하는 도면.

이하, 본 발명을 적용한 구체적인 실시예에 대해서 도면을 참조하면서 상세히 설명한다.

본 발명을 적용한 실시예는, 비디오 데이터로부터 소망의 내용을 자동적으로 찾아내어 추출하기 위해서, 비디오 데이터 내의 임의의 집합을 대표하는 데이터를 자동적으로 추출하는 영상 음성 처리 장치이다. 이 영상 음성 처리 장치의 구체적인 설명을 하기 전에, 여기서는 우선 본 발명에서 대상으로 하는 비디오 데이터에 관한 설명을 한다.

본 발명에서 대상으로 하는 비디오 데이터에 대해서는 도 1에 도시한 바와 같이 모델화하여, 프레임, 세그먼트, 프로그램과 같은 레벨로 계층화된 구조를 갖는 것으로 한다. 즉, 비디오 데이터는 그의 최상위층이고 비디오 데이터 전체를 나타내는 프로그램과, 그의 최하위층인 일련의 프레임 사이를, 복수 계층으로 이루어지는 세그먼트로 구성되는 것으로 한다.

비디오 데이터에서의 세그먼트로서는 연속하는 프레임의 스트림으로 형성되는 것이나, 또한, 이러한 프레임의 열을 어떤 관련에 기초하여 장면으로서 정리한 것도 있고, 또한 이러한 장면을 어떤 관련에 기초하여 정리한 것도 있다. 또한, 넓은 의미로는 단일의 프레임도 세그먼트의 일종으로 생각할 수 있다.

즉, 비디오 데이터에서의 세그먼트란, 여기서는 프로그램과 프레임을 포함한 비디오 데이터에서의 어떤 그룹을, 계층의 고저와는 무관하게 총칭한 것으로, 비디오 데이터의 스트림 중 어느 하나의 연속적 부분으로 정의한다. 물론, 세그먼트는, 상술한 연속하는 프레임의 스트림으로 형성되는 것과, 장면과의 중간 구조와 같이, 어떤 의미를 가진 중간적인 구조이어도 된다. 한편, 예를 들면, 임의의 세그먼트(X)가 다른 세그먼트(Y) 내에 완전히 포함되는 것인 경우에는, 세그먼트(X)는 세그먼트(Y)의 서브세그먼트로 정의한다.

이러한 비디오 데이터는 일반적으로, 영상 및 음성의 양쪽의 정보를 포함한다. 즉, 이 비디오 데이터에서 프레임은 단일의 정지 화상인 영상 프레임과, 일반적으로 수십 내지 수백 밀리세컨드/길이와 같은 단시간에 있어서 표본화된 음성 정보를 나타내는 음성 프레임을 포함하는 것으로 한다.

또한, 세그먼트는 영상 세그먼트와 음성 세그먼트를 포함하는 것이다. 즉, 세그먼트는, 단일의 카메라에 의해 연속적으로 촬영된 영상 프레임의 스트림으로 이루어지는 소위 샷이나, 이 특징을 나타내는 특징량을 사용하여, 샷을 의미가 있는 그룹으로 그룹화한 장면 등의 영상 세그먼트를 포함한다. 또한, 세그먼트는 예를 들면, 일반적으로 잘 알려져 있는 방법에 의해 검출된 비디오 데이터 중의 무음 기간에 의해 경계를 정하게 되어 형성되는 것이나, "D.Kimber and L.Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc technical Report"에 기재되어 있는 바와 같이, 예를 들면, 음성, 음악, 노이즈, 무음 등과 같이 소수의 카테고리로 분류된 음성 프레임의 스트림으로 형성되는 것이나, "S.Pfeiffer, S.Fiscber and E.Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30"에 기재되어 있는 바와 같이, 2장의 연속하는 음성 프레임간의 어떤 특징에서의 큰 변화를 검출하는 음성 컷 검출(voice cut detection)을 사용하여 결정되는 것이나, 일련의 음성 프레임을 어떤 특징량에 기초하여 의미가 있는 그룹으로 그룹화한 것과 같은 음성 세그먼트를 포함한다.

본 발명을 적용한 실시예로서 예시하는 영상 음성 처리 장치는, 상술한 비디오 데이터에서의 세그먼트의 내용을 특징짓는 일반적인 특징량인 시그너처(Signature)를 자동적으로 추출하는 동시에, 2개의 시그너처의 유사성을 비교하는 것이고, 영상 세그먼트 및 음성 세그먼트의 양쪽에 적용할 수 있는 것이다. 얻어지는 유사성 측정 기준은 세그먼트의 탐색 및 분류를 행하기 위한 범용 툴을 제공하는 것이다.

여기서, 시그너처에 대해서 설명한다. 시그너처란, 일반적으로, 어떤 대상을 식별하는 것으로, 그 대상보다도 적은 정보에 의해, 그 대상을 높은 정밀도로 식별하는 어떤 데이터이다. 예를 들면, 인간에 관한 시그너처로서는, 지문을 그의 일종으로서 들 수 있다. 즉, 어떤 물체에 부착한 2개의 지문의 유사성을 비교하는 것은 동일 인물이 그 지문을 접촉했는지의 여부를 정확히 판정하는 것을 가능하게 한다.

마찬가지로, 영상 세그먼트 및 음성 세그먼트에 관한 시그너처는 영상 세그먼트 및 음성 세그먼트를 식별하는 것을 가능하게 하는 데이터이다. 이 시그너처는 여기서는 세그먼트를 분할하여 얻어지는 상술한 서브세그먼트의 가중 집합으로서 주어지는 것으로 한다. 예를 들면, 어떤 세그먼트(X)에 관한 시그너처(S)는, 후술하는 바와 같이, 세그먼트(X)를 대표하는 서브세그먼트를 요소로 하는 대표 세그먼트(R)와, 이 대표 세그먼트(R)의 각 요소에 가중치를 할당하는 함수인 가중 함수(W)로 나타내는 쌍<R, W>로 정의된다.

이하의 설명에서는, 소위 대표 프레임을 나타내는 용어인 r 프레임(Representative frame)을 확장하여, 대표 세그먼트를 r 세그먼트로 표기하기로 한다. 이로써, 어떤 시그너처가 포함하는 모든 r 세그먼트의 집합은 그의 시그너처의 r 세그먼트라고 칭하게 된다. 또한, r 세그먼트의 형태를, 그의 시그너처의 r 형태라고 칭한다. 그리고, 시그너처의 r 형태를 명시할 필요가 있는 경우에는 그의 형태를 "시그너처"라는 용어 앞에 붙인다. 예를 들면, 영상 프레임 시그너처는 그의 r 세그먼트가 모두 영상 프레임인 시그너처를 나타낸다. 또한, 샷 시그너처는 그의 r 세그먼트가 상술한 샷인 시그너처를 나타낸다. 한편, 어떤 시그너처(S)에 의해 기술되는 세그먼트를, 해당 시그너처(S)의 대상 세그먼트라고 칭한다. 시그너처는 영상 세그먼트, 음성 세그먼트, 혹은 이들 양쪽의 조합을 포함하는 r 세그먼트를 사용할 수 있다.

이러한 시그너처는 세그먼트를 유효하게 나타내는 몇 개의 성질을 갖는다.

우선, 시그너처는 가장 중요한 성질로서, 샷 등의 짧은 세그먼트를 기술하는 것만이 아니라, 어떤 장면 전체 혹은 비디오 데이터 전체와 같은 보다 긴 세그먼트를 기술하는 것을 가능하게 한다.

또한, 긴 대상 세그먼트를 특징짓기 위해 필요한 r 세그먼트는 통상적으로, 얼마안되는 수에 불과하다. 즉, 시그너처는 약간의 데이터량으로 세그먼트를 특징짓는 것을 가능하게 한다.

또한, 시그너처에 있어서는 각 r 세그먼트에 할당된 가중치가, 각 r 세그먼트의 중요성 또는 관련성을 나타내고, 대상으로 하는 세그먼트를 식별하는 것을 가능하게 한다.

또한, 프레임뿐만 아니라, 샷이나 장면 등의 어떠한 세그먼트도 r 세그먼트로서 사용할 수 있기 때문에, 시그너처는, 소위 키 프레임이라고 하는 개념을 확장하여 일반화한 것이 분명하다고 할 수 있다.

또한, 세그먼트를 보다 단순한 서브세그먼트의 집합으로 분해할 수 있는 경우에는, 그들 서브세그먼트를 r 세그먼트로서 사용할 수 있다.

이러한 시그너처는 컴퓨터 지원 사용자 인터페이스를 통해, 사용자가 임의로 작성할 수 있지만, 대개의 어플리케이션에 있어서는 자동적으로 추출되는 것이 바람직하다.

여기서, 시그너처의 실례에 대해서 몇 가지 설명한다.

우선, 샷에 대한 영상 프레임 시그너처는, 도 2에 도시하는 바와 같이, 그의 r 세그먼트가 정지 화상인 시그너처이다. 이러한 시그너처를 작성하는 1개의 방법은 각 샷에 대한 키 프레임을 r 세그먼트로서 사용하고, 해당 키 프레임에 거의 일치하는 샷 내 영상 프레임의, 샷 내 모든 영상 프레임에 대한 비율을 가중치로서 사용하는 것이다.

또한, 장면에 대한 샷 시그너처는, 도 3에 도시하는 바와 같이, 그의 r 세그먼트가 샷인 시그너처이다. 여기서, 장면 중의 샷을 n개의 그룹으로 분류할 수 있는 것으로 한다. 이 경우, n 개의 r 세그먼트로 이루어지는 시그너처를 작성할 수 있다. 즉, 각 그룹에 대해서, 어떤 1개의 샷을 r 세그먼트로서 취급하여 선택한다. 여기서, 각 r 세그먼트에 대한 가중치이지만, 후술하는 바와 같이, 장면을 구성하는 모든 샷 수에 대한 각 그룹을 구성하는 샷 수의 비율로서 부여할 수 있다.

또한, 시그너처는 시각 정보만을 사용하는 것에 한정되지 않고, 도 4에 도시하는 바와 같이, 장면에 대한 음성 세그먼트 시그너처도 시그너처의 실례로서 들 수 있다. 여기서, 장면에 대한 음성 세그먼트 시그너처는, 음성 세그먼트의 집합을 r 세그먼트로서 사용하는 것이다. 예를 들면, 서로 회화를 하고 있는 복수인으로 이루어지는 장면을 생각한다. 이 경우, 이야기하는 사람을 자동적으로 구별하는 것이 가능하면, 각 이야기하는 사람이 짧은 스피치 세그먼트를 r 세그먼트로서 사용할 수 있다.

또한, 시그너처는 짧은 세그먼트를 기술하기 위해서 도움이 될 뿐만 아니라, 비디오 전체를 기술하기 위해서도 사용할 수 있다. 예를 들면, 복수의 샷을 적절히 선택함으로써, 특정 텔레비전 프로그램을 다른 텔레비전 프로그램으로부터 명확히 구별하는 것이 가능해진다. 이러한 샷은 해당 텔레비전 프로그램에서 반복하여 사용되는 것으로, 예를 들면, 도 5에 도시하는 바와 같은 뉴스 프로그램에서의 시작의 로고 샷과, 뉴스 캐스터를 나타내는 샷이 이것에 상당한다. 이 경우, 가중치는 샷의 중요성을 나타내기 때문에, 로고 샷과 뉴스 캐스터의 샷과 같은 가중치를 할당하는 것이 적당하다.

이러한 시그너처를 자동적으로 추출하는 동시에, 2개의 시그너처의 유사성을 비교하는 영상 음성 처리 장치(10)는, 도 6에 도시하는 바와 같이, 각부의 동작을 제어하는 동시에, ROM(12)에 기억되어 있는 프로그램을 실행하여 세그먼트의 시그너처를 추출하는 실행 수단인 CPU(Central Processing Unit)(11)와, 시그너처를 추출하기 위해 CPU(11)가 실행하는 프로그램이나, 사용하는 수치 등을 기억하여 놓은 판독 전용 메모리인 ROM(Read Only Memory)(12)과, 입력한 세그먼트를 분할하여 얻어지는 서브세그먼트나, r 세그먼트 등을 기억하는 작업 영역으로서의 기능을 갖는 메모리인 RAM(Random Access Memory)(13)과, 작성한 시그너처 등을 필요에 따라 도시하지 않은 기록 매체에 대하여 기록 및/또는 재생하는 HDD(Hard Disk Dive)(14)와, 시그너처를 구하는 세그먼트를 입력하는 동시에, r 세그먼트의 집합과 이들의 각 r 세그먼트에 대한 가중치를 시그너처로서 출력하는 인터페이스(이하, I/F라고 한다)(15)를 구비하고, 이들의 각부는 버스(16)에 의해 서로 접속되어 있다.

이러한 영상 음성 처리 장치(10)는 CPU(11)가 ROM(12)에 기억되어 있는 프로그램을 판독하여 실행하고, 도 7에 도시하는 바와 같은 일련의 처리를 행함으로써, 시그너처를 추출한다.

우선, 영상 음성 처리 장치(10)는 동도면에 도시하는 바와 같이, 단계 S1에서, I/F(15)를 통해 입력한 세그먼트를 서브세그먼트로 분할한다. 여기서 분할되어 얻어진 서브세그먼트는 r 세그먼트의 후보인 후보 r 세그먼트가 된다.

영상 음성 처리 장치(10)는 세그먼트를 서브세그먼트로 분할하는 방법으로서 특별히 한정은 두지 않고, 적용 가능한 방법이면 어떠한 방법이어도 된다. 이러한 방법은 사용되는 서브세그먼트 형태에 크게 의존한다. 여기서는 세그먼트를 또한 작은 세그먼트의 집합으로 분해하는 방법을 사용한다. 구체적으로는, 영상 음성 처리 장치(10)는, 예를 들면, r 세그먼트가 영상 프레임인 경우에는 용이하게 분해할 수 있어, 그 세그먼트 중의 모든 영상 프레임(정지 화상)의 집합이 서브세그먼트의 후보 집합이 된다. 또한, 영상 음성 처리 장치(10)는 r 세그먼트가 샷인 경우에는, 예를 들면 "B.Furht(Editor), Handbook of Multimedia Computing, CRC Press, 1998"나 "J.Kender and B.L.Yeo, Video Secne Segmentation via Continuous Vedeo Coherence, IBM Research Report, RC21061, December 18, 1997"에 기재되어 있는 바와 같은 기존의 알고리즘을 사용하여, 세그먼트를 샷으로 분할한다. 또한, 영상 음성 처리 장치(10)는 서브세그먼트가 음성 세그먼트인 경우에는, 예를 들면, 상술한 "D.Kimber and L.Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technical Report"나 "S.Pfeiffer, S.Fiscber and E.Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30"에 기재되어 있는 바와 같은 오디오 분할 수법을 사용하여, 서브세그먼트간의 경계를 검출한다.

이와 같이, 영상 음성 처리 장치(10)는 세그먼트의 형태에 의존하지 않고 세그먼트를 서브세그먼트로 분할한다. 또한, 영상 음성 처리 장치(10)는 세그먼트가 프레임인 경우에는 이 분할 단계를 행할 필요는 없다.

다음에, 영상 음성 처리 장치(10)는, 단계 S2에 있어서, 서로 유사한 서브세그먼트를 그룹화한다. 즉, 서로 유사한 서브세그먼트의 그룹은 대상으로 하는 세그먼트의 내용을 가장 양호하게 나타내는 것으로 생각되기 때문에, 영상 음성 처리 장치(10)는 서로 유사한 서브세그먼트를 검출하여 그룹화한다. 또한, 서로 유사한 서브세그먼트란, 각 서브세그먼트가 갖는 후술하는 특징량에 있어서, 그들의 비유사성 측정 기준 값이 작은 서브세그먼트끼리인 것을 나타낸다.

영상 음성 처리 장치(10)는, 단계 S1과 마찬가지로, 서로 유사한 서브세그먼트를 그룹화하는 방법으로서 특별히 한정은 두지 않고, 적용 가능한 방법이면, 어떠한 방법이어도 된다. 영상 음성 처리 장치(10)는, 예를 들면, "L.Kaufman and P.J.Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, John-Wiley and sons, 1990"에 기재되어 잘 알려져 있는 k 평균치 클러스터링법(k-means-clustering method)이나 k-메도이드 알고리즘법(k-medoids algorithm method)과 같은 클러스터링 알고리즘을 사용하여, 후보 r 세그먼트의 집합 내에 유사 그룹을 생성한다. 이러한 클러스터링 알고리즘의 대부분은 2개의 서브세그먼트를 비교하기 위해서, 서브세그먼트로부터 추출한 후술하는 특징량에 관한 비유사성 측정 기준만을 필요로 한다. 영상 음성 처리 장치(10)는 영상 프레임이나 샷 등에 대해서 널리 알려져 있는 유사성에 기초한 측정 기준 중 어느 것이든 사용할 수 있다.

여기서, 특징량에 관해서 설명한다. 특징량이란, 세그먼트의 특징을 나타내는 동시에, 다른 세그먼트간의 유사성을 측정하기 위한 데이터를 공급하는 세그먼트의 속성이다. 영상 음성 처리 장치(10)는 어떠한 특징의 구체적 상세에도 의존하는 것은 아니지만, 해당 영상 음성 처리 장치(10)에서 사용하여 효과적이라고 생각되는 특징량으로서는, 예를 들면, 이하에 나타내는 영상 특징량, 음성 특징량, 영상 음성 공통 특징량과 같은 것이 있다.

영상 특징량으로서 이미 알려진 것은 다수 존재하며, 예를 들면, 색 특징량(히스토그램)이나 영상 상관이 있다.

영상에어서의 색은 2개의 영상이 유사한지를 판단할 때의 중요한 재료가 된다. 컬러 히스토그램을 사용하여 영상의 유사성을 판단하는 것은, 예를 들면, "G.Ahanger and T.D.C.Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996"에 기재되어 있는 바와 같이, 잘 알려져 있다. 여기서, 컬러 히스토그램이란, 예를 들면, HSV나 RGB 등의 3차원 색 공간을 n개의 영역으로 분할하고, 영상에서의 화소의, 각 영역에서의 출현 빈도의 상대적 비율을 계산한 것이다. 그리고, 얻어진 정보로부터는 n차원 벡터가 주어진다. 압축된 비디오 데이터에 대해서는, 예를 들면, U.S. 특허 제5,708,767호 공보에 기재되어 있는 바와 같이, 컬러 히스토그램을 압축 데이터로부터 직접 추출할 수 있다.

서브세그먼트로부터의 특징량으로서 히스토그램을 추출하는 경우에는, 영상 음성 처리 장치(10)는 서브세그먼트를 구성하는 영상에서의 본래의 YUV 색 공간을 색 채널당 2비트로 샘플링하여 구성하였고, 길이 2^2·3= 64 차원의 히스토그램 벡터를 얻는다.

이러한 히스토그램은 영상의 전체적인 색조를 나타내지만, 이것에는 시간 정보가 포함되어 있지 않다. 그래서, 영상 음성 처리 장치(10)에서는 이미 1개의 영상 특징량으로서, 영상 상관을 계산할 수 있다. 복수의 유사 세그먼트가 서로 교차한 구조는 그것이 모여진 1개의 구조인 것이 유력한 지표가 된다. 예를 들면, 회화 장면에 있어서, 카메라의 위치는 2명의 이야기하는 사람의 사이를 교대로 이동하지만, 카메라는 통상적으로, 동일한 이야기하는 사람을 두 번째 촬영할 때에는 거의 같은 위치로 되돌아간다. 이러한 경우에서의 구조를 검출하기 위해서는, 그레이 스케일 영상의 축소 화상에 기초한 상관이 서브세그먼트의 유사성이 양호한 지표가 되기 때문에, 영상 음성 처리 장치(10)는 원래의 영상을 M×N의 크기의 그레이 스케일 영상으로 솎아내어 축소하고, 이것을 사용하여 영상 상관을 계산한다. 여기서, M과 N은 양쪽 모두 작은 값으로 충분하고, 예를 들면, 8×8이다. 즉, 이들의 축소 그레이 스케일 영상은 MN 차원의 특징량 벡터로서 해석된다.

또한, 상술한 영상 특징량과는 다른 특징량으로서는 음성에 관한 것을 들 수 있다. 이하에서는 이 특징량을 음성 특징량이라고 칭하기로 한다. 음성 특징량이란, 음성 세그먼트의 내용을 나타낼 수 있는 특징량이다. 음성 특징량으로서는, 예를 들면, 주파수 해석, 피치, 레벨을 들 수 있다. 이들 음성 특징량은 여러가지의 문헌에 의해 알려져 있는 것이다.

우선, 음성 특징량으로서, 푸리에 변환 등의 주파수 해석을 행함으로써 얻어지는, 단일의 음성 프레임에서의 주파수 정보의 분포를 들 수 있다. 영상 음성 처리 장치(10)는, 예를 들면, 1개의 음성 서브세그먼트에 걸친 주파수 정보의 분포를 나타내기 위해서, FFT(Fast Fourier Transform; 고속 푸리에 변환) 성분, 주파수 히스토그램, 파워 스펙트럼, 그 밖의 특징량을 사용할 수 있다.

또한, 영상 음성 처리 장치(10)는 평균 피치나 최대 피치와 같은 피치나, 평균 음량이나 최대 음량 등의 음성 레벨도 또한 음성 서브세그먼트를 나타내는 유효한 음성 특징량으로서 사용할 수 있다.

또다른 특징량으로서는 영상 음성 공통 특징량을 들 수 있다. 이것은 특히 영상 특징량도 아니고 음성 특징량도 아니지만, 영상 음성 처리 장치(10)에 있어서, 서브세그먼트의 특징을 나타내는데 유용한 정보를 주는 것이다. 영상 음성 처리 장치(10)는 이 영상 음성 공통 특징량으로서, 세그먼트 길이와 액티비티를 사용한다.

영상 음성 처리 장치(10)는 영상 음성 공통 특징량으로서 세그먼트 길이를 사용할 수 있다. 이 세그먼트 길이란, 세그먼트에서의 시간 길이이다. 일반적으로, 장면은 그 장면 고유의 리듬 특징을 갖는다. 그 리듬 특징은 장면 내의 세그먼트 길이의 변화로서 나타난다. 예를 들면, 신속하게 연속해 있는 짧은 세그먼트는 커머셜을 나타낸다. 한편, 회화 장면에서의 세그먼트는 커머셜의 경우보다도 길게, 또한 회화 장면에는 서로 조합된 세그먼트가 서로 유사하다는 특징이 있다. 영상 음성 처리 장치(10)는 이러한 특징을 갖는 세그먼트 길이를 영상 음성 공통 특징량으로서 사용할 수 있다.

또한, 영상 음성 처리 장치(10)는 영상 음성 공통 특징량으로서, 액티비티를 사용할 수 있다. 액티비티란, 세그먼트의 내용이 어느 정도 동적 혹은 정적이도록 느껴지는지를 나타내는 지표이다. 예를 들면, 시각적으로 동적인 경우, 액티비티는 카메라가 대상물을 따라 신속하게 이동하는 정도 또는 촬영되고 있는 오브젝트가 신속하게 변화하는 정도를 나타낸다.

이 액티비티는 컬러 히스토그램과 같은 특징량의 프레임간 비유사성의 평균치를 측정함으로써 간접적으로 계산된다. 여기서, 프레임(i)과 프레임(j) 사이에서 측정된 특징량(F)에 대한 비유사성 측정 기준을 d_F(i, j)로 정의하면, 영상 액티비티(V_F)는 다음 식(l)과 같이 정의된다.

…(1)

식(1)에 있어서, b와 f는 각각 1 세그먼트에서의 최초와 최후의 프레임의 프레임 번호이다. 영상 음성 처리 장치(10)는 구체적으로는, 예를 들면, 상술한 히스토그램을 사용하여 영상 액티비티(V_F)를 계산한다.

영상 음성 처리 장치(10)는 이러한 특징량을 서브세그먼트로부터 추출하여 서로 유사한 서브세그먼트를 클러스터링 알고리즘에 의해 검출하여 그룹화한다.

또한, 2개의 서브세그먼트의 유사성을 측정하는 실수값을 산출하는 함수인 비유사성 측정 기준에 대해서는 후술한다.

다음에, 영상 음성 처리 장치(10)는, 단계 S3에서, 서브세그먼트를 그룹화하여 얻은 유사 그룹 중에서 시그너처의 대상 그룹을 선택한다. 여기서, 영상 음성 처리 장치(10)는 세그먼트의 정확한 특징화를 위해 필요하게 되는 r 세그먼트의 수를 결정할 때에, 각 그룹으로 분류된 서브세그먼트의 수를 고려한다.

구체적으로는, 영상 음성 처리 장치(10)는 시그너처의 대상 그룹을 선택하기 위해서, 그룹 중에 존재하는 서브세그먼트의 개수에 대하여 임계치를 설정한다.

영상 음성 처리 장치(10)에 있어서는, 통상적으로, 이 임계치는 모든 서브세그먼트 수에 대한, 혹은 그룹에 포함되는 서브세그먼트수의 비로서 주어진다. 즉, 영상 음성 처리 장치(10)는 얻어진 그룹 중 그 요소 수가 임계치를 상회하는 그룹을 시그너처의 대상 그룹으로 한다.

한편, 영상 음성 처리 장치(10)는 임의의 정수(k)를 r 세그먼트의 개수로서 설정할 수 있다. 이 경우에는, 영상 음성 처리 장치(10)는 모든 그룹을 그것이 포함하는 요소 수의 순서로 나열하고, 요소 수가 큰 순서로 k개의 그룹만을 시그너처의 대상 그룹으로서 선택한다.

이렇게 하여, 영상 음성 처리 장치(10)는 그룹 중에서 시그너처의 대상 그룹을 선택한다.

다음에, 영상 음성 처리 장치(10)는, 단계 S4에 있어서, r 세그먼트를 선택한다. 즉, 영상 음성 처리 장치(10)는 단계 S3에서 선택된 각 그룹을 구성하는 서브세그먼트 중에서 1개의 서브세그먼트만을 선택하고, 그 서브세그먼트를 r 세그먼트로서 시그너처의 요소로 한다.

영상 음성 처리 장치(10)는, 구체적으로는, 각 그룹으로부터 임의의 서브세그먼트를 선택할 수 있다. 또는, 영상 음성 처리 장치(10)는 보다 세련된 접근법으로서, 각 그룹에서의 서브세그먼트의 평균값 또는 중앙값(median)에 대하여, 그것과 가장 유사한 서브세그먼트를 r 세그먼트로서 선택한다.

이렇게 하여, 영상 음성 처리 장치(10)는 선택한 각 대상 그룹으로부터 r 세그먼트를 선택한다.

그리고, 영상 음성 처리 장치(10)는, 단계 S5에 있어서, r 세그먼트의 각각에 대한 가중치를 산출한다. 영상 음성 처리 장치(10)는 가중치를, 각 r 세그먼트가 대응하는 그룹이 포함하는 서브세그먼트 수의 총수에 대한 비로서 설정한다.

영상 음성 처리 장치(10)는 이상과 같은 일련의 단계를 모든 세그먼트에 대하여 행함으로써, 각 세그먼트에 관한 시그너처를 추출한다.

이러한 일련의 처리를 보다 구체적으로 설명하기 위해서, 도 8에 도시하는 어떤 장면에 관한 샷 시그너처를 추출하는 예에 관해서 설명한다.

이 장면은 2명의 인물이 서로 회화하고 있는 장면을 나타내는 것으로, 2명의 인물의 양쪽을 나타내는 샷으로부터 시작하여, 이후, 2명의 인물이 이야기하는 사람에 따라서 교대로 출현하는 샷이 계속되고 있다.

이러한 장면의 경우, 영상 음성 처리 장치(10)는 도 7 중 단계 S11에 있어서, 장면을 서브세그먼트인 샷으로 분할한다. 즉, 이 경우에는, 영상 음성 처리 장치(10)는 샷 검출 방법을 사용하여, 도 8에 도시한 바와 같은 9개의 다른 서브세그먼트를 검출하여 분할한다.

다음에, 영상 음성 처리 장치(10)는 도 7 중 단계 S2에 있어서, 서로 유사한 서브세그먼트를 분류하여 그룹화한다. 즉, 이 경우에는, 영상 음성 처리 장치(10)는 샷의 시각적인 유사성에 기초하여, 도 8에 도시한 장면에서의 2명의 인물의 양쪽을 나타내는 제 1 번째의 샷만을 요소로 하는 제 1 그룹과, 각 이야기하는 사람에 대한 4 샷씩을 정리한 제 2, 제 3 그룹의 3개의 그룹으로 분류한다.

또한, 영상 음성 처리 장치(10)는 도 7 중 단계 S3에 있어서, 장면을 특징짓기 위해 필요한 그룹을 선택한다. 여기서는 도 8에 도시한 장면에서의 제 1 그룹 내지 제 3 그룹 중 어느 것이든 중요하기 때문에, 영상 음성 처리 장치(10)는 제 1 그룹 내지 제 3 그룹 모두를 샷 시그너처로 사용하는 것을 결정한다.

또한, 영상 음성 처리 장치(10)는 도 7 중 단계 S4에 있어서, 각 그룹으로부터 1 샷을 r 세그먼트로서 선택한다. 여기서는, 영상 음성 처리 장치(10)는 제 1 그룹 내지 제 3 그룹으로부터, 각각, 도 9에 도시하는 3개의 샷을 r 세그먼트로서 선택한다.

그리고, 영상 음성 처리 장치(10)는 도 7 중 단계 S5에 있어서, 제 1 그룹 내지 제 3 그룹 각각에 대해서, 각 그룹에 포함되는 샷 수의 비율에 따른 가중치를 산출한다. 이 경우에는, 도 8에 도시하는 9개의 샷 중, 제 1 그룹이 1개의 샷을 요소로 하고, 제 2, 제 3 그룹이 각각 4개의 샷을 요소로 하기 때문에, 영상 음성 처리 장치(10)는 제 1 그룹 내지 제 3 그룹 각각에 대해, l/9, 4/9, 4/9의 가중치를 얻는다.

이렇게 하여, 영상 음성 처리 장치(10)는 도 8에 도시하는 장면에 관한 시그너처로서, 도 9에 도시하는 r 세그먼트와 가중치를 얻는다.

다음에, 추출한 시그너처를 사용하여, 2개의 세그먼트의 유사성을 비교하는 방법에 관해서 설명한다. 구체적으로는, 2개의 세그먼트의 유사성을 r 세그먼트에 기초한 시그너처의 유사성으로서 결정한다. 여기서, 실제로는 상술한 비유사성 측정 기준 혹은 유사성의 정도 측정 기준을 정의하는 것에 주의할 필요가 있다.

여기서는, P = {(r_p1, w_p1), …, (r_p1, w_pm)} 및 Q = {(r_q1, w_q1), …, (r_q1, w_qn)}이 각각의 시그너처인 것으로 한다. (r, w)의 표기는 상술한 바와 같이, r 세그먼트와, 그것에 부수하는 가중 함수를 나타낸 것이다. 또한, d_R(r₁, r₂)를 2개의 r 세그먼트에 대한 비유사성 측정 기준으로 한다.

우선, 여기서는 비유사성 측정 기준에 대해서 설명하기로 한다. 비유사성 측정 기준은 그 값이 작은 경우는 2개의 세그먼트가 유사하고 있는 것을 나타내고, 값이 큰 경우는 비유사인 것을 나타낸다. 비유사성 측정 기준 d_R(r₁, r₂)는 이하의 식(2)으로 주어지는 관계를 만족시킬 필요가 있다.

…(2)

그런데, 비유사성 측정 기준 중에는 어떤 특정한 특징량에만 적용 가능한 것도 있지만, "G.Ahanger and T.D.C.Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4,1996"이나 "L.Kaufman and P.J.Rousseeuw, Finding Groups in Data: An Introduction to Cluster Analysis, John-Wiley and sons, 1990"에 기재되어 있는 바와 같이, 일반적으로는, 많은 비유사성 측정 기준은 n차원 공간에서의 점으로서 표시되는 특징량에 대한 유사성을 측정하는데 적용 가능하다. 그 구체적인 예는, 유클리드 거리, 내적, L1 거리 등이다. 여기서, 특히 L1 거리가, 히스토그램이나 영상 상관 등의 특징량을 포함하는 여러가지의 특징량에 대하여 유효하게 작용하기 때문에, 영상 음성 처리 장치(10)는 L1 거리를 도입한다. 여기서, 2개의 n차원 벡터를 A, B로 한 경우, A, B간의 L1 거리 d_L1(A, B)는 다음 식(3)으로 주어진다.

…(3)

여기서, 아래첨자 i는 n차원 벡터(A, B)의 각각의 i 번째의 요소를 나타내는 것이다.

비유사성 측정 기준으로서는, 상술한 것 이 외에도, 몇 개의 예가 공지되어 있지만, 여기서는 그들의 상세한 것은 생략한다. 영상 음성 처리 장치(10)는 상술한 CPU(11)에 의해, 상술한 바와 같은 비유사성 측정 기준에 의해 나타내는 2개의 시그너처간의 유사성을 측정하고, 이들 2개의 시그너처의 대상 세그먼트의 유사성을, 그들의 r 세그먼트의 유사성에 기초하여, 이하 방법 중 어느 하나로 정의한다.

우선, 영상 음성 처리 장치(10)는, 제 1 방법으로서, 다음 식(4)으로 나타내는 가중 최소값을 사용하여, 2개의 시그너처간 거리를 산출한다.

…(4)

또한, 영상 음성 처리 장치(10)는 제 2 방법으로서, 다음 식(5)으로 나타내는 가중 평균 거리를 사용하여, 2개의 시그너처간의 거리를 산출한다.

…(5)

또한, 영상 음성 처리 장치(10)는, 제 3 방법으로서, 다음 식(6)으로 나타내는 가중 중앙값 거리를 사용하여, 2개의 시그너처간의 거리를 산출한다.

…(6)

또한, 영상 음성 처리 장치(10)는, 제 4 방법으로서, "Y.Rubner, C.Tomasi and L.J.Guibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998"에 기재되어 있는 거리 계량법으로부터 응용하여, 정지 화상에 대한 컬러 샷 메세지의 경우에 사용한 다음 식(7)으로 나타내는 어스 무버(Earth Mover)의 거리를 사용하여, 2개의 시그너처간의 거리를 산출한다. 이 방법에서는 m×n 코스트 매트릭스(C)를 정의한다. 여기서, C_ij는 함수를 최소로 하는 값이다.

…(7)

또한, 이 식(7)을 적용했을 때에는 다음 식(8)로 나타내는 제약 조건을 만족할 필요가 있다.

…(8)

영상 음성 처리 장치(10)는 "Y.Rubner, C.Tomasi and L.J.Gubas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE Iternational Conference on Computer Vision, Bombay, India, January 1998"에 기재되어 있는 알고리즘을 사용함으로써, 이 식(8)로 나타낸 바와 같은 제약 조건에 따라서, 식(7)로 나타내는 함수를 최소로 하는 C_ij의 값을 검출할 수 있다. 영상 음성 처리 장치(10)에 있어서는 2개의 시그너처간의 거리의 값을 식(7)에 나타내는 함수의 최소값으로 정의한다.

영상 음성 처리 장치(10)는 이러한 방법 중 어느 하나에 의해, 2개의 세그먼트의 유사성을, r 세그먼트에 기초한 시그너처의 유사성으로서 구한다. 그리고, 영상 음성 처리 장치(10)는 근사적인 세그먼트간의 유사성에 기초하여, 세그먼트를 그룹화할 것인지의 여부를 결정한다.

이와 같이 함으로써, 영상 음성 처리 장치(10)는 프로그램과 프레임을 포함한 비디오 데이터에서의 어떤 그룹을 계층의 고저와는 무관하게 그룹화할 수 있다.

이상 설명한 바와 같이, 본 발명의 실시예로서 예시하는 영상 음성 처리 장치(10)는 비디오 데이터의 여러가지 계층에서의 시그너처를 자동적으로 추출하는 동시에, 2개의 시그너처의 유사성을 비교함으로써, 대응하는 세그먼트간의 유사성을 비교할 수 있는 것이다. 이 영상 음성 처리 장치(10)는 비디오 데이터의 여러가지 계층에서의 세그먼트를 그룹화하는 것을 가능하게 하는 것으로서, 다른 형태의 비디오 데이터에도 적용할 수 있는 것이다. 이와 같이, 영상 음성 처리 장치(10)는 비디오 데이터의 임의의 구조를 자동적으로 탐색하여 추출하기 위한 범용의 툴이 될 수 있는 것이다.

또한, 본 발명은 상술한 실시예에 한정되는 것이 아니라, 예를 들면, 서로 유사한 서브세그먼트를 그룹화했을 때에 사용하는 특징량은 상술한 것 이외에도 가능함은 물론이다. 즉, 본 발명에 있어서는 어느 하나의 정보에 기초하여, 서로 관련하는 서브세그먼트를 그룹화할 수 있으면 된다.

또한, 기타, 본 발명의 취지를 일탈하지 않는 범위에서 적절히 변경이 가능함은 말할 필요도 없다.

이상 상세하게 설명한 바와 같이, 본 발명에 따른 신호 처리 방법은 공급된 신호를 구성하는 세그먼트에 포함되는 서브세그먼트 중, 세그먼트의 내용을 대표하는 서브세그먼트인 대표 세그먼트와, 이 대표 세그먼트에 가중치를 할당하는 가중 함수로 정의되는 시그너처를 추출하는 신호 처리 방법으로서, 서브세그먼트를 임의의 속성에 기초하여 분류하여 얻은 그룹 중, 시그너처의 대상으로 하는 그룹을 선택하는 그룹 선택 단계와, 이 그룹 선택 단계에서 선택한 그룹으로부터 1개의 대표 세그먼트를 선택하는 대표 세그먼트 선택 단계와, 이 대표 세그먼트 선택 단계에서 얻은 대표 세그먼트에 대한 가중치를 산출하는 가중치 산출 단계를 포함한다.

따라서, 본 발명에 따른 신호 처리 방법은 세그먼트에 관한 시그너처를 추출할 수 있고, 이 시그너처를 사용하여, 신호에서의 세그먼트의 계층에 관계없이, 서로 다른 세그먼트간의 유사성을 비교할 수 있다. 이에 따라, 본 발명에 따른 신호 처리 방법은 여러가지의 신호에서의 여러가지 계층의 세그먼트에 대하여, 유사성에 기초하여 소망의 내용을 가지는 세그먼트의 탐색을 행할 수 있다.

또한, 본 발명에 따른 영상 음성 처리 장치는, 공급된 비디오 신호를 구성하는 영상 및/또는 음성 세그먼트에 포함되는 영상 및/또는 음성 서브세그먼트 중, 영상 및/또는 음성 세그먼트의 내용을 대표하는 영상 및/또는 음성 서브세그먼트인 대표 세그먼트와, 이 대표 세그먼트에 가중치를 할당하는 가중 함수로 정의되는 시그너처를 추출하는 영상 음성 처리 장치로서, 영상 및/또는 음성 서브세그먼트를 임의의 속성에 기초하여 분류하여 얻은 그룹 중 시그너처의 대상으로 하는 그룹을 선택하고, 이 선택한 그룹으로부터 1개의 대표 세그먼트를 선택하고, 얻어진 대표 세그먼트에 대한 가중치를 산출하는 실행 수단을 구비한다.

따라서, 본 발명에 따른 영상 음성 처리 장치는 영상 및/또는 음성 세그먼트에 관한 시그너처를 추출하는 것이 가능하고, 이 시그너처를 사용하여, 비디오 신호에서의 영상 및/또는 음성 세그먼트의 계층에 관계없이, 서로 다른 영상 또는 음성 세그먼트간의 유사성을 비교하는 것이 가능해진다. 따라서, 본 발명에 따른 영상 음성 처리 장치는 여러가지의 비디오 신호에서의 여러가지 계층의 영상 및/또는 음성 세그먼트에 대하여, 유사성에 기초하여 소망의 내용을 갖는 영상 및/또는 음성 세그먼트의 탐색을 행할 수 있다.

Claims

공급된 신호들을 구성하는 세그먼트들에 포함되는 서브세그먼트들 중, 상기 세그먼트들의 내용들을 대표하는 적어도 하나의 서브세그먼트인 대표 세그먼트들과, 상기 대표 세그먼트들에 가중치들을 할당하는 가중 함수로 정의되는 시그너처들(signatures)을 추출하는 신호 처리 방법에 있어서:

상기 세그먼트를, 상기 대표 세그먼트들에 대한 후보들이 되는 복수의 서브세그먼트들로 분할하는 세그먼트 분할 단계;

상기 세그먼트 분할 단계에서 얻은 상기 서브세그먼트들 중에서, 임의의 속성에 대한 상호 유사성에 기초하여, 상기 서브세그먼트들을 분류하고 그룹화하는 그룹화 단계;

상기 서브세그먼트의 임의의 속성에 기초한 분류에 의해 얻은 그룹들 중, 상기 시그너처에 대한 대상 그룹들을 선택하는 그룹 선택 단계;

상기 그룹 선택 단계에서 선택된 그룹들 중에서 대표 세그먼트를 선택하는 대표 세그먼트 선택 단계; 및

상기 대표 세그먼트 선택 단계에서 얻은 대표 세그먼트에 대한 가중치를 산출하는 가중치 산출 단계를 포함하고,

서로 다른 세그먼트들의 각 대표 세그먼트간의 유사성을 비교하여 얻은 비교 결과들과, 상기 가중치 산출 단계에서 산출된 각 대표 세그먼트에 주어지는 가중치를 사용하여, 서로 다른 세그먼트간의 유사성을 비교하는, 신호 처리 방법.
삭제
삭제
제 1 항에 있어서,

상기 신호들은 비디오 데이터에 포함된 영상 신호들 및 음성 신호들 중 적어도 하나인, 신호 처리 방법.
제 1 항에 있어서,

상기 가중치 산출 단계는 상기 대표 세그먼트들에 대응하는 그룹들에 포함된 서브세그먼트들의 총수에 기초하여 상기 가중치를 산출하는, 신호 처리 방법.
제 1 항에 있어서,

상기 세그먼트들은 상기 신호들의 임의의 스트림을 구성하는, 신호 처리 방법.
제 1 항에 있어서,

상기 서브세그먼트들은 상기 세그먼트들에 포함된 임의의 스트림들을 구성하는, 신호 처리 방법.
제 1 항에 있어서,

상기 세그먼트들은 상기 신호의 일부분을 형성하는 연속하는 프레임들의 스트림으로 형성된 세그먼트들 또는 시간적으로 연속하는 세그먼트들로 이루어지는 장면(scene)을 구성하는, 신호 처리 방법.
제 1 항에 있어서,

상기 세그먼트들은 상기 신호들을 구성하는 프레임들 또는 상기 신호들의 전체를 나타내는 프로그램을 구성하는, 신호 처리 방법.
공급된 비디오 신호들을 구성하는 영상 및/또는 음성 세그먼트들에 포함되는 영상 및/또는 음성 서브세그먼트들 중, 상기 영상 및/또는 음성 세그먼트들의 내용들을 대표하는 적어도 하나의 영상 및/또는 음성 서브세그먼트인 대표 세그먼트들과, 상기 대표 세그먼트들에 가중치를 할당하는 가중 함수로 정의되는 시그너처들을 추출하는 영상 음성 처리 장치(image-vioce processing apparatus)에 있어서,

상기 영상 및/또는 음성 세그먼트들은, 상기 대표 세그먼트들에 대한 후보들이 되는 복수의 영상 및/또는 음성 서브세그먼트들로 분할되고,

상기 영상 및/또는 음성 서브세그먼트들은, 상기 속성으로서의 상호 유사성에 기초하여, 얻어진 영상 및/또는 음성 서브세그먼트들에서 분류되어 함께 그룹화되며,

상기 영상 음성 처리 장치는:

상기 영상 및/또는 음성 서브세그먼트들의 임의의 속성에 기초한 분류에 의해 얻은 그룹들 중, 상기 시그너처들에 대한 대상 그룹들을 선택하는 수단;

상기 선택된 그룹들 중에서 대표 세그먼트를 선택하는 수단; 및

얻어진 상기 대표 세그먼트에 대한 가중치를 산출하는 수단을 포함하고,

서로 다른 영상 및/또는 음성 세그먼트들의 각 대표 세그먼트들간의 유사성을 비교하여 얻은 비교 결과들과, 각 대표 세그먼트에 주어지는 가중치를 사용하여, 서로 다른 영상 및/또는 음성 세그먼트들간의 유사성을 비교하는, 영상 음성 처리 장치.
삭제
삭제
제 10 항에 있어서,

상기 가중치는 상기 대표 세그먼트들에 대응하는 그룹들에 포함된 영상 및/또는 음성 서브세그먼트들의 총수에 기초하여 산출되는, 영상 음성 처리 장치.
제 10 항에 있어서,

상기 영상 및/또는 음성 세그먼트들은 상기 비디오 신호들의 임의의 스트림인, 영상 음성 처리 장치.
제 10 항에 있어서,

상기 영상 및/또는 음성 서브세그먼트들은 상기 영상 및/또는 음성 세그먼트들에 포함된 임의의 스트림인, 영상 음성 처리 장치.
제 10 항에 있어서,

상기 영상 및/또는 음성 세그먼트들은 상기 비디오 신호들을 구성하는 연속하는 영상 및/또는 음성 프레임들의 스트림으로 형성된 영상 및/또는 음성 세그먼트들, 또는 시간적으로 연속하는 영상 및/또는 음성 세그먼트들로 이루어지는 장면을 구성하는, 영상 음성 처리 장치.
제 10 항에 있어서,

상기 영상 및/또는 음성 세그먼트들은, 상기 비디오 신호들을 구성하는 영상 및/또는 음성 프레임들, 또는 상기 비디오 신호들의 전체를 나타내는 프로그램인, 영상 음성 처리 장치.