KR101296152B1

KR101296152B1 - 섬네일 생성 장치 및 섬네일 생성 방법

Info

Publication number: KR101296152B1
Application number: KR1020117024660A
Authority: KR
Inventors: 다이사쿠 가토
Original assignee: 닛뽕빅터 가부시키가이샤
Priority date: 2009-03-25
Filing date: 2010-01-28
Publication date: 2013-08-19
Also published as: WO2010109943A1; JP2010226572A; KR20120001765A; CN102362491B; CN102362491A; JP4640515B2; EP2413597A1; EP2413597B1; US20120020643A1; EP2413597A4; US8849093B2

Abstract

섬네일 생성 장치는, 동화상 추출부, 축소 확대율 산출부 및, 축소 확대부를 구비한다. 동화상 추출부는, 동화상에 포함되는 인물의 얼굴을 검출하여 생성된 얼굴 검출 정보로부터 얻어지는 얼굴 검출 영역의 수 및 면적에 기초하여, 동화상으로부터, 이 동화상의 재생 시간보다 짧은 시간분의 동화상을 추출한다. 축소 확대율 산출부는, 동화상 추출부에 의해 추출된 동화상의 얼굴 검출 정보에 기초하여, 소정의 시간 간격마다 얼굴 검출 영역을 적분하고, 이 적분 결과에 기초하여, 동화상 추출부에 의해 추출된 동화상에 포함되는 인물의 얼굴이 크게 표시되도록, 동화상 추출부에 의해 추출된 동화상의 축소 확대율을 산출한다. 축소 확대부는, 축소 확대율 산출부에 의해 산출된 축소 확대율에 기초하여, 동화상 추출부에 의해 추출된 동화상을 축소 또는 확대한 동영상 섬네일을 생성한다.

Description

섬네일 생성 장치 및 섬네일 생성 방법{THUMBNAIL GENERATION DEVICE AND METHOD OF GENERATING THUMBNAIL}

본 발명은, 재생 장치로 재생되는 동화상(moving image)의 내용을 유저에게 파악시키기 위한 동영상 섬네일(thumbnail)을 생성하는 섬네일 생성 장치 및 섬네일 생성 방법에 관한 것이다.

촬영, 기록한 동화상을 구성하는 복수의 프레임 또는 필드 중 임의의 1매를 추출하여 축소한 정지화(靜止畵) 섬네일을, 기록되고 있는 동화상마다나, 이들 동화상에 있어서의 소정의 구간(챕터)마다 생성하여, 이들 생성한 복수의 정지화 섬네일을, 본체에 구비하는 모니터용의 액정 패널에 섬네일 일람 화면으로서 표시시키는 정지화 섬네일 표시 기능을 갖는 비디오 카메라가 잘 알려져 있다.

또한, 정지화 섬네일에 대응한 화상의 내용을 유저에게 파악시키기 쉽게 하기 위한 기술로서, 예를 들면, 특허문헌 1에는, 촬영한 정지화상으로부터 인물의 얼굴을 검출하고, 그 검출한 인물의 얼굴에 맞추어, 촬영한 정지화상을 소정의 사이즈로 축소한 정지화 섬네일을 생성하는 화상 처리 장치가 제안되어 있다.

그러나, 특허문헌 1에 기재된 기술은, 통상의 정지화 섬네일 표시 기능에 비교하면, 정지화 섬네일에 대응한 화상의 내용을 유저에게 파악시키기 쉬워지기는 하지만, 표시되는 섬네일은 정지화이기 때문에, 그 정지화 섬네일에 대응한 화상이 동화상인 경우, 이용자는, 그 동화상의 내용을 파악할 수 없는 경우가 있었다.

한편, HDD(Hard Disk Drive) 레코더나 DVD(Digital Versatile Disk) 레코더에서는, 섬네일 일람 화면에 있어서, 유저 조작 등에 의해 하나의 정지화 섬네일에 포커스(하이라이트 틀)가 맞춰졌을 때, 그 정지화 섬네일을 대신하여 동영상 섬네일을 표시하는 모션 섬네일 기능을 갖고 있는 경우가 많다. 이 모션 섬네일 기능은, 선택된 정지화 섬네일에 대응하는 소정 기간의 동화상을 재생하여, 이 재생한 동화상을 정지화 섬네일과 동일한 사이즈로 축소시킨 동영상 섬네일을 생성하여, 이 생성한 동영상 섬네일을, 정지화 섬네일 일람 화면에 있어서 대응하는 정지화 섬네일의 영역에 표시하는 기능이다. 이용자는 이 모션 섬네일 기능에 의해 표시된 동영상 섬네일을 봄으로써, 동화상의 내용을 파악하기 쉬워진다.

일본공개특허공보 2005-269563호

여기에서, 비디오 카메라에도, 이 모션 섬네일 기능을 적용하는 것을 생각할 수 있다.

그러나, 비디오 카메라에 모션 섬네일 기능을 적용한 경우, 본체에 구비하는 모니터용의 액정 패널의 화면은 비교적 작기 때문에, 섬네일 일람 화면에 표시되는 동영상 섬네일도 작아져 버린다. 따라서, 이용자는 그 동영상 섬네일의 내용, 즉 그 동영상 섬네일에 대응하는 동화상의 내용을 파악하는 것이 곤란했다.

본 발명은, 상기 과제를 감안하여 이루어진 것으로, 그 목적은, 이용자에게, 기록 재생 장치에 기록되어 있는 동화상의 내용을 파악시키기 쉬운 동영상 섬네일을 생성하여 표시하는 섬네일 생성 장치 및 섬네일 생성 방법을 제공하는 것에 있다.

상기 목적을 달성하기 위해, 본 발명에 따른 섬네일 생성 장치의 제1 특징은, 동화상의 제1 소정 기간 내에 있어서, 상기 제1 소정 기간보다도 짧은 제2 소정 기간마다, 상기 동화상을 구성하는 각 화상을 추출하는 동화상 추출부와, 추출된 각 화상에 포함되는 인물의 얼굴의 영역을 적분하고, 이 적분된 얼굴의 영역을 둘러싸도록 얼굴 표시 영역을 결정하고, 이 결정된 얼굴 표시 영역의 사이즈가, 미리 동영상 섬네일을 표시하기 위해 정해진 소정의 표시 영역의 사이즈와 대략 동일해지도록, 상기 동화상의 축소 확대율을 산출하는 축소 확대율 산출부와, 산출된 상기 축소 확대율에 기초하여, 상기 동화상을 축소 또는 확대하여, 상기 동영상 섬네일을 생성하는 동영상 섬네일 생성부를 구비한 것에 있다.

상기 목적을 달성하기 위해, 본 발명에 따른 섬네일 생성 장치의 제2 특징은, 상기 동화상 추출부에 의해 추출된 각 화상 중, 인물의 얼굴의 영역이 존재하는 화상이 연속하는 수에 기초하여, 상기 제1 소정 기간을 하나 이상 결정하는 섬네일 구간 결정부를 추가로 구비하는 것을 특징으로 한 것에 있다.

상기 목적을 달성하기 위해, 본 발명에 따른 섬네일 생성 장치의 제3 특징은, 상기 축소 확대율 산출부는, 상기 얼굴 표시 영역의 면적의 값을 분모로 하고, 상기 얼굴의 영역의 합계 면적의 값을 분자로 하여 구한 비(比)의 값이, 소정의 문턱값보다 작은 경우, 상기 얼굴의 영역 중 중심에 가깝고 그리고 면적이 가장 큰 얼굴의 영역을 대표 영역으로 하여, 이 대표 영역의 사이즈가 상기 표시 영역의 사이즈와 대략 동일해지도록, 상기 축소 확대율을 산출하는 것을 특징으로 한 것에 있다.

상기 목적을 달성하기 위해, 본 발명에 따른 섬네일 생성 장치의 제4 특징은, 인물의 얼굴을 한번에 식별 가능한 얼굴의 특징을 얼굴 특징 정보로서 기억하는 얼굴 특징 정보 기억부를 추가로 구비하고, 상기 축소 확대율 산출부는, 상기 얼굴의 영역 내에 존재하는 얼굴의 특징이, 상기 얼굴 특징 정보 기억부에 기억되어 있는 얼굴 특징 정보가 나타내는 얼굴의 특징과 일치 또는 근사하고 있는지 아닌지를 판정하여, 일치 또는 근사하고 있다고 판정된 경우에, 이 일치 또는 근사하고 있는 얼굴의 특징에 대응하는 상기 얼굴의 영역의 사이즈를 상기 표시 영역의 사이즈와 대략 동일해지도록, 상기 축소 확대율을 산출하는 것에 있다.

상기 목적을 달성하기 위해, 본 발명에 따른 섬네일 생성 방법의 제1 특징은, 동화상의 제1 소정 기간 내에 있어서, 상기 제1 소정 기간보다도 짧은 제2 소정 기간마다, 상기 동화상을 구성하는 각 화상을 추출하는 동화상 추출 스텝과, 추출된 각 화상에 포함되는 인물의 얼굴의 영역을 적분하고, 이 적분된 얼굴의 영역을 둘러싸도록 얼굴 표시 영역을 결정하고, 이 결정된 얼굴 표시 영역의 사이즈가, 미리 섬네일을 표시하기 위해 정해진 소정의 표시 영역의 사이즈와 대략 동일해지도록, 상기 동화상의 축소 확대율을 산출하는 축소율 산출 스텝과, 산출된 상기 축소 확대율에 기초하여, 상기 동화상을 축소 또는 확대하여, 상기 동영상 섬네일을 생성하는 동영상 섬네일 생성 스텝을 갖는 것에 있다.

본 발명의 섬네일 생성 장치 및 섬네일 생성 방법에 의하면, 이용자에게, 기록 재생 장치에 기록되어 있는 동화상의 내용을 파악시키기 쉬운 동영상 섬네일을 생성하여 표시할 수 있다.

도 1은 본 발명의 실시예 1인 섬네일 생성 장치에 공급하기 위한 AV 스트림 및 스트림 관리 정보를 기록 매체에 기록하는 비디오 카메라의 구성을 나타낸 구성도이다.
도 2는 본 발명의 실시예 1인 섬네일 생성 장치의 구성을 나타낸 구성도이다.
도 3은 본 발명의 실시예 1인 섬네일 생성 장치가 구비하는 유저 인터페이스부가 표시하는 화면의 일 예를 나타낸 도면이다.
도 4는 본 발명의 실시예 1인 섬네일 생성 장치가 구비하는 유저 인터페이스부에 있어서의 OSD 화면과 동영상 재생 화면과의 서로 겹침을 설명한 도면이다. 도 4(a)는, OSD 화면 및 동영상 재생 화면의 서로 겹침의 순서를 설명한 도면이고, 도 4(b)는, OSD 화면 및 동영상 재생 화면 각각의 일 예를 나타낸 도면이고, 도 4(c)는, OSD 화면과 동영상 재생 화면이 서로 겹쳐진 합성 화면의 일 예를 나타낸 도면이다.
도 5는 본 발명의 실시예 1인 섬네일 생성 장치가 구비하는 동영상 섬네일 시간 기억부에 기억된 동영상 섬네일 시간 정보의 일 예를 나타낸 도면이다.
도 6은 비디오 카메라가 구비하는 얼굴 검출부에 있어서의 얼굴 검출 처리를 나타낸 플로우 차트이다.
도 7은 본 발명의 실시예 1인 섬네일 생성 장치에 있어서의 동화상 추출 처리를 나타낸 플로우 차트이다.
도 8은 본 발명의 실시예 1인 섬네일 생성 장치의 동화상 추출부가, 「단위 구분 시간의 얼굴 있음 구간」을 추출하는 처리를 설명한 도면이다.
도 9는 본 발명의 실시예 1인 섬네일 생성 장치에 있어서의 동영상 섬네일 표시 처리를 나타낸 플로우 차트이다.
도 10은 본 발명의 실시예 1인 섬네일 생성 장치가 구비하는 CPU의 축소율 산출부에 의한 얼굴 검출 영역을 둘러싸는 애스펙트비 16:9의 직사각형 영역의 면적 A의 산출을 설명한 도면이다. 도 10(a)는, 어느 구간 내에 있어서의 t1 시점에서 t5 시점까지에 있어서의 얼굴 검출 영역을 나타내고 있고, 도 10(b)는, 도 10(a)에 나타낸 얼굴 검출 영역을 적분한 경우에 있어서의 동화상의 도면이고, 도 10(c)는, 얼굴 검출 영역이 동화상 내에서 분산되어 있는 경우에 있어서의 동화상의 도면이고, 도 10(d)는, 얼굴 검출 영역이 동화상 내에서 밀집되어 있는 경우에 있어서의 동화상의 도면이다.
도 11은 본 발명의 실시예 1인 섬네일 생성 장치가 구비하는 축소율 산출부에 의한 동화상의 축소율의 산출을 설명한 도면이다. 도 11(a)는, 축소하는 동화상의 일 예를 나타내고 있고, 도 11(b)는, OSD 화면의 일 예를 나타내고 있다.
도 12는 본 발명의 실시예 1인 섬네일 생성 장치가 구비하는 축소율 산출부에 의한 동화상의 축소율의 산출을 설명한 도면이다. 도 12(a)는, 축소하는 동화상의 일 예를 나타내고 있고, 도 12(b)는, OSD 화면의 일 예를 나타내고 있다.
도 13은 본 발명의 실시예 2인 섬네일 생성 장치의 구성을 나타낸 구성도이다.
도 14는 본 발명의 실시예 2인 섬네일 생성 장치가 구비하는 얼굴 특징 정보 기억부에 기억된 얼굴 특징 정보의 일 예를 나타낸 도면이다.
도 15는 본 발명의 실시예 2인 섬네일 생성 장치가 구비하는 축소율 산출부에 의한 동화상의 축소율의 산출을 설명한 도면이다. 도 15(a)는, 축소하는 동화상의 일 예를 나타내고 있고, 도 15(b)는, OSD 화면의 일 예를 나타내고 있다.

(발명을 실시하기 위한 형태)

이하, 본 발명의 실시 형태에 대해서 도면을 참조하여 설명한다.

실시예 1

본 발명의 실시예 1에서는, 촬상된 동화상에 기초하여 인물의 얼굴을 검출하는 얼굴 검출부를 갖는 비디오 카메라와, 이 비디오 카메라에 의해 생성되어 기록 매체에 기록된 AV 스트림 및 스트림 관리 정보에 기초하여, 동영상 섬네일을 생성하는 섬네일 생성 장치를 예로 들어 설명한다.

<비디오 카메라의 구성>

도 1은, 본 발명의 실시예 1인 섬네일 생성 장치로 이용하기 위한 AV 스트림 및 스트림 관리 정보를 생성하여 기록 매체에 기록하는 비디오 카메라의 구성을 나타낸 구성도이다.

비디오 카메라(101)는, 광학 렌즈(111)와, 촬상 소자(112)와, 신호 처리부(113)와, H.264 인코더(114)와, 멀티플렉서(115)와, 얼굴 검출부(116)와, 가산기(117)와, 마이크(121)와, A/D 변환부(122)와, AC3 인코더(123)와, CPU(131)를 구비하고 있다.

광학 렌즈(111)는, 축(P)을 광축으로 하여 입사하는 빛을 집광시킨다.

촬상 소자(112)는, 광학 렌즈(111)에 의해 집광된 빛을 결상시켜, 결상시킨 피사체상을 전기 신호로 변환한다.

신호 처리부(113)는, CPU(131)의 지시에 의해, 촬상 소자(112)에 의해 변환된 전기 신호에 기초하여 비디오 신호를 생성한다.

H.264 인코더(114)는, CPU(131)의 지시에 의해, 신호 처리부(113)에 의해 생성된 비디오 신호에 기초하여, 비디오 스트림 및 GOP(Group of picture) 정보를 생성한다.

A/D 변환부(122)는, CPU(131)의 지시에 의해, 마이크(121)에 의해 음이 모여진(集音) 음성을 아날로그 데이터로부터 디지털 데이터로 변환한다.

AC3 인코더(123)는, CPU(131)의 지시에 의해, A/D 변환부(122)에 의해 변환된 디지털 데이터를 인코드함으로써 오디오 스트림 및 오디오 정보를 생성한다.

멀티플렉서(115)는, CPU(131)의 지시에 의해, H.264 인코더(114)에 의해 인코드된 비디오 스트림과, AC3 인코더(123)에 의해 인코드된 오디오 스트림을, 멀티플렉스로서 AVCHD 규격에 준거한 AV 스트림을 생성하여, 생성된 AV 스트림을 기록 매체(A)에 기록한다.

얼굴 검출부(116)는, CPU(131)의 지시에 의해, 신호 처리부(113)에 의해 생성된 비디오 신호에 기초하여, 얼굴 검출을 행한다. 구체적으로는, 얼굴 검출부(116)는, 비디오 신호에 기초하여, 소정의 얼굴 검출 시간 간격으로 동화상을 샘플링하고, 샘플링한 동화상으로부터 인물의 얼굴을 검출하여, 얼굴 검출 정보로서 가산기(117)에 공급한다.

여기에서, 얼굴 검출 처리는, 처리를 고속으로 행할 수 있는 디바이스나 알고리즘을 이용하면 프레임마다 실현하는 것이 가능하다. 그러나, 프레임마다에서는, 얼굴 검출 정보의 데이터 사이즈가 쓸데없이 커져 버린다. 따라서, 얼굴 검출 시간은, 예를 들면 0.5초 정도로 설정하는 것이 바람직하다. 또한, 얼굴 검출 정보에는, 얼굴 검출된 얼굴 검출 영역의 수(0∼4, 0은 얼굴 검출 없음을 나타냄)와, 얼굴 검출된 얼굴 검출 영역마다의, 동화상의 좌상(左上)을 기준점으로 한 경우에 있어서의 얼굴 검출된 얼굴 검출 영역의 좌상의 좌표(X, Y)와, 얼굴 검출된 얼굴 검출 영역의 사이즈(폭과 높이)가 포함된다.

또한, 동화상은 연속하는 정지화상인 프레임 또는 필드로 구성되고, 본 발명은 어느 것에도 적용 가능하지만, 이후는 설명의 편의상, 정지화상을 프레임이라고 부르기로 한다.

또한, 얼굴 검출부(116)는, 검출한 인물의 얼굴의 신뢰도, 즉, 어느 정도의 확률로 인물의 얼굴인지를 나타낸 신뢰도를 산출하여, 이 신뢰도가 소정의 신뢰도 문턱값 이상인지 아닌지를 판정한다.

가산기(117)는, CPU(131)의 지시에 의해, H.264 인코더(114)로부터 공급되는 GOP 정보와, AC3 인코더(123)로부터 공급되는 오디오 정보와, 얼굴 검출부(116)로부터 공급되는 얼굴 검출 정보를 포함하는 스트림 관리 정보를 생성하여, 이 스트림 관리 정보를 기록 매체(A)에 기록한다.

CPU(131)는, 비디오 카메라(101)의 중추적인 제어를 행한다. 구체적으로는, CPU(131)는, 전술한 촬상 소자(112)와, 신호 처리부(113)와, H.264 인코더(114)와, 멀티플렉서(115)와, 얼굴 검출부(116)와, 가산기(117)와, A/D 변환부(122)와, AC3 인코더(123)를 제어한다.

<섬네일 생성 장치의 구성>

도 2는, 본 발명의 실시예 1인 섬네일 생성 장치의 구성을 나타낸 구성도이다.

도 2에 나타내는 바와 같이, 본 발명의 실시예 1인 섬네일 생성 장치(1)는, 디멀티플렉서(11)와, AC3 디코더(12)와, 스피커(13)와, H.264 디코더(14)와, 축소 확대부(15)와, 가산기(16)와, 유저 인터페이스부(17)와, OSD 생성부(18)와, CPU(20)와, 동영상 섬네일 시간 기억부(19)를 구비한다.

디멀티플렉서(11)는, CPU(20)의 지시에 의해, 기록 매체(A)에 기록된 AV 스트림을 읽어내어, 읽어낸 AV 스트림을 디멀티플렉스함으로써, 비디오 스트림과 오디오 스트림을 생성한다.

AC3 디코더(12)는, CPU(20)의 지시에 의해, 디멀티플렉서(11)로부터 공급된 오디오 스트림을 디코드함으로써, 재생 음성 데이터를 생성하여, 스피커(13)로부터 음성 출력시킨다.

H.264 디코더(14)는, CPU(20)의 지시에 의해, 디멀티플렉서(11)로부터 공급된 비디오 스트림을 디코드함으로써, 재생 동화상 데이터를 생성하여, 이 생성한 재생 동화상 데이터를 축소 확대부(15)에 공급한다.

축소 확대부(15)는, CPU(20)의 지시에 의해, H.264 디코더(14)로부터 공급된 재생 동화상 데이터를 축소 또는 확대함으로써, 동영상 섬네일로서 표시하기 위한 축소 또는 확대된 재생 동화상 데이터를 생성한다.

CPU(20)는, 섬네일 생성 장치(1)의 중추적인 제어를 행한다. 구체적으로는, CPU(20)는, 디멀티플렉서(11)와, AC3 디코더(12)와, 스피커(13)와, H.264 디코더(14)와, 축소 확대부(15)와, 가산기(16)와, 유저 인터페이스부(17)와, OSD 생성부(18)를 제어한다. 또한, CPU(20)는, 기록 매체(A)로부터 읽어낸 스트림 관리 정보를 OSD 생성부(18)에 공급한다.

OSD 생성부(18)는, CPU(20)의 지시에 의해, 공급된 스트림 관리 정보에 기초하여 OSD 화면을 표시하기 위한 OSD 화상 데이터로 생성하여, 가산기(16)에 공급한다.

가산기(16)는, CPU(20)의 지시에 의해, 축소 확대부(15)로부터 공급된 축소 또는 확대된 재생 동화상 데이터에, OSD 생성부(18)로부터 공급된 OSD 화상 데이터를 서로 겹침으로써, 합성 화상 데이터를 생성하여, 이 생성된 합성 화상 데이터를 유저 인터페이스부(17)에 표시시킨다.

유저 인터페이스부(17)는, 유기 EL(electroluminescence) 디스플레이나, 액정 디스플레이 등으로 구성되는 화상 표시부를 구비한다. 그리고, 유저 인터페이스부(17)는, 이 화상 표시부에, CPU(20)의 지시에 의해, 가산기(16)로부터 공급되는 합성 화상 데이터에 기초하여 합성 화면을 표시한다.

또한, 유저 인터페이스부(17)는, 터치 센서 등으로 구성되는 조작 버튼이나 슬라이더 등의 조작부도 구비한다. 그리고, 유저 인터페이스부(17)는, 이용자에 의해 이 조작 버튼이나 슬라이더가 조작되면, 그 조작에 따른 조작 신호를 생성하여, 생성한 조작 신호를 CPU(20)로 공급한다.

동영상 섬네일 시간 기억부(19)는, 동화상의 재생 시간과, 이 재생 시간에 따른 동영상 섬네일의 재생 시간을 관련지어 기억한다. 이 관련지음에 대해서는 후술한다.

도 3은, 본 발명의 실시예 1인 섬네일 생성 장치(1)가 구비하는 유저 인터페이스부(17)의 외관과, 이 유저 인터페이스부(17)의 화상 표시부에 표시되는 화면의 일 예를 나타낸 도면이다.

도 3에 나타내는 바와 같이, 유저 인터페이스부(17)는, 화상 표시부(17g)와, 조작 버튼(17b)과, 슬라이더(17c)를 포함하여 구성된다.

화상 표시부(17g)에는, OSD 화상 데이터에 기초하여 생성된 정지화 섬네일을 포함하는 OSD 화면과, 축소 확대부(15)에 의해 축소 또는 확대된 재생 동화상 데이터에 기초하여 생성된 동영상 섬네일이 서로 겹쳐져, 합성 화면으로서 표시된다.

화상 표시부(17g)에 표시되는 OSD 화면에는, 섬네일 표시 영역(17d)과, 조작 가이드 표시 영역(17e)과, 페이지 표시 영역(17f)이 영역 분할되어 표시되어 있다.

섬네일 표시 영역(17d)은, 정지화 섬네일과 동영상 섬네일이 표시된다. 이 표시 방법에 대해서는 후술한다.

조작 가이드 표시 영역(17e)에는, 조작 버튼(17b)에 할당한 기능을 유저에게 나타내기 위한 아이콘 등을 표시한다.

페이지 표시 영역(17f)에는, 현재, 섬네일 표시 영역(17d)에 표시된 정지화 섬네일 일람의 페이지를 표시한다. 예를 들면, 8/9라고 표시되어 있는 경우, 전부 9페이지가 있으며, 현재 8 페이지째를 표시하고 있는 것을 나타낸다.

조작 버튼(17b)은, 도 3의 예에서는, 5개 배치되어 있다. 배치된 5개의 조작 버튼 중, 좌단(左端)의 조작 버튼은, 동영상 섬네일의 선택 확정을 요구하는 조작 신호를 생성하기 위한 OK 버튼, 우단(右端)의 조작 버튼은, 메뉴의 표시를 요구하는 조작 신호를 생성하기 위한 메뉴 버튼이다. 또한, 이들 조작 버튼의 사이의 3개의 조작 버튼에는 고정의 기능이 할당되어 있지 않고, CPU(20)가, 유저 조작의 천이에 따라서 여러 가지의 기능을 할당한다. 그리고, 각 조작 버튼에 할당한 기능을 유저에게 나타내기 위해, 상기한 조작 가이드 표시 영역(17e)을 이용한다. 도 3의 예에서는, 좌측의 조작 버튼에 다이제스트 재생의 기능이 할당되어 있고, 중앙의 조작 버튼에 줌 재생의 기능이 할당되어 있고, 우측의 조작 버튼에 휴지통의 기능이 할당되어 있다.

슬라이더(17c)는, 후술하는 동영상 섬네일을 표시시키기 위한 표시 영역인 하이라이트 틀(17k)을 슬라이드하기 위한 것이다. 이용자가 이 슬라이더(17c)를 아래로 옮기는 조작을 행하면 하이라이트 틀(17k)이 왼쪽에서 오른쪽으로 이동하고, 위로 옮기는 조작을 행하면, 하이라이트 틀(17k)은 오른쪽에서 왼쪽으로 이동한다.

도 4는, 동영상 섬네일을 정지화 섬네일과 함께 일람 표시하는 방법을 설명한 도면이다.

도 4(a)에 나타내는 바와 같이, 동영상 섬네일을 정지화 섬네일과 함께 일람표시하는 경우, 동영상 재생 화면(17h)과 OSD 화면(17a)이 이용된다.

우선, 도 4(b)에 나타내는 바와 같이, CPU(20)는, OSD 화면(17a) 상에 섬네일 표시 영역(17d)을 표시한다. 이 섬네일 표시 영역(17d)에는, 정지화 섬네일이 일람 표시되어 있다. 여기에서 정지화 섬네일은, 예를 들면, 각 동화상의 임의의 위치의 I 프레임을 추출하여 디코드하고, 그 디코드한 화상을 축소 또는 확대함으로써 생성된다.

도 4(b)에 있어서 섬네일 표시 영역(17d) 내의 좌상의 정지화 섬네일 상에 표시되어 있는 하이라이트 틀(17k)은, 이용자에 의한 슬라이더(17c)의 조작에 의해, 섬네일 표시 영역(17d)에 일람 표시된 정지화 섬네일 중의 어느 하나가 선택되도록 이동한다.

그리고, 정지화 섬네일 중으로부터 어느 하나가 선택된 후, 예를 들면 0.5초 경과하면, CPU(20)는, 하이라이트 틀(17k)에 의해 둘러싸인 정지화 섬네일을 소거하여, 하이라이트 틀(17k) 내를 투과 화면으로 한다.

한편, CPU(20)는, 축소 확대부(15)에 의해, 재생 동화상 데이터를, 하이라이트 틀(17k)과 동등한 사이즈로 축소 또는 확대함과 함께, 표시 위치를 이 하이라이트 틀에 맞춘 동영상 섬네일(17j)을 생성하여, 동영상 재생 화면(17h)으로서 표시한다.

그리고, 도 4(c)에 나타내는 바와 같이, CPU(20)는, 가산기(16)에 의해, OSD 화면(17a)의 배면(背面)에 동영상 재생 화면(17h)을 서로 겹쳐, 합성 화면을 생성한다. 이와 같이 함으로써, OSD 화면(17a) 중, 투과 화면이 된 하이라이트 틀(17k) 내에 배면의 동영상 재생 화면(17h) 내의 동영상 섬네일(17j)이 표시되게 된다.

도 5는, 본 발명의 실시예 1인 섬네일 생성 장치(1)가 구비하는 동영상 섬네일 시간 기억부(19)에 기억된 동영상 섬네일 시간 정보의 일 예를 나타낸 도면이다.

도 5에 나타내는 바와 같이, 컬럼명 “동화상의 재생 시간”(부호 101)과, 컬럼명 “동영상 섬네일의 재생 시간”(부호 102)과, 컬럼명 “동영상 섬네일 재생 구간 수”(부호 103)가 관련지어져, 동영상 섬네일 시간 정보로서 기억되어 있다. 또한, 동영상 섬네일의 재생 시간(102)은, 후술하는 단위 구분 시간에 동영상 섬네일 재생 구간 수(103)를 곱셈함으로써 산출된다.

또한, CPU(20)는, 그 기능상, 동화상 추출부(20a)와, 축소 확대율 산출부(20b)와, 섬네일 구간 결정부(20d)를 구비한다.

동화상 추출부(20a)는, 동화상의 제1 소정 기간 내에 있어서, 후술하는 제1 소정 기간보다도 짧은 제2 소정 기간마다, 동화상을 구성하는 각 화상을 추출한다.

섬네일 구간 결정부(20d)는, 동화상 추출부(20a)에 의해 추출된 각 화상 중, 인물의 얼굴의 영역이 존재하는 화상이 연속하는 수에 기초하여, 제1 소정 기간을 하나 이상 결정한다.

축소 확대율 산출부(20b)는, 추출된 각 화상에 포함되는 인물의 얼굴의 영역을 적분하고, 이 적분된 얼굴의 영역을 둘러싸도록 얼굴 표시 영역을 결정하고, 이 결정된 얼굴 표시 영역의 사이즈가, 미리 동영상 섬네일을 표시하기 위해 정해진 소정의 표시 영역의 사이즈와 대략 동일해지도록, 동화상의 축소 확대율을 산출한다.

또한, 축소 확대율 산출부(20b)는, 결정된 대상 얼굴 영역의 면적에 대한 얼굴 검출 영역의 합계 면적이 소정의 문턱값보다 작은 경우에, 중심에 가깝고 그리고 면적이 큰 얼굴 검출 영역을 대표 영역으로 하여, 이 대표 영역의 사이즈가 동영상 섬네일의 사이즈와 대략 동일해지도록, 상기 동화상의 축소 확대율을 산출한다.

<비디오 카메라(101)가 구비하는 얼굴 검출부(116)의 작용>

다음으로, 비디오 카메라(101)가 구비하는 얼굴 검출부(116)가 실행하는 얼굴 검출 처리에 대해서 설명한다.

도 6은, 비디오 카메라(101)가 구비하는 얼굴 검출부(116)에 있어서의 얼굴 검출 처리를 나타낸 플로우 차트이다.

도 6에 나타내는 바와 같이, 얼굴 검출부(116)는, 비디오 신호에 기초하여, 얼굴 검출 시간(제2 소정 기간: 여기에서는, 예를 들면 0.5초로 함)마다, 동화상을 구성하는 프레임을 샘플링하고, 샘플링한 프레임으로부터 인물의 얼굴을 검출함과 함께, 얼굴 검출된 얼굴 검출 영역(얼굴의 영역)의 가수(假數) Np를 생성한다(스텝 S201).

다음으로, 얼굴 검출부(116)는, 얼굴 검출된 얼굴 검출 영역의 카운터 i의 값에 초기값으로서 “1”을 대입함과 함께, 유효 얼굴 수 M에 초기값으로서 “0”을 대입한다(스텝 S202).

그리고, 얼굴 검출부(116)는, 얼굴 검출된 얼굴 검출 영역의 가수 Np 중 제i번째로 얼굴 검출된 얼굴 검출 영역의 신뢰도를 산출하여, 이 신뢰도가 소정의 신뢰도 문턱값 이상인지 아닌지를 판정한다(스텝 S203). 여기에서, 신뢰도란, 얼굴 검출된 얼굴이 어느 정도의 확률로 인물의 얼굴인지를 나타내고 있다.

스텝 S203에 있어서, 제i번째의 얼굴 검출 영역의 신뢰도가 소정의 신뢰도 문턱값 미만이라고 판정된 경우(NO의 경우), 얼굴 검출부(116)는, 제i번째의 얼굴 검출 영역을 삭제한다(스텝 S204).

한편, 스텝 S203에 있어서, 제i번째의 얼굴 검출 영역의 신뢰도가 소정의 신뢰도 문턱값 이상이라고 판정된 경우(YES의 경우), 얼굴 검출부(116)는, 유효 얼굴 수 M의 값을 “1”만큼 가산한다(스텝 S205).

다음으로, 얼굴 검출부(116)는, 카운터 i의 값이 얼굴 검출된 얼굴 검출 영역의 가수 Np를 초과하고 있는지 아닌지를 판정한다(스텝 S206).

스텝 S206에 있어서, 카운터 i의 값이 얼굴 검출된 얼굴 검출 영역의 가수 Np를 초과하고 있다고 판정된 경우(YES의 경우), 얼굴 검출부(116)는, 유효 얼굴 수 M이 최대 얼굴 수 Mmax를 초과하고 있는지 아닌지를 판정한다(스텝 S207). 여기에서, 최대 얼굴 수 Mmax는, 예를 들면 “4”와 같이, 미리 제공자 등이 실측에 기초한 적정한 값을 미리 산출하여, 제공자나 이용자 등이 미리 적정한 값을 설정해 둘 필요가 있다.

스텝 S207에 있어서, 유효 얼굴 수 M이 최대 얼굴 수 Mmax 이하라고 판정된 경우(NO의 경우), 얼굴 검출부(116)는, 유효 얼굴 수 M의 값을, 얼굴 평가 수 Mval에 대입한다(스텝 S208).

한편, 스텝 S207에 있어서, 유효 얼굴 수 M이 최대 얼굴 수 Mmax를 초과하고 있다고 판정된 경우(YES의 경우), 얼굴 검출부(116)는, 유효 얼굴 수 M개분의 얼굴 검출 영역의 면적을 산출한다(스텝 S208).

다음으로, 얼굴 검출부(116)는, 유효 얼굴 수 M개분의 얼굴 검출 영역을, 스텝 S208에 있어서 산출된 얼굴 검출 영역의 면적이 큰 순서대로 소트한다(스텝 S209).

그리고, 얼굴 검출부(116)는, 스텝 S209에 있어서 소트된 유효 얼굴 수 M개분의 얼굴 검출 영역으로부터, Mmax개만큼 선두로부터 선택한다(스텝 S210).

추가로, 얼굴 검출부(116)는, Mmax의 값을, 얼굴 평가 수 Mval에 대입한다(스텝 S211).

다음으로, 얼굴 검출부(116)는, 얼굴 검출 정보를 생성한다(스텝 S212). 구체적으로는, 얼굴 검출부(116)는, 얼굴 평가 수 Mval의 값을, 얼굴 검출된 얼굴 검출 영역의 수 N에 대입하고, 이 얼굴 검출된 얼굴 검출 영역의 수 N과, N개분의 얼굴 검출 영역의 좌표(X, Y) 및 사이즈(폭과 높이)를 포함하는 얼굴 검출 정보를 생성하여, 이 생성된 얼굴 검출 정보를 가산기(117)로 공급한다.

이상과 같이, 본 발명의 실시예 1인 비디오 카메라(101)가 구비하는 얼굴 검출부(116)에 의하면, 얼굴 검출 처리를 실행함으로써, 얼굴 검출부(116)가, 신호 처리부(113)에 의해 생성된 비디오 신호에 기초하여, 얼굴 검출 시간 간격으로 동화상(프레임)을 샘플링하고, 샘플링한 동화상(프레임)으로부터 인물의 얼굴을 검출하여, 얼굴 검출 정보로서 가산기(117)에 공급하기 때문에, 후술하는 바와 같이, 섬네일 생성 장치(1)가, 이 얼굴 검출 정보에 기초하여, 동영상 섬네일을 생성할 수 있다.

<섬네일 생성 장치(1)의 작용>

다음으로, 본 발명의 실시예 1인 섬네일 생성 장치(1)의 작용에 대해서 설명한다.

본 발명의 실시예 1인 섬네일 생성 장치(1)는, 주로 동화상 추출 처리 및 동영상 섬네일 표시 처리를 순서대로 실행한다. 그 때문에, 각각의 처리에 대해서 이하에 상세하게 설명한다.

《동화상 추출 처리》

본 발명의 실시예 1인 섬네일 생성 장치(1)의 동화상 추출 처리의 상세에 대해서 설명한다.

도 7은, 본 발명의 실시예 1인 섬네일 생성 장치(1)에 있어서의 동화상 추출 처리를 나타낸 플로우 차트이다.

우선, CPU(20)의 동화상 추출부(20a)는, 유저 인터페이스부(17)로부터의 조작 신호에 기초하여, 정지화 섬네일 중으로부터 어느 하나가 선택된 후, 소정 시간(예를 들면 0.5초) 경과했다고 판단한 경우(스텝 S101), 섬네일 구간 결정부(20d)는, 기록 매체(A)로부터 읽어낸 스트림 관리 정보의 얼굴 검출 정보에 포함되는 얼굴 검출된 얼굴 검출 영역(얼굴의 영역)의 수 N에 기초하여, 소정의 단위 구분 시간(여기에서는, 5초로 함) 이상 연속한 「얼굴 있음 구간」으로부터, 「단위 구분 시간의 얼굴 있음 구간(제1 소정 기간)」을 결정한다(스텝 S102).

여기에서, 단위 구분 시간은, 너무 길면, 후술하는 얼굴 영역의 적분 시간이 길어지기 때문에, 동영상 섬네일의 효과적인 확대 표시를 할 수 없게 되고, 너무 짧으면, 동영상 섬네일의 화상이 단시간에 스킵(skip)되기 때문에, 이용자에게 있어서, 내용을 파악하기 어려워진다. 그 때문에, 예를 들면 5초와 같이, 미리 제공자 등이 실측에 기초한 적정한 값을 미리 산출하여, 제공자나 이용자 등이 미리 적정한 값을 설정해 둘 필요가 있다.

도 8은, 본 발명의 실시예 1인 섬네일 생성 장치(1)의 섬네일 구간 결정부(20d)가 「단위 구분 시간의 얼굴 있음 구간」을 결정하고, 동화상 추출부(20a)가 「단위 구분 시간의 얼굴 있음 구간」을 추출하는 처리를 설명한 도면이다.

도 8에 나타내는 바와 같이, 기록 매체(A)로부터 읽어낸 스트림 관리 정보에는, 얼굴 검출 시간 간격(0.5초)마다의 얼굴 검출 정보가 포함되어 있고, 이 얼굴 검출 정보에는, 얼굴 검출된 얼굴 검출 영역의 수 N이 포함되어 있다.

섬네일 구간 결정부(20d)는, 얼굴 검출된 얼굴 검출 영역의 수 N이 “0”인 구간이, 4를 초과하여 연속하는 구간, 즉 2초를 초과하여 얼굴 검출되지 않은 구간을 「얼굴 없음 구간」이라고 하고, 그 외의 구간을 「얼굴 있음 구간」이라고 한다.

도 8에 나타낸 예에서는, 2초를 초과하여 얼굴 검출되지 않은 구간(205)은, 「얼굴 없음 구간」이 되고, 얼굴 검출되지 않은 것이 2초 이하인 구간(206)은, 「얼굴 있음 구간」이 된다.

그리고, 동화상 추출부(20a)는, 이 「얼굴 있음 구간」 중으로부터, 단위 구분 시간분의 얼굴 있음 구간(207, 208)을 추출한다. 여기에서, 동화상 추출부(20a)에 의해 추출된 「단위 구분 시간분의 얼굴 있음 구간」의 총수를 추출 구간 수 S라고 한다.

다음으로, 동화상 추출부(20a)는, 스트림 관리 정보에 포함되는 동화상의 재생 시간과, 동영상 섬네일 시간 기억부(19)에 기억된 동영상 섬네일 시간 정보에 기초하여, 추출 구간 수 S가, 동영상 섬네일 재생 구간 수(103) 미만인지 아닌지를 판정한다(스텝 S104). 구체적으로는, 동화상 추출부(20a)는, 도 5에 나타내는 동영상 섬네일 시간 기억부(19)에 기억된 동영상 섬네일 시간 정보에 기초하여, 스트림 관리 정보에 포함되는 동화상의 재생 시간에 따른 동영상 섬네일 재생 구간 수(103)를 결정하여, 추출 구간 수 S가, 이 결정된 동영상 섬네일 재생 구간 수(103) 미만인지 아닌지를 판정한다.

스텝 S104에 있어서, 추출 구간 수 S가 동영상 섬네일 재생 구간 수(103) 미만이라고 판정된 경우(YES의 경우), 동화상 추출부(20a)는, 추출이 끝난 「단위 구분 시간의 얼굴 있음 구간」을 제외하고, 단위 구분 시간 미만인 「얼굴 있음 구간」이 있는지 없는지를 판정한다(스텝 S105).

스텝 S105에 있어서, 추출이 끝난 「단위 구분 시간의 얼굴 있음 구간」을 제외하고 단위 구분 시간 미만인 「얼굴 있음 구간」이 있다고 판정된 경우(YES의 경우), 동화상 추출부(20a)는, 추출이 끝난 「단위 구분 시간의 얼굴 있음 구간」을 제외하고, 동화상의 선두로부터 「얼굴 있음 구간」을 부족 수만큼 추출한다(스텝 S106).

그리고, 동화상 추출부(20a)는, 스텝 S106에 있어서 추출된 구간의 수를 추출 구간 수 S에 가산하여, 확정 추출 구간 수 Sf로 한다(스텝 S107).

스텝 S105에 있어서, 추출이 끝난 「단위 구분 시간의 얼굴 있음 구간」을 제외하고 단위 구분 시간 미만인 「얼굴 있음 구간」이 없다고 판정된 경우(NO의 경우), 동화상 추출부(20a)는, 확정 추출 구간 수 Sf에 추출 구간 수 S를 대입한다(스텝 S120).

한편, 스텝 S104에 있어서, 추출 구간 수 S가 동영상 섬네일 재생 구간 수(103) 이상이라고 판정된 경우(NO의 경우), 동화상 추출부(20a)는, 추출 구간 수 S가 동영상 섬네일 재생 구간 수(103)와 동일한지 아닌지를 판정한다(스텝 S108).

스텝 S108에 있어서, 추출 구간 수 S가 동영상 섬네일 재생 구간 수(103)와 동일하다고 판정된 경우(YES의 경우), 동화상 추출부(20a)는, 확정 추출 구간 수 Sf에 추출 구간 수 S를 대입한다(스텝 S109).

한편, 스텝 S108에 있어서, 추출 구간 수 S가 동영상 섬네일 재생 구간 수(103)와 동일하지 않다고 판정된 경우(NO의 경우), 동화상 추출부(20a)는, 얼굴 검출 정보에 포함되는 얼굴 검출 영역의 사이즈(폭과 높이)에 기초하여, 「단위 구분 시간의 얼굴 있음 구간」마다, 얼굴 검출 영역의 면적의 평균값을 산출한다(스텝 S110).

다음으로, 동화상 추출부(20a)는, 추출된 「단위 구분 시간의 얼굴 있음 구간」을, 스텝 S110에 있어서 산출된 얼굴 검출 영역의 면적의 평균값이 큰 순서대로 소트한다(스텝 S111).

그리고, 동화상 추출부(20a)는, 스텝 S111에 있어서 소트된 「단위 구분 시간의 얼굴 있음 구간」으로부터, 동영상 섬네일 재생 구간 수(103)분만큼 선두로부터 선택한다(스텝 S112).

다음으로, 동화상 추출부(20a)는, 확정 추출 구간 수 Sf에 동영상 섬네일 재생 구간 수(103)를 대입한다(스텝 S113).

이와 같이, 「단위 구분 시간의 얼굴 있음 구간」 중, 얼굴 검출 영역의 면적의 평균치가 높은 구간으로부터 우선하여 선택되기 때문에, 인물의 얼굴이 크게 촬영되어 있는 구간이 우선적으로 선택된다.

이상과 같이, 본 발명의 실시예 1인 섬네일 생성 장치(1)는, 동화상 추출 처리를 실행함으로써, 동화상 추출부(20a)가, 동화상의 재생 시간과 얼굴 검출 시간 간격마다 얼굴 검출된 얼굴 검출 영역의 수와, 얼굴 검출된 얼굴 검출 영역의 사이즈(폭과 높이)에 기초하여, 소정 시간 연속하여 얼굴 검출되지 않았던 프레임을 제외한 동화상으로부터, 동화상의 재생 시간을 초과하지 않는, 동영상 섬네일의 재생 시간분의 동화상(프레임)을 추출할 수 있다.

이에 따라, 선택된 정지화 섬네일에 대응하는 동영상 섬네일을 생성하기 위해, 기록 매체(A)에 기록된 동화상을 구성하는 프레임 중, 적절한 구간분의 프레임을 추출할 수 있다.

《동영상 섬네일 생성 및 표시 처리》

본 발명의 실시예 1인 섬네일 생성 장치(1)의 동영상 섬네일 생성 및 표시 처리의 상세에 대해서 설명한다.

도 9는, 본 발명의 실시예 1인 섬네일 생성 장치(1)에 있어서의 동영상 섬네일 생성 및 표시 처리를 나타낸 플로우 차트이다.

우선, CPU(20)의 축소 확대율 산출부(20b)는, 구간의 카운터 k의 값에 초기값으로서 “0”을 대입하고(스텝 S301), 얼굴 검출 영역의 카운터 j의 값에 초기값으로서 “1”을 대입한다(스텝 S302).

다음으로, CPU(20)의 축소 확대율 산출부(20b)는, 확정 추출 구간 수 Sf분만큼 추출된 「얼굴 있음 구간」 중, 제k 구간에 있어서, 얼굴 검출 정보에 포함되는 얼굴 검출 영역의 사이즈(폭과 높이)에 기초하여, 얼굴 검출 영역(얼굴의 영역)의 면적의 총합 B를 산출한다(스텝 S303).

다음으로, CPU(20)의 축소 확대율 산출부(20b)는, 제k 구간에 있어서, 얼굴 검출 정보에 포함되는 얼굴 검출 영역의 좌상의 좌표(X, Y)와, 얼굴 검출 영역의 사이즈(폭과 높이)에 기초하여, 얼굴 검출 영역을 둘러싸는 동화상과 동일한 애스펙트비(aspect ratio)(16:9)의 직사각형 영역(얼굴 표시 영역)의 면적 A를 산출한다(스텝 S304).

도 10은, 본 발명의 실시예 1인 섬네일 생성 장치(1)가 구비하는 CPU(20)의 축소 확대율 산출부(20b)에 의한 얼굴 검출 영역을 둘러싸는 애스펙트비(16:9)의 직사각형 영역의 면적 A의 산출을 설명한 도면이다. 도 10(a)는, 어느 구간 내에 있어서의 t1 시점에서 t5 시점까지에 있어서의 얼굴 검출 영역을 나타내고 있고, 도 10(b)는, 도 10(a)에 나타낸 얼굴 검출 영역을 적분한 경우에 있어서의 프레임의 도면이고, 도 10(c)는, 얼굴 검출 영역이 프레임 내에서 분산되어 있는 경우의 도면이고, 도 10(d)는, 얼굴 검출 영역이 프레임 내에서 밀집되어 있는 경우의 도면이다.

도 10(a)에 나타내는 바와 같이, t1 시점∼t5 시점에 있어서, 시간의 경과와 함께, 검출된 얼굴 검출 영역(301∼305)의 위치가 조금씩 이동하고 있다.

그리고, 이들 얼굴 검출 영역(301∼305)을 적분하면, 도 10(b)에 나타내는 바와 같이, 적분 얼굴 검출 영역(401)이 된다.

축소 확대율 산출부(20b)는, 이 적분 얼굴 검출 영역(401)을 둘러싸는 애스펙트비(16:9)의 직사각형 영역(402)의 면적 A를 산출한다.

축소 확대율 산출부(20b)는, 이와 같이 하여 직사각형 영역의 면적 A를 산출하기 때문에, 얼굴 검출 영역(301∼305)이 프레임 내에서 분산되어 있던 경우, 도 10(c)에 나타내는 바와 같이, 직사각형 영역(403)의 면적 A는 커지고, 얼굴 검출 영역(301∼305)이 프레임 내에서 밀집되어 있던 경우, 도 10(d)에 나타내는 바와 같이, 직사각형 영역(404)의 면적 A는 작아진다.

다음으로, CPU(20)의 축소 확대율 산출부(20b)는, 스텝 S304에 있어서 산출된 직사각형 영역의 면적 A에 대한 스텝 S303에 있어서 산출된 얼굴 검출 영역의 면적의 총합 B가 소정의 문턱값 R보다 작은지 아닌지를 판정한다(스텝 S305).

여기에서, 이 문턱값 R은, 너무 작으면, 후술하는 바와 같이, 직사각형 영역의 면적 A가 커도, 직사각형 영역의 면적이 동영상 섬네일의 면적과 동일해지도록, 동화상의 축소 확대율을 산출하기 때문에, 동영상 섬네일의 효과적인 확대 표시를 할 수 없게 된다. 또한, 문턱값 R은, 너무 크면, 직사각형 영역의 면적 A가 작아, 복수의 얼굴 검출 영역 각각이 확대되도록 하고 싶은 경우에도, 평가점 P가 최대의 하나의 얼굴 검출 영역만을 확대하도록, 동화상의 축소 확대율을 산출해 버리기 때문에, 이 경우도 동영상 섬네일의 효과적인 확대 표시를 할 수 없게 된다.

스텝 S305에 있어서, 직사각형 영역의 면적 A에 대한 얼굴 검출 영역의 면적의 총합 B가 소정의 문턱값 R 이상이라고 판정된 경우(NO의 경우), 축소 확대율 산출부(20b)는, 직사각형 영역의 사이즈(폭과 높이)가 동영상 섬네일의 사이즈(폭과 높이)와 동일해지도록, 동화상의 축소 확대율을 산출한다(스텝 S306).

도 11은, 본 발명의 실시예 1인 섬네일 생성 장치(1)가 구비하는 축소 확대율 산출부(20b)에 의한 동화상의 축소 확대율의 산출을 설명한 도면이다. 도 11(a)는, 축소 확대하는 동화상의 프레임의 일 예를 나타내고 있고, 도 11(b)는, OSD 화면(17a)의 일 예를 나타내고 있다.

도 11(a)에 나타내는 바와 같이, 동화상의 프레임의 사이즈가 X×Y(애스펙트비 16:9), 직사각형 영역(501)의 사이즈가 X2×Y2(애스펙트비 16:9)이고, 도 11(b)에 나타내는 바와 같이, OSD 화면(17a)의 동영상 섬네일의 사이즈, 즉 하이라이트 틀(17k)의 사이즈가 X1×Y1(애스펙트비 16:9)이라고 한다.

이 경우, 축소 확대율 산출부(20b)는, 직사각형 영역(501)의 사이즈가 하이라이트 틀(17k)의 사이즈와 동일해지도록, 동화상의 축소 확대율을 산출한다. 즉 축소 확대율을 Q로 하면, 하기의 (수식 1)을 이용하여 축소 확대율 Q를 산출한다.

Q＝(X1/X)×(X1/X2)…(수식 1)

또한, (X1/X2)의 X2의 값은, 도 11(a)에 나타낸 오리지널의 동화상의 프레임 중의 X2의 크기가 아니라, 도 11(b)에 나타낸 동영상 섬네일에 맞춰진 동화상의 프레임 중의 X2의 크기를 나타내고 있다. 이와 같이, 축소 확대율 산출부(20b)는, 직사각형 영역(501)의 사이즈가 하이라이트 틀(17k)의 사이즈와 동일해지도록, 동화상의 축소 확대율을 산출하기 때문에, (X1/X)보다도 (X1/X2)가 큰 경우, 동영상 섬네일로서는 확대되어 표시되어 있는 것처럼 보이지만, 실제로는, 이 동영상 섬네일의 화상은 원래 동화상으로부터 축소 또는 확대되어 표시되게 된다.

한편, 도 9에 있어서의 스텝 S305에 있어서, 직사각형 영역의 면적 A에 대한 얼굴 검출 영역의 면적의 총합 B가 소정의 문턱값 R 미만이라고 판정된 경우(YES의 경우), 축소 확대율 산출부(20b)는, 제k 구간에 있어서, N개의 얼굴 검출된 얼굴 검출 영역 중 제j 번째의 얼굴 검출 영역의 평가점 P(j)를, 하기의 (수식 2)를 이용하여 산출한다(스텝 S307).

P(j)＝제j 번째의 얼굴 검출 영역의 면적―(화면의 중앙에서 제j 번째의 얼굴 검출 영역의 중앙까지의 길이)2×0.2…(수식 2)

그리고, 축소 확대율 산출부(20b)는, 카운터 j의 값을 “1”만큼 가산한 후(스텝 S308), 카운터 j의 값이, 얼굴 검출된 얼굴 검출 영역의 수 N을 초과하는지 아닌지를 판정한다(스텝 S309).

스텝 S309에 있어서, 카운터 j의 값이 얼굴 검출된 얼굴 검출 영역의 수 N을 초과했다고 판정된 경우(YES의 경우), 축소 확대율 산출부(20b)는, N개의 얼굴 검출된 얼굴 검출 영역 중, 화면의 중심에 가깝고 그리고 면적이 큰 얼굴 검출 영역, 즉, 평가점 P의 값이 가장 높은 얼굴 검출 영역을 대표 영역으로서 선택한다(스텝 S310).

다음으로, 축소 확대율 산출부(20b)는, 스텝 S310에 있어서 선택된 대표 영역의 사이즈(폭과 높이)가 동영상 섬네일의 사이즈(폭과 높이)와 대략 동일해지도록, 동화상의 축소 확대율을 산출한다(스텝 S311).

도 12는, 본 발명의 실시예 1인 섬네일 생성 장치(1)가 구비하는 축소 확대율 산출부(20b)에 의한 동화상의 축소 확대율의 산출을 설명한 도면이다. 도 12(a)는, 축소 또는 확대하는 동화상의 프레임의 일 예를 나타내고 있고, 도 12(b)는, OSD 화면(17a)의 일 예를 나타내고 있다.

도 12(a)에 나타내는 바와 같이, 동화상의 프레임의 사이즈가 X×Y(애스펙트비 16:9), 대표 영역(502)의 사이즈가 X3×Y3(애스펙트비 16:9)이고, 도 12(b)에 나타내는 바와 같이, OSD 화면(17a)의 동영상 섬네일의 사이즈, 즉 하이라이트 틀(17k)의 사이즈가 X1×Y1(애스펙트비 16:9)이라고 한다.

이 경우, 축소 확대율 산출부(20b)는, 대표 영역(502)의 사이즈가 하이라이트 틀(17k)의 사이즈와 동일해지도록, 동화상의 축소 확대율을 산출한다. 즉 축소 확대율을 Q로 하면, 전술한 (수식 1)을 이용하여, X2, Y2를 각각 X3, Y3으로 치환함으로써 축소 확대율 Q를 산출한다.

이와 같이, 축소 확대율 산출부(20b)가, 스텝 S310에 있어서 선택된 대표 영역의 사이즈(폭과 높이)가 동영상 섬네일의 사이즈(폭과 높이)와 대략 동일해지도록, 동화상의 축소 확대율을 산출하기 때문에, 인물의 얼굴이 확대되기 쉬워져, 이용자는 동화상의 내용을 파악하기 쉬워진다.

다음으로, 축소 확대부(15)는, 축소 확대율 산출부(20b)에 의해 산출된 축소 확대율에 기초하여, 동화상을 축소 또는 확대하여, 동영상 섬네일을 생성한다(스텝 S312).

이에 따라, 이 생성한 동영상 섬네일을 포함하는 재생 화상 데이터가 공급된 가산기(16)는, OSD 화상 데이터에 기초하여, 동영상 재생 화면의 위에 OSD 화면이 겹치도록, 2개의 화면을 합성하여, 이 합성된 화면을 유저 인터페이스부(17)에 표시시킨다.

다음으로, CPU(20)의 축소 확대율 산출부(20b)는, 카운터 k의 값을 “1”만큼 가산한 후(스텝 S313), 카운터 k가 확정 추출 구간 수 Sf 이상인지 아닌지를 판정하여(스텝 S314), 카운터 k가 확정 추출 구간 수 Sf 이상이 될 때까지, 스텝 S303∼S314의 처리를 반복하여 실행한다.

이상과 같이, 본 발명의 실시예 1인 섬네일 생성 장치(1)에 의하면, 이용자에게 있어서 동화상의 내용이 파악하기 쉬운 동영상 섬네일을 생성하여, 표시할 수 있다.

또한, 본 발명의 실시예 1에서는, 비디오 카메라(101)로부터 기록매체(A)를 통하여, 검출된 인물의 얼굴에 관한 얼굴 검출 정보가 공급되고, 공급된 얼굴 검출 정보에 기초하여, 동영상 섬네일을 생성하는 섬네일 생성 장치를 예로 들어 설명했지만, 이것에 한정하지 않고, 비디오 카메라(101)와 네트워크를 통하여 접속되고, 이 네트워크를 통하여 비디오 카메라(101)로부터 검출된 인물의 얼굴에 관한 얼굴 검출 정보가 공급되고, 공급된 얼굴 검출 정보에 기초하여, 동영상 섬네일을 생성하도록 해도 좋다.

실시예 2

본 발명의 실시예 1에서는, 촬상된 동화상에 기초하여 인물의 얼굴을 검출하는 얼굴 검출 장치가 적용된 비디오 카메라(101)에 의해, 기록 매체(A)를 통하여, 검출된 인물의 얼굴에 관한 얼굴 검출 정보가 공급되고, 공급된 얼굴 검출 정보에 기초하여, 동화상을 축소 또는 확대하여 동영상 섬네일을 생성하는 섬네일 생성 장치를 예로 들어 설명했지만, 추가로, 등록된 얼굴 특징 정보에 기초하여, 동화상을 축소 또는 확대하여 동영상 섬네일을 생성하도록 해도 좋다.

그래서, 본 발명의 실시예 2에서는, 촬상된 동화상에 기초하여 인물의 얼굴을 검출하는 얼굴 검출 장치가 적용된 비디오 카메라(101)에 의해, 기록 매체(A)를 통하여, 검출된 인물의 얼굴에 관한 얼굴 검출 정보가 공급되고, 공급된 얼굴 검출 정보와 얼굴 특징 정보에 기초하여, 동화상을 축소 또는 확대하여 동영상 섬네일을 생성하는 섬네일 생성 장치를 예로 들어 설명한다.

<비디오 카메라(101)의 구성>

본 발명의 실시예 2인 섬네일 생성 장치에 공급하기 위한 AV 스트림 및 스트림 관리 정보를 기록 매체(A)에 기록하는 비디오 카메라(101)의 구성은, 본 발명의 실시예 1인 섬네일 생성 장치(1)에 공급하기 위한 AV 스트림 및 스트림 관리 정보를 기록 매체(A)에 기록하는 비디오 카메라(101)와 동일 구성을 갖기 때문에, 설명을 생략한다.

<섬네일 생성 장치의 구성>

도 13은, 본 발명의 실시예 2인 섬네일 생성 장치(1A)의 구성을 나타낸 구성도이다.

도 13에 나타내는 바와 같이, 본 발명의 실시예 2인 섬네일 생성 장치(1A)는, 디멀티플렉서(11)와, AC3 디코더(12)와, 스피커(13)와, H.264 디코더(14)와, 축소 확대부(15)와, 가산기(16)와, 유저 인터페이스부(17)와, OSD 생성부(18)와, CPU(20A)와, 동영상 섬네일 시간 기억부(19)와, 얼굴 특징 정보 기억부(21)를 구비한다.

이 중, 디멀티플렉서(11)와, AC3 디코더(12)와, 스피커(13)와, H.264 디코더(14)와, 축소 확대부(15)와, 가산기(16)와, 유저 인터페이스부(17)와, OSD 생성부(18)와, 동영상 섬네일 시간 기억부(19)는, 본 발명의 실시예 1인 섬네일 생성 장치(1)가 구비하는 각각 동일 부호가 붙여진 구성과 동일하기 때문에, 설명을 생략한다.

얼굴 특징 정보 기억부(21)는, 인물을 한번에 식별하는 인물 ID와, 얼굴의 특징 정보를 관련지어 얼굴 특징 정보로서 기억한다.

도 14는, 본 발명의 실시예 2인 섬네일 생성 장치(1A)가 구비하는 얼굴 특징 정보 기억부(21)에 기억된 얼굴 특징 정보의 일 예를 나타낸 도면이다.

도 14에 나타내는 바와 같이, 컬럼명 “인물 ID”(부호 601)와, 컬럼명 “특징 정보”(부호 602)가 관련지어져, 얼굴 특징 정보로서 기억되어 있다. 또한, 얼굴 특징 정보란, 눈, 코 및, 입 등의 크기 및 형 등의 인물의 얼굴을 한번에 식별 가능한 얼굴의 특징을 나타내는 정보이다.

CPU(20A)는, 섬네일 생성 장치(1A)의 중추적인 제어를 행한다. 또한, CPU(20A)는, 그 기능상, 동화상 추출부(20a)와, 축소 확대율 산출부(20c)를 구비한다.

동화상 추출부(20a)는, 동화상의 재생 시간과 얼굴 검출 시간 간격마다 검출된 얼굴 화상의 수에 기초하여, 소정 시간 연속하여 얼굴 검출되지 않았던 시간을 제외한 동화상의 프레임으로부터, 동영상 섬네일의 재생 시간을 초과하지 않는 시간분의 동화상의 프레임을 추출한다.

축소 확대율 산출부(20c)는, 비디오 카메라(101)로부터 얼굴 특징 정보를 포함하는 얼굴 검출 정보가 공급된 경우에, 공급된 얼굴 검출 정보에 포함되는 얼굴 특징 정보가, 얼굴 특징 정보 기억부(21)에 기억되어 있는 얼굴 특징 정보에 일치 또는 근사하고 있는지 아닌지를 판정하여, 일치 또는 근사하고 있다고 판정된 경우에, 이 일치 또는 근사하고 있는 얼굴 특징 정보에 대응하는 얼굴 검출 영역이 최대가 되도록 동화상의 축소 확대율을 산출한다.

구체적으로는, 축소 확대율 산출부(20c)는, 일치 또는 근사하고 있는 얼굴 특징 정보에 대응하는 얼굴 검출 영역을 등록 얼굴 영역으로서 선택하고, 이 선택된 등록 얼굴 영역의 사이즈가 동영상 섬네일의 사이즈와 대략 동일해지도록, 동화상의 축소 확대율을 산출한다.

도 15는, 본 발명의 실시예 2인 섬네일 생성 장치(1A)가 구비하는 축소 확대율 산출부(20c)에 의한 동화상의 축소 확대율의 산출을 설명한 도면이다. 도 15(a)는, 축소 또는 확대하는 동화상의 프레임의 일 예를 나타내고 있고, 도 15(b)는, OSD 화면(17a)의 일 예를 나타내고 있다.

도 15(a)에 나타내는 바와 같이, 동화상의 프레임의 사이즈가 X×Y(애스펙트비 16:9), 등록 얼굴 영역(601)의 사이즈가 X4×Y4(애스펙트비 16:9)이고, 도 15(b)에 나타내는 바와 같이, OSD 화면(17a)의 동영상 섬네일의 사이즈, 즉 하이라이트 틀(17k)의 사이즈가 X1×Y1(애스펙트비 16:9)이라고 한다.

이 경우, 축소 확대율 산출부(20b)는, 등록 얼굴 영역(601)의 사이즈가 하이라이트 틀(17k)의 사이즈와 동일해지도록, 동화상의 축소 확대율을 산출한다. 즉 축소 확대율을 Q로 하면, 전술한 (수식 1)을 이용하여, X2, Y2를 각각 X4, Y4로 치환함으로써 축소 확대율 Q를 산출한다.

이와 같이, 축소 확대율 산출부(20c)는, 선택된 등록 얼굴 영역의 사이즈가 동영상 섬네일의 사이즈와 대략 동일해지도록, 동화상의 축소 확대율을 산출하기 때문에, 등록된 인물의 얼굴이 확대되기 쉬워진다. 이에 따라, 이용자는 소망하는 인물의 얼굴 화상을 주목하여 보기 쉬워지기 때문에, 동화상의 내용을 파악하기 쉬워진다.

이상과 같이, 본 발명의 실시예 2인 섬네일 생성 장치(1A)에 의하면 얼굴 특징 정보 기억부(21)와, 축소 확대율 산출부(20c)를 구비하고 있기 때문에, 본 발명의 실시예 1인 섬네일 생성 장치(1)에 의한 효과에 더하여, 미리 등록된 1인 이상의 인물을 우선적으로 확대하여 동영상 섬네일로서 표시할 수 있다.

본 실시예 2에서는, 검출되어 있는 얼굴 중에, 미리 기억하고 있는 얼굴의 특징과 일치하는 얼굴이 검출된 경우, 이 일치한 얼굴만을 처리 대상으로 함으로써, 예를 들면, 타인의 아이와 자신의 아이가 함께 촬영된 동화상에 있어서도, 자신의 아이의 얼굴만을 동영상 섬네일로 확대 표시시킬 수 있다.

1, 1A : 섬네일 생성 장치
11 : 디멀티플렉서
12 : AC3 디코더
13 : 스피커
14 : H.264 디코더
15 : 축소 확대부
16 : 가산기
17 : 유저 인터페이스부
17a : 화상 표시부
17b : 조작 버튼
17c : 슬라이더
17d : 섬네일 표시 영역
17e : 조작 가이드 표시 영역
17f : 페이지 표시 영역
17g : 화상 표시부
17k : 하이라이트 틀
17h : 동영상 재생 화면
17j : 동영상 섬네일
18 : OSD 생성부
19 : 동영상 섬네일 시간 기억부
20, 20A, 131 : CPU
20a : 동화상 추출부
20b, 20c : 축소 확대율 산출부
20d : 섬네일 구간 결정부
21 : 얼굴 특징 정보 기억부
101 : 비디오 카메라
111 : 광학 렌즈
112 : 화상 소자부
113 : 신호 처리부
114 : H.264 인코더
115 : 멀티플렉서
116 : 얼굴 검출부
117 : 가산기
121 : 마이크
122 : A/D 변환부
123 : AC3 인코더

Claims

동화상의 제1 소정 기간 내에 있어서, 상기 제1 소정 기간보다도 짧은 제2 소정 기간마다, 상기 동화상을 구성하는 각 화상을 추출하는 동화상 추출부와,
추출된 각 화상에 포함되는 인물의 얼굴의 영역을 적분하고, 이 적분된 얼굴의 영역을 둘러싸도록 얼굴 표시 영역을 결정하고, 이 결정된 얼굴 표시 영역의 사이즈가, 미리 동영상 섬네일을 표시하기 위해 정해진 소정의 표시 영역의 사이즈와 동일해지도록, 상기 동화상의 축소 확대율을 산출하는 축소 확대율 산출부와,
산출된 상기 축소 확대율에 기초하여, 상기 동화상을 축소 또는 확대하여, 상기 동영상 섬네일을 생성하는 동영상 섬네일 생성부를 구비한 것을 특징으로 하는 섬네일 생성 장치.
제1항에 있어서,
상기 동화상 추출부에 의해 추출된 각 화상 중, 인물의 얼굴의 영역이 존재하는 연속하는 화상의 수에 기초하여, 상기 제1 소정 기간을 하나 이상 결정하는 섬네일 구간 결정부를 추가로 구비하는 것을 특징으로 한 섬네일 생성 장치.
제1항 또는 제2항에 있어서,
상기 축소 확대율 산출부는,
상기 얼굴 표시 영역의 면적의 값을 분모로 하고, 상기 얼굴의 영역의 합계 면적의 값을 분자로 하여 구한 비(比)의 값이, 소정의 문턱값보다 작은 경우, 상기 얼굴의 영역 중 중심에 가깝고 그리고 면적이 가장 큰 얼굴의 영역을 대표 영역으로 하여, 이 대표 영역의 사이즈가 상기 표시 영역의 사이즈와 동일해지도록, 상기 축소 확대율을 산출하는 것을 특징으로 한 섬네일 생성 장치.
제1항 또는 제2항에 있어서,
인물의 얼굴을 한번에 식별 가능한 얼굴의 특징을 얼굴 특징 정보로서 기억하는 얼굴 특징 정보 기억부를 추가로 구비하고,
상기 축소 확대율 산출부는,
상기 얼굴의 영역 내에 존재하는 얼굴의 특징이, 상기 얼굴 특징 정보 기억부에 기억되어 있는 얼굴 특징 정보가 나타내는 얼굴의 특징과 일치하고 있는지 아닌지를 판정하여, 일치하고 있다고 판정된 경우에, 이 일치하고 있는 얼굴의 특징에 대응하는 상기 얼굴의 영역의 사이즈를 상기 표시 영역의 사이즈와 동일해지도록, 상기 축소 확대율을 산출하는 것을 특징으로 하는 섬네일의 생성 장치.
동화상의 제1 소정 기간 내에 있어서, 상기 제1 소정 기간보다도 짧은 제2 소정 기간마다, 상기 동화상을 구성하는 각 화상을 추출하는 동화상 추출 스텝과,
추출된 각 화상에 포함되는 인물의 얼굴의 영역을 적분하고, 이 적분된 얼굴의 영역을 둘러싸도록 얼굴 표시 영역을 결정하고, 이 결정된 얼굴 표시 영역의 사이즈가, 미리 섬네일을 표시하기 위해 정해진 소정의 표시 영역의 사이즈와 동일해지도록, 상기 동화상의 축소 확대율을 산출하는 축소 확대율 산출 스텝과,
산출된 상기 축소 확대율에 기초하여, 상기 동화상을 축소 또는 확대하여, 동영상 섬네일을 생성하는 동영상 섬네일 생성 스텝을 갖는 것을 특징으로 하는 섬네일 생성 방법.