KR20230043647A - 수어 자막 동영상 플랫폼 제공 방법 및 장치 - Google Patents
수어 자막 동영상 플랫폼 제공 방법 및 장치 Download PDFInfo
- Publication number
- KR20230043647A KR20230043647A KR1020210168925A KR20210168925A KR20230043647A KR 20230043647 A KR20230043647 A KR 20230043647A KR 1020210168925 A KR1020210168925 A KR 1020210168925A KR 20210168925 A KR20210168925 A KR 20210168925A KR 20230043647 A KR20230043647 A KR 20230043647A
- Authority
- KR
- South Korea
- Prior art keywords
- video
- sign language
- providing
- original
- original video
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001360 synchronised effect Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 16
- 230000008685 targeting Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 206010011878 Deafness Diseases 0.000 description 24
- 230000006870 function Effects 0.000 description 16
- 230000015654 memory Effects 0.000 description 13
- 238000013519 translation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본 발명의 동영상 플랫폼 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법은, 원본 영상, 상기 원본 영상을 기초로 제작된 수어 영상의 싱크를 맞추는 싱크 정보를 생성하는 매칭 단계; 상기 원본 영상과 상기 수어 영상이 함께 재생되는 제2 단말기에 상기 싱크 정보를 제공하는 제공 단계;를 포함할 수 있다.
Description
본 발명은 수어 자막 동영상의 플랫폼을 제공하는 방법 및 장치에 관한 것이다.
농인은 다양한 콘텐츠를 습득하는데 어려움을 겪고 있다. 이러한 어려움은 다음과 같은 인식으로 인해 뚜렷한 대책이 전무한 실정이다. '전 세계의 수어는 통일되어 있다'는 잘못된 선입견이다. 다른 언어와 마찬가지로 수어 역시 지역별로 자연 발생하여 독자적으로 발전해왔다. '한국의 수어는 한국어와 어순이 같다'는 선입견도 잘못된 것이다. 한국 수어는 한국어와 어순이 다르다. '농인은 한글을 잘 읽을 수 있다'는 선입견도 잘못되었다. 농인에게 한글은 제2의 언어로 청인이 외국어를 대하는 느낌과 흡사하다.
농인들의 정보 접근성 문제는 공중파, 뉴미디어, 특히 팬데믹(pandemic) 상황에서의 교육, 긴급 정보 전달 등 다양한 곳에서 심각성이 드러나고 있다. 특히, 유튜브(YouTube) 등 새롭게 등장한 디지털 미디어에서의 수어 통역은 전무하다.
문장별 수어 번역 데이터셋 확보를 위해 과기부의 '인공지능 학습용 데이터 사업' 등을 활용할 수도 있다. 하지만, 데이터셋 구축에 고비용이 들고, 번역 품질에 대한 평가가 별도로 이루어져야 하며, 시대적으로 변모하고 지역적으로 다르게 사용되는 언어의 유기적 변화 등의 요인을 종합적으로 고려할 때, 문장별 수어 번역 데이터셋의 확보는 비효율적이라는 문제가 있다.
한국등록특허공보 제2061044호에는 화면 해설과 수화가 포함되는 동영상을 손쉽게 만들 수 있는 수화 번역 기술이 개시되고 있다.
본 발명은 수어 통역사로부터 데이터를 크라우드소싱(Crowd Sourcing) 형식으로 수집하여 농인들에게 디지털 동영상 정보에 대한 수어 자막 서비스를 제공하기 위한 것이다.
본 발명의 동영상 플랫폼 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법은 원본 영상, 상기 원본 영상을 기초로 제작된 수어 영상의 싱크를 맞추는 싱크 정보를 생성하는 매칭 단계; 상기 원본 영상과 상기 수어 영상이 함께 재생되는 제2 단말기에 상기 싱크 정보를 제공하는 제공 단계를 포함할 수 있다.
또한, 상기 싱크 정보는, 시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 포함하고, 상기 제공 단계는, 시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 상기 제2 단말기에 직접 스트리밍하는 단계를 포함할 수 있다.
또한, 상기 매칭 단계는, 서로 별개의 영상에 해당하는 상기 원본 영상과 상기 수어 영상의 싱크를 맞추는 단계; 및 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상이 함께 포함된 단일의 통합 영상을 생성하는 단계를 포함하고, 상기 제공 단계는, 상기 제2 단말기에 상기 통합 영상을 제공하는 단계를 포함할 수 있다.
또한, 상기 매칭 단계는: 상기 제2 단말기의 재생 신호의 분석을 통해 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 시작 장면을 파악하는 단계; 및 상기 재생 시작 장면을 지시하는 타임 플래그가 포함된 상기 싱크 정보를 생성하는 단계를 포함하고, 상기 제공 단계는, 상기 타임 플래그를 상기 제2 단말기에 제공하는 단계를 포함하고, 상기 제2 단말기로 제공된 상기 타임 플래그는, 상기 원본 영상의 재생 시작 장면과 상기 수어 영상의 재생 시작 장면을 결정하는데 공통적으로 사용될 수 있다.
또한, 상기 원본 영상과 상기 수어 영상은, 서로 다른 콘텐츠 서버로부터 스트리밍되고, 상기 타임 플래그를 이용하여, 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 장면에 따라 나머지 하나의 재생 장면의 싱크가 맞춰질 수 있다.
또한, 제1 단말기로부터 상기 수어 영상을 획득하는 획득 단계를 더 포함하고, 상기 획득 단계는, 상기 수어 영상이 타겟으로 하는 특정 원본 영상의 식별 정보를 추가로 획득하는 단계를 더 포함하고, 상기 식별 정보를 이용하여 상기 특정 원본 영상의 제1 썸네일을 추출하고, 상기 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하는 메뉴 단계를 포함하고, 상기 매칭 단계는, 상기 제2 단말기의 재생 요청을 통해 선택된 특정 재생 메뉴에 포함된 원본 영상 및 수어 영상의 싱크 정보를 생성하는 단계를 포함할 수 있다.
또한, 상기 메뉴 단계는, 동일한 특정 원본 영상이 포함된 재생 메뉴가 복수이면, 복수의 상기 재생 메뉴를 하나로 묶은 선택 메뉴를 상기 제2 단말기에 제공할 수 있다.
또한, 단일의 원본 영상을 타겟으로 하는 수어 영상이 복수로 마련될 때, 상기 원본 영상에 대하여 복수의 수어 영상 중 하나를 선택할 수 있는 선택 메뉴를 제공하는 메뉴 단계를 포함하고, 상기 제공 단계는, 상기 제2 단말기에 의해 선택된 특정 수어 영상 및 상기 원본 영상의 싱크 정보를 상기 제2 단말기에 제공하는 단계를 포함할 수 있다.
또한, 상기 제2 단말기로부터 상기 수어 영상의 평가 점수를 입수하는 평가 단계를 포함하고, 상기 메뉴 단계는, 상기 선택 메뉴에 포함된 복수의 수어 영상의 목록을 상기 평가 점수가 높은 순서에 따라 순서대로 배열할 수 있다.
또한, 상기 매칭 단계는: 상기 원본 영상의 일부 구간을 대상으로 제작된 수어 영상이 입수되면, 상기 수어 영상과 함께 상기 일부 구간을 나타내는 타임 플래그를 함께 입수하는 단계; 및 상기 타임 플래그를 이용하여 상기 원본 영상의 일부 구간과 상기 수어 영상의 싱크를 맞추는 단계를 포함할 수 있다.
또한, 상기 원본 영상이 복수의 구간으로 분할될 때, 상기 원본 영상의 각 구간별로 상기 수어 영상을 획득하는 획득 단계를 포함하고, 상기 획득 단계는, 제작자의 동일성 여부를 불문하고, 상기 구간별로 획득되는 상기 수어 영상을 획득하는 단계를 포함할 수 있다.
또한, 상기 획득 단계는, 특정 구간에 대한 제작 작업이 예약되면, 상기 특정 구간에 대한 예약 사실을 상기 원본 영상에 표시하는 단계; 및 상기 제작 작업을 예약한 특정 작업자에 한해서 상기 특정 구간에 대한 수어 영상을 획득하는 단계를 포함할 수 있다.
또한, 상기 매칭 단계는, 특정 구간을 대상으로 하는 특정 수어 영상이 입수되고 설정 이벤트가 발생되면, 상기 특정 수어 영상의 영상 길이가 상기 특정 구간의 영상 길이에 맞춰지도록 상기 특정 수어 영상의 재생 속도를 조정하는 단계를 포함할 수 있다.
또한, 상기 수어 영상을 편집하는 편집 단계가 마련되고, 상기 편집 단계는, 상기 수어 영상에 등장하는 수어 통역사의 표정이 그대로 나타나는 범위 내에서 상기 수어 통역사의 얼굴을 딥페이크(Deepfake)하는 단계를 포함하고, 상기 제공 단계는, 상기 딥페이크된 얼굴이 포함된 수어 영상을 상기 제2 단말기에 제공하는 단계를 포함할 수 있다.
본 발명의 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법은, 수어 통역사가 업로드한 수어 영상을 획득하고, 획득된 상기 수어 영상과 원본 영상의 싱크를 맞추며, 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 사용자에게 제공할 수 있다.
본 발명의 컴퓨터 프로그램은, 수어 자막 동영상 플랫폼 제공 방법을 실행하도록 하기 위한 명령어를 포함하는 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.
본 발명의 동영상 플랫폼 제공 장치는, 원본 영상 및 수어 영상의 싱크를 맞추는 매칭부; 제2 단말기에 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 제공하는 제공부를 포함할 수 있다.
또한, 획득부; 및 메뉴부를 포함하고, 상기 획득부는, 제1 단말기로부터 상기 수어 영상을 획득하며 상기 제1 단말기로부터 상기 원본 영상의 식별 정보를 획득하도록 구성되고, 상기 메뉴부는: 상기 식별 정보가 나타내는 상기 원본 영상을 콘텐츠 서버로부터 추출하고; 그리고 상기 콘텐츠 서버로부터 추출된 상기 원본 영상의 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하도록 구성될 수 있다.
본 발명의 수어 자막 동영상 플랫폼 제공 장치는 이미 존재하는 별개의 원본 영상과 수어(수화 언어) 영상을 싱크(Sync)시켜서 사용자에게 제공할 수 있다. 이때, 원본 영상은 유튜브 등 기존의 다양한 콘텐츠 서버로부터 추출될 수 있다. 수어 영상은 본 발명의 제공 장치에 저장되거나, 별도의 수어 저장 데이터베이스에 기록될 수 있다.
수어 저장 데이터베이스에 기록된 수어 영상 및 해당 수어 영상에 매칭되는 원본 영상의 정보는 추후 기계 학습의 입력 데이터셋으로 사용될 수 있다.
본 발명의 제공 장치는 온라인 비디오 플랫폼(Online Video Platform, OVP)을 제공할 수 있다. 본 발명의 제공 장치는 수어 자막 비디오를 유통하기 위한 플랫폼을 제공할 수 있다.
수어 자막 OVP는 수어 통역사로부터 수어 영상에 해당하는 수어 통역 자막을 크라우드소싱 방식으로 수집하여 농인들에게 디지털 동영상(예: YouTube 등)에 대한 수어 자막 서비스를 제공할 수 있다.
본 발명은 수어 자막 OVP를 통해 수어 통역사로부터 인터넷의 다양한 디지털 동영상 정보에 대한 수어 자막 영상을 크라우드소싱 형식으로 수집할 수 있다. 본 발명은 수집된 수어 자막 영상을 농인 등의 시청각장애인들에게 유통할 수 있는 서비스를 제공하여 농인의 디지털 정보 접근성 문제를 해결할 수 있다.
수어 자막 OVP는 농인들에게 다양한 디지털 정보에 대한 접근성을 획기적으로 높이고, 수어 통역사에게는 수어 자막 제공에 상응하는 보상을 받을 수 있도록 하여 수어 자막 유통량을 확대할 수 있다.
수어 자막 OVP를 통해 다양한 분야의 수어 통역 영상은 데이터로 축적될 수 있다. 빅데이터화된 수어 통역 영상은 향후 수어 자동 번역을 위한 데이터셋으로 활용될 수 있고, 수어의 언어학적 연구의 중요한 자원으로 활용될 수 있다.
수어 통역사는 예를 들어 YouTube 동영상(A)에 대한 수어 번역 자막 영상(B)을 녹화하여 본 플랫폼에 업로드할 수 있다. 농인 사용자는 본 플랫폼에서 자막 영상(B)을 클릭하여 YouTube 동영상(A)과 함께 시청할 수 있다.
플랫폼은 농인 사용자가 수어 번역의 품질을 평가할 수 있는 기능을 제공하고, 수어 영상에 대한 사용자의 평가를 수집할 수 있다. 이는 기존 동영상 플랫폼과 마찬가지로 수어 통역사와 사용자의 상호 작용을 일으켜 번역 품질의 향상을 유도할 수 있다.
일정 사용자를 확보할 수 있으면 본 플랫폼은 궁극적으로 번역 품질에 대한 평가가 존재하는 문장 단위의 수어 번역 데이터셋을 수집할 수 있게 되고, 기계 번역뿐만 아니라 한국 수어에 대한 언어학적 연구에도 도움이 될 것으로 예측된다.
본 발명은 수어 통역사가 인터넷의 다양한 디지털 동영상 정보에 대한 수어 자막 영상을 제작 및 업로드할 수 있도록 돕고, 다수의 수어 통역사에 의해 업로드된 수어 자막 영상을 통해 농인 사용자들이 원본 영상을 수어 자막과 함께 시청할 수 있도록 함으로써, 농인의 디지털 정보 접근성 문제를 해결할 수 있다.
수어 자막 OVP는 농인 사용자가 동영상 원본 영상과 수어 자막 영상의 싱크(Sync)를 맞추어 재생하는 기능을 제공할 수 있다.
수어 자막 OVP는 수어 통역사가 원본 영상을 구간별로 나누어 녹화할 수 있는 기능을 제공한다. 또, OVP는 수어 통역사의 얼굴을 비공개로 처리하기 위해 페이스 스왑(FaceSwap) 등의 얼굴 꾸미기 기능을 제공할 수 있다.
도 1은 본 발명의 수어 자막 동영상 플랫폼 제공 방법을 나타낸 흐름도이다.
도 2는 본 발명의 제공 장치를 나타낸 블록도이다.
도 3은 제2 단말기에 제공되는 재생 메뉴를 나타낸 개략도이다.
도 4는 제2 단말기에 제공되는 스트리밍 메뉴를 나타낸 개략도이다.
도 5는 제1 단말기에 제공되는 제작 메뉴를 나타낸 개략도이다.
도 2는 본 발명의 제공 장치를 나타낸 블록도이다.
도 3은 제2 단말기에 제공되는 재생 메뉴를 나타낸 개략도이다.
도 4는 제2 단말기에 제공되는 스트리밍 메뉴를 나타낸 개략도이다.
도 5는 제1 단말기에 제공되는 제작 메뉴를 나타낸 개략도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.
또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
명세서에서 사용되는 '~부'라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '~부'가 하나의 구성요소로 구현되거나, 하나의 '~부'가 복수의 구성요소들을 포함하는 것도 가능하다.
본 명세서에서 사용되는 '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하드웨어 구성요소를 의미할 수 있다. '~부'에서 제공하는 기능은 복수의 구성요소에 의해 분리되어 수행되거나, 다른 추가적인 구성요소와 통합될 수도 있다. 본 명세서의 '~부'는 반드시 소프트웨어 또는 하드웨어에 한정되지 않으며, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.
또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.
또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.
또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.
본 발명의 사용자는 수어 자막 영상을 시청하는 농인 등의 시청각장애인을 지칭할 수 있다. 사용자 또는 농인과 구분하여, 수어 자막 영상을 제작하여 배포하는 제작자가 등장하며, 자막 영상 내에 직접 등장하여 수화를 수행하는 수어 통역사가 등장할 수 있다. 제작자와 수어 통역사는 동일할 수 있다.
수어 통역사는 예를 들어 유튜브(YouTube) 동영상 등(이하, 원본 영상이라 칭함)에 대한 수어 자막 영상(수어 영상)을 녹화하여 동영상 플랫폼 제공 장치(100) 또는 수어 자막 OVP에 업로드할 수 있다. 농인 사용자는 동영상 플랫폼 제공 장치(100) 또는 수어 자막 OVP에서 수어 자막 영상을 클릭하여 원본 영상과 함께 시청할 수 있다. 동영상 플랫폼 제공 장치(100) 또는 OVP는 특정 서버에 탑재될 수 있다.
농인 사용자는 수어 자막 OVP에 접속하여 재생 메뉴 p 또는 선택 메뉴를 통해 영상을 선택 후 시청할 수 있다.
동영상 플랫폼 제공 장치(100)는 검색창이나 영상 카테고리 표시창을 통해 농인 사용자가 원하는 영상을 검색하거나 카테고리별 추천 영상을 선택할 수 있게 유도할 수 있다.
동영상 플랫폼 제공 장치(100)는 사용자 편의 기능을 통해 농인 사용자가 본인 정보를 관리할 수 있도록 할 수 있다. 동영상 플랫폼 제공 장치(100)는 즐겨 찾는 수어 통역사를 구독할 수 있게 하고, 본인의 시청 기록을 열람할 수 있게 하고, 자주 보는 영상을 보관할 수 있게 구성될 수 있다.
농인 사용자는 재생 메뉴 p 또는 선택 메뉴에서 시청하고자 하는 영상의 쌍 (원본 영상과 수어 영상)을 선택할 수 있다. 이때, 재생 메뉴에는 원본 영상 a의 썸네일에 해당하는 제1 썸네일 s1, 수어 영상 b의 썸네일에 해당하는 제2 썸네일 s2가 표시될 수 있다.
사용자가 재생 메뉴 p 중 원하는 영상의 쌍을 선택하면, 스트리밍 메뉴 s가 표시되고, 선택한 영상 쌍이 스트리밍되고 재생될 수 있다. 설정 면적을 갖는 디스플레이의 영역에서 원본 영상과 자막 영상은 도 4와 같이 서로 구분된 영역에 표시될 수 있다. 또는, 둘 중 어느 하나가 화면 전체에 표시되고, 나머지 하나가 화면 전체에 표시되는 영상 위에 작게 표시되는 PIP(Picture in Picture) 방식도 가능하다.
동영상 플랫폼 제공 장치(100)는 원본 영상과 수어 자막 영상(수어 영상)의 싱크(Sync)를 맞추어 재생하는 기능을 제공할 수 있다.
동영상 플랫폼 제공 장치(100)는 원본 영상과 수어 영상이 한 영상에 오버랩(Overlap)되어 표시되는 기능을 제공할 수 있다.
동영상 플랫폼 제공 장치(100)는 추천 점수, 댓글 등을 통해 농인 사용자가 수어 영상의 품질을 평가할 수 있는 기능을 제공할 수 있다.
수어 통역사는 동영상 플랫폼 제공 장치(100)에 의해 제공되는 제작 메뉴, 예를 들어 도 3의 '영상 제작' 메뉴를 선택하여 수어 영상을 제작할 수 있다.
수어 통역사는 도 5의 제작 메뉴 m의 원본 영상 링크 입력 창 d에 원본 영상의 링크를 입력하여 원본 영상 a를 불러오고, 원본 영상 a에 대한 수어 영상을 제작할 수 있다.
동영상 플랫폼 제공 장치(100)는 수어 통역사가 원본 영상을 구간별로 나누어 녹화할 수 있는 기능을 제공할 수 있다. 구간 표시 영역에서 수어 통역사는 원본 영상 a를 구간별로 나눌 수 있고, 나누어진 원본 영상을 구간별(t1, t2)로 재생하면서 해당 수어 영상을 제작할 수 있다.
구간별로 녹화된 수어 영상은 자막영상 통합기능 t0를 통해 하나의 영상으로 합쳐져 업로드할 수 있도록 한다. 이때 원본 영상 a와 수어 영상 b의 재생 길이 차이는 재생 속도 조정 등을 통하여 극복될 수 있다.
수어 장치는 얼굴 공개를 꺼려하는 수어 통역사를 위해 페이스스왑(FaceSwap) 등과 같은 딥페이크 기술을 통한 얼굴 꾸미기 기능을 제공할 수 있다.
동영상 플랫폼 제공 장치(100) 및 수어 자막 동영상 플랫폼 제공 방법에 대하여 상세하게 살펴본다. 수어 자막 동영상 플랫폼 제공 방법은 동영상 플랫폼 제공 장치(100)의 동작으로 설명될 수도 있다.
도 1은 본 발명의 수어 자막 동영상 플랫폼 제공 방법을 나타낸 흐름도이다. 도 2는 본 발명의 동영상 플랫폼 제공 장치(100)를 나타낸 블록도이다. 도 3은 제2 단말기에 제공되는 재생 메뉴를 나타낸 개략도이다. 도 4는 제2 단말기에 제공되는 스트리밍 메뉴를 나타낸 개략도이다. 도 5는 제1 단말기에 제공되는 제작 메뉴를 나타낸 개략도이다.
도 1에 도시된 수어 자막 동영상 플랫폼 제공 방법은 도 2의 동영상 플랫폼 제공 장치(100)에 의해 수행될 수 있다.
수어 자막 동영상 플랫폼 제공 방법은 획득 단계(S 510), 메뉴 단계(S 520), 매칭 단계(S 530), 편집 단계(S 540), 제공 단계(S 550), 평가 단계(S 560)를 포함할 수 있다.
획득 단계(S 510)는 획득부(110)에 의해 수행될 수 있다. 일 예로, 획득부(110)는 제1 단말기(200)로부터 수어 영상을 획득하며 제1 단말기(200)로부터 원본 영상의 식별 정보를 획득할 수 있다.
메뉴 단계(S 520)는 메뉴부(130)에 의해 수행될 수 있다. 일 예로, 메뉴부(130)는 식별 정보가 나타내는 원본 영상을 콘텐츠 서버(400)로부터 추출할 수 있다. 메뉴부(130)는 콘텐츠 서버(400)로부터 추출된 원본 영상의 제1 썸네일과 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공할 수 있다.
매칭 단계(S 530)는 매칭부(150)에 의해 수행될 수 있다. 매칭부(150)는 원본 영상, 수어 영상의 싱크를 맞출 수 있다.
편집 단계(S 540)는 편집부(160)에 의해 수행될 수 있다.
제공 단계(S 550)는 제공부(170)에 의해 수행될 수 있다. 제공부(170)는 제2 단말기(300)에 싱크가 맞춰진 원본 영상과 수어 영상을 제공할 수 있다.
평가 단계(S 560)는 평가부(190)에 의해 수행될 수 있다.
획득 단계(S 510)는 제1 단말기(200)로부터 수어 영상을 획득할 수 있다. 제1 단말기(200)는 수어 영상의 제작자 또는 수어 통역사의 이동 통신 단말기, 휴대 단말기, 퍼스널 컴퓨터 등을 포함할 수 있다. 획득부(110)에는 제1 단말기(200)와 유무선 통신하는 통신 모듈이 마련될 수 있다.
획득 단계(S 510)는 수어 영상이 타겟으로 하는 특정 원본 영상의 식별 정보를 추가로 획득할 수 있다. 식별 정보는 특정 원본 영상을 탐색할 수 있는 식별자, URL(uniform resource locator) 등의 링크 주소를 포함할 수 있다.
메뉴 단계(S 520)는 식별 정보를 이용하여 특정 원본 영상의 제1 썸네일을 추출하고, 제1 썸네일과 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴 p를 제2 단말기(300)에 제공할 수 있다. 메뉴부(130)에는 제1 단말기(200) 또는 제2 단말기(300)와 통신하는 통신 모듈이 마련될 수 있다. 동영상 플랫폼 제공 장치(100)를 구성하는 각 요소에 마련된 통신 모듈은 일체로 형성되어도 무방하다. 동일한 특정 원본 영상이 포함된 재생 메뉴가 복수이면, 메뉴부(130)는 복수의 재생 메뉴를 하나로 묶은 선택 메뉴를 상기 제2 단말기(300)에 제공할 수 있다. 이때, 하나의 선택 메뉴에 포함된 복수의 재생 메뉴를 어떤 순서로 배열할 것인가에 대한 선택의 문제가 발생될 수 있다. 배열 순서에 따라 사용자에 의해 선택될 확률이 달라질 수 있다.
매칭 단계(S 530)는 원본 영상, 수어 영상의 싱크(Sync)를 맞출 수 있다. 수어 영상은 원본 영상을 기초로 제작될 수 있다. 수어 영상은 수어 통역사가 원본 영상을 보면서 실시간으로 수화 통역하는 장면을 촬영한 영상을 포함할 수 있다.
획득 단계(S 510)는 원본 영상과 수어 영상의 싱크를 맞추는 싱크 정보를 생성할 수 있다. 예를 들어, 매칭 단계(S 530)는 제2 단말기(300)의 재생 요청을 통해 선택된 특정 재생 메뉴에 포함된 원본 영상 및 수어 영상의 싱크 정보를 생성할 수 있다. 제2 단말기(300)는 농자, 시청각장애인 등 사용자의 이동 통신 단말기, 휴대 단말기, 퍼스널 컴퓨터 등을 포함할 수 있다.
제공 단계(S 550)는 원본 영상과 수어 영상이 함께 재생되는 제2 단말기(300)에 싱크 정보를 제공할 수 있다.
싱크 정보는 시간적 싱크가 서로 맞춰진 원본 영상 자체와 수어 영상 자체를 포함할 수 있다. 이 경우, 제공 단계(S 550)는 시간적 싱크가 맞춰진 원본 영상과 수어 영상을 제2 단말기(300)에 직접 스트리밍할 수 있다.
원본 영상은 재생 시간 상으로 각 장면이 특정될 수 있다. 일 예로, 재생 시간이 1시간인 원본 영상을 가정한다. 이 경우, 원본 영상의 k 장면은 항상 원본 영상의 제1 재생 시점에 표시될 수 있다. 이에 맞춰, 수어 영상에서 k 장면을 수화 통역한 영상 역시 항상 수어 영상의 제2 재생 시점에 표시될 수 있다. 이때, 제1 재생 시점과 제2 재생 시점을 맞추어 제2 단말기(300)에 표시되도록 하거나 스트리밍하는 것이 시간적 싱크에 해당될 수 있다.
사용자는 1시간 플레이 타임 중 300초의 장면부터 선택 재생할 수 있다.
수어 영상은 원본 영상을 기초로 제작되므로, 원본 영상과 거의 동일한 재생 시간(플레이 타임)을 가질 수 있다. 이때, 시간적으로 싱크된다는 것은 원본 영상의 재생 개시 장면(위 예에서는 300초의 장면)과 동일한 시점의 특정 장면이 재생 또는 스트리밍되는 것을 의미할 수 있다. 해당 특정 장면은 원본 영상의 재생 개시 장면을 보고 수화 통역한 장면을 포함할 수 있다.
원본 영상에 시간적으로 싱크된 수어 영상은 원본 영상과 동일한 시점의 장면이 재생 또는 스트리밍될 수 있다. 마찬가지로, 수어 영상에 시간적으로 싱크된 원본 영상은 수어 영상과 동일한 시점의 장면이 재생 또는 스트리밍될 수 있다. 수어 영상은 원본 영상에 맞춰 수행된 수화 통역 동작이 포함된 상태이므로, 동일 시점의 경우 원본 영상과 수어 영상은 자연스럽게 매칭될 수 있다.
이에 따르면, 제2 단말기(300)에서 원본 영상의 k 장면이 표시될 때, 제2 단말기(300)에서 k 장면에 대한 수어 영상의 수화 통역 장면이 함께 표시될 수 있다. 양자가 시간적으로 싱크된 상태이므로, 사용자에 의해 재생 타임바가 원본 영상 측 또는 수어 영상 측 어디에서 조작되더라도, 조작 바가 나타내는 영상 속 시점 장면으로 원본 영상 및 수어 영상이 함께 점프될 수 있다.
한편, 원본 영상과 수어 영상이 동영상 플랫폼 제공 장치(100) 또는 동영상 플랫폼 제공 장치(100)가 탑재된 서버에 함께 보관된 경우, 제2 단말기(300)로 전송되는 데이터량을 절감하는 방안이 마련될 수 있다.
예를 들어, 매칭 단계(S 530)는 제2 단말기(300)의 요청에 따라 서로 별개의 영상에 해당하는 원본 영상과 수어 영상의 싱크를 맞출 수 있다.
매칭 단계(S 530)는 싱크가 맞춰진 원본 영상과 수어 영상이 함께 포함된 단일의 통합 영상을 생성할 수 있다.
제공 단계(S 550)는 제2 단말기(300)에 통합 영상을 제공할 수 있다.
원본 영상과 수어 영상은 별개의 영상이므로, 이 둘을 함께 표시하기 위해 2개의 영상 데이터가 동영상 플랫폼 제공 장치(100) 또는 서버로부터 제2 단말기(300)로 송신될 수 있다. 이 경우, 2개의 영상 데이터에 대한 통신량이 소모될 수 있다. 또한, 통신 과정에서 싱크 상태가 어긋날 수도 있다. 본 실시예에 따르면, 싱크 작업이 매칭부(150)에 의해 완료된 상태에서 하나의 통합 영상이 제2 단말기(300)로 전송되므로, 데이터량이 절감될 수 있다. 또한, 노이즈, 왜곡 등으로 인한 싱크 오류의 염려가 없다.
한편, 저작권 등의 문제, 데이터베이스 용량 문제 등으로 인해 원본 영상의 수집이 어려울 수 있다. 예를 들어, 유튜브의 방대한 영상을 가져와서 보관하기는 현실적으로 어렵다. 이 경우, 원본 영상은 별도의 콘텐츠 서버(400)로부터 가져와야 하는 상황이 발생될 수 있다. 결과적으로, 제2 단말기(300)에 대하여, 원본 영상과 수어 영상은 서로 다른 콘텐츠 서버(400)로부터 스트리밍될 수 있다. 이때의 콘텐츠 서버(400) 중 하나에 동영상 플랫폼 제공 장치(100)가 탑재될 수 있다. 현실적으로, 수어 영상을 보관하고 관리하는 콘텐츠 서버(400)에 동영상 플랫폼 제공 장치(100)가 탑재되는 것이 좋다. 물론, 동영상 플랫폼 제공 장치(100)는 콘텐츠 서버(400)와 완전히 별개로 형성되어도 무방하다.
이와 같이, 원본 영상과 수어 영상이 별도의 콘텐츠 서버(400)에서 관리되는 경우, 하나의 통합 영상을 형성하는 것이 어려울 수 있다.
통합 영상과 다른 방식으로 원본 영상과 수어 영상의 싱크를 맞추는 방안이 마련될 수 있다.
매칭 단계(S 530)는 제2 단말기(300)의 재생 신호의 분석을 통해 원본 영상과 수어 영상 중 어느 하나의 재생 시작 장면을 파악할 수 있다.
매칭 단계(S 530)는 재생 시작 장면을 지시하는 타임 플래그가 포함된 싱크 정보를 생성할 수 있다. 이때, 타임 플래그는 영상의 재생 시간과 영상에 포함된 각 장면의 일대일 매칭 정보를 포함할 수 있다. 타임 플래그는 영상의 재생 시간 중 특정 장면의 재생 시점을 포함할 수 있다. 해당 재생 시점에는 항상 해당 특정 장면이 재생 또는 스트리밍될 수 있다.
원본 영상 및 수어 영상에는 모두 재생 시간 정보가 포함될 수 있다.
제공 단계(S 550)는 타임 플래그를 제2 단말기(300)에 제공할 수 있다. 예를 들어, 제공부(170)에는 제2 단말기(300)와 유무선 통신망을 통해서 통신하는 통신 모듈이 마련될 수 있다.
제2 단말기(300)로 제공된 타임 플래그는 원본 영상의 재생 시작 장면과 수어 영상의 재생 시작 장면을 결정하는데 공통적으로 사용될 수 있다. 공통의 타임 플래그를 이용하여 두 영상의 재생 시작 장면이 결정되므로, 원본 영상과 수어 영상은 자연스럽게 시간적으로 싱크될 수 있다. 본 실시예에 따르면, 타임 플래그를 이용하여, 원본 영상과 수어 영상 중 어느 하나의 재생 장면에 따라 나머지 하나의 재생 장면의 싱크가 맞춰질 수 있다. 따라서, 사용자가 이전 구간으로 되돌아가거나 다음 구간으로 뛰어넘는 점프 조작을 어느 하나의 영상에 대해 수행한 경우, 두 영상 모두가 제2 단말기(300)의 재생기(재생 프로그램 등)에 의해 동일하게 앞 또는 뒤로 점프될 수 있다.
한편, 앞에서 언급된 바와 같이, 단일의 원본 영상을 타겟으로 하는 수어 영상이 복수로 마련될 수 있다. 이때, 메뉴 단계(S 520)는 원본 영상에 대하여 복수의 수어 영상 중 하나를 선택할 수 있는 선택 메뉴를 제2 단말기(300)에 제공할 수 있다.
이때, 제공 단계(S 550)는 제2 단말기(300)에 의해 선택된 특정 수어 영상 및 원본 영상의 싱크 정보를 제2 단말기(300)에 제공할 수 있다. 제2 단말기(300)의 사용자는 싱크 정보를 이용하여 서로 싱크된 원본 영상과 수어 영상을 시청할 수 있다.
평가 단계(S 560)는 제2 단말기(300)로부터 수어 영상의 평가 점수를 입수할 수 있다. 평가부(190)는 평가 점수를 메뉴부(130)에 전달할 수 있다.
메뉴부(130)에 의해 메뉴 단계(S 520)는 선택 메뉴에 포함된 복수의 수어 영상의 목록을 평가 점수가 높은 순서에 따라 순서대로 배열할 수 있다.
한편, 원본 영상이 긴 경우, 한 명의 수어 통역사가 처음부터 끝까지 쉬지 않고 수어 통역하는 수어 영상을 제작하는 것이 어려울 수 있다. 제작자 또는 수어 통역사의 제작 편의성을 개선하기 위한 방안이 마련될 수 있다.
일 예로, 매칭 단계(S 530)는 원본 영상의 일부 구간을 대상으로 제작된 수어 영상이 입수되면, 수어 영상과 함께 해당 일부 구간을 나타내는 타임 플래그를 함께 입수할 수 있다.
매칭 단계(S 530)는 타임 플래그를 이용하여 원본 영상의 일부 구간과 수어 영상의 싱크를 맞출 수 있다.
본 실시예에 따르면, 수어 통역사는 원본 영상의 일부 구간에 대해 수어 영상을 제작한 후, 추후에 해당 원본 영상의 다른 구간에 대해 수어 영상을 제작할 수 있다.
본 실시예를 확장하면, 하나의 원본 영상에 대해서 복수의 수어 통역사가 나누어 수어 영상을 제작하는 실시예도 가능하다.
일 예로, 획득 단계(S 510)는 원본 영상이 복수의 구간, 예를 들어 t1, t2,...으로 분할될 때, 원본 영상의 각 구간별로 수어 영상을 획득할 수 있다.
획득 단계(S 510)는 제작자의 동일성 여부를 불문하고, 구간별로 획득되는 수어 영상을 획득할 수 있다. 다시 말해, 획득부(110)는 단일 원본 영상의 각 구간에 대한 수어 영상의 제작자가 동일하거나 서로 달라도 별다른 무리없이 각 구간에 대한 수어 영상을 획득할 수 있다.
이러한 환경에서, 특정 구간, 예를 들어 제1 구간 t1에 대해 제1 통역사가 수어 영상을 제작하는 도중에, 그 사실을 모르는 제2 통역사 역시 제1 구간의 수어 영상 제작에 참여하는 상황이 발생될 수 있다. 이러한 상황은 선의의 경쟁을 통한 통역 품질 개선이 도움이 되기도 하지만, 인프라의 구축이 시급한 현 시점에서는 소위 자원 낭비에 해당될 수 있다. 자원의 낭비를 방지하기 위해 획득 단계(S 510)는 특정 구간에 대한 제작의 예약 사실을 원본 영상에 표시할 수 있다. 이때, 다른 콘텐츠 서버(400)에 보관된 원본 영상에 예약 사실을 추가하는 것이 어려울 수 있다. 획득 단계(S 510)는 각 원본 영상의 식별 정보에 예약 사실을 추가하고, 예약 사실이 추가된 식별 정보를 보관할 수 있다. 메뉴 단계(S 510)는 제작자 또는 수어 통역사가 제작 메뉴 m에 해당 원본 영상의 식별 정보를 입력하면, 이를 감지한 제작 메뉴 m을 통해 예약 사실이 표시될 수 있다. 수어 영상의 제작과 관련하여 제작 메뉴 m을 제공하는 메뉴 단계(S 520)는 획득 단계(S 510)보다 먼저 실행될 수 있다. 도 1의 흐름도의 순서는 하나의 실시예이므로 동작 순서에 도 1에 국한되지 않을 수 있음을 환기한다.
획득 단계(S 510)는 제작 작업을 예약한 특정 작업자에 한해서 특정 구간에 대한 수어 영상을 획득할 수 있다. 만약, 다른 작업자가 해당 구간에 대한 수어 영상의 업로드가 요청되더라도, 획득부(110)는 해당 요청을 무시할 수 있다. 이에 따르면, 수어 통역사는 통역이 이루어지지 않고 있는 구간에 대한 통역에 집중할 수 있다.
한편, 단일의 원본 영상이 복수의 구간으로 구분되고 각 구간에 대해 다양한 수어 통역사의 통역이 진행되는 경우, 각 구간의 경계가 자연스럽게 연결되는 것이 좋다. 수어 영상은 원본 영상을 기초로 생성되므로, 거의 원본 영상과 유사한 플레이 타임(재생 시간)을 가질 수 있다. 하지만, 개인별 촬영 장비의 차이 등에 따라 수초 이내의 플레이 타임 오차가 발생될 수 있다. 만약 앞 구간의 수어 영상이 원본 영상의 해당 구간의 종료 시점보다 2초 늦게 종료된다면, 이후 구간의 수어 영상은 모두 원본 영상보다 2초 늦어지는 심각한 문제가 발생될 수 있다.
해당 문제를 해소하기 위해, 매칭 단계(S 530)는 특정 구간을 대상으로 하는 특정 수어 영상이 입수되고 설정 이벤트가 발생되면, 특정 수어 영상의 영상 길이가 특정 구간의 영상 길이에 맞춰지도록 특정 수어 영상의 재생 속도를 조정할 수 있다.
이때, 설정 이벤트는 특정 구간을 대상으로 하는 특정 수어 영상이 입수되는 것 자체를 포함할 수 있다. 이 경우, 특정 수어 영상이 입수될 때마다 재생 속도 조정이 이루어질 수 있다.
다른 예로, 설정 이벤트는 입수된 특정 수어 영상의 영상 길이(재생 시간에 해당됨)와 특정 구간의 길이를 비교하고, 둘 간의 차이가 설정값 이상인 경우를 포함할 수 있다. 이 경우, 특정 수어 영상의 영상 길이와 특정 구간의 길이가 설정값 이상 차이나는 경우에만 재생 속도의 조정이 이루어질 수 있다. 재생 속도의 조정은 수어 영상에 대해서만 수행되는 것이 바람직하다.
편집 단계(S 540)는 수어 영상을 자동 편집할 수 있다.
일 예로, 편집 단계(S 540)는 수어 영상에 등장하는 수어 통역사의 표정이 그대로 나타나는 범위 내에서 수어 통역사의 얼굴을 딥페이크(Deepfake)할 수 있다. 수어 통역에서 수어 통역사의 표정은 매우 중요하다. 이와 함께 수어 통역사의 초상권 역시 중요하다. 이 둘을 동시에 처리하기 위해, 표정은 그대로 드러나면서 수어 통역사가 누구인지 인지하기 어려운 다른 얼굴이 통역사의 얼굴을 대신하여 수어 영상 상에 표시될 수 있다. 편집 단계(S 540)는 수어 영상이 입수된 시점부터 제공 단계(S 550) 전까지 수행되면 충분하다.
제공 단계(S 550)는 딥페이크된 얼굴이 포함된 수어 영상을 제2 단말기(300)에 제공할 수 있다.
이상에서 살펴본 수어 자막 동영상 플랫폼 제공 방법은 수어 통역사가 업로드한 수어 영상을 획득할 수 있다. 수어 자막 동영상 플랫폼 제공 방법은 획득된 수어 영상과 원본 영상의 싱크를 맞출 수 있다. 수어 자막 동영상 플랫폼 제공 방법은 싱크가 맞춰진 원본 영상과 수어 영상을 사용자에게 제공할 수 있다.
한편, 수어 자막 동영상 플랫폼 제공 방법은 싱크가 맞춰진 원본 영상과 수어 영상을 농인에게 제공하는 것에 더해서, 싱크가 맞춰진 원본 영상과 수어 영상을 메모리에 저장하여 보관할 수 있고, 축적된 대량의 싱크가 맞춰진 원본 영상과 수어 영상의 데이터는 향후 수어 자동 번역을 위한 데이터셋으로 활용될 수 있고, 수어의 언어학적 연구의 중요한 자원으로 활용될 수 있다.
획득부(110), 메뉴부(120), 매칭부(150), 편집부(160), 제공부(170), 평가부(190)는 동영상 플랫폼 제공 장치(100)에 포함된 복수개의 프로세서 중 어느 하나의 프로세서를 포함할 수 있다. 또한, 지금까지 설명된 본 발명의 실시예에 따른 수어 자막 동영상 플랫폼 제공 방법은, 프로세서에 의해 구동될 수 있는 프로그램의 형태로 구현될 수 있다.
여기서 프로그램은, 프로그램 명령, 데이터 파일 및 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 프로그램은 기계어 코드나 고급 언어 코드를 이용하여 설계 및 제작된 것일 수 있다. 프로그램은 상술한 부호 수정을 위한 방법을 구현하기 위하여 특별히 설계된 것일 수도 있고, 컴퓨터 소프트웨어 분야에서 통상의 기술자에게 기 공지되어 사용 가능한 각종 함수나 정의를 이용하여 구현된 것일 수도 있다. 전술한 정보 표시 방법을 구현하기 위한 프로그램은, 프로세서에 의해 판독 가능한 기록매체에 기록될 수 있다. 이때, 기록매체는 메모리일 수 있다.
메모리는 전술한 동작 및 후술하는 동작을 수행하는 프로그램을 저장할 수 있으며, 메모리는 저장된 프로그램을 실행시킬 수 있다. 프로세서와 메모리가 복수인 경우에, 이들이 하나의 칩에 집적되는 것도 가능하고, 물리적으로 분리된 위치에 마련되는 것도 가능하다. 메모리는 데이터를 일시적으로 기억하기 위한 S램(Static Random Access Memory, S-RAM), D랩(Dynamic Random Access Memory) 등의 휘발성 메모리를 포함할 수 있다. 또한, 메모리는 제어 프로그램 및 제어 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 이피롬(Erasable Programmable Read Only Memory: EPROM), 이이피롬(Electrically Erasable Programmable Read Only Memory: EEPROM) 등의 비휘발성 메모리를 포함할 수 있다.
프로세서는 각종 논리 회로와 연산 회로를 포함할 수 있으며, 메모리로부터 제공된 프로그램에 따라 데이터를 처리하고, 처리 결과에 따라 제어 신호를 생성할 수 있다.
한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
100..동영상 플랫폼 제공 장치
110...획득부
130...메뉴부 150...매칭부
160...편집부 170...제공부
190...평가부 200...제1 단말기
300...제2 단말기 400...콘텐츠 서버
130...메뉴부 150...매칭부
160...편집부 170...제공부
190...평가부 200...제1 단말기
300...제2 단말기 400...콘텐츠 서버
Claims (18)
- 동영상 플랫폼 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법에 있어서,
원본 영상, 상기 원본 영상을 기초로 제작된 수어 영상의 싱크를 맞추는 싱크 정보를 생성하는 매칭 단계;
상기 원본 영상과 상기 수어 영상이 함께 재생되는 제2 단말기에 상기 싱크 정보를 제공하는 제공 단계를 포함하는 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
상기 싱크 정보는,
시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 포함하고,
상기 제공 단계는,
시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 상기 제2 단말기에 직접 스트리밍하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
상기 매칭 단계는,
서로 별개의 영상에 해당하는 상기 원본 영상과 상기 수어 영상의 싱크를 맞추는 단계; 및
싱크가 맞춰진 상기 원본 영상과 상기 수어 영상이 함께 포함된 단일의 통합 영상을 생성하는 단계를 포함하고,
상기 제공 단계는,
상기 제2 단말기에 상기 통합 영상을 제공하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
상기 매칭 단계는:
상기 제2 단말기의 재생 신호의 분석을 통해 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 시작 장면을 파악하는 단계; 및
상기 재생 시작 장면을 지시하는 타임 플래그가 포함된 상기 싱크 정보를 생성하는 단계를 포함하고,
상기 제공 단계는,
상기 타임 플래그를 상기 제2 단말기에 제공하는 단계를 포함하고,
상기 제2 단말기로 제공된 상기 타임 플래그는,
상기 원본 영상의 재생 시작 장면과 상기 수어 영상의 재생 시작 장면을 결정하는데 공통적으로 사용되는, 수어 자막 동영상 플랫폼 제공 방법. - 제4항에 있어서,
상기 원본 영상과 상기 수어 영상은,
서로 다른 콘텐츠 서버로부터 스트리밍되고, 상기 타임 플래그를 이용하여, 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 장면에 따라 나머지 하나의 재생 장면의 싱크가 맞춰지는, 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
제1 단말기로부터 상기 수어 영상을 획득하는 획득 단계를 더 포함하고,
상기 획득 단계는,
상기 수어 영상이 타겟으로 하는 특정 원본 영상의 식별 정보를 추가로 획득하는 단계를 더 포함하고,
상기 식별 정보를 이용하여 상기 특정 원본 영상의 제1 썸네일을 추출하고, 상기 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하는 메뉴 단계를 포함하고,
상기 매칭 단계는,
상기 제2 단말기의 재생 요청을 통해 선택된 특정 재생 메뉴에 포함된 원본 영상 및 수어 영상의 싱크 정보를 생성하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제6항에 있어서,
상기 메뉴 단계는,
동일한 특정 원본 영상이 포함된 재생 메뉴가 복수이면, 복수의 상기 재생 메뉴를 하나로 묶은 선택 메뉴를 상기 제2 단말기에 제공하는 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
단일의 원본 영상을 타겟으로 하는 수어 영상이 복수로 마련될 때,
상기 원본 영상에 대하여 복수의 수어 영상 중 하나를 선택할 수 있는 선택 메뉴를 제공하는 메뉴 단계를 포함하고,
상기 제공 단계는,
상기 제2 단말기에 의해 선택된 특정 수어 영상 및 상기 원본 영상의 싱크 정보를 상기 제2 단말기에 제공하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제8항에 있어서,
상기 제2 단말기로부터 상기 수어 영상의 평가 점수를 입수하는 평가 단계를 포함하고,
상기 메뉴 단계는,
상기 선택 메뉴에 포함된 복수의 수어 영상의 목록을 상기 평가 점수가 높은 순서에 따라 순서대로 배열하는, 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
상기 매칭 단계는:
상기 원본 영상의 일부 구간을 대상으로 제작된 수어 영상이 입수되면, 상기 수어 영상과 함께 상기 일부 구간을 나타내는 타임 플래그를 함께 입수하는 단계; 및
상기 타임 플래그를 이용하여 상기 원본 영상의 일부 구간과 상기 수어 영상의 싱크를 맞추는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
상기 원본 영상이 복수의 구간으로 분할될 때, 상기 원본 영상의 각 구간별로 상기 수어 영상을 획득하는 획득 단계를 포함하고,
상기 획득 단계는,
제작자의 동일성 여부를 불문하고, 상기 구간별로 획득되는 상기 수어 영상을 획득하는 단계를 포함하는 수어 자막 동영상 플랫폼 제공 방법. - 제11항에 있어서,
상기 획득 단계는,
특정 구간에 대한 제작 작업이 예약되면, 상기 특정 구간에 대한 예약 사실을 상기 원본 영상에 표시하는 단계; 및
상기 제작 작업을 예약한 특정 작업자에 한해서 상기 특정 구간에 대한 수어 영상을 획득하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제11항에 있어서,
상기 매칭 단계는,
특정 구간을 대상으로 하는 특정 수어 영상이 입수되고 설정 이벤트가 발생되면, 상기 특정 수어 영상의 영상 길이가 상기 특정 구간의 영상 길이에 맞춰지도록 상기 특정 수어 영상의 재생 속도를 조정하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제1항에 있어서,
상기 수어 영상을 편집하는 편집 단계를 포함하고,
상기 편집 단계는,
상기 수어 영상에 등장하는 수어 통역사의 표정이 그대로 나타나는 범위 내에서 상기 수어 통역사의 얼굴을 딥페이크(Deepfake)하는 단계를 포함하고,
상기 제공 단계는,
상기 딥페이크된 얼굴이 포함된 수어 영상을 상기 제2 단말기에 제공하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법. - 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법에 있어서,
수어 통역사가 업로드한 수어 영상을 획득하고, 획득된 상기 수어 영상과 원본 영상의 싱크를 맞추며, 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 사용자에게 제공하는 수어 자막 동영상 플랫폼 제공 방법. - 제1항 내지 제15항 중 어느 한 항의 수어 자막 동영상 플랫폼 제공 방법을 실행하도록 하기 위한 명령어를 포함하는 컴퓨터로 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 원본 영상 및 수어 영상의 싱크를 맞추는 매칭부;
제2 단말기에 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 제공하는 제공부를 포함하는 동영상 플랫폼 제공 장치. - 제17항에 있어서,
획득부; 및
메뉴부를 포함하고,
상기 획득부는,
제1 단말기로부터 상기 수어 영상을 획득하며 상기 제1 단말기로부터 상기 원본 영상의 식별 정보를 획득하도록 구성되고,
상기 메뉴부는:
상기 식별 정보가 나타내는 상기 원본 영상을 콘텐츠 서버로부터 추출하고; 그리고
상기 콘텐츠 서버로부터 추출된 상기 원본 영상의 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하도록 구성되는, 수어 자막 동영상 플랫폼 제공 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210126459 | 2021-09-24 | ||
KR20210126459 | 2021-09-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230043647A true KR20230043647A (ko) | 2023-03-31 |
KR102664295B1 KR102664295B1 (ko) | 2024-05-08 |
Family
ID=86005359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210168925A KR102664295B1 (ko) | 2021-09-24 | 2021-11-30 | 수어 자막 동영상 플랫폼 제공 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102664295B1 (ko) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169988A (ja) * | 2000-12-04 | 2002-06-14 | Nippon Telegr & Teleph Corp <Ntt> | 手話通訳提供方法及びシステム |
KR20140130335A (ko) * | 2013-04-30 | 2014-11-10 | 삼성전자주식회사 | 수화 번역 및 화면 해설 서비스 방법 및 시스템 |
KR20170115004A (ko) * | 2017-08-11 | 2017-10-16 | 네이버 주식회사 | 복수 번역자의 공동 번역 환경을 지원하는 서비스 방법, 이를 지원하는 공동 번역 지원 장치 및 공동 번역 지원 장치에 저장된 공동 번역 지원 컴퓨터 프로그램 |
KR102214598B1 (ko) * | 2019-10-04 | 2021-02-09 | 에스케이브로드밴드주식회사 | 컨텐츠재생장치 및 그 동작 방법 |
KR102258991B1 (ko) * | 2020-11-24 | 2021-06-01 | 주식회사 에스씨크리에이티브 | 수어 서비스 제공 시스템 |
KR20210106790A (ko) * | 2020-02-21 | 2021-08-31 | 삼성전자주식회사 | 서버, 전자 장치 및 그들의 제어 방법 |
-
2021
- 2021-11-30 KR KR1020210168925A patent/KR102664295B1/ko active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169988A (ja) * | 2000-12-04 | 2002-06-14 | Nippon Telegr & Teleph Corp <Ntt> | 手話通訳提供方法及びシステム |
KR20140130335A (ko) * | 2013-04-30 | 2014-11-10 | 삼성전자주식회사 | 수화 번역 및 화면 해설 서비스 방법 및 시스템 |
KR102061044B1 (ko) | 2013-04-30 | 2020-01-02 | 삼성전자 주식회사 | 수화 번역 및 화면 해설 서비스 방법 및 시스템 |
KR20170115004A (ko) * | 2017-08-11 | 2017-10-16 | 네이버 주식회사 | 복수 번역자의 공동 번역 환경을 지원하는 서비스 방법, 이를 지원하는 공동 번역 지원 장치 및 공동 번역 지원 장치에 저장된 공동 번역 지원 컴퓨터 프로그램 |
KR102214598B1 (ko) * | 2019-10-04 | 2021-02-09 | 에스케이브로드밴드주식회사 | 컨텐츠재생장치 및 그 동작 방법 |
KR20210106790A (ko) * | 2020-02-21 | 2021-08-31 | 삼성전자주식회사 | 서버, 전자 장치 및 그들의 제어 방법 |
KR102258991B1 (ko) * | 2020-11-24 | 2021-06-01 | 주식회사 에스씨크리에이티브 | 수어 서비스 제공 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR102664295B1 (ko) | 2024-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210382929A1 (en) | Multimedia content tags | |
US11580699B2 (en) | Systems and methods for changing a users perspective in virtual reality based on a user-selected position | |
EP2870771B1 (en) | Augmentation of multimedia consumption | |
US9100701B2 (en) | Enhanced video systems and methods | |
KR101540686B1 (ko) | 동영상의 구간별 댓글과 통계정보 제공 장치 및 그 방법 | |
JP4224095B2 (ja) | 情報処理装置、情報処理プログラムおよび情報処理システム | |
JP5770408B2 (ja) | 映像コンテンツ視聴端末 | |
US20130083036A1 (en) | Method of rendering a set of correlated events and computerized system thereof | |
US20140143218A1 (en) | Method for Crowd Sourced Multimedia Captioning for Video Content | |
KR101246917B1 (ko) | 미디어 재생 시스템의 사용자 간에 정보를 공유하는 방법및 시스템 | |
KR20150083355A (ko) | 증강 미디어 서비스 제공 방법, 장치 및 시스템 | |
JP5857449B2 (ja) | 画像処理装置及び録画装置 | |
JP2010157961A (ja) | 字幕作成システム及びプログラム | |
EP2754112B1 (en) | System amd method for producing complex multimedia contents by an author and for using such complex multimedia contents by a user | |
JP2009212857A (ja) | コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生システム、プログラム、および記録媒体 | |
KR100837721B1 (ko) | 개인화된 디지털 방송 콘텐츠의 소비를 위한 통합 형식인코딩 장치와, 이의 디코딩 장치 및 인코딩 방법 | |
Li et al. | A new production platform for authoring object-based multiscreen tv viewing experiences | |
KR101703321B1 (ko) | 복합 컨텐츠의 제공 방법 및 장치 | |
KR101198091B1 (ko) | 학습 콘텐츠 서비스 제공 방법 및 시스템 | |
KR20090079010A (ko) | 프로그램 정보 표시 방법 및 장치 | |
KR101498933B1 (ko) | 시각화를 통해 편의성이 극대화된 로그인형 자막제작 평가 확산 시스템 | |
JP2007129531A (ja) | 番組提示システム | |
KR102664295B1 (ko) | 수어 자막 동영상 플랫폼 제공 방법 및 장치 | |
JP2014130536A (ja) | 情報管理装置、サーバ及び制御方法 | |
US20200107054A1 (en) | Systems and methods for modifying date-related references of a media asset to reflect absolute dates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |