KR20230043647A - Method and apparatus for providing a platform for sign language subtitles video - Google Patents
Method and apparatus for providing a platform for sign language subtitles video Download PDFInfo
- Publication number
- KR20230043647A KR20230043647A KR1020210168925A KR20210168925A KR20230043647A KR 20230043647 A KR20230043647 A KR 20230043647A KR 1020210168925 A KR1020210168925 A KR 1020210168925A KR 20210168925 A KR20210168925 A KR 20210168925A KR 20230043647 A KR20230043647 A KR 20230043647A
- Authority
- KR
- South Korea
- Prior art keywords
- video
- sign language
- providing
- original
- original video
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001360 synchronised effect Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 16
- 230000008685 targeting Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 206010011878 Deafness Diseases 0.000 description 24
- 230000006870 function Effects 0.000 description 16
- 230000015654 memory Effects 0.000 description 13
- 238000013519 translation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
본 발명은 수어 자막 동영상의 플랫폼을 제공하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for providing a platform for sign language subtitle videos.
농인은 다양한 콘텐츠를 습득하는데 어려움을 겪고 있다. 이러한 어려움은 다음과 같은 인식으로 인해 뚜렷한 대책이 전무한 실정이다. '전 세계의 수어는 통일되어 있다'는 잘못된 선입견이다. 다른 언어와 마찬가지로 수어 역시 지역별로 자연 발생하여 독자적으로 발전해왔다. '한국의 수어는 한국어와 어순이 같다'는 선입견도 잘못된 것이다. 한국 수어는 한국어와 어순이 다르다. '농인은 한글을 잘 읽을 수 있다'는 선입견도 잘못되었다. 농인에게 한글은 제2의 언어로 청인이 외국어를 대하는 느낌과 흡사하다.Deaf people have difficulty in acquiring various contents. Due to the following perceptions of these difficulties, there is no clear countermeasure. It is a wrong prejudice that 'the world's sign language is unified'. Like other languages, sign language also developed independently by occurring naturally in each region. The prejudice that 'Korean sign language has the same word order as Korean' is also wrong. Korean sign language has a different word order from Korean. The prejudice that 'the deaf can read Hangeul well' is wrong. For the deaf, Hangeul is a second language, similar to the feeling of hearing a foreign language.
농인들의 정보 접근성 문제는 공중파, 뉴미디어, 특히 팬데믹(pandemic) 상황에서의 교육, 긴급 정보 전달 등 다양한 곳에서 심각성이 드러나고 있다. 특히, 유튜브(YouTube) 등 새롭게 등장한 디지털 미디어에서의 수어 통역은 전무하다.The problem of information accessibility for the deaf is becoming more serious in various places such as airwaves, new media, especially education in a pandemic situation, and emergency information delivery. In particular, there is no sign language interpretation in newly emerging digital media such as YouTube.
문장별 수어 번역 데이터셋 확보를 위해 과기부의 '인공지능 학습용 데이터 사업' 등을 활용할 수도 있다. 하지만, 데이터셋 구축에 고비용이 들고, 번역 품질에 대한 평가가 별도로 이루어져야 하며, 시대적으로 변모하고 지역적으로 다르게 사용되는 언어의 유기적 변화 등의 요인을 종합적으로 고려할 때, 문장별 수어 번역 데이터셋의 확보는 비효율적이라는 문제가 있다.In order to secure sign language translation datasets for each sentence, the Ministry of Science and Technology's 'Artificial Intelligence Learning Data Project' can be used. However, when comprehensively considering factors such as the high cost of constructing a dataset, the need to evaluate translation quality separately, and the organic change of languages that change over time and are used differently regionally, securing a sign language translation dataset for each sentence. has the problem of being inefficient.
한국등록특허공보 제2061044호에는 화면 해설과 수화가 포함되는 동영상을 손쉽게 만들 수 있는 수화 번역 기술이 개시되고 있다.Korean Registered Patent Publication No. 2061044 discloses a sign language translation technology that can easily create a video including a screen commentary and sign language.
본 발명은 수어 통역사로부터 데이터를 크라우드소싱(Crowd Sourcing) 형식으로 수집하여 농인들에게 디지털 동영상 정보에 대한 수어 자막 서비스를 제공하기 위한 것이다.An object of the present invention is to provide a sign language caption service for digital video information to the deaf by collecting data from sign language interpreters in a crowd sourcing format.
본 발명의 동영상 플랫폼 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법은 원본 영상, 상기 원본 영상을 기초로 제작된 수어 영상의 싱크를 맞추는 싱크 정보를 생성하는 매칭 단계; 상기 원본 영상과 상기 수어 영상이 함께 재생되는 제2 단말기에 상기 싱크 정보를 제공하는 제공 단계를 포함할 수 있다.A method for providing a sign language caption video platform performed by a video platform providing apparatus of the present invention includes a matching step of generating sync information for synchronizing an original video and a sign language video produced based on the original video; A providing step of providing the sync information to a second terminal in which the original video and the sign language video are simultaneously reproduced.
또한, 상기 싱크 정보는, 시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 포함하고, 상기 제공 단계는, 시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 상기 제2 단말기에 직접 스트리밍하는 단계를 포함할 수 있다.In addition, the sync information includes the original video and the sign language video synchronized in time, and the providing step includes directly streaming the original video and the sign language video synchronized in time to the second terminal. can do.
또한, 상기 매칭 단계는, 서로 별개의 영상에 해당하는 상기 원본 영상과 상기 수어 영상의 싱크를 맞추는 단계; 및 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상이 함께 포함된 단일의 통합 영상을 생성하는 단계를 포함하고, 상기 제공 단계는, 상기 제2 단말기에 상기 통합 영상을 제공하는 단계를 포함할 수 있다.In addition, the matching step may include synchronizing the original video corresponding to a separate video and the sign language video; and generating a single integrated video including the synchronized original video and the sign language video, wherein the providing may include providing the integrated video to the second terminal.
또한, 상기 매칭 단계는: 상기 제2 단말기의 재생 신호의 분석을 통해 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 시작 장면을 파악하는 단계; 및 상기 재생 시작 장면을 지시하는 타임 플래그가 포함된 상기 싱크 정보를 생성하는 단계를 포함하고, 상기 제공 단계는, 상기 타임 플래그를 상기 제2 단말기에 제공하는 단계를 포함하고, 상기 제2 단말기로 제공된 상기 타임 플래그는, 상기 원본 영상의 재생 시작 장면과 상기 수어 영상의 재생 시작 장면을 결정하는데 공통적으로 사용될 수 있다.In addition, the matching step may include: identifying a reproduction start scene of any one of the original video and the sign language video through analysis of a reproduction signal of the second terminal; and generating the sync information including a time flag indicating the playback start scene, wherein the providing step includes providing the time flag to the second terminal, to the second terminal. The provided time flag may be commonly used to determine a reproduction start scene of the original video and a reproduction start scene of the sign language video.
또한, 상기 원본 영상과 상기 수어 영상은, 서로 다른 콘텐츠 서버로부터 스트리밍되고, 상기 타임 플래그를 이용하여, 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 장면에 따라 나머지 하나의 재생 장면의 싱크가 맞춰질 수 있다.In addition, the original video and the sign language video are streamed from different content servers, and the synchronization of the playback scene of the other one of the original video and the sign language video is synchronized according to the playback scene of one of the original video and the sign language video using the time flag. can
또한, 제1 단말기로부터 상기 수어 영상을 획득하는 획득 단계를 더 포함하고, 상기 획득 단계는, 상기 수어 영상이 타겟으로 하는 특정 원본 영상의 식별 정보를 추가로 획득하는 단계를 더 포함하고, 상기 식별 정보를 이용하여 상기 특정 원본 영상의 제1 썸네일을 추출하고, 상기 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하는 메뉴 단계를 포함하고, 상기 매칭 단계는, 상기 제2 단말기의 재생 요청을 통해 선택된 특정 재생 메뉴에 포함된 원본 영상 및 수어 영상의 싱크 정보를 생성하는 단계를 포함할 수 있다.The method may further include acquiring the sign language image from the first terminal, and the acquiring step may further include acquiring identification information of a specific original image targeted by the sign language image, and the identification information may be further included. A menu step of extracting a first thumbnail of the specific original video using information and providing a playback menu in which the first thumbnail and a second thumbnail of the sign language video are displayed together, and the matching step comprises: 2 It may include generating sync information of an original video and sign language video included in a specific play menu selected through a play request of the terminal.
또한, 상기 메뉴 단계는, 동일한 특정 원본 영상이 포함된 재생 메뉴가 복수이면, 복수의 상기 재생 메뉴를 하나로 묶은 선택 메뉴를 상기 제2 단말기에 제공할 수 있다.In addition, in the menu step, if there are a plurality of playback menus including the same specific original video, a selection menu combining a plurality of playback menus may be provided to the second terminal.
또한, 단일의 원본 영상을 타겟으로 하는 수어 영상이 복수로 마련될 때, 상기 원본 영상에 대하여 복수의 수어 영상 중 하나를 선택할 수 있는 선택 메뉴를 제공하는 메뉴 단계를 포함하고, 상기 제공 단계는, 상기 제2 단말기에 의해 선택된 특정 수어 영상 및 상기 원본 영상의 싱크 정보를 상기 제2 단말기에 제공하는 단계를 포함할 수 있다.In addition, when a plurality of sign language images targeting a single original image are provided, a menu step of providing a selection menu for selecting one of a plurality of sign language images with respect to the original image, wherein the providing step, The method may include providing the second terminal with sync information of the specific sign language video selected by the second terminal and the original video.
또한, 상기 제2 단말기로부터 상기 수어 영상의 평가 점수를 입수하는 평가 단계를 포함하고, 상기 메뉴 단계는, 상기 선택 메뉴에 포함된 복수의 수어 영상의 목록을 상기 평가 점수가 높은 순서에 따라 순서대로 배열할 수 있다.In addition, an evaluation step of acquiring an evaluation score of the sign language image from the second terminal, and the menu step includes a list of a plurality of sign language images included in the selection menu in order according to the order of the evaluation score being high. can be arranged
또한, 상기 매칭 단계는: 상기 원본 영상의 일부 구간을 대상으로 제작된 수어 영상이 입수되면, 상기 수어 영상과 함께 상기 일부 구간을 나타내는 타임 플래그를 함께 입수하는 단계; 및 상기 타임 플래그를 이용하여 상기 원본 영상의 일부 구간과 상기 수어 영상의 싱크를 맞추는 단계를 포함할 수 있다.In addition, the matching step may include: acquiring a time flag indicating the partial section together with the sign language image when a sign language image produced for a section of the original video is acquired; and synchronizing a section of the original video with the sign language video by using the time flag.
또한, 상기 원본 영상이 복수의 구간으로 분할될 때, 상기 원본 영상의 각 구간별로 상기 수어 영상을 획득하는 획득 단계를 포함하고, 상기 획득 단계는, 제작자의 동일성 여부를 불문하고, 상기 구간별로 획득되는 상기 수어 영상을 획득하는 단계를 포함할 수 있다.In addition, when the original video is divided into a plurality of sections, an acquiring step of obtaining the sign language image for each section of the original video, wherein the acquiring step is obtained for each section regardless of whether producers are identical. and acquiring the sign language image.
또한, 상기 획득 단계는, 특정 구간에 대한 제작 작업이 예약되면, 상기 특정 구간에 대한 예약 사실을 상기 원본 영상에 표시하는 단계; 및 상기 제작 작업을 예약한 특정 작업자에 한해서 상기 특정 구간에 대한 수어 영상을 획득하는 단계를 포함할 수 있다.In addition, the acquiring step may include displaying the fact of reservation for the specific section on the original video when the production work for the specific section is reserved; and acquiring a sign language image for the specific section only for a specific worker who has reserved the production job.
또한, 상기 매칭 단계는, 특정 구간을 대상으로 하는 특정 수어 영상이 입수되고 설정 이벤트가 발생되면, 상기 특정 수어 영상의 영상 길이가 상기 특정 구간의 영상 길이에 맞춰지도록 상기 특정 수어 영상의 재생 속도를 조정하는 단계를 포함할 수 있다.In addition, in the matching step, when a specific sign language image targeting a specific section is acquired and a setting event occurs, the reproduction speed of the specific sign language image is adjusted so that the video length of the specific sign language image matches the video length of the specific section. Adjustments may be included.
또한, 상기 수어 영상을 편집하는 편집 단계가 마련되고, 상기 편집 단계는, 상기 수어 영상에 등장하는 수어 통역사의 표정이 그대로 나타나는 범위 내에서 상기 수어 통역사의 얼굴을 딥페이크(Deepfake)하는 단계를 포함하고, 상기 제공 단계는, 상기 딥페이크된 얼굴이 포함된 수어 영상을 상기 제2 단말기에 제공하는 단계를 포함할 수 있다.In addition, an editing step of editing the sign language video is provided, and the editing step includes deepfakeing the sign language interpreter's face within a range where the expression of the sign language interpreter appears in the sign language video as it is. The providing step may include providing the sign language video including the deepfake face to the second terminal.
본 발명의 제공 장치에 의해 수행되는 수어 자막 동영상 플랫폼 제공 방법은, 수어 통역사가 업로드한 수어 영상을 획득하고, 획득된 상기 수어 영상과 원본 영상의 싱크를 맞추며, 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 사용자에게 제공할 수 있다.The method for providing a sign language subtitle video platform, performed by the providing device of the present invention, acquires a sign language video uploaded by a sign language interpreter, synchronizes the obtained sign language video with an original video, and synchronizes the original video with the original video synchronized with the sign language. The video can be provided to the user.
본 발명의 컴퓨터 프로그램은, 수어 자막 동영상 플랫폼 제공 방법을 실행하도록 하기 위한 명령어를 포함하는 컴퓨터로 판독 가능한 기록매체에 저장될 수 있다.The computer program of the present invention may be stored in a computer-readable recording medium including instructions for executing a method for providing a sign language subtitle video platform.
본 발명의 동영상 플랫폼 제공 장치는, 원본 영상 및 수어 영상의 싱크를 맞추는 매칭부; 제2 단말기에 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 제공하는 제공부를 포함할 수 있다.An apparatus for providing a video platform of the present invention includes a matching unit that synchronizes an original video and a sign language video; A provision unit providing the original video and the sign language video synchronized to the second terminal may be included.
또한, 획득부; 및 메뉴부를 포함하고, 상기 획득부는, 제1 단말기로부터 상기 수어 영상을 획득하며 상기 제1 단말기로부터 상기 원본 영상의 식별 정보를 획득하도록 구성되고, 상기 메뉴부는: 상기 식별 정보가 나타내는 상기 원본 영상을 콘텐츠 서버로부터 추출하고; 그리고 상기 콘텐츠 서버로부터 추출된 상기 원본 영상의 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하도록 구성될 수 있다.In addition, the acquisition unit; and a menu unit, wherein the acquisition unit is configured to acquire the sign language video from a first terminal and to obtain identification information of the original video from the first terminal, wherein the menu unit: displays the original video indicated by the identification information. extract from the content server; And it may be configured to provide a playback menu in which the first thumbnail of the original video extracted from the content server and the second thumbnail of the sign language video are displayed together.
본 발명의 수어 자막 동영상 플랫폼 제공 장치는 이미 존재하는 별개의 원본 영상과 수어(수화 언어) 영상을 싱크(Sync)시켜서 사용자에게 제공할 수 있다. 이때, 원본 영상은 유튜브 등 기존의 다양한 콘텐츠 서버로부터 추출될 수 있다. 수어 영상은 본 발명의 제공 장치에 저장되거나, 별도의 수어 저장 데이터베이스에 기록될 수 있다.The device for providing a sign language caption video platform according to the present invention may synchronize an already existing separate original video and a sign language (sign language) video and provide the same to the user. In this case, the original video may be extracted from various existing content servers such as YouTube. The sign language image may be stored in the providing device of the present invention or recorded in a separate sign language storage database.
수어 저장 데이터베이스에 기록된 수어 영상 및 해당 수어 영상에 매칭되는 원본 영상의 정보는 추후 기계 학습의 입력 데이터셋으로 사용될 수 있다.Information on the sign language image recorded in the sign language storage database and the original image matched to the corresponding sign language image may be used as an input dataset for machine learning later.
본 발명의 제공 장치는 온라인 비디오 플랫폼(Online Video Platform, OVP)을 제공할 수 있다. 본 발명의 제공 장치는 수어 자막 비디오를 유통하기 위한 플랫폼을 제공할 수 있다.The provision device of the present invention may provide an online video platform (OVP). The providing device of the present invention may provide a platform for distributing sign language captioned video.
수어 자막 OVP는 수어 통역사로부터 수어 영상에 해당하는 수어 통역 자막을 크라우드소싱 방식으로 수집하여 농인들에게 디지털 동영상(예: YouTube 등)에 대한 수어 자막 서비스를 제공할 수 있다.The sign language caption OVP collects sign language interpretation captions corresponding to sign language videos from sign language interpreters in a crowdsourcing method and provides sign language caption services for digital videos (eg, YouTube, etc.) to the deaf.
본 발명은 수어 자막 OVP를 통해 수어 통역사로부터 인터넷의 다양한 디지털 동영상 정보에 대한 수어 자막 영상을 크라우드소싱 형식으로 수집할 수 있다. 본 발명은 수집된 수어 자막 영상을 농인 등의 시청각장애인들에게 유통할 수 있는 서비스를 제공하여 농인의 디지털 정보 접근성 문제를 해결할 수 있다.According to the present invention, sign language caption images for various digital video information on the Internet can be collected from sign language interpreters through sign language caption OVP in a crowdsourcing format. The present invention can solve the digital information accessibility problem of the deaf by providing a service for distributing the collected sign language subtitle images to the hearing-blind, such as the deaf.
수어 자막 OVP는 농인들에게 다양한 디지털 정보에 대한 접근성을 획기적으로 높이고, 수어 통역사에게는 수어 자막 제공에 상응하는 보상을 받을 수 있도록 하여 수어 자막 유통량을 확대할 수 있다.Sign Language Subtitle OVP can dramatically increase accessibility to various digital information for the deaf and expand the distribution of sign language subtitles by allowing sign language interpreters to receive compensation corresponding to the provision of sign language subtitles.
수어 자막 OVP를 통해 다양한 분야의 수어 통역 영상은 데이터로 축적될 수 있다. 빅데이터화된 수어 통역 영상은 향후 수어 자동 번역을 위한 데이터셋으로 활용될 수 있고, 수어의 언어학적 연구의 중요한 자원으로 활용될 수 있다.Through sign language caption OVP, sign language interpretation videos in various fields can be accumulated as data. Sign language interpretation videos converted into big data can be used as a data set for automatic sign language translation in the future, and can be used as an important resource for linguistic research on sign language.
수어 통역사는 예를 들어 YouTube 동영상(A)에 대한 수어 번역 자막 영상(B)을 녹화하여 본 플랫폼에 업로드할 수 있다. 농인 사용자는 본 플랫폼에서 자막 영상(B)을 클릭하여 YouTube 동영상(A)과 함께 시청할 수 있다.The sign language interpreter may record, for example, a sign language translation subtitle video (B) for a YouTube video (A) and upload it to the platform. Deaf users can click on the subtitled video (B) on this platform to watch it along with the YouTube video (A).
플랫폼은 농인 사용자가 수어 번역의 품질을 평가할 수 있는 기능을 제공하고, 수어 영상에 대한 사용자의 평가를 수집할 수 있다. 이는 기존 동영상 플랫폼과 마찬가지로 수어 통역사와 사용자의 상호 작용을 일으켜 번역 품질의 향상을 유도할 수 있다.The platform may provide a function for deaf users to evaluate the quality of sign language translation, and may collect user evaluations of sign language videos. Like existing video platforms, this can lead to improvement in translation quality by causing interaction between sign language interpreters and users.
일정 사용자를 확보할 수 있으면 본 플랫폼은 궁극적으로 번역 품질에 대한 평가가 존재하는 문장 단위의 수어 번역 데이터셋을 수집할 수 있게 되고, 기계 번역뿐만 아니라 한국 수어에 대한 언어학적 연구에도 도움이 될 것으로 예측된다.If a certain number of users can be secured, this platform will ultimately be able to collect sentence-level sign language translation datasets that evaluate translation quality, and will help not only machine translation but also linguistic research on Korean sign language. predicted
본 발명은 수어 통역사가 인터넷의 다양한 디지털 동영상 정보에 대한 수어 자막 영상을 제작 및 업로드할 수 있도록 돕고, 다수의 수어 통역사에 의해 업로드된 수어 자막 영상을 통해 농인 사용자들이 원본 영상을 수어 자막과 함께 시청할 수 있도록 함으로써, 농인의 디지털 정보 접근성 문제를 해결할 수 있다.The present invention helps sign language interpreters to produce and upload sign language subtitle videos for various digital video information on the Internet, and allows deaf users to watch original videos together with sign language subtitles through sign language subtitle videos uploaded by a plurality of sign language interpreters. By enabling this, it is possible to solve the digital information accessibility problem of the deaf.
수어 자막 OVP는 농인 사용자가 동영상 원본 영상과 수어 자막 영상의 싱크(Sync)를 맞추어 재생하는 기능을 제공할 수 있다.The sign language caption OVP may provide a function for a deaf user to reproduce a video original video and a sign language caption video in sync.
수어 자막 OVP는 수어 통역사가 원본 영상을 구간별로 나누어 녹화할 수 있는 기능을 제공한다. 또, OVP는 수어 통역사의 얼굴을 비공개로 처리하기 위해 페이스 스왑(FaceSwap) 등의 얼굴 꾸미기 기능을 제공할 수 있다.The sign language caption OVP provides a function for a sign language interpreter to divide and record the original video by section. In addition, OVP may provide a face decorating function such as FaceSwap to process the sign language interpreter's face privately.
도 1은 본 발명의 수어 자막 동영상 플랫폼 제공 방법을 나타낸 흐름도이다.
도 2는 본 발명의 제공 장치를 나타낸 블록도이다.
도 3은 제2 단말기에 제공되는 재생 메뉴를 나타낸 개략도이다.
도 4는 제2 단말기에 제공되는 스트리밍 메뉴를 나타낸 개략도이다.
도 5는 제1 단말기에 제공되는 제작 메뉴를 나타낸 개략도이다.1 is a flowchart illustrating a method for providing a sign language caption video platform according to the present invention.
2 is a block diagram showing a provision device of the present invention.
3 is a schematic diagram showing a playback menu provided to a second terminal.
4 is a schematic diagram illustrating a streaming menu provided to a second terminal.
5 is a schematic diagram illustrating a production menu provided to the first terminal.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily carry out the present invention. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.In this specification, redundant descriptions of the same components are omitted.
또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.In addition, in this specification, when a component is referred to as being 'connected' or 'connected' to another component, it may be directly connected or connected to the other component, but another component in the middle It should be understood that may exist. On the other hand, in this specification, when a component is referred to as 'directly connected' or 'directly connected' to another component, it should be understood that no other component exists in the middle.
명세서에서 사용되는 '~부'라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '~부'가 하나의 구성요소로 구현되거나, 하나의 '~부'가 복수의 구성요소들을 포함하는 것도 가능하다.The term '~unit' used in the specification may be implemented in software or hardware, and according to embodiments, a plurality of '~units' may be implemented as one component, or one '~unit' may constitute a plurality of components. It is also possible to include elements.
본 명세서에서 사용되는 '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하드웨어 구성요소를 의미할 수 있다. '~부'에서 제공하는 기능은 복수의 구성요소에 의해 분리되어 수행되거나, 다른 추가적인 구성요소와 통합될 수도 있다. 본 명세서의 '~부'는 반드시 소프트웨어 또는 하드웨어에 한정되지 않으며, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.'~ unit' used in this specification is a unit that processes at least one function or operation, and may mean, for example, software, an FPGA, or a hardware component. Functions provided by '~unit' may be performed separately by a plurality of components or may be integrated with other additional components. '~unit' in this specification is not necessarily limited to software or hardware, and may be configured to be in an addressable storage medium or configured to reproduce one or more processors.
또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.In addition, terms used in this specification are only used to describe specific embodiments and are not intended to limit the present invention.
또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. Also, in this specification, a singular expression may include a plurality of expressions unless the context clearly indicates otherwise.
또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.In addition, in this specification, terms such as 'include' or 'having' are only intended to designate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more It should be understood that the presence or addition of other features, numbers, steps, operations, components, parts, or combinations thereof is not precluded.
또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.Also in this specification, the term 'and/or' includes a combination of a plurality of listed items or any item among a plurality of listed items. In this specification, 'A or B' may include 'A', 'B', or 'both A and B'.
또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.Also, in this specification, detailed descriptions of well-known functions and configurations that may obscure the subject matter of the present invention will be omitted.
본 발명의 사용자는 수어 자막 영상을 시청하는 농인 등의 시청각장애인을 지칭할 수 있다. 사용자 또는 농인과 구분하여, 수어 자막 영상을 제작하여 배포하는 제작자가 등장하며, 자막 영상 내에 직접 등장하여 수화를 수행하는 수어 통역사가 등장할 수 있다. 제작자와 수어 통역사는 동일할 수 있다.A user of the present invention may refer to a hearing-blind person such as a deaf person who watches a sign language caption image. A producer who produces and distributes a sign language subtitle video, distinguished from a user or a deaf person, may appear, and a sign language interpreter who directly appears in the subtitle video and performs sign language may appear. The producer and the sign language interpreter may be the same.
수어 통역사는 예를 들어 유튜브(YouTube) 동영상 등(이하, 원본 영상이라 칭함)에 대한 수어 자막 영상(수어 영상)을 녹화하여 동영상 플랫폼 제공 장치(100) 또는 수어 자막 OVP에 업로드할 수 있다. 농인 사용자는 동영상 플랫폼 제공 장치(100) 또는 수어 자막 OVP에서 수어 자막 영상을 클릭하여 원본 영상과 함께 시청할 수 있다. 동영상 플랫폼 제공 장치(100) 또는 OVP는 특정 서버에 탑재될 수 있다.For example, the sign language interpreter may record a sign language caption video (sign language video) for a YouTube video (hereinafter referred to as an original video) and upload it to the video
농인 사용자는 수어 자막 OVP에 접속하여 재생 메뉴 p 또는 선택 메뉴를 통해 영상을 선택 후 시청할 수 있다.The deaf user can access the sign language subtitle OVP, select a video through the playback menu p or the selection menu, and then watch it.
동영상 플랫폼 제공 장치(100)는 검색창이나 영상 카테고리 표시창을 통해 농인 사용자가 원하는 영상을 검색하거나 카테고리별 추천 영상을 선택할 수 있게 유도할 수 있다.The
동영상 플랫폼 제공 장치(100)는 사용자 편의 기능을 통해 농인 사용자가 본인 정보를 관리할 수 있도록 할 수 있다. 동영상 플랫폼 제공 장치(100)는 즐겨 찾는 수어 통역사를 구독할 수 있게 하고, 본인의 시청 기록을 열람할 수 있게 하고, 자주 보는 영상을 보관할 수 있게 구성될 수 있다.The
농인 사용자는 재생 메뉴 p 또는 선택 메뉴에서 시청하고자 하는 영상의 쌍 (원본 영상과 수어 영상)을 선택할 수 있다. 이때, 재생 메뉴에는 원본 영상 a의 썸네일에 해당하는 제1 썸네일 s1, 수어 영상 b의 썸네일에 해당하는 제2 썸네일 s2가 표시될 수 있다.The deaf user can select a pair of images (original video and sign language video) to watch from the playback menu p or the selection menu. At this time, a first thumbnail s1 corresponding to the thumbnail of the original video a and a second thumbnail s2 corresponding to the thumbnail of the sign language video b may be displayed on the playback menu.
사용자가 재생 메뉴 p 중 원하는 영상의 쌍을 선택하면, 스트리밍 메뉴 s가 표시되고, 선택한 영상 쌍이 스트리밍되고 재생될 수 있다. 설정 면적을 갖는 디스플레이의 영역에서 원본 영상과 자막 영상은 도 4와 같이 서로 구분된 영역에 표시될 수 있다. 또는, 둘 중 어느 하나가 화면 전체에 표시되고, 나머지 하나가 화면 전체에 표시되는 영상 위에 작게 표시되는 PIP(Picture in Picture) 방식도 가능하다.When the user selects a desired video pair from the playback menu p, the streaming menu s is displayed, and the selected video pair can be streamed and played. In an area of a display having a set area, an original video and a subtitle image may be displayed in areas separated from each other as shown in FIG. 4 . Alternatively, a Picture in Picture (PIP) method in which one of the two is displayed on the entire screen and the other is displayed in a small size on the image displayed on the entire screen is also possible.
동영상 플랫폼 제공 장치(100)는 원본 영상과 수어 자막 영상(수어 영상)의 싱크(Sync)를 맞추어 재생하는 기능을 제공할 수 있다.The
동영상 플랫폼 제공 장치(100)는 원본 영상과 수어 영상이 한 영상에 오버랩(Overlap)되어 표시되는 기능을 제공할 수 있다.The
동영상 플랫폼 제공 장치(100)는 추천 점수, 댓글 등을 통해 농인 사용자가 수어 영상의 품질을 평가할 수 있는 기능을 제공할 수 있다.The
수어 통역사는 동영상 플랫폼 제공 장치(100)에 의해 제공되는 제작 메뉴, 예를 들어 도 3의 '영상 제작' 메뉴를 선택하여 수어 영상을 제작할 수 있다.The sign language interpreter may produce a sign language video by selecting a production menu provided by the video
수어 통역사는 도 5의 제작 메뉴 m의 원본 영상 링크 입력 창 d에 원본 영상의 링크를 입력하여 원본 영상 a를 불러오고, 원본 영상 a에 대한 수어 영상을 제작할 수 있다.The sign language interpreter may input the link of the original video to the original video link input window d of the production menu m of FIG. 5 to load the original video a, and produce a sign language video for the original video a.
동영상 플랫폼 제공 장치(100)는 수어 통역사가 원본 영상을 구간별로 나누어 녹화할 수 있는 기능을 제공할 수 있다. 구간 표시 영역에서 수어 통역사는 원본 영상 a를 구간별로 나눌 수 있고, 나누어진 원본 영상을 구간별(t1, t2)로 재생하면서 해당 수어 영상을 제작할 수 있다.The
구간별로 녹화된 수어 영상은 자막영상 통합기능 t0를 통해 하나의 영상으로 합쳐져 업로드할 수 있도록 한다. 이때 원본 영상 a와 수어 영상 b의 재생 길이 차이는 재생 속도 조정 등을 통하여 극복될 수 있다.Sign language videos recorded for each section are merged into one video through the subtitle video integrating function t0 so that they can be uploaded. At this time, the difference in playback length between the original video a and the sign language video b can be overcome by adjusting the playback speed.
수어 장치는 얼굴 공개를 꺼려하는 수어 통역사를 위해 페이스스왑(FaceSwap) 등과 같은 딥페이크 기술을 통한 얼굴 꾸미기 기능을 제공할 수 있다.The sign language device may provide a face decorating function through a deep fake technology such as FaceSwap for sign language interpreters who are reluctant to reveal their faces.
동영상 플랫폼 제공 장치(100) 및 수어 자막 동영상 플랫폼 제공 방법에 대하여 상세하게 살펴본다. 수어 자막 동영상 플랫폼 제공 방법은 동영상 플랫폼 제공 장치(100)의 동작으로 설명될 수도 있다.The
도 1은 본 발명의 수어 자막 동영상 플랫폼 제공 방법을 나타낸 흐름도이다. 도 2는 본 발명의 동영상 플랫폼 제공 장치(100)를 나타낸 블록도이다. 도 3은 제2 단말기에 제공되는 재생 메뉴를 나타낸 개략도이다. 도 4는 제2 단말기에 제공되는 스트리밍 메뉴를 나타낸 개략도이다. 도 5는 제1 단말기에 제공되는 제작 메뉴를 나타낸 개략도이다.1 is a flowchart illustrating a method for providing a sign language caption video platform according to the present invention. 2 is a block diagram showing an
도 1에 도시된 수어 자막 동영상 플랫폼 제공 방법은 도 2의 동영상 플랫폼 제공 장치(100)에 의해 수행될 수 있다.The method of providing a sign language caption video platform shown in FIG. 1 may be performed by the video
수어 자막 동영상 플랫폼 제공 방법은 획득 단계(S 510), 메뉴 단계(S 520), 매칭 단계(S 530), 편집 단계(S 540), 제공 단계(S 550), 평가 단계(S 560)를 포함할 수 있다.The method of providing the sign language subtitle video platform includes an acquisition step (S 510), a menu step (S 520), a matching step (S 530), an editing step (S 540), a provision step (S 550), and an evaluation step (S 560). can do.
획득 단계(S 510)는 획득부(110)에 의해 수행될 수 있다. 일 예로, 획득부(110)는 제1 단말기(200)로부터 수어 영상을 획득하며 제1 단말기(200)로부터 원본 영상의 식별 정보를 획득할 수 있다.The acquisition step (S510) may be performed by the
메뉴 단계(S 520)는 메뉴부(130)에 의해 수행될 수 있다. 일 예로, 메뉴부(130)는 식별 정보가 나타내는 원본 영상을 콘텐츠 서버(400)로부터 추출할 수 있다. 메뉴부(130)는 콘텐츠 서버(400)로부터 추출된 원본 영상의 제1 썸네일과 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공할 수 있다.The menu step (S520) may be performed by the
매칭 단계(S 530)는 매칭부(150)에 의해 수행될 수 있다. 매칭부(150)는 원본 영상, 수어 영상의 싱크를 맞출 수 있다.The matching step (S530) may be performed by the
편집 단계(S 540)는 편집부(160)에 의해 수행될 수 있다.The editing step (S540) may be performed by the
제공 단계(S 550)는 제공부(170)에 의해 수행될 수 있다. 제공부(170)는 제2 단말기(300)에 싱크가 맞춰진 원본 영상과 수어 영상을 제공할 수 있다.The providing step (S550) may be performed by the providing
평가 단계(S 560)는 평가부(190)에 의해 수행될 수 있다.The evaluation step (S560) may be performed by the
획득 단계(S 510)는 제1 단말기(200)로부터 수어 영상을 획득할 수 있다. 제1 단말기(200)는 수어 영상의 제작자 또는 수어 통역사의 이동 통신 단말기, 휴대 단말기, 퍼스널 컴퓨터 등을 포함할 수 있다. 획득부(110)에는 제1 단말기(200)와 유무선 통신하는 통신 모듈이 마련될 수 있다.In the acquiring step (S510), a sign language image may be acquired from the
획득 단계(S 510)는 수어 영상이 타겟으로 하는 특정 원본 영상의 식별 정보를 추가로 획득할 수 있다. 식별 정보는 특정 원본 영상을 탐색할 수 있는 식별자, URL(uniform resource locator) 등의 링크 주소를 포함할 수 있다.In the acquiring step (S510), identification information of a specific original video targeted by the sign language video may be additionally acquired. The identification information may include an identifier capable of searching for a specific original video and a link address such as a uniform resource locator (URL).
메뉴 단계(S 520)는 식별 정보를 이용하여 특정 원본 영상의 제1 썸네일을 추출하고, 제1 썸네일과 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴 p를 제2 단말기(300)에 제공할 수 있다. 메뉴부(130)에는 제1 단말기(200) 또는 제2 단말기(300)와 통신하는 통신 모듈이 마련될 수 있다. 동영상 플랫폼 제공 장치(100)를 구성하는 각 요소에 마련된 통신 모듈은 일체로 형성되어도 무방하다. 동일한 특정 원본 영상이 포함된 재생 메뉴가 복수이면, 메뉴부(130)는 복수의 재생 메뉴를 하나로 묶은 선택 메뉴를 상기 제2 단말기(300)에 제공할 수 있다. 이때, 하나의 선택 메뉴에 포함된 복수의 재생 메뉴를 어떤 순서로 배열할 것인가에 대한 선택의 문제가 발생될 수 있다. 배열 순서에 따라 사용자에 의해 선택될 확률이 달라질 수 있다.In the menu step (S520), a first thumbnail of a specific original video is extracted using the identification information, and a playback menu p in which the first thumbnail and the second thumbnail of the sign language video are displayed together is provided to the
매칭 단계(S 530)는 원본 영상, 수어 영상의 싱크(Sync)를 맞출 수 있다. 수어 영상은 원본 영상을 기초로 제작될 수 있다. 수어 영상은 수어 통역사가 원본 영상을 보면서 실시간으로 수화 통역하는 장면을 촬영한 영상을 포함할 수 있다.In the matching step (S530), synchronization of the original video and the sign language video may be performed. The sign language video may be produced based on the original video. The sign language video may include a video in which a sign language interpreter interprets sign language in real time while viewing the original video.
획득 단계(S 510)는 원본 영상과 수어 영상의 싱크를 맞추는 싱크 정보를 생성할 수 있다. 예를 들어, 매칭 단계(S 530)는 제2 단말기(300)의 재생 요청을 통해 선택된 특정 재생 메뉴에 포함된 원본 영상 및 수어 영상의 싱크 정보를 생성할 수 있다. 제2 단말기(300)는 농자, 시청각장애인 등 사용자의 이동 통신 단말기, 휴대 단말기, 퍼스널 컴퓨터 등을 포함할 수 있다.In the acquiring step (S510), sync information for synchronizing the original video and the sign language video may be generated. For example, in the matching step (S530), sync information of the original video and the sign language video included in the specific play menu selected through the play request of the
제공 단계(S 550)는 원본 영상과 수어 영상이 함께 재생되는 제2 단말기(300)에 싱크 정보를 제공할 수 있다.In the providing step (S550), sync information may be provided to the
싱크 정보는 시간적 싱크가 서로 맞춰진 원본 영상 자체와 수어 영상 자체를 포함할 수 있다. 이 경우, 제공 단계(S 550)는 시간적 싱크가 맞춰진 원본 영상과 수어 영상을 제2 단말기(300)에 직접 스트리밍할 수 있다.The sync information may include the original video itself and the sign language video itself, which are temporally synchronized with each other. In this case, in the providing step ( S550 ), the original video and the sign language video with temporal synchronization can be directly streamed to the
원본 영상은 재생 시간 상으로 각 장면이 특정될 수 있다. 일 예로, 재생 시간이 1시간인 원본 영상을 가정한다. 이 경우, 원본 영상의 k 장면은 항상 원본 영상의 제1 재생 시점에 표시될 수 있다. 이에 맞춰, 수어 영상에서 k 장면을 수화 통역한 영상 역시 항상 수어 영상의 제2 재생 시점에 표시될 수 있다. 이때, 제1 재생 시점과 제2 재생 시점을 맞추어 제2 단말기(300)에 표시되도록 하거나 스트리밍하는 것이 시간적 싱크에 해당될 수 있다.In the original video, each scene may be specified in terms of playback time. As an example, it is assumed that an original video having a playback time of 1 hour is used. In this case, k-scenes of the original video may always be displayed at the first playback time of the original video. Correspondingly, an image obtained by sign language interpretation of scene k in a sign language image may also always be displayed at the second playback time of the sign language image. In this case, displaying or streaming on the
사용자는 1시간 플레이 타임 중 300초의 장면부터 선택 재생할 수 있다.Users can select and play scenes from 300 seconds during the 1-hour play time.
수어 영상은 원본 영상을 기초로 제작되므로, 원본 영상과 거의 동일한 재생 시간(플레이 타임)을 가질 수 있다. 이때, 시간적으로 싱크된다는 것은 원본 영상의 재생 개시 장면(위 예에서는 300초의 장면)과 동일한 시점의 특정 장면이 재생 또는 스트리밍되는 것을 의미할 수 있다. 해당 특정 장면은 원본 영상의 재생 개시 장면을 보고 수화 통역한 장면을 포함할 수 있다.Since the sign language video is produced based on the original video, it can have almost the same playback time (play time) as the original video. In this case, synchronizing in time may mean that a specific scene at the same time as the reproduction start scene of the original video (a scene of 300 seconds in the above example) is reproduced or streamed. The specific scene may include a scene in which sign language interpretation is performed after viewing a reproduction start scene of an original video.
원본 영상에 시간적으로 싱크된 수어 영상은 원본 영상과 동일한 시점의 장면이 재생 또는 스트리밍될 수 있다. 마찬가지로, 수어 영상에 시간적으로 싱크된 원본 영상은 수어 영상과 동일한 시점의 장면이 재생 또는 스트리밍될 수 있다. 수어 영상은 원본 영상에 맞춰 수행된 수화 통역 동작이 포함된 상태이므로, 동일 시점의 경우 원본 영상과 수어 영상은 자연스럽게 매칭될 수 있다.In the sign language video temporally synchronized with the original video, a scene of the same viewpoint as the original video may be reproduced or streamed. Similarly, in the original video temporally synchronized with the sign language video, a scene of the same viewpoint as the sign language video may be reproduced or streamed. Since the sign language video includes the sign language interpretation operation performed according to the original video, the original video and the sign language video can be naturally matched at the same time point.
이에 따르면, 제2 단말기(300)에서 원본 영상의 k 장면이 표시될 때, 제2 단말기(300)에서 k 장면에 대한 수어 영상의 수화 통역 장면이 함께 표시될 수 있다. 양자가 시간적으로 싱크된 상태이므로, 사용자에 의해 재생 타임바가 원본 영상 측 또는 수어 영상 측 어디에서 조작되더라도, 조작 바가 나타내는 영상 속 시점 장면으로 원본 영상 및 수어 영상이 함께 점프될 수 있다.According to this, when k scenes of the original video are displayed in the
한편, 원본 영상과 수어 영상이 동영상 플랫폼 제공 장치(100) 또는 동영상 플랫폼 제공 장치(100)가 탑재된 서버에 함께 보관된 경우, 제2 단말기(300)로 전송되는 데이터량을 절감하는 방안이 마련될 수 있다.On the other hand, when the original video and the sign language video are stored together in the video
예를 들어, 매칭 단계(S 530)는 제2 단말기(300)의 요청에 따라 서로 별개의 영상에 해당하는 원본 영상과 수어 영상의 싱크를 맞출 수 있다.For example, in the matching step ( S530 ), an original video corresponding to a separate video and a sign language video may be synchronized according to a request of the
매칭 단계(S 530)는 싱크가 맞춰진 원본 영상과 수어 영상이 함께 포함된 단일의 통합 영상을 생성할 수 있다.In the matching step (S530), a single integrated video including the synced original video and the sign language video may be generated.
제공 단계(S 550)는 제2 단말기(300)에 통합 영상을 제공할 수 있다.In the providing step (S550), the integrated video may be provided to the
원본 영상과 수어 영상은 별개의 영상이므로, 이 둘을 함께 표시하기 위해 2개의 영상 데이터가 동영상 플랫폼 제공 장치(100) 또는 서버로부터 제2 단말기(300)로 송신될 수 있다. 이 경우, 2개의 영상 데이터에 대한 통신량이 소모될 수 있다. 또한, 통신 과정에서 싱크 상태가 어긋날 수도 있다. 본 실시예에 따르면, 싱크 작업이 매칭부(150)에 의해 완료된 상태에서 하나의 통합 영상이 제2 단말기(300)로 전송되므로, 데이터량이 절감될 수 있다. 또한, 노이즈, 왜곡 등으로 인한 싱크 오류의 염려가 없다.Since the original video and the sign language video are separate images, the two video data may be transmitted from the video
한편, 저작권 등의 문제, 데이터베이스 용량 문제 등으로 인해 원본 영상의 수집이 어려울 수 있다. 예를 들어, 유튜브의 방대한 영상을 가져와서 보관하기는 현실적으로 어렵다. 이 경우, 원본 영상은 별도의 콘텐츠 서버(400)로부터 가져와야 하는 상황이 발생될 수 있다. 결과적으로, 제2 단말기(300)에 대하여, 원본 영상과 수어 영상은 서로 다른 콘텐츠 서버(400)로부터 스트리밍될 수 있다. 이때의 콘텐츠 서버(400) 중 하나에 동영상 플랫폼 제공 장치(100)가 탑재될 수 있다. 현실적으로, 수어 영상을 보관하고 관리하는 콘텐츠 서버(400)에 동영상 플랫폼 제공 장치(100)가 탑재되는 것이 좋다. 물론, 동영상 플랫폼 제공 장치(100)는 콘텐츠 서버(400)와 완전히 별개로 형성되어도 무방하다.On the other hand, it may be difficult to collect original images due to copyright issues, database capacity issues, and the like. For example, it is practically difficult to import and store massive videos from YouTube. In this case, a situation may occur in which the original video needs to be imported from a
이와 같이, 원본 영상과 수어 영상이 별도의 콘텐츠 서버(400)에서 관리되는 경우, 하나의 통합 영상을 형성하는 것이 어려울 수 있다.In this way, when the original video and the sign language video are managed in a
통합 영상과 다른 방식으로 원본 영상과 수어 영상의 싱크를 맞추는 방안이 마련될 수 있다.A method of synchronizing the original video and the sign language video in a different way from the integrated video may be prepared.
매칭 단계(S 530)는 제2 단말기(300)의 재생 신호의 분석을 통해 원본 영상과 수어 영상 중 어느 하나의 재생 시작 장면을 파악할 수 있다.In the matching step (S530), a playback start scene of any one of the original video and the sign language video can be identified through analysis of the playback signal of the
매칭 단계(S 530)는 재생 시작 장면을 지시하는 타임 플래그가 포함된 싱크 정보를 생성할 수 있다. 이때, 타임 플래그는 영상의 재생 시간과 영상에 포함된 각 장면의 일대일 매칭 정보를 포함할 수 있다. 타임 플래그는 영상의 재생 시간 중 특정 장면의 재생 시점을 포함할 수 있다. 해당 재생 시점에는 항상 해당 특정 장면이 재생 또는 스트리밍될 수 있다.In the matching step (S530), sync information including a time flag indicating a playback start scene may be generated. In this case, the time flag may include the playback time of the video and one-to-one matching information of each scene included in the video. The time flag may include a reproduction point of a specific scene during reproduction time of the video. A corresponding specific scene may always be reproduced or streamed at a corresponding playback time.
원본 영상 및 수어 영상에는 모두 재생 시간 정보가 포함될 수 있다.Playback time information may be included in both the original video and the sign language video.
제공 단계(S 550)는 타임 플래그를 제2 단말기(300)에 제공할 수 있다. 예를 들어, 제공부(170)에는 제2 단말기(300)와 유무선 통신망을 통해서 통신하는 통신 모듈이 마련될 수 있다.In the providing step (S550), the time flag may be provided to the
제2 단말기(300)로 제공된 타임 플래그는 원본 영상의 재생 시작 장면과 수어 영상의 재생 시작 장면을 결정하는데 공통적으로 사용될 수 있다. 공통의 타임 플래그를 이용하여 두 영상의 재생 시작 장면이 결정되므로, 원본 영상과 수어 영상은 자연스럽게 시간적으로 싱크될 수 있다. 본 실시예에 따르면, 타임 플래그를 이용하여, 원본 영상과 수어 영상 중 어느 하나의 재생 장면에 따라 나머지 하나의 재생 장면의 싱크가 맞춰질 수 있다. 따라서, 사용자가 이전 구간으로 되돌아가거나 다음 구간으로 뛰어넘는 점프 조작을 어느 하나의 영상에 대해 수행한 경우, 두 영상 모두가 제2 단말기(300)의 재생기(재생 프로그램 등)에 의해 동일하게 앞 또는 뒤로 점프될 수 있다.The time flag provided to the
한편, 앞에서 언급된 바와 같이, 단일의 원본 영상을 타겟으로 하는 수어 영상이 복수로 마련될 수 있다. 이때, 메뉴 단계(S 520)는 원본 영상에 대하여 복수의 수어 영상 중 하나를 선택할 수 있는 선택 메뉴를 제2 단말기(300)에 제공할 수 있다.Meanwhile, as mentioned above, a plurality of sign language images targeting a single original image may be provided. At this time, the menu step (S520) may provide the
이때, 제공 단계(S 550)는 제2 단말기(300)에 의해 선택된 특정 수어 영상 및 원본 영상의 싱크 정보를 제2 단말기(300)에 제공할 수 있다. 제2 단말기(300)의 사용자는 싱크 정보를 이용하여 서로 싱크된 원본 영상과 수어 영상을 시청할 수 있다.At this time, in the providing step ( S550 ), sync information of the specific sign language video selected by the
평가 단계(S 560)는 제2 단말기(300)로부터 수어 영상의 평가 점수를 입수할 수 있다. 평가부(190)는 평가 점수를 메뉴부(130)에 전달할 수 있다.In the evaluation step ( S560 ), an evaluation score of the sign language image may be obtained from the
메뉴부(130)에 의해 메뉴 단계(S 520)는 선택 메뉴에 포함된 복수의 수어 영상의 목록을 평가 점수가 높은 순서에 따라 순서대로 배열할 수 있다.In the menu step (S520) by the
한편, 원본 영상이 긴 경우, 한 명의 수어 통역사가 처음부터 끝까지 쉬지 않고 수어 통역하는 수어 영상을 제작하는 것이 어려울 수 있다. 제작자 또는 수어 통역사의 제작 편의성을 개선하기 위한 방안이 마련될 수 있다.On the other hand, if the original video is long, it may be difficult to produce a sign language video in which one sign language interpreter interprets sign language from beginning to end without stopping. A plan may be prepared to improve production convenience for producers or sign language interpreters.
일 예로, 매칭 단계(S 530)는 원본 영상의 일부 구간을 대상으로 제작된 수어 영상이 입수되면, 수어 영상과 함께 해당 일부 구간을 나타내는 타임 플래그를 함께 입수할 수 있다.For example, in the matching step (S530), when a sign language image produced targeting a partial section of the original video is acquired, a time flag indicating the corresponding partial section may be obtained together with the sign language image.
매칭 단계(S 530)는 타임 플래그를 이용하여 원본 영상의 일부 구간과 수어 영상의 싱크를 맞출 수 있다.In the matching step (S530), some sections of the original video and the sign language video may be synchronized using the time flag.
본 실시예에 따르면, 수어 통역사는 원본 영상의 일부 구간에 대해 수어 영상을 제작한 후, 추후에 해당 원본 영상의 다른 구간에 대해 수어 영상을 제작할 수 있다.According to this embodiment, after producing a sign language video for a part of the original video, the sign language interpreter may later produce a sign language video for another section of the original video.
본 실시예를 확장하면, 하나의 원본 영상에 대해서 복수의 수어 통역사가 나누어 수어 영상을 제작하는 실시예도 가능하다.Extending the present embodiment, an embodiment in which a plurality of sign language interpreters divides one original video to produce a sign language video is also possible.
일 예로, 획득 단계(S 510)는 원본 영상이 복수의 구간, 예를 들어 t1, t2,...으로 분할될 때, 원본 영상의 각 구간별로 수어 영상을 획득할 수 있다.For example, in the acquiring step (S510), when the original video is divided into a plurality of sections, for example, t1, t2, ..., a sign language image may be obtained for each section of the original video.
획득 단계(S 510)는 제작자의 동일성 여부를 불문하고, 구간별로 획득되는 수어 영상을 획득할 수 있다. 다시 말해, 획득부(110)는 단일 원본 영상의 각 구간에 대한 수어 영상의 제작자가 동일하거나 서로 달라도 별다른 무리없이 각 구간에 대한 수어 영상을 획득할 수 있다.In the acquiring step (S510), sign language images obtained for each section may be obtained regardless of whether the producer is identical. In other words, the
이러한 환경에서, 특정 구간, 예를 들어 제1 구간 t1에 대해 제1 통역사가 수어 영상을 제작하는 도중에, 그 사실을 모르는 제2 통역사 역시 제1 구간의 수어 영상 제작에 참여하는 상황이 발생될 수 있다. 이러한 상황은 선의의 경쟁을 통한 통역 품질 개선이 도움이 되기도 하지만, 인프라의 구축이 시급한 현 시점에서는 소위 자원 낭비에 해당될 수 있다. 자원의 낭비를 방지하기 위해 획득 단계(S 510)는 특정 구간에 대한 제작의 예약 사실을 원본 영상에 표시할 수 있다. 이때, 다른 콘텐츠 서버(400)에 보관된 원본 영상에 예약 사실을 추가하는 것이 어려울 수 있다. 획득 단계(S 510)는 각 원본 영상의 식별 정보에 예약 사실을 추가하고, 예약 사실이 추가된 식별 정보를 보관할 수 있다. 메뉴 단계(S 510)는 제작자 또는 수어 통역사가 제작 메뉴 m에 해당 원본 영상의 식별 정보를 입력하면, 이를 감지한 제작 메뉴 m을 통해 예약 사실이 표시될 수 있다. 수어 영상의 제작과 관련하여 제작 메뉴 m을 제공하는 메뉴 단계(S 520)는 획득 단계(S 510)보다 먼저 실행될 수 있다. 도 1의 흐름도의 순서는 하나의 실시예이므로 동작 순서에 도 1에 국한되지 않을 수 있음을 환기한다.In this environment, while the first interpreter is producing a sign language video for a specific section, for example, the first section t1, a second interpreter who is unaware of the fact may also participate in the production of the sign language video of the first section. there is. In this situation, improving the quality of interpretation through friendly competition can be helpful, but at this point in time when infrastructure construction is urgent, it can be a so-called waste of resources. In order to prevent resource waste, in the acquiring step (S510), the production reservation for a specific section may be displayed on the original video. At this time, it may be difficult to add the fact of reservation to the original video stored in the
획득 단계(S 510)는 제작 작업을 예약한 특정 작업자에 한해서 특정 구간에 대한 수어 영상을 획득할 수 있다. 만약, 다른 작업자가 해당 구간에 대한 수어 영상의 업로드가 요청되더라도, 획득부(110)는 해당 요청을 무시할 수 있다. 이에 따르면, 수어 통역사는 통역이 이루어지지 않고 있는 구간에 대한 통역에 집중할 수 있다.In the acquiring step (S510), a sign language image for a specific section may be obtained only for a specific worker who has reserved a production job. If another operator requests uploading of a sign language video for a corresponding section, the
한편, 단일의 원본 영상이 복수의 구간으로 구분되고 각 구간에 대해 다양한 수어 통역사의 통역이 진행되는 경우, 각 구간의 경계가 자연스럽게 연결되는 것이 좋다. 수어 영상은 원본 영상을 기초로 생성되므로, 거의 원본 영상과 유사한 플레이 타임(재생 시간)을 가질 수 있다. 하지만, 개인별 촬영 장비의 차이 등에 따라 수초 이내의 플레이 타임 오차가 발생될 수 있다. 만약 앞 구간의 수어 영상이 원본 영상의 해당 구간의 종료 시점보다 2초 늦게 종료된다면, 이후 구간의 수어 영상은 모두 원본 영상보다 2초 늦어지는 심각한 문제가 발생될 수 있다.On the other hand, when a single original video is divided into a plurality of sections and interpretation by various sign language interpreters is performed for each section, it is preferable that the boundaries of each section are naturally connected. Since the sign language video is generated based on the original video, it may have a play time (playback time) substantially similar to that of the original video. However, a play time error of several seconds or less may occur depending on differences in individual photographing equipment. If the sign language video of the previous section ends 2 seconds later than the end point of the corresponding section of the original video, a serious problem may occur in that all sign language videos of the subsequent section are 2 seconds later than the original video.
해당 문제를 해소하기 위해, 매칭 단계(S 530)는 특정 구간을 대상으로 하는 특정 수어 영상이 입수되고 설정 이벤트가 발생되면, 특정 수어 영상의 영상 길이가 특정 구간의 영상 길이에 맞춰지도록 특정 수어 영상의 재생 속도를 조정할 수 있다.In order to solve the problem, in the matching step (S530), when a specific sign language image targeting a specific section is obtained and a setting event occurs, the specific sign language image is adjusted so that the video length of the specific sign language video matches the video length of the specific section. You can adjust the playback speed of
이때, 설정 이벤트는 특정 구간을 대상으로 하는 특정 수어 영상이 입수되는 것 자체를 포함할 수 있다. 이 경우, 특정 수어 영상이 입수될 때마다 재생 속도 조정이 이루어질 수 있다.At this time, the setting event may include acquiring a specific sign language video targeting a specific section itself. In this case, reproduction speed may be adjusted whenever a specific sign language image is obtained.
다른 예로, 설정 이벤트는 입수된 특정 수어 영상의 영상 길이(재생 시간에 해당됨)와 특정 구간의 길이를 비교하고, 둘 간의 차이가 설정값 이상인 경우를 포함할 수 있다. 이 경우, 특정 수어 영상의 영상 길이와 특정 구간의 길이가 설정값 이상 차이나는 경우에만 재생 속도의 조정이 이루어질 수 있다. 재생 속도의 조정은 수어 영상에 대해서만 수행되는 것이 바람직하다.As another example, the setting event may include a case in which the video length (corresponding to playback time) of a specific sign language video obtained is compared with the length of a specific section, and the difference between the two is equal to or greater than the set value. In this case, the playback speed may be adjusted only when the video length of the specific sign language video and the length of the specific section differ by more than a set value. It is preferable that the reproduction speed is adjusted only for sign language images.
편집 단계(S 540)는 수어 영상을 자동 편집할 수 있다.In the editing step (S540), the sign language video may be automatically edited.
일 예로, 편집 단계(S 540)는 수어 영상에 등장하는 수어 통역사의 표정이 그대로 나타나는 범위 내에서 수어 통역사의 얼굴을 딥페이크(Deepfake)할 수 있다. 수어 통역에서 수어 통역사의 표정은 매우 중요하다. 이와 함께 수어 통역사의 초상권 역시 중요하다. 이 둘을 동시에 처리하기 위해, 표정은 그대로 드러나면서 수어 통역사가 누구인지 인지하기 어려운 다른 얼굴이 통역사의 얼굴을 대신하여 수어 영상 상에 표시될 수 있다. 편집 단계(S 540)는 수어 영상이 입수된 시점부터 제공 단계(S 550) 전까지 수행되면 충분하다.For example, in the editing step (S540), the face of the sign language interpreter may be deepfake within a range where the expression of the sign language interpreter appearing in the sign language video appears as it is. In sign language interpretation, the expression of the sign language interpreter is very important. Along with this, the portrait rights of sign language interpreters are also important. In order to process both of them simultaneously, another face that is difficult to recognize as a sign language interpreter may be displayed on the sign language image instead of the face of the sign language interpreter. It is sufficient if the editing step (S540) is performed from the time the sign language video is obtained to the providing step (S550).
제공 단계(S 550)는 딥페이크된 얼굴이 포함된 수어 영상을 제2 단말기(300)에 제공할 수 있다.In the providing step (S550), the sign language video including the deepfake face may be provided to the
이상에서 살펴본 수어 자막 동영상 플랫폼 제공 방법은 수어 통역사가 업로드한 수어 영상을 획득할 수 있다. 수어 자막 동영상 플랫폼 제공 방법은 획득된 수어 영상과 원본 영상의 싱크를 맞출 수 있다. 수어 자막 동영상 플랫폼 제공 방법은 싱크가 맞춰진 원본 영상과 수어 영상을 사용자에게 제공할 수 있다.The above-described method for providing a sign language subtitle video platform can obtain a sign language video uploaded by a sign language interpreter. The method for providing a sign language caption video platform may synchronize an acquired sign language video with an original video. The method for providing a sign language caption video platform may provide a synchronized original video and sign language video to a user.
한편, 수어 자막 동영상 플랫폼 제공 방법은 싱크가 맞춰진 원본 영상과 수어 영상을 농인에게 제공하는 것에 더해서, 싱크가 맞춰진 원본 영상과 수어 영상을 메모리에 저장하여 보관할 수 있고, 축적된 대량의 싱크가 맞춰진 원본 영상과 수어 영상의 데이터는 향후 수어 자동 번역을 위한 데이터셋으로 활용될 수 있고, 수어의 언어학적 연구의 중요한 자원으로 활용될 수 있다.On the other hand, in the method of providing a sign language subtitle video platform, in addition to providing the original synchronized video and sign language video to the deaf, the original synchronized video and sign language video can be stored and stored in memory, and the accumulated large amount of synchronized original video Video and sign language video data can be used as a dataset for automatic sign language translation in the future, and can be used as an important resource for linguistic research on sign language.
획득부(110), 메뉴부(120), 매칭부(150), 편집부(160), 제공부(170), 평가부(190)는 동영상 플랫폼 제공 장치(100)에 포함된 복수개의 프로세서 중 어느 하나의 프로세서를 포함할 수 있다. 또한, 지금까지 설명된 본 발명의 실시예에 따른 수어 자막 동영상 플랫폼 제공 방법은, 프로세서에 의해 구동될 수 있는 프로그램의 형태로 구현될 수 있다.The acquiring
여기서 프로그램은, 프로그램 명령, 데이터 파일 및 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 프로그램은 기계어 코드나 고급 언어 코드를 이용하여 설계 및 제작된 것일 수 있다. 프로그램은 상술한 부호 수정을 위한 방법을 구현하기 위하여 특별히 설계된 것일 수도 있고, 컴퓨터 소프트웨어 분야에서 통상의 기술자에게 기 공지되어 사용 가능한 각종 함수나 정의를 이용하여 구현된 것일 수도 있다. 전술한 정보 표시 방법을 구현하기 위한 프로그램은, 프로세서에 의해 판독 가능한 기록매체에 기록될 수 있다. 이때, 기록매체는 메모리일 수 있다.Here, the program may include program commands, data files, and data structures alone or in combination. The program may be designed and manufactured using machine language codes or high-level language codes. The program may be specially designed to implement the above-described code correction method, or may be implemented using various functions or definitions that are known and usable to those skilled in the art in the field of computer software. A program for implementing the above information display method may be recorded on a recording medium readable by a processor. In this case, the recording medium may be a memory.
메모리는 전술한 동작 및 후술하는 동작을 수행하는 프로그램을 저장할 수 있으며, 메모리는 저장된 프로그램을 실행시킬 수 있다. 프로세서와 메모리가 복수인 경우에, 이들이 하나의 칩에 집적되는 것도 가능하고, 물리적으로 분리된 위치에 마련되는 것도 가능하다. 메모리는 데이터를 일시적으로 기억하기 위한 S램(Static Random Access Memory, S-RAM), D랩(Dynamic Random Access Memory) 등의 휘발성 메모리를 포함할 수 있다. 또한, 메모리는 제어 프로그램 및 제어 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 이피롬(Erasable Programmable Read Only Memory: EPROM), 이이피롬(Electrically Erasable Programmable Read Only Memory: EEPROM) 등의 비휘발성 메모리를 포함할 수 있다.The memory may store a program for performing the above-described operation and the operation to be described later, and the memory may execute the stored program. When there are a plurality of processors and memories, it is possible for them to be integrated on one chip, and it is also possible for them to be provided in physically separate locations. The memory may include volatile memory such as static random access memory (S-RAM) and dynamic random access memory (D-lab) for temporarily storing data. In addition, the memory is a non-volatile memory such as ROM (Read Only Memory), EPROM (Erasable Programmable Read Only Memory: EPROM), and EPROM (Electrically Erasable Programmable Read Only Memory: EEPROM) for long-term storage of control programs and control data. can include
프로세서는 각종 논리 회로와 연산 회로를 포함할 수 있으며, 메모리로부터 제공된 프로그램에 따라 데이터를 처리하고, 처리 결과에 따라 제어 신호를 생성할 수 있다.The processor may include various logic circuits and arithmetic circuits, process data according to a program provided from a memory, and generate a control signal according to a processing result.
한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다.Meanwhile, the embodiments of the present invention are not implemented only through the devices and/or methods described so far, and may be implemented through a program that realizes functions corresponding to the configuration of the embodiments of the present invention or a recording medium in which the program is recorded. And, such implementation can be easily implemented by those skilled in the art from the description of the above-described embodiment.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements of those skilled in the art using the basic concept of the present invention defined in the following claims are also provided. belong to the scope of the invention.
100..동영상 플랫폼 제공 장치
110...획득부
130...메뉴부
150...매칭부
160...편집부
170...제공부
190...평가부
200...제1 단말기
300...제2 단말기
400...콘텐츠 서버100..Video
130 ...
160 ...
190 ...
300 ...
Claims (18)
원본 영상, 상기 원본 영상을 기초로 제작된 수어 영상의 싱크를 맞추는 싱크 정보를 생성하는 매칭 단계;
상기 원본 영상과 상기 수어 영상이 함께 재생되는 제2 단말기에 상기 싱크 정보를 제공하는 제공 단계를 포함하는 수어 자막 동영상 플랫폼 제공 방법.A method of providing a sign language subtitle video platform performed by a video platform providing device,
A matching step of generating sync information for synchronizing an original video and a sign language video produced based on the original video;
and a providing step of providing the sync information to a second terminal in which the original video and the sign language video are simultaneously reproduced.
상기 싱크 정보는,
시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 포함하고,
상기 제공 단계는,
시간적 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 상기 제2 단말기에 직접 스트리밍하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
The sync information,
Including the original video and the sign language video with temporal synchronization,
In the providing step,
A method of providing a sign language caption video platform, comprising directly streaming the original video and the sign language video, which are temporally synchronized, to the second terminal.
상기 매칭 단계는,
서로 별개의 영상에 해당하는 상기 원본 영상과 상기 수어 영상의 싱크를 맞추는 단계; 및
싱크가 맞춰진 상기 원본 영상과 상기 수어 영상이 함께 포함된 단일의 통합 영상을 생성하는 단계를 포함하고,
상기 제공 단계는,
상기 제2 단말기에 상기 통합 영상을 제공하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
The matching step is
synchronizing the original video corresponding to a separate video and the sign language video; and
Generating a single integrated video including the synchronized original video and the sign language video,
In the providing step,
A method of providing a sign language caption video platform, comprising providing the integrated video to the second terminal.
상기 매칭 단계는:
상기 제2 단말기의 재생 신호의 분석을 통해 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 시작 장면을 파악하는 단계; 및
상기 재생 시작 장면을 지시하는 타임 플래그가 포함된 상기 싱크 정보를 생성하는 단계를 포함하고,
상기 제공 단계는,
상기 타임 플래그를 상기 제2 단말기에 제공하는 단계를 포함하고,
상기 제2 단말기로 제공된 상기 타임 플래그는,
상기 원본 영상의 재생 시작 장면과 상기 수어 영상의 재생 시작 장면을 결정하는데 공통적으로 사용되는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
The matching step is:
recognizing a playback start scene of one of the original video and the sign language video through analysis of a reproduction signal of the second terminal; and
Generating the sync information including a time flag indicating the playback start scene;
In the providing step,
providing the time flag to the second terminal;
The time flag provided to the second terminal,
A method for providing a sign language caption video platform that is commonly used to determine a reproduction start scene of the original video and a reproduction start scene of the sign language video.
상기 원본 영상과 상기 수어 영상은,
서로 다른 콘텐츠 서버로부터 스트리밍되고, 상기 타임 플래그를 이용하여, 상기 원본 영상과 상기 수어 영상 중 어느 하나의 재생 장면에 따라 나머지 하나의 재생 장면의 싱크가 맞춰지는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 4,
The original video and the sign language video,
A method for providing a sign language subtitle video platform, which is streamed from different content servers and synchronizes the reproduction scene of the other one of the original video and the sign language video according to the reproduction scene of the original video and the sign language video using the time flag.
제1 단말기로부터 상기 수어 영상을 획득하는 획득 단계를 더 포함하고,
상기 획득 단계는,
상기 수어 영상이 타겟으로 하는 특정 원본 영상의 식별 정보를 추가로 획득하는 단계를 더 포함하고,
상기 식별 정보를 이용하여 상기 특정 원본 영상의 제1 썸네일을 추출하고, 상기 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하는 메뉴 단계를 포함하고,
상기 매칭 단계는,
상기 제2 단말기의 재생 요청을 통해 선택된 특정 재생 메뉴에 포함된 원본 영상 및 수어 영상의 싱크 정보를 생성하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
Further comprising an acquisition step of acquiring the sign language image from a first terminal,
The acquisition step is
Further comprising the step of additionally acquiring identification information of a specific original image targeted by the sign language image,
A menu step of extracting a first thumbnail of the specific original video using the identification information and providing a playback menu in which the first thumbnail and the second thumbnail of the sign language video are displayed together,
The matching step is
A method for providing a sign language caption video platform, comprising generating sync information of an original video and a sign language video included in a specific play menu selected through a play request from the second terminal.
상기 메뉴 단계는,
동일한 특정 원본 영상이 포함된 재생 메뉴가 복수이면, 복수의 상기 재생 메뉴를 하나로 묶은 선택 메뉴를 상기 제2 단말기에 제공하는 수어 자막 동영상 플랫폼 제공 방법.According to claim 6,
The menu step,
If there are a plurality of play menus including the same specific original video, providing a selection menu combining a plurality of play menus to the second terminal.
단일의 원본 영상을 타겟으로 하는 수어 영상이 복수로 마련될 때,
상기 원본 영상에 대하여 복수의 수어 영상 중 하나를 선택할 수 있는 선택 메뉴를 제공하는 메뉴 단계를 포함하고,
상기 제공 단계는,
상기 제2 단말기에 의해 선택된 특정 수어 영상 및 상기 원본 영상의 싱크 정보를 상기 제2 단말기에 제공하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
When a plurality of sign language images targeting a single original image are provided,
A menu step of providing a selection menu for selecting one of a plurality of sign language images for the original image;
In the providing step,
and providing sync information of the specific sign language video selected by the second terminal and the original video to the second terminal.
상기 제2 단말기로부터 상기 수어 영상의 평가 점수를 입수하는 평가 단계를 포함하고,
상기 메뉴 단계는,
상기 선택 메뉴에 포함된 복수의 수어 영상의 목록을 상기 평가 점수가 높은 순서에 따라 순서대로 배열하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 8,
An evaluation step of obtaining an evaluation score of the sign language video from the second terminal;
The menu step,
A method for providing a sign language caption video platform, wherein a list of a plurality of sign language images included in the selection menu is arranged in order according to an order of high evaluation scores.
상기 매칭 단계는:
상기 원본 영상의 일부 구간을 대상으로 제작된 수어 영상이 입수되면, 상기 수어 영상과 함께 상기 일부 구간을 나타내는 타임 플래그를 함께 입수하는 단계; 및
상기 타임 플래그를 이용하여 상기 원본 영상의 일부 구간과 상기 수어 영상의 싱크를 맞추는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
The matching step is:
obtaining a time flag indicating the partial section along with the sign language image when a sign language image produced for a section of the original video is obtained; and
A method of providing a sign language caption video platform, comprising synchronizing a partial section of the original video with the sign language video by using the time flag.
상기 원본 영상이 복수의 구간으로 분할될 때, 상기 원본 영상의 각 구간별로 상기 수어 영상을 획득하는 획득 단계를 포함하고,
상기 획득 단계는,
제작자의 동일성 여부를 불문하고, 상기 구간별로 획득되는 상기 수어 영상을 획득하는 단계를 포함하는 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
When the original video is divided into a plurality of sections, obtaining the sign language image for each section of the original video;
The acquisition step is
A method for providing a sign language caption video platform, comprising obtaining the sign language image obtained for each section regardless of whether the producer is the same.
상기 획득 단계는,
특정 구간에 대한 제작 작업이 예약되면, 상기 특정 구간에 대한 예약 사실을 상기 원본 영상에 표시하는 단계; 및
상기 제작 작업을 예약한 특정 작업자에 한해서 상기 특정 구간에 대한 수어 영상을 획득하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 11,
The acquisition step is
displaying the fact of reservation for the specific section on the original video when production work for a specific section is reserved; and
A method for providing a sign language caption video platform, comprising acquiring a sign language video for the specific section only for a specific worker who has reserved the production work.
상기 매칭 단계는,
특정 구간을 대상으로 하는 특정 수어 영상이 입수되고 설정 이벤트가 발생되면, 상기 특정 수어 영상의 영상 길이가 상기 특정 구간의 영상 길이에 맞춰지도록 상기 특정 수어 영상의 재생 속도를 조정하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 11,
The matching step is
When a specific sign language image targeting a specific section is obtained and a setting event occurs, adjusting the playback speed of the specific sign language image so that the video length of the specific sign language image matches the video length of the specific section. How to provide a sign language subtitle video platform.
상기 수어 영상을 편집하는 편집 단계를 포함하고,
상기 편집 단계는,
상기 수어 영상에 등장하는 수어 통역사의 표정이 그대로 나타나는 범위 내에서 상기 수어 통역사의 얼굴을 딥페이크(Deepfake)하는 단계를 포함하고,
상기 제공 단계는,
상기 딥페이크된 얼굴이 포함된 수어 영상을 상기 제2 단말기에 제공하는 단계를 포함하는, 수어 자막 동영상 플랫폼 제공 방법.According to claim 1,
An editing step of editing the sign language video,
The editing step is
Deepfake the face of the sign language interpreter within a range where the expression of the sign language interpreter appearing in the sign language video appears as it is;
In the providing step,
A method for providing a sign language caption video platform, comprising providing a sign language image including the deepfake face to the second terminal.
수어 통역사가 업로드한 수어 영상을 획득하고, 획득된 상기 수어 영상과 원본 영상의 싱크를 맞추며, 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 사용자에게 제공하는 수어 자막 동영상 플랫폼 제공 방법.A method of providing a sign language subtitle video platform performed by a providing device,
A method of providing a sign language caption video platform that acquires a sign language video uploaded by a sign language interpreter, synchronizes the obtained sign language video with an original video, and provides the synchronized original video and the sign language video to a user.
제2 단말기에 싱크가 맞춰진 상기 원본 영상과 상기 수어 영상을 제공하는 제공부를 포함하는 동영상 플랫폼 제공 장치.a matching unit that synchronizes the original video and the sign language video;
An apparatus for providing a video platform including a providing unit providing the original video and the sign language video synchronized to a second terminal.
획득부; 및
메뉴부를 포함하고,
상기 획득부는,
제1 단말기로부터 상기 수어 영상을 획득하며 상기 제1 단말기로부터 상기 원본 영상의 식별 정보를 획득하도록 구성되고,
상기 메뉴부는:
상기 식별 정보가 나타내는 상기 원본 영상을 콘텐츠 서버로부터 추출하고; 그리고
상기 콘텐츠 서버로부터 추출된 상기 원본 영상의 제1 썸네일과 상기 수어 영상의 제2 썸네일이 함께 표시되는 재생 메뉴를 제공하도록 구성되는, 수어 자막 동영상 플랫폼 제공 장치.According to claim 17,
acquisition unit; and
including a menu,
The acquisition unit,
Acquiring the sign language video from a first terminal and obtaining identification information of the original video from the first terminal;
The menu section:
extracting the original video indicated by the identification information from a content server; and
An apparatus for providing a sign language video platform, configured to provide a playback menu in which a first thumbnail of the original video extracted from the content server and a second thumbnail of the sign language video are displayed together.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210126459 | 2021-09-24 | ||
KR20210126459 | 2021-09-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230043647A true KR20230043647A (en) | 2023-03-31 |
KR102664295B1 KR102664295B1 (en) | 2024-05-08 |
Family
ID=86005359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210168925A KR102664295B1 (en) | 2021-09-24 | 2021-11-30 | Method and apparatus for providing a platform for sign language subtitles video |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102664295B1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169988A (en) * | 2000-12-04 | 2002-06-14 | Nippon Telegr & Teleph Corp <Ntt> | Method and system for providing sign language interpretation |
KR20140130335A (en) * | 2013-04-30 | 2014-11-10 | 삼성전자주식회사 | Method and system for translating sign language and descriptive video service |
KR20170115004A (en) * | 2017-08-11 | 2017-10-16 | 네이버 주식회사 | Method of providing plural translator with communal translation service, device for providing communal translation service, computer program for providing communal translation service in device |
KR102214598B1 (en) * | 2019-10-04 | 2021-02-09 | 에스케이브로드밴드주식회사 | Contents playing apparatus, and control method thereof |
KR102258991B1 (en) * | 2020-11-24 | 2021-06-01 | 주식회사 에스씨크리에이티브 | Sign-language service providing system |
KR20210106790A (en) * | 2020-02-21 | 2021-08-31 | 삼성전자주식회사 | Server, electronic apparatus and the control method thereof |
-
2021
- 2021-11-30 KR KR1020210168925A patent/KR102664295B1/en active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169988A (en) * | 2000-12-04 | 2002-06-14 | Nippon Telegr & Teleph Corp <Ntt> | Method and system for providing sign language interpretation |
KR20140130335A (en) * | 2013-04-30 | 2014-11-10 | 삼성전자주식회사 | Method and system for translating sign language and descriptive video service |
KR102061044B1 (en) | 2013-04-30 | 2020-01-02 | 삼성전자 주식회사 | Method and system for translating sign language and descriptive video service |
KR20170115004A (en) * | 2017-08-11 | 2017-10-16 | 네이버 주식회사 | Method of providing plural translator with communal translation service, device for providing communal translation service, computer program for providing communal translation service in device |
KR102214598B1 (en) * | 2019-10-04 | 2021-02-09 | 에스케이브로드밴드주식회사 | Contents playing apparatus, and control method thereof |
KR20210106790A (en) * | 2020-02-21 | 2021-08-31 | 삼성전자주식회사 | Server, electronic apparatus and the control method thereof |
KR102258991B1 (en) * | 2020-11-24 | 2021-06-01 | 주식회사 에스씨크리에이티브 | Sign-language service providing system |
Also Published As
Publication number | Publication date |
---|---|
KR102664295B1 (en) | 2024-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210382929A1 (en) | Multimedia content tags | |
US11580699B2 (en) | Systems and methods for changing a users perspective in virtual reality based on a user-selected position | |
EP2870771B1 (en) | Augmentation of multimedia consumption | |
US9100701B2 (en) | Enhanced video systems and methods | |
KR101540686B1 (en) | An apparatus for providing comments and statistical information to video segments and the method thereof | |
JP4224095B2 (en) | Information processing apparatus, information processing program, and information processing system | |
JP5770408B2 (en) | Video content viewing terminal | |
US20130083036A1 (en) | Method of rendering a set of correlated events and computerized system thereof | |
US20140143218A1 (en) | Method for Crowd Sourced Multimedia Captioning for Video Content | |
KR101246917B1 (en) | Method and system for sharing the information between users of the media reproducing systems | |
KR20150083355A (en) | Augmented media service providing method, apparatus thereof, and system thereof | |
JP5857449B2 (en) | Image processing apparatus and recording apparatus | |
JP2010157961A (en) | Caption creation system and program | |
EP2754112B1 (en) | System amd method for producing complex multimedia contents by an author and for using such complex multimedia contents by a user | |
JP2009212857A (en) | Content reproducing unit, content reproducing method, content reproducing system, program, and recording medium | |
KR100837721B1 (en) | Encoding/Decoding Apparatus and Encoding Method of Binding Format for Consuming Personalized Digital Broadcasting Contents | |
Li et al. | A new production platform for authoring object-based multiscreen tv viewing experiences | |
KR101703321B1 (en) | Method and apparatus for providing contents complex | |
KR101198091B1 (en) | Method and system for learning contents | |
KR20090079010A (en) | Method and apparatus for displaying program information | |
KR101498933B1 (en) | System for making, evaluating, and spreading caption with login type convenient to make by visualization | |
JP2007129531A (en) | Program presentation system | |
KR102664295B1 (en) | Method and apparatus for providing a platform for sign language subtitles video | |
JP2014130536A (en) | Information management device, server, and control method | |
US20200107054A1 (en) | Systems and methods for modifying date-related references of a media asset to reflect absolute dates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |