KR102185183B1 - a broadcast closed caption generating system - Google Patents
a broadcast closed caption generating system Download PDFInfo
- Publication number
- KR102185183B1 KR102185183B1 KR1020190047796A KR20190047796A KR102185183B1 KR 102185183 B1 KR102185183 B1 KR 102185183B1 KR 1020190047796 A KR1020190047796 A KR 1020190047796A KR 20190047796 A KR20190047796 A KR 20190047796A KR 102185183 B1 KR102185183 B1 KR 102185183B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- caption
- unit
- shorthand
- shorthand input
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 abstract description 14
- 208000032041 Hearing impaired Diseases 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
청각 장애인을 위한 실시간 방송 자막 제작 시스템이 개시된다. 본 발명의 일 실시 예에 따른 방송 자막 제작 시스템은 컨텐츠로부터 음성 신호를 수신하고 음성 신호를 인식하여 문자로 변환하는 음성인식부, 속기입력장치를 통해 자막 속기 입력을 획득하는 속기입력부 및 상기 음성인식부로부터 획득되는 음성-문자 변환 데이터 및 상기 속기입력부로부터 획득되는 속기입력 데이터를 통합하여 최종 자막을 생성하는 통합 자막 처리부를 포함한다.A system for producing real-time broadcasting captions for the hearing impaired is disclosed. A broadcast caption production system according to an embodiment of the present invention includes a voice recognition unit for receiving a voice signal from content and converting the voice signal to a text, a shorthand input unit for obtaining a shorthand input through a shorthand input device, and the voice recognition. And an integrated caption processing unit for generating a final caption by integrating the voice-to-text conversion data obtained from the unit and the shorthand input data obtained from the shorthand input unit.
Description
본 발명은 방송 자막 제작 시스템에 관한 것이다. 구체적으로 본 발명은 음성 자동 인식 기술과 속기 입력을 모두 이용하는 방송 자막 제작 시스템에 관한 것이다.The present invention relates to a broadcast caption production system. Specifically, the present invention relates to a broadcast caption production system using both automatic voice recognition technology and shorthand input.
속기의 사전적 의미는 무형의 음성적 언어, 영상이나 음성을 빠르고 정확하게 기록하여 이를 문자화 하는 모든 활동을 의미하는 것이다. 속기는 말로 나타내는 언어를 문자화하는 특징에서 볼 때 필기의 일종이므로 말의 언어를 기록 보존하기 위한 녹음과는 본질적으로 다르다.The dictionary meaning of shorthand refers to any activity in which intangible voice language, video or audio are recorded quickly and accurately and converted into text. Shorthand is a kind of handwriting in terms of characterizing the spoken language, so it is essentially different from the recording for preserving the spoken language.
이러한 속기는 손으로 쓰는 수필 속기부터 타자기 속기, 컴퓨터 자판으로 내용을 입력하는 컴퓨터를 이용한 속기까지 발전하여 오다가 사람이 기록하기 힘들었던 부분까지도 소프트웨어와 하드웨어가 개발됨에 따라 가능하게 되었다.Such shorthand has evolved from handwritten essay shorthand to typewriter shorthand, and computer-based shorthand for inputting content on a computer keyboard, and became possible with the development of software and hardware even for parts that were difficult for humans to write.
청각 장애인을 위한 실시간 방송에서 과거에는 속기에 의존하여 방송 컨텐츠용 자막을 생성하였으나, 최근에는 머신러닝의 발전에 따라 음성 문자 변환 도구가 대중화되었으며, 전문 속기사에 의존하지 않고도 자막을 실시간으로 생성할 수 있게 되었다.In real-time broadcasting for the hearing impaired, in the past, subtitles for broadcasting contents were generated by relying on shorthand, but in recent years, with the development of machine learning, voice-to-text conversion tools have become popular, and captions can be generated in real time without relying on professional stenographers Became.
그러나, 음성 문자 변환 도구를 활용하는 경우 속기사의 입력에 의존하는 기존의 방법보다 수월하게 방송용 자막을 생성할 수 있으나, 때때로 음성 인식이 정확하지 못하거나 음성인식이 되지 않은 경우에 자막이 생성되지 않는 문제가 있을 수 있는바, 이하에서는 음성 인식과 속기 입력을 모두 이용하여 각각의 문제점을 상호 보완할 수 있는 자막 생성 시스템을 설명하도록 한다.However, in the case of using a voice-to-text conversion tool, it is possible to generate subtitles for broadcasting more easily than conventional methods that rely on the input of a stenographer, but sometimes the subtitles are not generated when voice recognition is not accurate or voice recognition is not performed. There may be a problem. Hereinafter, a caption generation system capable of complementing each of the problems by using both voice recognition and shorthand input will be described.
본 발명의 일 실시 예에 따른 방송 자막 제작 시스템은, 음성 인식만으로 자막을 생성하는 경우 발생할 수 있는 문제를 속기 입력을 해결하여 청각 장애인을 위한 실시간 자막을 생성하는 시스템을 제안하는 것을 목적으로 한다.An object of the present invention is to propose a system for generating real-time captions for the hearing impaired by solving shorthand input for a problem that may occur when captions are generated only by voice recognition.
본 발명의 일 실시 예에 따른 방송 자막 제작 시스템은 컨텐츠로부터 음성 신호를 수신하고 음성 신호를 인식하여 문자로 변환하는 음성인식부, 속기입력장치를 통해 자막 속기 입력을 획득하는 속기입력부 및 상기 음성인식부로부터 획득되는 음성-문자 변환 데이터 및 상기 속기입력부로부터 획득되는 속기입력 데이터를 통합하여 최종 자막을 생성하는 통합 자막 처리부를 포함한다.A broadcast caption production system according to an embodiment of the present invention includes a voice recognition unit for receiving a voice signal from content and converting the voice signal to a text, a shorthand input unit for obtaining a shorthand input through a shorthand input device, and the voice recognition. And an integrated caption processing unit for generating a final caption by integrating the voice-to-text conversion data obtained from the unit and the shorthand input data obtained from the shorthand input unit.
본 발명의 일 실시 예에 따른 방송 자막 제작 시스템은, 음성 인식을 통한 자막 생성에 있어서 발생할 수 있는 부정확한 자막에 대하여 속기입력을 통해 정확하게 보완할 수 있다.The broadcast caption production system according to an embodiment of the present invention can accurately compensate for inaccurate captions that may occur in generating captions through voice recognition through shorthand input.
또한, 본 발명의 일 실시 예에 따른 방송 자막 제작 시스템은 음성 인식을 기초로 하여 자막을 생성하는 바, 속기 인력을 최소한으로 사용하면서 더 많은 청각 장애인용 방송 자막을 제작할 수 있다.In addition, since the broadcast caption production system according to an embodiment of the present invention generates captions based on voice recognition, it is possible to produce more broadcast captions for the hearing impaired while using a minimum of shorthand manpower.
도 1은 본 발명의 일 실시 예에 따른 방송 자막 제작 시스템의 전체 구성도이다.
도 2는 본 발명의 일 실시 예에 따른 음성인식부의 구성을 나타낸다.
도 3은 본 발명의 일 실시 예에 따른 속기입력부의 구성을 나타내는 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 자막 생성 시스템의 동작을 나타내는 흐름도이다.1 is an overall configuration diagram of a broadcast caption production system according to an embodiment of the present invention.
2 shows the configuration of a voice recognition unit according to an embodiment of the present invention.
3 is a block diagram showing the configuration of a shorthand input unit according to an embodiment of the present invention.
4 is a flowchart illustrating an operation of a caption generation system according to an embodiment of the present invention.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 그러나 본 발명의 사상은 이하의 실시예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에 포함되는 다른 실시예를 구성요소의 부가, 변경, 삭제, 및 추가 등에 의해서 용이하게 제안할 수 있을 것이나, 이 또한 본 발명 사상의 범위 내에 포함된다고 할 것이다. Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, the spirit of the present invention is not limited to the following embodiments, and those skilled in the art who understand the spirit of the present invention can easily add, change, delete, and add components to other embodiments included within the scope of the same idea. It may be suggested, but it will be said that this is also included within the scope of the inventive concept.
첨부 도면은 발명의 사상을 이해하기 쉽게 표현하기 위하여 전체적인 구조를 설명함에 있어서는 미소한 부분은 구체적으로 표현하지 않을 수도 있고, 미소한 부분을 설명함에 있어서는 전체적인 구조는 구체적으로 반영되지 않을 수도 있다. 또한, 설치 위치 등 구체적인 부분이 다르더라도 그 작용이 동일한 경우에는 동일한 명칭을 부여함으로써, 이해의 편의를 높일 수 있도록 한다. 또한, 동일한 구성이 복수 개가 있을 때에는 어느 하나의 구성에 대해서만 설명하고 다른 구성에 대해서는 동일한 설명이 적용되는 것으로 하고 그 설명을 생략한다. In the accompanying drawings, in explaining the overall structure in order to easily understand the spirit of the invention, minute parts may not be specifically expressed, and when describing the minute parts, the overall structure may not be specifically reflected. In addition, even if specific parts such as the installation location are different, if the action is the same, the same name is given, so that the convenience of understanding can be improved. In addition, when there are a plurality of identical configurations, only one configuration will be described, and the same description will be applied to other configurations, and the description will be omitted.
도 1은 본 발명의 일 실시 예에 따른 방송 자막 제작 시스템의 전체 구성도이다.1 is an overall configuration diagram of a broadcast caption production system according to an embodiment of the present invention.
본 발명에서 개시하는 방송 자막 제작 시스템은 일반적인 방송 자막이 아닌, 청각 장애인을 위한 실시간 자막 생성 시스템이다.The broadcast caption production system disclosed in the present invention is not a general broadcast caption, but a real-time caption generation system for the hearing impaired.
도 1에 도시된 바와 같이, 컨텐츠 제공자(20)가 방송 컨텐츠를 방송 자막 제작 시스템(10)에 전달하고, 방송 자막 제작 시스템(10)은 방송 컨텐츠에 기초하여 방송 자막을 생성하고 이를 셋톱박스(30)에 전달한다. 셋톱박스(30)는 전달받은 방송 자막을 인코딩하여 방송 컨텐츠와 함께 출력한다.As shown in Fig. 1, the
컨텐츠 제공자(20)는 대표적인 예로 방송국이 있을 수 있으며, 방송국 외 컨텐츠를 제작하여 제공하는 사업자 또는 중간 분배자를 포함할 수도 있다. 컨텐츠 제공자(20)는 오디오와 영상을 포함하는 컨텐츠를 방송 자막 제작 시스템(10)에 전달한다.The
방송 자막 제작 시스템(10)은 컨텐츠 제공자(20)로부터 전달받은 컨텐츠에 기초하여 방송 자막을 생성한다. 구체적으로 방송 자막 제작 시스템(10)은 음성인식부(100), 속기입력부(200) 및 통합자막처리부(300)를 포함할 수 있다.The broadcast
음성인식부(100)는 컨텐츠 제공자(20)로부터 전달받은 컨텐츠가 재생될 때, 음성을 자동 인식하여 문자로 변환한다. 음성인식부(100)는 일반적으로 사용되는 음성 문자 변환 도구일 수 있으며, 구체적인 예로 구글 클라우드 스피치 API나 Amazon Transcirbe일 수 있다. 음성인식부(100)의 구체적인 구성에 대하여는 이하에서 따로 설명하기로 한다.When the content delivered from the
도 2는 본 발명의 일 실시 예에 따른 음성인식부(100)의 구성을 나타낸다.2 shows the configuration of the
도 2에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 음성인식부(100)는 음성수신부(110), 음성-문자 변환부(120) 및 정확도 산출부(130)를 포함할 수 있다.As shown in FIG. 2, the
음성수신부(110)는 컨텐츠로부터 음성 신호를 획득한다. 예를 들어 음성수신부(110)는 마이크일 수 있다. 음성수신부(110)는 컨텐츠로부터 전달되는 모든 음성 신호를 수집하고, 수집한 음성 신호를 디지털 신호로 변환하여 음성-문자 변환부(120)로 전달할 수 있다.The
또 다른 실시 예에서 음성수신부(110)는 속기사의 음성을 수신할 수도 있다. 속기사가 특정 상황에서 속기키보드를 통한 속기 입력이 어려운 경우, 음성수신부(110)는 속기사의 음성을 수신하여 문자로 변환할 수 있다. 단, 속기사의 음성을 문자로 변환한 데이터는 컨텐츠의 음성 신호를 문자로 변환한 것과 다르게 처리되어 통합 자막 처리부(300)로 전달될 수 있다. 통합 자막 처리부(300)는 속기사의 음성으로부터 변환되는 문자 데이터를 보완 속기 입력과 동일하게 취급하여 최종 자막 생성에 사용할 수 있다. In another embodiment, the
음성-문자 변환부(120)는 음성수신부(110)로부터 전달받은 음성 신호를 문자로 변환한다. 구체적으로 음성-문자 변환부(120)는 딥러닝을 통한 자동 음성 인식을 위한 기계 학습 애플리케이션일 수 있다. 음성-문자 변환부(120)는 WAV 및 MP3와 같은 일반적인 형식으로 저장된 오디오 파일을 트랜스크립션하고 단어마다 타임스탬프를 추가할 수 있다. The voice-to-
정확도 산출부(130)는 자동 음성 인식 간에 음성 인식의 정확도를 산출할 수 있다. 구체적으로, 정확도 산출부(130)는 음성 신호에서 사람의 목소리(육성)와 노이즈를 구별할 수 있으며, 사람의 목소리 크기, 사람의 목소리와 노이즈간 비율 또는 음성 인식 결과에 기초하여 정확도를 산출할 수 있다. The
일 실시 예에서, 정확도 산출부(130)는 음성 신호 중에서 사람의 목소리가 작으면 정확도를 낮은 것으로 볼 수 있으며, 사람의 목소리가 크면 정확도가 높을 것으로 볼 수 있다. 다시 말해서 정확도 산출부(130)는 사람의 목소리 크기에 비례하여 정확도를 산출할 수 있다. 예를 들어, 컨텐츠 속 화자가 마이크에서 떨어져 발언하거나 말소리가 상대적으로 작은 경우가 있을 수 있다. 사람의 목소리가 크고 작은지 여부를 판단하는 기준은 일반적인 컨텐츠에서의 사람 목소리 크기가 될 수 있으며, 구체적인 값은 기계학습을 통해 얻을 수도 있다. In an embodiment, the
또 다른 실시 예에서, 정확도 산출부(130)는 음성 신호 중에서 사람 목소리와 노이즈간 비율에서 노이즈 비율이 높을수록 정확도가 낮은 것으로 볼 수 있다. 다시 말해서, 정확도 산출부(130)는 노이즈 비율과 반비례하여 정확도를 산출할 수 있다. 예를 들어 컨텐츠 속에서 장내가 소란스럽다거나 비음성적인 소리가 중심이 되는 경우가 있을 수 있다.In another embodiment, the
또 다른 실시 예에서, 정확도 산출부(130)는 인식 결과에 기초하여 정확도를 산출할 수 있다. 정확도 산출부(130)는 음성을 인식하여 문자로 변환한 결과가 표준어 표기에 맞는지 여부를 판단하여 정확도를 산출할 수 있다. 예를 들어 정확도 산출부(130)의 변환 결과가 맞춤법에 맞지 않는 경우가 있을 수 있으며, 컨텐츠 속 화자가 방언을 구사하는 경우가 있을 수 있다.In another embodiment, the
정확도 산출부(130)는 음성 인식 결과가 특정 값 이하인 경우 해당 단어 또는 구간의 타임스탬프를 따로 기록할 수 있다. 여기에서 기록된 타임스탬프는 통합 자막 처리부(300)로 전달되거나, 속기 입력부(200)에 전달될 수 있다.The
다시 도 1로 돌아온다.It comes back to FIG. 1 again.
속기입력부(200)는 속기입력을 획득한다. 속기입력부(200)는 속기사로부터 속기입력을 획득할 수 있다. 속기입력부(200)의 구체적인 구성에 대하여는 이하에서 따로 설명하기로 한다.The
도 3은 본 발명의 일 실시 예에 따른 속기입력부(200)의 구성을 나타내는 블록도이다.3 is a block diagram showing the configuration of a
도 3에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 속기입력부(200)는 알림표시부(210) 및 속기입력장치(220)를 포함할 수 있다.As shown in FIG. 3, the
알림표시부(210)는 속기사에게 알림을 표시한다. 여기에서 속기사에게 표시되는 알림은 음성인식부(100)에서 인식 정확도가 일정 값 이하임을 알리는 것일 수 있다. 음성 인식 정확도가 일정 값 이하인 경우 음성-문자 변환의 결과가 정확하지 않을 확률이 높은 바, 이때 속기사가 직접 자막을 입력하여 자동 음성 인식의 결과를 보정할 수 있다. 알림표시부(210)는 디스플레이장치 또는 오디오 장치일 수 있으며, 알림표시부(210)는 시각적 또는 청각적 알림을 속기사에게 제공할 수 있다.The
속기입력장치(220)는 속기사로부터 속기 입력을 획득한다. 속기입력장치(220)는 속기키보드로부터 속기 입력을 획득하여 문자 데이터화할 수 있다. 속기입력장치(220)는 일반적으로 사용되는 속기키보드일 수 있다. 또한, 속기키보드는 영한 겸용 속기키보드일 수도 있다. 속기입력장치(220)는 디스플레이 장치를 더 포함할 수 있다. 디스플레이 장치는 속기키보드를 통한 자막 입력이 표시될 수 있다. The
다시 도 1로 돌아온다.It comes back to FIG. 1 again.
통합 자막 처리부(300)는 음성인식부(100) 및 속기입력부(200)로부터 전달받은 문자를 통합하여 최종 자막을 생성한다. 구체적으로 통합 자막 처리부(300)는 음성인식부(100)로부터 전달받은 음성-문자 변환 데이터와 속기입력부(200)로부터 전달받은 속기입력 데이터를 통합하여 최종 자막을 생성한다.The integrated
일 실시 예에서, 통합 자막 처리부(300)는 음성인식부(100)로부터 전달받은 음성 문자 변환 데이터를 기초로 하고, 음성 문자 변환 데이터의 일부를 속기입력부(200)로부터 전달받은 속기입력 데이터로 보완하여 최종 자막을 생성할 수 있다. 상술한 바와 같이, 특정의 상황에서 음성인식부(100)의 인식 정확도가 낮아 문자 변환 결과가 부정확할 수 있는바, 이 경우 부정확한 문자 변환 결과를 속기사의 직접 입력으로 보완하여 최종 자막을 생성할 수 있다.In one embodiment, the integrated
통합 자막 처리부(300)는 음성인식부(100)로부터 정확도가 일정 값 이하인 보완 대상 단어 또는 보완 대상 구간의 타임스탬프 정보를 획득할 수 있다. 그리고 통합 자막 처리부(300)는 보완 대상 단어 또는 구간의 타임스탬프와 속기입력 시작 시간을 비교하여 속기입력 데이터와 음성 문자 변환 데이터를 동기화하여 최종 자막을 생성할 수 있다.The integrated
구체적인 실시 예에서, 통합 자막 처리부(300)는 보완 대상 단어 또는 구간의 타임스탬프와 보완 속기입력이 시작된 시간을 비교하고, 그 차이가 가장 작은 보완 대상 단어 또는 구간과 보완 속기입력을 매칭하여 최종 자막을 생성한다.In a specific embodiment, the integrated
또 다른 실시 예에서, 통합 자막 처리부(300)는 하나 이상의 보완 대상 단어 또는 구간의 시간 순서와 하나 이상의 보완 속기 입력의 시간 순서만을 비교 매칭하여 최종 자막을 생성한다. 보완 대상 단어 또는 구간의 수와 보완 속기 입력의 수가 동일할 것인바, 각 순서만을 비교하여 순서대로 보완 대상 단어 또는 구간을 보완 속기 입력으로 대신하여 최종 자막이 생성될 수 있다.In another embodiment, the integrated
도 4는 본 발명의 일 실시 예에 따른 자막 생성 시스템의 동작을 나타내는 흐름도이다.4 is a flowchart illustrating an operation of a caption generation system according to an embodiment of the present invention.
자막 생성 시스템은 자동 음성 인식 도구를 통해 제1 구간에 포함된 음성을 문자로 변환한다(S10). 여기에서 자동 음성 인식 도구는 상술한 바와 같이 현재 사용되고 있는 자동 음성 인식 도구일 수 있다. 제 1 구간은 음성 인식의 대상이 되는 컨텐츠의 전체 타임라인 중 일부 구간을 의미한다. The caption generation system converts the voice included in the first section into text through an automatic voice recognition tool (S10). Here, the automatic speech recognition tool may be an automatic speech recognition tool currently used as described above. The first section means a partial section of the entire timeline of the content subject to speech recognition.
자막 생성 시스템은 자동 음성 인식의 정확도를 획득하고, 정확도가 특정 값 이상인지 여부를 판단한다(S20). 자동 음성 인식의 정확도는 음성 신호의 크기, 사람의 목소리와 노이즈간 비율 또는 자동 음성 인식의 결과 중 적어도 하나에 기초하여 판단될 수 있다. 그리고 여기에서 임계값으로 사용되는 특정의 기준 값은 임의적으로 입력된 값이거나, 기계학습을 통해 획득되는 값일 수 있다.The caption generation system acquires the accuracy of automatic speech recognition, and determines whether the accuracy is greater than or equal to a specific value (S20). The accuracy of automatic speech recognition may be determined based on at least one of a size of a speech signal, a ratio between a human voice and noise, or a result of automatic speech recognition. In addition, the specific reference value used as the threshold value here may be a randomly input value or a value obtained through machine learning.
자막 생성 시스템은 제 1 구간의 음성-문자 변환의 정확도가 특정 값 이상인 경우 또 다른 구간에 포함된 음성을 자동 음성 인식하여 문자로 변환한다(S30).When the accuracy of the voice-to-text conversion in the first section is greater than or equal to a specific value, the subtitle generation system automatically recognizes the voice included in the other section and converts it into a letter (S30).
한편, 자막 생성 시스템은 제 1 구간의 음성-문자 변환의 정확도가 특정 값 이하인 경우, 제 1 구간의 시작시간을 기록한다(S40). 일반적으로 자동 음성 인식 도구는 문자로 변환된 음성을 획득한 타임스탬프를 기록하고 있으며, 자막 생성 시스템은 정확도가 특정 값 이하인 단어 또는 구간에 대하여 별도로 타임스탬프를 기록하여 관리할 수 있다.Meanwhile, when the accuracy of the voice-to-text conversion of the first section is less than a specific value, the caption generation system records the start time of the first section (S40). In general, an automatic speech recognition tool records a timestamp obtained by acquiring a voice converted into a text, and the caption generation system may separately record and manage a timestamp for a word or section whose accuracy is less than a specific value.
자막 생성 시스템은 제1 구간의 변환 정확도가 특정 값 이하인 경우, 속기사에게 알림을 출력한다(S50). 자막 생성 시스템은 시각적 또는 청각적 방식으로 속기사에게 알림을 출력할 수 있다.When the conversion accuracy of the first section is less than or equal to a specific value, the caption generation system outputs a notification to the shorthand (S50). The caption generation system may output a notification to the stenographer in a visual or audible manner.
자막 생성 시스템은 제 1 음성에 대한 속기 입력을 획득한다(S60). 자막 생성 시스템은 제 1 음성에 대한 속기 입력을 속기키보드를 통해 획득할 수 있다. 또한, 자막 생성 시스템은 제 1 음성에 대한 속기 입력을 음성 인식을 통해 획득할 수도 있다. 여기에서 음성 인식의 대상은 속기사의 음성일 수 있다.The caption generation system acquires a shorthand input for the first voice (S60). The caption generation system may obtain a shorthand input for the first voice through a shorthand keyboard. In addition, the caption generating system may obtain a shorthand input for the first voice through voice recognition. Here, the object of speech recognition may be the voice of a shorthand article.
자막 생성 시스템은 기록된 제 1 구간의 시작시간과 속기입력이 시작된 시간에 기초하여 음성 인식 결과와 속기 입력 결과를 통합하여 최종 자막을 생성한다(S70).The caption generation system generates a final caption by integrating the voice recognition result and the shorthand input result based on the recorded start time of the first section and the shorthand input start time (S70).
일 실시 예에서, 자막 생성 시스템은 변환 정확도가 특정 값 이하인 구간(이하 보완 구간)의 시작 시간과 보완 구간에 대한 속기입력이 시작된 시간을 비교하고, 그 차이가 가장 작은 보완 구간과 보완 속기입력을 매칭하여 최종 자막을 생성한다. 보완 속기입력은 속기사가 알림에 따라 입력한 속기입력 데이터를 지칭한다.In an embodiment, the caption generation system compares the start time of a section (hereinafter referred to as supplementary section) whose conversion accuracy is less than a certain value and a time when shorthand input for the supplementary section is started, and compares the supplementary section with the smallest difference and the supplementary shorthand input. Matching to generate final subtitles. Supplementary shorthand input refers to shorthand input data input by a shorthand by a shorthand notice.
또 다른 실시 예에서, 자막 생성 시스템은 하나 이상의 보완 구간의 시작 시간과 하나 이상의 보완 속기 입력의 시간 순서만을 비교 매칭하여 최종 자막을 생성한다. 보완 대상 단어 또는 구간의 수와 보완 속기 입력의 수가 동일할 것인바, 각 순서만을 비교하여 순서대로 보완 대상 단어 또는 구간을 보완 속기 입력으로 대신하여 최종 자막이 생성될 수 있다.In another embodiment, the caption generation system generates a final caption by comparing and matching only the start times of one or more supplementary sections and a time sequence of one or more supplementary shorthand inputs. Since the number of supplementary words or sections and the number of supplementary shorthand inputs will be the same, a final subtitle may be generated by comparing only each order and replacing the supplementary words or sections in order with supplementary shorthand input.
자막 생성 시스템은 생성된 최종 자막을 셋톱박스로 전달한다. 셋톱박스는 전달받은 자막을 영상과 함께 표시하여 청각장애인을 위한 자막 방송을 출력할 수 있다.The subtitle generation system delivers the final subtitles generated to the set-top box. The set-top box can output closed caption broadcasting for the hearing impaired by displaying the transmitted caption together with the image.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. The above-described present invention can be implemented as a computer-readable code on a medium on which a program is recorded. The computer-readable medium includes all types of recording devices that store data that can be read by a computer system. Examples of computer-readable media include HDD (Hard Disk Drive), SSD (Solid State Disk), SDD (Silicon Disk Drive), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. There is also a carrier wave (e.g., transmission over the Internet).
상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.The above detailed description should not be construed as restrictive in all respects and should be considered as illustrative. The scope of the present invention should be determined by rational interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.
Claims (9)
상기 음성인식의 정확도가 특정 값 이하인 경우 속기사에게 알림을 표시하는 알림표시부와 속기입력장치를 포함하여 자막 속기 입력을 획득하는 속기입력부와;
상기 음성인식부로부터 획득되는 음성-문자 변환 데이터와 상기 속기입력부로부터 획득되는 속기입력 데이터를 통합하여 최종 자막을 생성하는 통합 자막 처리부;를 포함하되,
상기 음성-문자 변환부는 자동 음성 인식을 위한 기계 학습 애플리케이션으로서 음성 인식하여 변환된 단어마다 타임스탬프를 추가하며,
상기 통합 자막 처리부는 상기 음성인식의 정확도가 일정 값 이하인 보완 대상 단어 또는 보완 대상 구간에 속기입력 데이터를 매칭하여 최종 자막 생성하되, 상기 보완 대상 단어 또는 보완 대상 구간의 시간 순서와 일치하는 순서로 입력된 속기입력 데이터를 매칭하여 최종 자막을 생성함을 특징으로 하는 방송 자막 시스템.A voice recognition unit including a voice receiving unit for receiving a voice signal from content, a voice-to-text conversion unit for recognizing and converting the received voice signal into text, and an accuracy calculating unit for calculating accuracy of voice recognition;
A shorthand input unit for obtaining a caption shorthand input, including a notification display unit and a shorthand input device for displaying a notification to a stenographer when the accuracy of the speech recognition is less than a specific value;
Including; an integrated caption processing unit for generating a final caption by integrating the speech-to-text conversion data obtained from the speech recognition unit and the shorthand input data obtained from the shorthand input unit,
The speech-to-text conversion unit is a machine learning application for automatic speech recognition, and adds a timestamp to each word converted by speech recognition,
The integrated caption processing unit generates a final caption by matching shorthand input data to a complementary word or section to be complemented with an accuracy of the speech recognition equal to or less than a predetermined value, and inputs the final subtitle in an order that matches the time sequence of the complementary word or section A broadcast caption system, characterized in that the final caption is generated by matching the shorthand input data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190047796A KR102185183B1 (en) | 2019-04-24 | 2019-04-24 | a broadcast closed caption generating system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190047796A KR102185183B1 (en) | 2019-04-24 | 2019-04-24 | a broadcast closed caption generating system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200124456A KR20200124456A (en) | 2020-11-03 |
KR102185183B1 true KR102185183B1 (en) | 2020-12-01 |
Family
ID=73197717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190047796A KR102185183B1 (en) | 2019-04-24 | 2019-04-24 | a broadcast closed caption generating system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102185183B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101478918B1 (en) * | 2013-08-16 | 2014-12-31 | 한국방송공사 | Apparatus and method for correcting caption subtitle |
JP2017040806A (en) * | 2015-08-20 | 2017-02-23 | 株式会社フェイス | Subtitle production device and subtitle production method |
JP2018045256A (en) | 2017-12-25 | 2018-03-22 | 株式会社フェイス | Subtitle production device and subtitle production method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240291A (en) * | 1996-12-26 | 1998-09-11 | Seiko Epson Corp | Speech recognition enabled state notification method and device in speech recognition device |
KR100381013B1 (en) * | 2000-12-18 | 2003-04-26 | 한국전자통신연구원 | Apparatus and Method for caption input using speech recognizer and recording media |
-
2019
- 2019-04-24 KR KR1020190047796A patent/KR102185183B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101478918B1 (en) * | 2013-08-16 | 2014-12-31 | 한국방송공사 | Apparatus and method for correcting caption subtitle |
JP2017040806A (en) * | 2015-08-20 | 2017-02-23 | 株式会社フェイス | Subtitle production device and subtitle production method |
JP2018045256A (en) | 2017-12-25 | 2018-03-22 | 株式会社フェイス | Subtitle production device and subtitle production method |
Also Published As
Publication number | Publication date |
---|---|
KR20200124456A (en) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887578B2 (en) | Automatic dubbing method and apparatus | |
US12125487B2 (en) | Method and system for conversation transcription with metadata | |
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US7346506B2 (en) | System and method for synchronized text display and audio playback | |
US6175820B1 (en) | Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment | |
US9892095B2 (en) | Reconciliation of transcripts | |
US20110093263A1 (en) | Automated Video Captioning | |
US20160314116A1 (en) | Interpretation apparatus and method | |
JP2013152365A (en) | Transcription supporting system and transcription support method | |
KR20200027331A (en) | Voice synthesis device | |
JP2012181358A (en) | Text display time determination device, text display system, method, and program | |
KR102160117B1 (en) | a real-time broadcast content generating system for disabled | |
US9666211B2 (en) | Information processing apparatus, information processing method, display control apparatus, and display control method | |
US11798558B2 (en) | Recording medium recording program, information processing apparatus, and information processing method for transcription | |
KR102185183B1 (en) | a broadcast closed caption generating system | |
WO2021017302A1 (en) | Data extraction method and apparatus, and computer system and readable storage medium | |
JP7539278B2 (en) | Information processing device, program, and information processing method | |
KR102274275B1 (en) | Application and method for generating text link | |
Janin | Meeting recorder | |
Chotimongkol et al. | The Development of Thai Real-time Captioning Service | |
CN118430538A (en) | Error correction multi-mode model construction method, system, equipment and medium | |
JP2014235263A (en) | Speech recognition device and program | |
Rajnoha et al. | Czech spontaneous speech collection and annotation: The database of technical lectures | |
KR20240126277A (en) | Electronic device and method for generating dubbing video considering lip movement of speaker | |
CN114387956A (en) | Audio signal processing method, device and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190424 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200220 Patent event code: PE09021S01D |
|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20201029 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20200220 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
X091 | Application refused [patent] | ||
PG1501 | Laying open of application | ||
AMND | Amendment | ||
PX0901 | Re-examination |
Patent event code: PX09011S01I Patent event date: 20201029 Comment text: Decision to Refuse Application Patent event code: PX09012R01I Patent event date: 20200410 Comment text: Amendment to Specification, etc. |
|
PX0701 | Decision of registration after re-examination |
Patent event date: 20201110 Comment text: Decision to Grant Registration Patent event code: PX07013S01D Patent event date: 20201104 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I Patent event date: 20201029 Comment text: Decision to Refuse Application Patent event code: PX07011S01I Patent event date: 20200410 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I |
|
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20201125 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20201126 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20240906 |