[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102069692B1 - 신경망 기계번역 방법 및 장치 - Google Patents

신경망 기계번역 방법 및 장치 Download PDF

Info

Publication number
KR102069692B1
KR102069692B1 KR1020170140232A KR20170140232A KR102069692B1 KR 102069692 B1 KR102069692 B1 KR 102069692B1 KR 1020170140232 A KR1020170140232 A KR 1020170140232A KR 20170140232 A KR20170140232 A KR 20170140232A KR 102069692 B1 KR102069692 B1 KR 102069692B1
Authority
KR
South Korea
Prior art keywords
vocabulary
lexical
neural network
learning
band
Prior art date
Application number
KR1020170140232A
Other languages
English (en)
Other versions
KR20190046432A (ko
Inventor
신종훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170140232A priority Critical patent/KR102069692B1/ko
Priority to US15/944,939 priority patent/US10635753B2/en
Publication of KR20190046432A publication Critical patent/KR20190046432A/ko
Application granted granted Critical
Publication of KR102069692B1 publication Critical patent/KR102069692B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은, 부분어휘 토큰을 훼손하지 않으면서 명시적인 어휘정렬 정보가 부가된 학습데이터 생성 방법 및 이를 포함하는 신경망 기계번역 방법 및 장치를 제안한다. 학습데이터 생성 방법은 (1) 학습에 사용될 이중언어 말뭉치의 문장으로부터 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계를 분리하는 단계; (2) 학습에 사용될 이중언어 말뭉치의 문장으로부터 명시적 어휘정렬 정보를 추출하는 단계; (3) 단계 1에 의해 분리된 어휘 경계를 다시 부분어휘 토큰으로 분리하는 단계; (4) 단계 1에 의해 처리된 원문언어 결과물과, 단계 3에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계; (5) 단계 2에서 생성된 명시적 어휘정렬 정보와, 단계 1 및 3에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계를 포함한다.

Description

신경망 기계번역 방법 및 장치 {Neural machine translation method and apparatus}
본 발명은 신경망(neural network)과 RNN-LSTM(recurrent neural network with long short term memory)을 사용하는 신경망기반 자동번역(NMT: Neural Machine Translation)에 관한 것이다. 보다 구체적으로, 본 발명은 명시적 어휘정렬 정보(explicit word-alignment information)를 부가한 부분어휘 토큰 단위(sub-word token unit) 기반의 엔드투엔드 신경망 기계번역 방법 및 장치에 관한 것이다.
신경망 기계번역(Neural Machine Translation, NMT) 중에 인코더-디코더(Encoder-Decoder) 메커니즘에 기반한 방식이 있다. 이 방식은 RNN-LSTM(장단기 메모리기반 재귀적 인공신경망(Recurrent Neural Network with Long Short Term Memory)) 또는 합성곱 인공 신경망(Convolutional Neural Network)을 사용하여, 인코더에 의해 원문언어의 입력문을 단일 또는 다중의 N-차원의 벡터로 압축(또는 추상화)시키고, 압축된(추상화된) 표현으로부터 디코더를 써서 대역언어의 출력문(번역 결과)을 생성해내는 인공 신경망 학습 및 예측 메커니즘을 의미한다. 이 메커니즘을 구현하기 위한 신경망 네트워크 구조 및 학습 방법 등에 대해서 많은 연구들이 진행되어 왔고, 현재는 구글, 네이버 등의 기업에서 제공하는 서비스의 핵심 기술로 알려져 있다.
이러한 방식의 기계번역에서는, 자주 나타나지 않는 어휘, 또는 학습시 사용한 문장쌍 집합(이중언어 말뭉치(corpus))에서 한 번도 출현하지 않은 어휘가 나타나면, 이를 일괄적으로 예약된 미등록어 토큰으로 간주하고, 미등록어를 위한 단일 임베딩 벡터로 치환하게 된다. 즉, 임베딩 벡터를 일종의 사전(dictionary)으로 본다면, 사전에 없는 어휘 토큰이 나타날 때마다 미리 정의한 특정한 임베딩 벡터를 반환하게 된다. 이는 원문을 추상화하는 인코더에서뿐만 아니라 대역문을 생성하는 디코더에서, 학습되지 않은 어휘열(word sequence)을 생성해야 할 때 미등록어 토큰을 출력하는 경우에도 일어난다.
인간이 사용하는 자연 언어(Natural language)는 시간의 흐름, 위치의 차이 등으로 인해 새로운 어휘가 생겨나고 사라지거나, 동일한 의미를 표현하는 어휘가 다양한 의미로 사용될 수 있다. 이에 반해 상술한 신경망 기계번역 기술에서는 학습 단계에서 사용된 이중언어 말뭉치에서만 존재하는 고유 어휘 토큰이 제한된 수로 한정될 수밖에 없다.
한편, 통계기반 기계번역과 인공신경망 기계번역은 딥러닝을 활용한다. 사람은 학습데이터를 수집하고 가공해서 컴퓨터에 던져주고, 컴퓨터는 입력된 학습데이터를 바탕으로 스스로 공부한다. 학습이 끝나면 번역기가 스스로 공부한 바를 바탕으로 새로운 문장을 보더라도 번역할 수 있는 능력을 키울 수 있다.
본 발명은, 종래의 신경망 기계번역(NMT) 시스템의 문제점을 해결하기 위하여, 적은 수의 이중언어 말뭉치로 학습되는 시스템의 번역 성능을 향상시키고자 한다. 본 발명의 목적은 부분어휘 토큰을 훼손하지 않으면서 명시적인 어휘정렬 정보가 부가된 학습데이터 생성 방법 및 이를 포함하는 신경망 기계번역 방법을 제안하는 것이고, 다른 목적은 생성된 학습데이터를 이용하여 학습 및 번역을 수행하는 개선된 구조의 신경망 기계번역 장치를 제안하는 것이다.
상기 과제를 해결하기 위하여, 본 발명의 일측면에 따르면, 원문 및 이 원문에 대한 번역문을 포함한 신경망 기계번역을 위한 학습데이터를 생성하는 방법이 제공된다. 이 방법은 (1) 학습에 사용될 이중언어 말뭉치의 문장으로부터 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계를 분리하는 단계; (2) 학습에 사용될 이중언어 말뭉치의 문장으로부터 명시적 어휘정렬 정보를 추출하는 단계; (3) 단계 1에 의해 분리된 어휘 경계를 다시 부분어휘 토큰으로 분리하는 단계; (4) 단계 1에 의해 처리된 원문언어 결과물과, 단계 3에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계; (5) 단계 2에서 생성된 명시적 어휘정렬 정보와, 단계 1 및 3에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계를 포함한다.
본 발명의 다른 측면에 따르면, 상기 학습데이터 생성 방법에 의해 생성된 학습데이터를 기초로 신경망을 학습시키고 대역문과 원문의 연결 관계 생성을 수행하는 신경망을 이용한 신경망 기계번역 방법이 제공된다.
본 발명의 또다른 측면에 따르면, 상기 학습데이터 생성 방법으로 학습데이터를 생성하는 학습데이터 처리부와; 상기 학습데이터 처리부로부터 생성된 학습데이터를 기초로 신경망을 학습시켜, 대역문과 원문의 연결 관계 생성을 수행하는 데 이용되는 자동 번역 모델을 생성하는 모델 생성부를 포함하는 신경망을 이용하는 신경망 기계번역 장치가 제공된다.
상기 모델 생성부에서 학습데이터를 학습시키는 신경망은 장단기 메모리기반 재귀적 인공신경망(RNN-LSTM) 구조를 기반으로 구현할 수 있다.
이상에서 소개한 본 발명의 구성 및 작용은 차후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.
본 발명은 기본적으로, 미등록어에 강건한 자동 번역 기술로서, 다음과 같은 효과를 얻을 수 있다.
1. 신경망 기계번역의 번역 품질 향상
- 학습 단계에서 부분어휘의 손실없이 명시적인 어휘정렬 정보를 부가하여, 기본적인 부분어휘 단위의 신경망 기계번역의 장점과, 어휘정렬 정보에 의한 보정 기능의 장점을 모두 가질 수 있게 된다.
- 학습시 부여한 명시적 어휘정렬 정보에 의해, 주의집중 모델(Attention Model)의 학습에 필요한 피드백을 추가로 전달 가능하다(주의집중 모델: 간접적으로 신경망 학습 단계에서 원문 입력에 사용된 어휘 토큰과, 대역 부 생성에 출현된 대역어휘 토큰의 연관 관계를 학습하는 모델).
2. 사용자 정의 사전을 신경망 기계번역에 적용 가능
- 예측된 어휘정렬 정보에 의해, 특정 원문어휘를 다른 대역어휘로 바꾸고자 하는 경우 대역어휘의 정렬 위치를 추정하여 이를 치환할 수 있는 기능을 제공할 수 있다.
도 1은 인코더-디코더 메커니즘에 기반한 신경망 기계번역 시스템의 개념도
도 2는 본 발명의 명시적인 어휘정렬 정보가 부가된 학습데이터 생성 방법 흐름도
도 3은 도 2에 의해 생성된 학습데이터를 학습하는 신경망 구조도
본 발명의 구체적인 내용을 설명하기에 앞서 인코더-디코더(Encoder-Decoder) 메커니즘에 기반한 신경망 기계번역 시스템의 특성에 관해 간략히 소개한다. 도 1을 참조하면, 이 방식은 원문 입력문으로부터 인코더를 통해 압축된 N-차원의 단일 벡터를 생성한 뒤, 디코더를 통해 인코더의 출력과, 현재 생성된 대역 어휘 정보를 토대로 다음 어휘를 예측하는 방법을 재귀적으로 수행한다.
인코더는 입력된 원문언어의 문맥적 요소를 압축/추상화하는데, 이는 원문언어의 의미적, 통사적 특성을 모두 포함하는 일련의 문장 벡터로 생성한다는 의미이다.
또한 디코더는 현재 상태와 이전 예측 결과 어휘를 토대로 다음 어휘를 에측하는 것으로, 대역 어휘로 구성된 임의의 문장을 생성하는 일종의 언어 모델(Language Model)의 역할을 수행한다. 즉, 디코더는 인코더의 출력으로 나타난 원문언어의 추상 정보를 조건 변수로 받아, 디코더가 학습한 대역언어의 생성 방법에 기초하여 대역 어휘들을 예측한다. 디코더의 예측은 대역 문장의 완료를 알리는 문장 종료 예약어가 나타날 때까지 반복적으로 수행되며, 그 과정에서 생성된 후보들 중에서 가장 자연스럽다고 판단되는 대역문을 선택적으로 출력하게 된다.
이러한 메커니즘의 절차상, 대역 문장을 구성하는 어휘 토큰이 입력 문장 내 어휘 토큰에 의해 생성되었는지 알 수 없기 때문에, 입력에 사용된 원문을 구성하는 어휘와 생성된 대역문을 구성하는 어휘 사이에 직접적인 연관관계가 명시적으로 존재하지 않는다는 특징이 있다.
이러한 특성을 갖는 신경망 기반 기계번역 시스템을 구성하기 위해, 원문언어의 문장과 대역언어로 구성된 문장 쌍의 집합(이중언어 말뭉치)을 받아 이를 학습하는 신경망 학습 단계가 존재하며, 학습 단계에 의해 생성된 신경망 모델을 토대로 기계번역을 수행하는 예측 단계가 존재한다.
신경망 학습을 위해, 원문 어휘로 된 어휘를 특정한 기준으로 잘라 이를 각각의 1차원의 벡터로 변환하여 2차원의 임베딩 벡터로 표현하게 된다. 이 과정에서, 학습 단계에 사용되는 원문의 어휘와 대역문을 구성하는 어휘 토큰이 고정된다. 즉, 학습에 사용되는 원문언어의 말뭉치를 구성하는 각각의 고유한 어휘가 1000개가 존재하고, 1개의 어휘를 500개의 부동 소수점으로 표현된 1차원 벡터로 표현하는 경우, 1000×500의 2차원 벡터로 바꾸게 되는데, 이 2차원 벡터가 바로 임베딩 벡터가 된다. 대역언어의 말뭉치를 구성하는 고유 어휘 토큰의 개수가 500개가 되는 경우, 역시 동일한 길이의 1차원 벡터로 표현하게 되면, 500×500의 2차원 벡터로 변환될 수 있다. 신경망 학습은 이렇게 입력된 원문 어휘와 대역문 어휘를 각각의 고유 어휘 토큰에 맞는 임베딩 벡터로 변환된 것을 입력 정보로 처리를 하게 된다.
이 방법에는 대표적으로 두 가지 방법을 통한 접근 방법이 연구되어 왔다. <방법 1>은, 학습 단계에서 표현되지 않은 어휘를 대치할 수 있도록 고유 명사나 숫자와 같은 저빈도 어휘를 특정 예약어로 미리 직접 대체하는 전처리 과정을 수행한 뒤, 이를 학습하여 알려지지 않은 어휘가 예측 단계에 들어왔을 때, 이를 동일한 예약어로 치환하여 인코더의 입력으로 전달하고, 디코더에 의해 만들어진 대역 문장에서 그 예약어가 나타나는 경우 원문에서 복제하거나 혹은 사전을 참조하여 치환하는 후처리 단계를 통해 처리하는 방법(Luong et al., “Addressing the Rare Word Problem in Neural Machine Translation”, eprint arXiv:1410.8206, 2014),
또 다른 <방법 2>는 인간이 사용하는 어휘의 길이보다 더 짧은 길이를 갖는 부분어휘(sub-word)로 쪼개고, 쪼개진 부분어휘로 출력된 대역 문장을 후처리로 합쳐 원래의 어휘 꼴로 만들어내는 방법(Sennrich et al., “Neural Machine Translation of Rare Words with Subword Units”, in Proceedings of ACL'16, 2016.)이다.
방법 1은, 형태소 분석(Morphological analysis) 또는 개체명 인식(NER; Named entity recognition) 기술을 통해 치환되어야 할 어휘 토큰의 경계를 정규화하고, 원문에 나타난 어휘 토큰이 대역문장 내 어떤 어휘로 치환되었는지 관계를 추정하기 위해 단어정렬(word alignment) 과정을 거쳐야 한다는 단점이 존재하며, 이런 과정에 필요한 세부 요소기술의 성능이 신경망 기계번역 시스템에 그대로 반영되게 된다. 즉, 상기에 언급한 각각의 세부 요소 기술의 결과물이 좋지 않을 경우, 이를 사용하여 학습한 신경망 기계번역의 성능 역시 낮아진다는 문제가 존재한다.
한편, <방법 2>는, <방법 1>과 같은 단어정렬이 필요 없이, 잘게 쪼개진 부분어휘 토큰 열을 그대로 학습하기 때문에 별도의 단어정렬이 필요없어, 세부 요소 기술을 사용하지 않기 때문에 이러한 문제점이 없다. <방법 2>는 신경망 기계번역에서 사용될 경우 학습 말뭉치에 존재하지 않던 어휘라도, 그것을 잘게 쪼갬으로 부분어휘를 최대한 반영할 수 있기 때문에 열린 사전(Open Vocabulary)을 지원할 수 있는 방법이라고 할 수 있다. 학습에 사용하는 이중언어 말뭉치의 양이 많을수록 높은 성능을 이끌어 낼 수 있어, 현재의 상용화된 신경망 기계번역 시스템에서 보편적으로 사용되는 방법이 되었다. <방법 1>에 비해 상대적으로 높은 번역 품질을 기대할 수 있으나, 학습에 필요한 이중언어 말뭉치의 수가 적을 경우, <방법 2>를 사용하더라도 부분어휘열의 학습 정도가 낮아 올바르게 표현(또는 번역)하지 못하는 경우가 빈번하게 발생하게 되어, 여전히 미등록어에 대한 낮은 품질의 번역 결과를 받게 된다.
한편, 인코더-디코더 메커니즘 기반 신경망 기계번역 모델의 성능 향상을 위해, 간접적으로 신경망 학습 단계에서 원문 입력에 사용된 어휘 토큰과, 대역 부 생성에 출현된 대역 어휘 토큰의 연관 관계를 학습하는 주의집중 모델(Attention Model)(참고: Bahdanau et al., “Neural Machine Translation by Jointly Learning to Translate and Align”, in Proceedings of ICLR'15, 2015)이 등장하여 현재 널리 사용되고 있으나, 여전히 개별 어휘 토큰과 대역 어휘 토큰 간의 명시적인 어휘정렬 정보(explicit word-alignment information; hard alignment)와는 거리가 멀다.
이 주의집중 모델에서도, 이러한 특징을 표현하기 위해 암묵적 어휘정렬 정보(implicit word-alignment information; soft alignment)로 표현하고 있다. 즉, 특정 대역 어휘에 사용된 주의집중 정보가 원문의 지정된 어휘 토큰과 1:1로 정렬되지는 못하고 있다는 한계점이 존재한다.
두 방법을 모두 알고 있는 사람이 예상 가능한 전개 방법으로, 상기에 기술한 방법 1과 방법 2를 혼합하는 방법을 손쉽게 생각할 수 있다. 하지만, 이를 적용하고자 하는 경우, 다음의 문제가 존재하여 상술한 방법 1과 방법 2가 올바르게 혼합되지 않게 됨을 알 수 있다.
첫째, 어휘의 직접 대치를 수행하는 방법 1에 의해, 방법 2를 위해 적용해야 할 부분어휘가 상대적으로 줄어들게 된다. 즉, 방법 1에 의해 많은 미등록 어휘를 대치할 경우, 부분어휘 토큰 열의 수가 적어져 학습 단계에서 부분어휘 토큰을 올바르게 학습할 수 없기 때문에, 방법 2가 효과적으로 적용될 수 없다.
둘째, 방법 2와 같이 부분어휘 토큰으로 잘게 쪼개는 경우, 방법 1을 위해 필요한 전처리 단계, 그 중에서도 명시적 어휘정렬 정보를 얻는 과정에서 복잡도가 증가하고, 이에 따라 어휘정렬 정보 자체가 올바르게 처리될 가능성이 더욱 낮아지게 되어, 올바르지 않은 어휘정렬 정보가 포함된 데이터를 학습하게 됨으로 신경망 기계번역 시스템의 오히려 품질이 떨어진다는 문제가 존재한다.
본 발명에서는 이상의 문제점을 극복하면서 방법 1과 방법 2를 혼합할 수 있는 구성을 통해 시스템에서 잘못 번역된 미등록어를 교정할 수 있는 신경망 기계번역 시스템을 구현하는 것이다.
이하, 본 발명의 목적 1, 즉, "명시적인 어휘정렬 정보가 부가된 학습데이터의 생성 방법"을 도 2를 참조하여 설명한다.
(100) 학습에 사용될 이중언어 말뭉치의 원문언어 및 대역언어의 문장에 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계 분리 단계 ― 본 단계는 각 언어에 모두 적용하거나, 혹은 둘 중 하나의 언어를 대상으로 처리할 수 있다.
(200) 명시적 어휘정렬 정보(explicit word-alignment information) 추출 단계
(300) 단계 100에 의해 분리된 어휘 경계를 다시 부분어휘 토큰(sub-word token)으로 분리하는 단계 ― 이 단계는 각 언어에 모두 적용하거나, 혹은 둘 중 하나의 언어를 대상으로 처리할 수 있다.
(400) 단계 100에 의해 처리된 원문언어 결과물과, 단계 300에 의해 처리된 원문언어 결과물을 사용하여, 새로운 원문언어 학습데이터를 생성하는 단계 ― <방법 1>과 달리, 입력된 원문언어의 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 100에서 추출한 어휘순서 정보를 단계 300에서 분리된 부분어휘 토큰마다 추가 정보로 삽입하고 표현한다.
(500) 단계 200에서 생성된 명시적 어휘정렬 정보와, 단계 100 및 300에 의해 처리된 대역언어 결과물을 사용하여, 새로운 대역언어 학습데이터를 생성하는 단계 ― <방법 1>과 달리, 대역언어 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 200에서 추출한 명시적 어휘정렬 정보와 단계 100에 의해 처리되어 생성된 원문언어 문장에 부착된 어휘순서 정보를 결합하고, 단계 300에 의해 생성된 대역 문장내 부분어휘 토큰마다 변형된 정렬 정보를 삽입하고 표현한다.
도 2의 처리 흐름에서 100, 200 단계는 상기에 기술한 <방법 1>을 사용하여 처리할 수 있고, 300 단계는 <방법 2>를 사용하여 처리할 수 있다.
이상의 각 단계에 대한 상세한 실시예를 아래에 기술한다.
학습에 사용될 이중언어 말뭉치 중 하나의 한국어(원문언어)와 영어(대역언어) 문장쌍은 아래와 같은 것으로 가정한다.
[한국어] 그리고 우리는 미동 마을에 있는 이쁜이 게스트 하우스를 예약했다.
[영어] And we booked a room at IPUNY Guest House in Midong village.
도 2의 단계 100에서 원문언어와 대역언어에 대한 형태소 분석 및 개체명 인식 등의 공지기술을 통해 단어의 구간을 결정하고, 내용어와 기능어를 분리하고, 내용어의 경계를 결정한다. 아래의 형태와 같이 결정되었다.
[한국어] '그리고'(1) '우리'(2) '는'(3) '미동'(4) '마을'(5) '에'(6) '있는'(7) '이쁜이 게스트'(8) '하우스'(9) '를'(10) '예약했다'(11) '.'(12)
[영어] 'And'(1) 'we'(2) 'booked'(3) 'a'(4) 'room'(5) 'at'(6) 'IPUNY'(7) 'Guest House'(8) 'in'(9) 'Midong'(10) 'village'(11) '.'(12)
각 어휘 뒤의 숫자는 어휘를 따라 순서대로 부여한 번호이다. 이는 설명의 편의를 위한 것이며, 실제로는 아래와 같이 공백으로 각각의 어휘 토큰이 나뉜다.
[한국어] 그리고 우리 는 미동 마을 에 있는 이쁜이_게스트 하우스 를 예약했다 .
[영어] And we booked a room at IPUNY Guest_House in Midong village .
단계 200에서, 명시적 어휘정렬 정보를 추출한다. 어휘정렬 정보를 추출하는 수단으로 IBM Model 4(GIZA++)과 함께 grow-diag-final-and 휴리스틱 알고리즘(Koehn'03)을 사용하였고, 다음의 예시와 같이 추출되었다.
[어휘정렬 정보] 1-1(그리고-And) 2-2(우리-We) 4-10(미동-Midong) 5-11(마을-village) 6-6(에-at) 7-9(있는-in) 8-7(이쁜이 게스트 IPUNY) 8-8(이쁜이 게스트 Guest House) 9-8(하우스-Guest House) 10-5(를-room) 11-3(예약했다-booked) 11-5(예약했다-room) 12-12(.-.)
여기서 8-7, 8-8, 9-8의 경우, 원문언어의 어휘 경계와 대역언어의 어휘 경계가 잘못 나뉘어져 중복으로 연결되어 있다. <방법 1>에서는 원문 어휘와 대역 어휘가 1:1 또는 1:N으로 연결된 경우만 허용하였으나, 본 발명에서는 차이로 N:1, N:N을 추가로 허용할 수 있다. 이는 단계 500에서 그 처리 방법을 예시로 설명한다.
단계 300에서, 단계 100의 결과물은 아래와 같이 부분어휘(sub-word)로 쪼개진다. 다시 원래대로 복원하기 위해, 쪼개진 부분어휘 앞에는 지정된 예약 기호(예를 들어, '+')를 부착하였다.
[한국어] 그리고 우리 는 미 +동 마 +을 에 있 +는 이쁜 +이 +_게스 +트 하우 +스 를 예약 +했 +다 .
[영어] And we book +ed a room at I +P +U +N +Y Gu +est +_Ho +use in Mi +do +ng vill +age .
단계 300의 결과물은 기본적으로 학습 단계에 사용될 어휘 토큰의 완성형태이다. 이제 단계 400에서, 단계 100의 결과물과 단계 300의 결과물을 통해 원문언어의 최종 입력 형태를 완성한다.
[단계 100 결과물 - 입력] 그리고'(1) '우리'(2) '는'(3) '미동'(4) '마을'(5) '에'(6) '있는'(7) '이쁜이 게스트'(8) '하우스'(9) '를'(10) '예약했다'(11) '.'(12)
[단계 300 결과물 - 입력] 그리고 우리 는 미 +동 마 +을 에 있 +는 이쁜 +이 +_게스 +트 하우 +스 를 예약 +했 +다 .
[100고 300이 결합된 단계 400 결과물 - 출력] 그리고^1_B 우리^2_B 는^3_B 미^4_B +동^4_E 마^5_B +을^5_E 에^6_B 있^7_B +는^7_E 이쁜^8_B +이^8_M 게스^8_M +트^8_E 하우^9_B +스^9_E 를^10_B 예약^11_B +했^11_M +다^11_E .^12_B
상기의 예시에서 ^는 부분어휘(sub-word) 부분과 그에 해당하는 원문의 실제 어휘 경계 순서를 일종의 자질(feature)로 부착하여 놓은 것이다. 어휘에 직접 붙어서 변형될 필요는 없으며, 원문의 순서 토큰과 동일한 길이의 자질값 열을 생성하여, 별도로 학습데이터를 구성할 수 있다. 핵심은, 원문의 부분어휘 열과 동일한 길이의 자질값 열을 단계 100에서 추출한 원래의 어휘 경계 정보를 구성한다는 데 있다. 숫자 뒤의 B, M, E는 각각 시작, 중간, 끝을 알리는 일종의 예약어로 작용한다.
이제 단계 500에서, 단계 300에서 추출된 대역언어 부분어휘열 결과물, 그리고 단계 200에서 추출된 정렬정보를 혼합하는 과정이 실시된다. 실시된 단계 500의 결과물 예시는 다음과 같다:
[단계 200 결과물 - 입력] 1-1(그리고-And) 2-2(우리-We) 4-10(미동-Midong) 5-11(마을-village) 6-6(에-at) 7-9(있는-in) 8-7(이쁜이 게스트 IPUNY) 8-8(이쁜이 게스트 Guest House) 9-8(하우스-Guest House) 10-5(를-room) 11-3(예약했다-booked) 11-5(예약했다-room) 12-12(.-.)
[단계 300 대역언어 결과물 - 입력] And we book +ed a room at I +P +U +N +Y +_Gu +est +_Ho +use in Mi +do +ng vill +age .
[200, 300이 결합된 단계 500 결과물 - 출력] And^1_B we^2_B book^11_B +ed^11_E a^NONE_B room^NONE_B at^6_B I^8,9_B +P^8,9_M +U^8,9_M +N^8,9_M +Y^8,9_M +_Gu^8,9_M +est^8,9_M +_Ho^8,9_M +use^8,9_E in^7_B Mi^4_B +do^4_M +ng^4_E vill^5_B +age^5_E .^11_B
단계 200에서 정렬 정보가 없는 경우(a^NONE_B)는 보는 바와 같이, NONE이라는 예약어를 사용하여 연결 정보가 없음을 알린다. 또한, 연결 정보가 존재하나 연속하지 않은 경우(book^11_B, +ed^11_E, 그리고 room^NONE_B)와 같이, 연속하지 않고 뒤에 떨어진 요소에는 연결 정보를 제거하도록 한다. 또한, 중복해서 걸쳐져 있는 경우(N:N 연결, 8-7, 8-8, 9-8) 연속하는 경우에는 걸쳐져 있는 원문의 순서 열을 같이 표현한다. 실시예에서는 쉼표(',')을 순서열의 분리 기호로 사용하였다. 이것 역시 단계 400와 마찬가지로, 대역 부분어휘열을 직접 치환시켜 존재할 필요가 없으며, 대신에 대역 부분어휘열과 동일한 길이의 자질 값으로 준비하면 된다.
다음 도 3을 참조하여 상기에 설명한 방법으로 준비된 학습데이터를 학습하는 장치를 설명한다. 이 학습 장치는 신경망 네트워크로 구현할 수 있다. 도 3은 기존의 장단기 메모리기반 재귀적 인공신경망(RNN-LSTM) 구조를 기반으로 구현한 신경망 구조로, 종래 기술과 다른 다음과 같은 특징을 갖는다.
(1) 학습에 사용되는 원문부 어휘열 및 대역부 어휘열의 워드 임베딩 벡터(word embedding vector) 치환과 함께, 각각의 어휘열 순서에 맞는 자질(feature)을 추가시키기 위한 자질 임베딩 벡터(feature embedding vector) 치환을 수행하는 N-차원의 임베딩 벡터(도3의 10, 20).
상기에 도 2를 참조하여 기술한 과정을 통해 생성된 단계 400과 단계 500의 결과로부터, 원문 및 대역부 어휘열을 구성하는 각각의 부분어휘 토큰은 도 3에 나타낸 워드 임베딩벡터(10, 20)에 부여되어, 신경망 학습을 위한 벡터로 1:1 치환되어서, '14'번 계층의 S0 ~ Sm-1과 '24'번 계층의 T-1 ~ Tn을 구성하는 요소가 된다. 한편, 단계 400과 500에 부착되어 있는 명시적 어휘정렬 정보는 도 3의 자질 임베딩벡터(12, 22)를 통해 벡터 치환되어서 각각 '14', '24' 계층을 구성하는 FS 및 FT로 치환된다.
(2) 치환된 자질 임베딩 벡터와 해당 위치의 입력 어휘에 의한 워드 임베딩 벡터를 결합하는 자질 결합 계층(16, 26).
도 3의 '14' 계층에 해당하는 각각의 벡터는, 어휘 토큰의 순서(시계열)에 따라 자질 결합 계층(16)을 통해 인코더(18)의 입력 요구 조건에 맞게 결합된다. 결합 방법은 시계열 기준으로 동일한 부분어휘 토큰을 가리키는 부분어휘('14'의 S)와 그와 연관된 정렬 정보('14'의 FS)를 단순 결합하여 긴 길이의 벡터로 생성하는 단순 결합(concatenation) 방식을 사용할 수 있지만, 이외에 두 벡터의 합계(sum)나 평균(average)으로도 계산할 수 있다. 디코더(28)의 입력으로 들어가기 위한 '24' 계층은 자질 결합 계층(16)의 방법과 동일한 행동을 수행하는 자질 결합 계층(26)을 통해 결합되어 디코더(28)로 전달된다. 단, 디코더(28)에서는 학습 단계에서 부여되는 대역 문장의 어휘에 삽입하는 것이 아닌, 다음 대역 문장의 어휘에 이전 어휘의 자질을 결합한다.
(3) 디코더(28)는 바로 직전의 어휘와 현재 어휘, 그리고 직전의 자질을 결합, 학습하고, 학습 단계에서 예측된 어휘열(도 3, '32'의 T0 ~ Tn+1)의 바로 직전 어휘를 가리키는 명시적 정렬 정보 자질 벡터(explicit alignment-feature vector, '32'의 FT-1 ~ FTn)를 종래기술과 다르게 추가적으로 생성한다. 최종 출력 전, 예측이 종료되면 '32'의 Tn+1은 문장의 끝을 가리키는 심볼로 치환되기 때문에, '32'를 구성하는 FT-1을 제거하고 FT0 ~ FTn 까지를 '32'의 T0 ~ Tn과 같이 반환한다.
이러한 구조상의 특징을 제외하고는 종래기술과 유사한 인공신경망 구조를 사용할 수 있다. 즉, 종래 기술의 구성 요소 중 인코더(18)는 하위의 입력(16)으로부터 누적 계산을 통해 신경망 학습을 위한 원문 입력 데이터(400)의 압축된 정보를 생성한다. 인코더(18)로부터 나온 결과는 대역부 입력(26)과 함께 디코더(28)로 전달되어 원문 입력에 맞는 예측 결과를 순차, 반복적으로 계산하여, 한 단계에 하나씩 '32'를 구성하기 위한 압축 정보를 생성한다. Softmax 레이어(30)는 디코더(28)가 생성한 압축 정보를 입력으로 받아, 최대 확률을 갖는 대역 어휘 토큰과 그 직전 어휘의 정렬 정보로 치환 가능한 벡터열로 변환하여 '32'를 생성하게 된다. 이러한 종래 기술의 구성요소는 그 성능 향상을 위해, 상기에서 설명하는 요소를 기본적으로 활용하고, 거기에 부가적인 신경망 계층이 추가될 수 있다. 이러한 부가 신경망 계층의 예시로는 주의집중 계층(attention layer)를 들 수 있다. 이러한 신경망 내 계층 추가에 의한 구성의 변경은 본 발명의 기술적 범위를 해치지 않고 허용된다.
다음, 상기의 방법에 의해 학습된 신경망 모델을 바탕으로 예측된 대역 어휘 열과, 정렬정보 자질을 통해 개선된 결과물을 내놓기 위한 보정 방법을 다음의 예를 통해 설명한다. 본 설명에서는 아래의 문장을 예시로 들어 보정 방법을 기술한다.
[원문-한국어] 상해에서는 마글레프를 타면 됩니다.
입력이 들어오면, 학습데이터를 처리할 때와 동일한 방법으로 기본 어휘 분리 및 부분어휘(sub-word) 단위로 분할하는 전처리를 거친다.
[기본 어휘 분리 결과 예시] 상해 에서는 마글레프 를 타면 됩 니다 .
[부분어휘 분리 결과 예시] 상해 에서는 마 +글 +레프 를 타 +면 됩 니 +다 .
그런 다음, 기본 어휘 분리 결과의 어휘 순서열을 바탕으로 입력 데이터를 완성한다.
[입력 데이터 완성 예시] 상해^1_B 에서는^2_B 마^3_B +글^3_M +레프^3_E 를^4_B 타^5_B +면^5_E 됩^6_B 니^7_B +다^7_E .^8_B
신경망 학습 모델에 의해서 번역이 수행되고, 결과가 다음과 같이 나왔을 때,
In^2_B sang^1_B +he^1_E ,^NONE_B you^NONE_B can^6_B take^5_B mag^3_B +hreb^3_E .^NONE_B
원문의 어휘 중에서 사용자가 정의한 사전, 예를 들어 설명하자면, 상해=Shanghai로 번역하고자 하는 사용자 사전이 있을 때, 입력된 원문에서 '상해'의 어휘 ID를 찾는다. 즉, 본 예시에서는 '상해'의 어휘 ID가 1번이고, 이에 따라 대역부에서 원문의 1번 어휘에 연결된 대역어를 찾아내도록 한다.
여기서 찾아진 부분어휘 열이 'sang' '+he' 인 경우, 이를 결합하여 'sanghe'로 만든 뒤, 사용자가 정의한 사전 내 값을 참조하여, 값이 있을 경우, 이를 'Shanghai'로 덮어 쓴다. 이 과정이 끝나면, 번역 결과는 다음과 같이 된다:
[사용자 사전에 의한 보정 결과] In Shanghai , you can take mag +hreb .
이제 미등록 어휘를 찾기 위해, 부분어휘 분리 결과를 결합하여 보정할 후보를 탐색한다. 학습데이터에 사용된 대역 어휘로 구성된 사전을 사용하여, 학습데이터에 사용되지 않은 어휘가 나타나는지 여부를 참조한다. 만약 'maghreb '라는 어휘가 학습데이터 내 대역 어휘로 한번도 나타나지 않으면, 이 ID에 연결되어 있는 입력 원문 어휘를 찾아낸다. 3_B, 3_E로 연결된 어휘는 '마글레프' 이므로, 미리 준비되어 있는 한-영 사전 데이터를 활용하여 '마글레프'의 대역어를 찾는다.
만약 대역어가 존재하지 않는 경우, 번역 결과를 다음과 같이 그대로 반환한다.
[대역어가 없는 경우, 부분어휘 단위의 번역 결과를 결합한 결과물] In Shanghai, you can take maghreb.
만약 대역어가 '마글레프=Maglev'로 존재하는 경우, 다음과 같이 번역 결과를 보정한다.
[미등록어 사전에 의한 후보 검출 및 다른 외부 어휘 사전에 의한 보정 후 결과물] In Shanghai, you can take Maglev.
이와 같이 결과물이 보정된다.
이상에서 본 발명을 제한적이지 않고 예시적인 실시예를 통해 설명하였다. 이들 실시예는 본 발명의 사상과 본질을 벗어나지 않는 범위에서, 첨부된 특허청구범위 내에서 의도적으로 변형, 변경, 수정할 수 있음은 물론이다.

Claims (11)

  1. 컴퓨터를 통해 구동되는 인코더-디코더 메커니즘 기반의 신경망 기계번역 모델의 학습을 위하여, 원문 및 이 원문에 대한 번역문이 포함된 학습데이터를 생성하는 방법에 있어서,
    (1) 컴퓨터 내 저장장치에 기록되어 학습에 사용될 이중언어 말뭉치의 문장으로부터 컴퓨터에서 동작하는 형태소 분석 또는 개체명 인식 단계를 통한 기본 어휘 경계를 분리하는 단계;
    (2) 컴퓨터의 CPU를 통해, 학습에 사용될 이중언어 말뭉치의 문장으로부터 명시적 어휘정렬 정보를 추출하는 단계;
    (3) 컴퓨터의 CPU를 통해, 단계 1에 의해 분리된 어휘 경계를, 컴퓨터 내 저장장치에 기록되어 있는 부분어휘 분리 모델과 부분어휘 토큰으로 분리하는 단계;
    (4) 단계 1에 의해 처리되어 컴퓨터 내 저장장치에 기록된 원문언어 결과물과, 단계 3에 의해 처리된 원문언어 결과물을 사용하여, 컴퓨터의 CPU를 통해 새로운 원문언어 학습데이터를 생성하는 단계;
    (5) 단계 2에서 생성된 명시적 어휘정렬 정보와, 단계 1 및 3에 의해 처리된 대역언어 결과물을 사용하여, 컴퓨터의 CPU를 통해 새로운 대역언어 학습데이터를 생성하는 단계를 포함하되,
    상기 단계 (4)는 입력된 원문언어의 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 (1)에서 추출된 어휘순서 정보를 단계 (3)에서 분리된 부분어휘 토큰마다 추가 정보로서 삽입하여 인코더의 입력 형태로 표현하는 것을 특징으로 하고,
    상기 단계 (5)는 대역언어 문장을 구성하는 부분어휘 토큰을 직접 치환하지 않고, 단계 (2)에서 추출된 명시적 어휘정렬 정보와 단계 (1)에 의해 처리되어 생성된 원문언어 문장에 부착된 어휘순서 정보를 결합하고, 단계 (3)에 의해 생성된 대역 문장내 부분어휘 토큰마다 변형된 정렬 정보를 삽입하여 디코더에 의해 생성하고자 하는 표현으로 기록하는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
  2. 제1항에 있어서, 컴퓨터에 의해 처리되는 상기 단계 (1) 및 단계 (3)은 원문언어 및 대역언어 모두에 적용되는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
  3. 제1항에 있어서, 컴퓨터에 의해 처리되는 상기 단계 (1) 및 단계 (3)은 원문언어 및 대역언어 중 하나의 언어에 적용되는 것을 특징으로 하는 신경망 기계번역을 위한 학습데이터 생성 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제1항 내지 제3항 중 어느 한 항에 기재된 학습데이터 생성 방법에 의해 생성된 학습데이터를 기초로, 컴퓨터의 연산 장치를 통해 인코더-디코더 메커니즘 기반의 신경망 기계번역 모델을 학습시키고, 학습된 신경망을 사용하여 대역문과 원문의 연결 관계 생성을 수행하는 신경망을 이용하는 신경망 기계번역 방법으로서,
    상기 학습 및 대역문-원문의 연결 관계 생성을 수행하는 신경망은,
    상기 단계 (4) 또는 단계 (5)의 결과로부터, 원문 및 대역부 어휘열을 구성하는 각각의 부분어휘 토큰을, 컴퓨터의 CPU를 통해, 신경망 학습을 위한 워드 임베딩 벡터로 1:1 치환하는 단계,
    상기 단계 (4) 또는 단계 (5)의 결과에 부착된 명시적 어휘정렬 정보를 각각의 어휘열 순서에 맞는 자질을 추가시키기 위하여, 컴퓨터의 CPU에 의해, 자질 임베딩 벡터 치환을 수행하는 단계;
    인코더의 입력을 생성하기 위하여, 치환된 자질 임베딩 벡터와 해당 위치의 입력 어휘에 의한 워드 임베딩 벡터를 결합하는 단계; 그리고
    바로 직전의 어휘와 현재 어휘, 그리고 직전의 자질을 결합·학습하고, 상기제1항 내지 제3항 중 어느 한 항에 기재된 방법으로 학습된 모델로, 입력이 인코더에 의해 추상화된 벡터열을 입력으로 하는 디코더를 통해 예측된 어휘열의 바로 직전 어휘를 가리키는 명시적 정렬정보 자질 벡터를 생성하는 단계를 수행하는 것을 특징으로 하는 신경망 기계번역 방법.
  8. 제7항에 있어서, 상기 자질 임베딩 벡터와 워드 임베딩 벡터를 결합하는 단계는,
    시계열 기준으로 동일한 부분어휘 토큰을 가리키는 부분어휘와 그와 연관된 정렬 정보를, 컴퓨터의 CPU를 통해, 단순 결합하여 긴 길이의 벡터로 생성하는 단순 결합(concatenation) 방식으로 수행되는 것을 특징으로 하는 신경망 기계번역 방법.
  9. 삭제
  10. 제1항 내지 제3항 중 어느 한 항에 기재된 학습데이터 생성 방법으로 학습데이터를 생성하는 학습데이터 처리부; 및 상기 학습데이터 처리부로부터 생성된 학습데이터를 기초로 신경망을 학습시키고, 대역문과 원문의 연결 관계 생성을 수행하는 데 이용되는 자동 번역 모델을 생성하는 모델 생성부를 포함하는 신경망을 이용한 신경망 기계번역 장치로서,
    상기 신경망의 모델 생성부는
    상기 단계 (4) 또는 단계 (5)의 결과로부터, 원문 및 대역부 어휘열을 구성하는 각각의 부분어휘 토큰을 신경망 학습을 위한 워드 임베딩 벡터로 치환하는 워드 임베딩 벡터;
    상기 단계 (4) 또는 단계 (5)의 결과에 부착된 명시적 어휘정렬 정보를 각각의 어휘열 순서에 맞는 자질을 추가시키기 위하여 자질 임베딩 벡터 치환을 수행하는 자질 임베딩 벡터;
    치환된 자질 임베딩 벡터와 해당 위치의 입력 어휘에 의한 워드 임베딩 벡터를 결합하는 결합 계층; 그리고
    바로 직전의 어휘와 현재 어휘, 그리고 직전의 자질을 결합·학습하고, 학습 단계에서 예측된 어휘열의 바로 직전 어휘를 가리키는 명시적 정렬정보 자질 벡터를 생성하는 디코더를 포함하는 신경망 기계번역 장치.
  11. 제10항에 있어서, 상기 모델 생성부의 상기 자질 임베딩 벡터와 워드 임베딩 벡터를 결합하는 결합 계층은,
    시계열 기준으로 동일한 부분어휘 토큰을 가리키는 부분어휘와 그와 연관된 정렬 정보를 단순 결합하여 긴 길이의 벡터로 생성하는 단순 결합(concatenation) 방식으로 수행되는 것을 특징으로 하는 신경망 기계번역 장치.
KR1020170140232A 2017-10-26 2017-10-26 신경망 기계번역 방법 및 장치 KR102069692B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170140232A KR102069692B1 (ko) 2017-10-26 2017-10-26 신경망 기계번역 방법 및 장치
US15/944,939 US10635753B2 (en) 2017-10-26 2018-04-04 Neural machine translation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170140232A KR102069692B1 (ko) 2017-10-26 2017-10-26 신경망 기계번역 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190046432A KR20190046432A (ko) 2019-05-07
KR102069692B1 true KR102069692B1 (ko) 2020-01-23

Family

ID=66243934

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170140232A KR102069692B1 (ko) 2017-10-26 2017-10-26 신경망 기계번역 방법 및 장치

Country Status (2)

Country Link
US (1) US10635753B2 (ko)
KR (1) KR102069692B1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706351B2 (en) * 2016-08-30 2020-07-07 American Software Safety Reliability Company Recurrent encoder and decoder
US11354521B2 (en) * 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages
CN113128239B (zh) 2018-03-07 2024-04-09 谷歌有限责任公司 促进以多种语言与自动化助理的端到端沟通
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
CN110489761B (zh) * 2018-05-15 2021-02-02 科大讯飞股份有限公司 一种篇章级文本翻译方法及装置
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
CN112352275A (zh) * 2018-12-13 2021-02-09 微软技术许可有限责任公司 具有多级别文本信息的神经文本到语音合成
CN111476039B (zh) * 2019-01-04 2023-06-30 深圳永德利科技股份有限公司 智能车载系统的即时语言翻译方法及相关产品
US11106873B2 (en) * 2019-01-22 2021-08-31 Sap Se Context-based translation retrieval via multilingual space
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
EP3726401A1 (en) * 2019-04-18 2020-10-21 Siemens Healthcare GmbH Encoding textual information for text analysis
KR102258906B1 (ko) * 2019-05-17 2021-06-01 한국과학기술원 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치
JP7205839B2 (ja) * 2019-05-24 2023-01-17 日本電信電話株式会社 データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
KR102354898B1 (ko) 2019-05-29 2022-01-24 경희대학교 산학협력단 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치
CN111859977B (zh) * 2019-06-06 2024-06-07 北京嘀嘀无限科技发展有限公司 一种语义分析方法、装置、电子设备及存储介质
CN110442677A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 文本匹配度检测方法、装置、计算机设备和可读存储介质
US20220343086A1 (en) * 2019-07-11 2022-10-27 Nippon Telegraph And Telephone Corporation Machine translation device, machine translation method, machine translation program, and non-transitory storage medium
US11727266B2 (en) * 2019-08-02 2023-08-15 International Business Machines Corporation Annotating customer data
US11263394B2 (en) * 2019-08-02 2022-03-01 Adobe Inc. Low-resource sentence compression system
US11797842B2 (en) 2019-08-02 2023-10-24 International Business Machines Corporation Identifying friction points in customer data
US11461616B2 (en) * 2019-08-05 2022-10-04 Siemens Aktiengesellschaft Method and system for analyzing documents
CN110688861B (zh) * 2019-09-26 2022-12-27 沈阳航空航天大学 一种多特征融合的句子级译文质量估计方法
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质
KR20210067294A (ko) * 2019-11-29 2021-06-08 한국전자통신연구원 자동 번역 장치 및 그 방법
CN111178094B (zh) * 2019-12-20 2023-04-07 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
US11436267B2 (en) * 2020-01-08 2022-09-06 International Business Machines Corporation Contextually sensitive document summarization based on long short-term memory networks
CN111507100B (zh) * 2020-01-14 2023-05-05 上海勃池信息技术有限公司 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法
CN111274829B (zh) * 2020-02-07 2023-06-16 中国科学技术大学 一种利用跨语言信息的序列标注方法
CN111539199B (zh) * 2020-04-17 2023-08-18 中移(杭州)信息技术有限公司 文本的纠错方法、装置、终端、及存储介质
US11868737B2 (en) 2020-04-24 2024-01-09 Direct Cursus Technology L.L.C Method and server for processing text sequence for machine processing task
US11693637B1 (en) * 2020-05-15 2023-07-04 Google Llc Using natural language latent representation in automated conversion of source code from base programming language to target programming language
DE102020114046A1 (de) 2020-05-26 2021-12-02 Thomas Eißfeller Neuronales Maschinenübersetzungsverfahren, neuronales Maschinenübersetzungssystem, Lernverfahren, Lernsystem und Programm
CN111832321B (zh) * 2020-05-29 2024-01-23 北京嘀嘀无限科技发展有限公司 语料处理的方法、装置、可读存储介质和电子设备
US11586833B2 (en) * 2020-06-12 2023-02-21 Huawei Technologies Co., Ltd. System and method for bi-directional translation using sum-product networks
CN111860001A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种机器翻译方法、装置、电子设备及存储介质
CN112380882B (zh) * 2020-12-01 2022-01-18 内蒙古工业大学 一种具有误差修正功能的蒙汉神经机器翻译方法
CN112446224A (zh) * 2020-12-07 2021-03-05 北京彩云环太平洋科技有限公司 平行语料处理方法、装置、设备及计算机可读存储介质
CN112580373B (zh) * 2020-12-26 2023-06-27 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法
KR20220134218A (ko) 2021-03-26 2022-10-05 한국전자통신연구원 딥러닝 기반 spo 튜플 관계 인지 방법 및 장치
KR102705070B1 (ko) * 2021-04-08 2024-09-11 한국전력공사 인공신경망 기반 오픈소스 한국어 이해 파이프라인 최적화 장치 및 방법
CN113204978B (zh) * 2021-05-13 2024-04-02 中国科学技术大学 一种机器翻译增强训练方法及系统
CN113468895B (zh) * 2021-05-28 2023-08-15 沈阳雅译网络技术有限公司 一种基于解码器输入增强的非自回归神经机器翻译方法
CN113705168B (zh) * 2021-08-31 2023-04-07 苏州大学 基于交叉层级注意机制的篇章神经机器翻译方法及系统
US11900073B2 (en) * 2021-09-07 2024-02-13 Lilt, Inc. Partial execution of translation in browser
CN115017921B (zh) * 2022-03-10 2023-08-01 延边大学 基于多粒度表征的朝汉神经机器翻译方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120150529A1 (en) 2010-12-09 2012-06-14 Electronics And Telecommunication Research Institute Method and apparatus for generating translation knowledge server
US20170139905A1 (en) 2015-11-17 2017-05-18 Samsung Electronics Co., Ltd. Apparatus and method for generating translation model, apparatus and method for automatic translation

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911372B1 (ko) 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
CN101908042B (zh) * 2010-08-09 2016-04-13 中国科学院自动化研究所 一种双语联合语义角色的标注方法
KR101682207B1 (ko) 2010-08-23 2016-12-12 에스케이플래닛 주식회사 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120150529A1 (en) 2010-12-09 2012-06-14 Electronics And Telecommunication Research Institute Method and apparatus for generating translation knowledge server
US20170139905A1 (en) 2015-11-17 2017-05-18 Samsung Electronics Co., Ltd. Apparatus and method for generating translation model, apparatus and method for automatic translation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
D. Bahdanau et al., Neural machine translation by Jointly learning to aligh and translate, arxiv.com, 1409.0473, ICLR 2015 (2016.05.19)*
M. Luong et al., Addressing the rare word problem in neural machine translation, arxiv.com, 1410.8206 (2015.05.30)
R. Sennrich et al., Neural Machine Translation of rare words with subword units, Proc. of the 54th annual meeting of ACL, pp.1715-1725, (2016.08.07.) 1부.*

Also Published As

Publication number Publication date
KR20190046432A (ko) 2019-05-07
US10635753B2 (en) 2020-04-28
US20190129947A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
KR102069692B1 (ko) 신경망 기계번역 방법 및 장치
Tan et al. Neural machine translation: A review of methods, resources, and tools
Yu et al. Named entity recognition as dependency parsing
Malmi et al. Encode, tag, realize: High-precision text editing
Alvarez-Melis et al. A causal framework for explaining the predictions of black-box sequence-to-sequence models
Xia et al. Multi-grained named entity recognition
Zhang et al. Stack-propagation: Improved representation learning for syntax
Li et al. Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks
Kim et al. Two-stage multi-intent detection for spoken language understanding
KR102342066B1 (ko) 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법
JP5444308B2 (ja) 非ローマ文字および単語のスペル修正のためのシステムおよび方法
Yan et al. Adatag: Multi-attribute value extraction from product profiles with adaptive decoding
WO2019226474A1 (en) Improving abstraction of text summarizaton
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
KR20190065665A (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
CN105593845A (zh) 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
CN112507337A (zh) 基于语义分析的恶意JavaScript代码检测模型的实现方法
Zhu et al. Robust spoken language understanding with unsupervised asr-error adaptation
Singh et al. DeepSpacy-NER: an efficient deep learning model for named entity recognition for Punjabi language
Tahayna et al. Lexicon-based non-compositional multiword augmentation enriching tweet sentiment analysis
Nicolai et al. String transduction with target language models and insertion handling
Calvo et al. Multilingual spoken language understanding using graphs and multiple translations
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
Bakarola et al. Attention based Sequence to Sequence Learning for Machine Translation of Low Resourced Indic Languages--A case of Sanskrit to Hindi
Ray et al. Iterative delexicalization for improved spoken language understanding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right