JP7511614B2

JP7511614B2 - Ｓｙｎａｐｐｅｒモデルユニットを用いた自然語処理システム及び方法

Info

Publication number: JP7511614B2
Application number: JP2022157480A
Authority: JP
Inventors: クーキム、ミン
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-08-02
Filing date: 2022-09-30
Publication date: 2024-07-05
Anticipated expiration: 2042-09-30
Also published as: CA3197945A1; JP2024021023A; KR20240018401A; EP4318300A1; US11636275B1; TWI822370B; TW202407576A; KR20240018229A; CN117494696A

Description

本発明は、自然語処理システム及び方法に関し、より具体的には、Ｓｙｎａｐｐｅｒモデルユニットを用いた自然語処理システム及び方法に関する。

自然語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）は、要素技術を用いて自然語の分析、理解、生成などを行い、情報検索、機械翻訳、質疑応答などの多様な分野に応用される。

従来の自然語処理方法を通じて機械翻訳などを行う場合は、不正確であったり理解できない文章を生成する可能性があった。

より正確な自然語処理のために、多様な自然語処理過程を行うことができ、自然語処理には、自然語の分析、自然語の理解、自然語の生成などの技術が用いられ得る。

自然語の分析は、自然語の意味などを分析する技術で、自然語の理解は、コンピューターを自然語で与えられた入力によって作動させる技術で、自然語の生成は、動画や表の内容などを人が理解できる自然語に変換する技術である。

近年、このような自然語処理において、神経網モデル（ＮａｔｕｒａｌＮｅｔｗｏｒｋｍｏｄｅｌ）が用いられている。

このような神経網モデルは、自然語処理における意味分析で向上した性能を提供しているが、ソースデータが少ないと高い正確度を提供することができなく、一貫性がない動作で駆動するという問題を有していた。また、非常に速いコンピューター性能及び膨大な電力消耗を必要とするので、実用的に多くの困難さが存在していた。

大韓民国公開特許第１０－２０２２－００４９６９３号（２０２２．０４．２２．）

本発明の目的は、Ｓｙｎａｐｐｅｒモデルを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語を処理することができ、高い正確度及び一貫性がある自然語処理を行えるＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理システム及び方法を提供することにある。

本発明が解決しようとする課題は、以上で言及した課題に制限されなく、言及していない他の課題は、下記の記載から通常の技術者に明確に理解され得るだろう。

本発明に係るＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理方法は、自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階；前記前処理段階を通じて単語で構成された文章内の各単語を、第１コード変換器（ＷＮＣ）を通じて神経概念コード（ｎｅｕｒｏｃｏｎｃｅｐｔｃｏｄｅ）に変換する第１変換段階；前記第１変換段階を通じて変換された神経概念コードを言語処理装置のＳｙｎａｐｐｅｒモデルに入力する段階；前記言語処理装置のＳｙｎａｐｐｅｒモデルを通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階；前記言語処理装置で解釈されて出力されたデータの神経概念コードを第２コード変換器（ＮＷＣ）を通じて単語に変換する第２変換段階；及び前記第２変換段階を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階；を含むことができる。

好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記第１変換段階では、入力された単語を２進数／１０進数コードに変換することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記第１変換段階では、入力された単語を１０進数コードに変換するとき、前の２桁は品詞を示すことができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、レジスタセットで各神経概念コード（ＮＣＣ）の品詞を分析し、文章に対する正しい解釈が何かを決定することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、第１変換器段階を通じて文章の全ての単語が神経概念コード（ＮＣＣ）に変換されると、前記Ｓｙｎａｐｐｅｒモデルで文章の構文構造が決定されて解釈され、解釈された神経概念コード（ＮＣＣ）として出力することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、キャッシュメモリは、Ｓｙｎａｐｐｅｒモデルを通じて解釈されたデータを、出力を生成するために臨時に格納することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、テキストランダムアクセスメモリ（ＴＲＡＭ）は、前記キャッシュメモリで処理しにくい多量の文章にアクセスできるようにＳｙｎａｐｐｅｒモデルデータを格納することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、フラッシュメモリなどの格納装置は、重要な情報が含まれた文章を後でアクセスできるように格納することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、前記Ｓｙｎａｐｐｅｒモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝（ｂｒａｎｃｈ）で、どれがノード（ｎｏｄｅ）であるのかを決定することができる。

また、好ましくは、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における前記解釈及び出力段階では、前記Ｓｙｎａｐｐｅｒモデルは、ノード及び枝を決定した後、各ノードを第１方向に互いに連結し、各枝は、第１方向以外の他の方向に対応する各ノードに連結することができる。

また、本発明に係るＳｙｎａｐｐｅｒモデルを用いた自然語処理システムは、自然語を入力する入力装置；前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ－デジタル変換器（ＡＤＣ）；前記デジタル信号に変換されたデータを神経概念コードに変換する第１コード変換器（ＷＮＣ）；前記第１コード変換器（ＷＮＣ）を通じて入力される神経概念コードをＳｙｎａｐｐｅｒモデルを通じて解釈して出力する言語処理装置；前記言語処理装置から出力された神経概念コードを解釈された単語データに変換する第２コード変換器（ＮＷＣ）；前記第２コード変換器（ＮＷＣ）を通じて変換されたデジタルデータをアナログデータに変換するデジタル－アナログ変換器（ＤＡＣ）；及び前記デジタル－アナログ変換器（ＤＡＣ）を通じて変換されたデータを、解釈された自然語で出力する出力装置；を含むことができる。

本発明によると、Ｓｙｎａｐｐｅｒモデルユニットを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語を処理することができ、高い正確度及び一貫性がある自然語処理を行えるという効果がある。

自然語の語順の統合状態を示す図である。本発明の実施例に係るＳｙｎａｐｐｅｒモデルの概念を示す図である。本発明の実施例に係るＳｙｎａｐｐｅｒモデルの概念を示す図である。本発明の一実施例に係るＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理システムを示す図である。本発明の他の実施例に係るＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理システムを示す図である。本発明の一実施例に係るＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理方法の流れを示すフローチャートである。

以下、添付の図面を参照しながら本発明に係る好ましい実施例を詳細に説明する。

本発明の利点、特徴、及びそれを達成する方法は、添付の図面と共に詳細に後述している各実施例を参照すれば明確になるだろう。しかし、本発明は、以下で開示する各実施例によって限定されるものではなく、互いに異なる多様な形態で具現可能であり、ただ、本実施例は、本発明の開示を完全にし、本発明の属する技術分野で通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであって、本発明は、特許請求の範囲によって定義されるものに過ぎない。

また、本発明を説明するにおいて、関連する公知の技術などが本発明の要旨を不明瞭にし得ると判断される場合、それに関する詳細な説明は省略する。

世界には多くの自然語が存在する。これらの自然語は、多様な語順で文章を使用するので、翻訳や文章処理において多くの困難さが存在する。これらの言語のそれぞれ異なる文章構造は、多くの次元を用いて一つの統一された構造システムで統合させることができる。

本明細書におけるソースデータは、自然語処理で用いられるテキストデータを含むデータを意味し得る。

図１に示したように、言語によって、各単語は、異なる順序で羅列されて文章を形成する。そのため、各言語の文法は、それぞれ異なるものとして見なされてきた。例えば、韓国語及び英語などの各言語は、文法的に共通性がほとんど存在しないものであることが分かり、これは、基本的に語順からして異なるためである。主語、目的語、及び動詞をどのような順序で羅列するのかによって各言語の語順が変わる。

すなわち、ＳＯＶ、ＳＶＯ、ＯＶＳ、ＶＯＳ、ＶＳＯ、ＯＳＶの合計６つの語順のうち、韓国語は、ＳＯＶ（主語－目的語－動詞）を基本として使用し、英語や他の西ヨーロッパの各言語は、ほとんどがＳＶＯ（主語－動詞－目的語）を基本として使用している。しかし、主語、目的語、及び動詞のこれらの三つのトークン（ｔｏｋｅｎ）を円の形態で連結する場合、組み合わせ方式が６個から２個に縮小される。

図１（ａ）は、時計方向に移動しながらＳＯＶ、ＯＶＳ、及びＶＳＯの各語順を示す。その反対に、図１（ｂ）は、反時計方向に移動しながらＳＶＯ、ＶＯＳ、及びＯＳＶの各語順を示す。トークンが移動する方向を除外する場合、二つの円は一つの同一の形態を示す。この一つの構造において、各自然言語の全ての語順が存在することが分かる。

このとき、各言語ごとに単語が羅列される順序が異なるとしても、文章の意味は変わらない。

単語を多くの次元で連結させると、Ｓｙｎａｐｐｅｒモデルが完成する。

図２乃至図６を参照して、本発明に係るＳｙｎａｐｐｅｒモデルを用いた自然語処理システム及び方法について説明する。

図２の文章を見ると、主語「Ｊａｎｅ」から始めて時計方向に移動する場合、英語の文章が完成する。

その一方で、主語において反時計方向に単語を読むと、韓国語や日本語の語順に合わせて文章が出力され得る。

すなわち、英語：Ｊａｎｅｈａｓａｖｅｒｙｆａｓｔｂｒｏｗｎｈｏｒｓｅ．

韓国語：Ｊａｎｅ（ａ）ｖｅｒｙｆａｓｔｂｒｏｗｎｈｏｒｓｅｈａｓ．

日本語：Ｊａｎｅ（ａ）ｖｅｒｙｆａｓｔｂｒｏｗｎｈｏｒｓｅｈａｓ．

→ジェーンはとても早い茶色の馬を持っている。

冠詞は、韓国語や日本語では省略されるので、単語「ａ」は除去すればよい。いくつかの言語では、修飾語が被修飾語の後に入る場合があるが、そのような場合、処理する順序を変えて、該当の修飾語を被修飾語の次に処理すればよい。このような方式で一般的な敍述型文章をＳｙｎａｐｐｅｒモデルに適用する場合、文章構造を確認できるようになる。

この構造で語順に合わせて単語を羅列すると、言語と関係なく正確な文章を見出すことができる。すなわち、ｎ次元の文章構造を通じて、一般に使用される１次元的文章の抽出が可能になる。

すなわち、思考を文字で表現するとき、単語が多くなるほど、分析のための文章が徐々に複雑になるという問題があるが、これは、全ての単語が同一の方向や次元で使用されるためである。Ｓｙｎａｐｐｅｒモデルを通じて、文章の構文構造は、二つ以上の方向又は次元を使用して遥かに直観的になる。

ここで使用されたＳｙｎａｐｐｅｒモデルは、伝統的に作成された文章（１次元又は線形）を多次元の文章構造に変換するのに使用されるモデル基盤方法である。

言語、すなわち、Ｓｙｎａｐｐｅｒモデルは、文章の多次元表現を実現するために処理に依存する。

Ｓｙｎａｐｐｅｒモデルは、文章（思考）が人間の頭脳によって構造化される方式、すなわち、人間の頭脳が文章を形成する方式に対する推定を基盤にして文章を処理して提示する。文章（すなわち、文章の裏のアイディア又は概念）が処理され、Ｓｙｎａｐｐｅｒ形式やモデルで提示されると、翻訳及び解釈のためのほぼ全ての対象言語の文章に容易に再創造又はレンダリングされる。

一つ目、文章にＳｙｎａｐｐｅｒモデルの構造が与えられる。すなわち、Ｓｙｎａｐｐｅｒモデルは、本発明の学習データ（動詞データベース、形容詞データベース、ＩＳＰを通じて提供されるデータソースなど）を通じて各単語の品詞を把握するためにテキストを処理する。

次に、Ｓｙｎａｐｐｅｒモデルは、処理中の文章の各単語が前と後に来る単語の品詞を分析し、これが枝であるのか、それともノードであるのかを判別する。

ここで、ノードは、メーンループに属する単語を意味する。

また、ここで、枝は、一つの特定のノードと関連する補完単語を意味する。

その後、本発明のＳｙｎａｐｐｅｒモデルは、全てのノードを一方向に付着させ、枝単語を他の方向のノードに付着させる。

その後、Ｓｙｎａｐｐｅｒモデルを基盤にして文章の類型を決定する。

すなわち、Ｓｙｎａｐｐｅｒモデルで文章を処理し、全ての枝単語を除去することができる。

文章の残った部分（単純なノード）は、Ｓｙｎａｐｐｅｒモデルを基盤にして核心文章として見なされる。これは、ソースデータ言語の元の文章をノードの品詞として追加的に除去するために独創的な原理によってさらに処理され得る。

その後、Ｓｙｎａｐｐｅｒモデルは、この情報を使用して文章が質問であるのか、文章であるのか、それとも他のもの（すなわち、他の類型の文章構造）であるのかを把握することができる。

Ｓｙｎａｐｐｅｒモデル処理を基盤とした文章は、文章又は命令として見なされ得る。その次に、即席に作った文章モデルは、主語、動詞句及び文章の残りの部分の識別などの内容に対してさらに分析され得る。

また、全てのノードが一次元にある一方で、枝単語は、必ずしも一次元に制限される必要はない。人間の頭脳は、枝単語に対して多くの次元を使用する可能性があるという理解を前提とする。

例えば、単語は、文章の他の単語との関係によってノード又は枝としてＳｙｎａｐｐｅｒモデルによって決定される。

例えば、形容詞の後に他の形容詞や名詞が来ると、枝になる（例：ｆａｓｔｃａｒ）。

また、形容詞の後に他の形容詞や名詞が来ないと、ノードになる（例：ｃａｒｉｓｆａｓｔ）。

上記で説明したように、Ｓｙｎａｐｐｅｒモデルを通じた自然語処理方法において、全ての言語に対する単語の順序選択は６個に過ぎない。

すなわち、ＳＯＶ、ＳＶＯ、ＯＳＶ、ＯＶＳ、ＶＳＯ及びＶＯＳのうち３個は、一方向（時計方向）に移動し、残りの３個は反対方向（反時計方向）に移動する。

したがって、正しい構造を有している場合、少なくとも理論上には、文章を全ての自然語に翻訳することができる。

Ｓｙｎａｐｐｅｒモデルは、文章に正しい構造を提供する。また、文章中の各単語を特定の数字コード（すなわち、神経概念コード）に変換し、特定の言語に依存しなくてもＳｙｎａｐｐｅｒモデルで処理可能である。

これは、特定の言語（例：出発語）の各単語を他の言語（すなわち、目標言語）の単語に翻訳する一般的な慣行と区別される。

これは、多くの単語が多くの意味を有しており、誤訳が発生し得るためである。

図４乃至図５は、本発明に係るＳｙｎａｐｐｅｒモデルを用いた自然語処理システムを示している。

図４乃至図５を参照すると、ＣＰＵ１００に入力された自然語テキストから単語を抽出し、第１コード変換器１６０（ＷＮＣ：Ｗｏｒｄ－ｔｏ－ＮＣＣＣｏｎｖｅｒｔｅｒ）を通じて単語を神経概念コードに変換する。

続いて、神経概念コードに変換された値を言語処理装置２００（ＬＰＵ：ＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）に入力し、神経概念コードの自然語を処理した後、処理された神経概念コードを第２コード変換器１７０（ＮＷＣ：ＮＣＣ－ｔｏ－ＷｏｒｄＣｏｎｖｅｒｔｅｒ）に出力する。

第２コード変換器１７０では、言語処理装置２００で自然語処理された出力値である神経概念コードを単語に変換することができる。

第２コード変換器１７０で変換された値をＣＰＵ１００に伝達し、入力された自然語を自然語処理（翻訳）して出力できることを特徴とする。

ここで、神経概念コードは、神経概念を示す３２ビットの２進コード（ｂｉｎａｒｙｃｏｄｅ）を意味し得る。

また、２進コードを１０進数で表現することができ、１０進数の最初の２桁は品詞を示すのに使用され得る。

次の８桁は、特定の神経概念を示すのに使用され得る。

ＮＣＣは、次のように、２進数として３２個、１０進数として４個、２９４個、９６７個、２９５個が表現され得る。

１１１１１１１１１１１１１１１１１１１１１１１１１１１１１１１１（バイナリ）

４２９４９６７２９５（１０進数）

１０進数の最初の２桁は品詞を示すのに使用される。次の８桁は、特定の神経概念を示すのに使用され得る。

例えば、０００１００１７３２（１０進数）は、「タクシー運転手」を意味するＮＣＣで、０５００００８０５５（１０進数）は「約束する」を意味する。

一番目のＮＣＣの最初の２桁である００は、神経概念が名詞であることを示す。また、二番目のＮＣＣの最初の２桁である０５は、神経概念が動詞であることを示す。

品詞を示すために、２桁の数字を使用する一つスキーマ（ｓｃｈｅｍａ）がある。

００＝名詞、０５＝動詞、１０＝形容詞、１５＝副詞、２０＝前置詞、２２＝接続詞、３０＝感嘆詞として示すことができる。

しかし、接続詞及び感嘆詞などの品詞には、数百個の神経概念が必要である。全ての言語で最も多い神経概念を要求する品詞は名詞である。ほぼ１億個の名詞神経概念コード（正確には、９４、９６７、２９５個）を示す可能性がある神経概念は、全ての実用的な目的に十分でなければならない。

ＮＣＣは、人間が理解すること（単語）と機械が理解すること（２進数）との間の中間地点にある。人間とコンピューターが互いに理解できるように、Ｃなどのプログラミング言語を使用するのと類似している。これが、神経概念コード（ＮＣＣ）が１０進数として表示される理由である。そうでない場合、人間は、コードで意味を探すことができない。しかし、コンピューターは２進数のみを処理することができる。したがって、１０進数からなる神経概念コード（ＮＣＣ）の最初の２桁を２進数で分析する追加段階を経なければならない。したがって、例えば、２２００００７７１０は、神経概念コード（ＮＣＣ）を意味する。最初の２桁である２２は接続詞であることを示す。人間は、品詞が何かを容易に理解できる。しかし、コンピューターは、この情報を２進法で分析しなければならない。したがって、最初の２桁の数字を得るためには６ビットが必要である。

神経概念コード（ＮＣＣ）内で品詞を示す数字は、００から４２である。例えば、２２進数は０１０１１０である。論理ゲートは、このような種類の情報を分析し、文章を処理するのに使用される。神経概念コード（ＮＣＣ）の残りの部分は、ほとんどが処理と関連しないので無視すべきである。

文章の全ての単語が神経概念コード（ＮＣＣ）に変換されると、文章の構文構造が決定され、これがＳｙｎａｐｐｅｒモデルに転換され得る。神経概念コード（ＮＣＣ）での文章のＳｙｎａｐｐｅｒモデルは、機械の青写真を有するのと同じである。文章分析のための十分な情報を有しているので、機械学習技術を使用しなくても翻訳、読解、会話などの応用が可能である。

これを通じて、自然語は、言語処理装置（ＬＰＵ）２００によって処理され得る、言語処理装置は、ビッグデータがなくても、非常に速い速度及び電力効率で言語を処理することができる。これは、ＡＬＵ（ＡｒｉｔｈｍｅｔｉｃＬｏｇｉｃＵｎｉｔ）が非常に少ない電力及び非常に速い速度で数学的計算を出力できるのと類似している。

また、この段階の結果は、現在使用可能な自然語処理（ＮＬＰ）用機械学習アルゴリズムより正確になり得る。これは、人間の頭脳と類似する方法で言語を処理するものと推定されるＳｙｎａｐｐｅｒモデルユニット（ＳＭＵ：ＳｙｎａｐｐｅｒＭｏｄｅｌＵｎｉｔ）のためである。

その一方で、機械学習アルゴリズムは、本質的に確率的予測を計算することによって、常に正確な結果を生成することができない。

言語処理装置（ＬＰＵ）２００は、制御装置２１０、レジスタ２２０、Ｓｙｎａｐｐｅｒモデルユニット（ＳＭＵ）２３０及びキャッシュメモリ２４０を含むことができる。

制御装置２１０は、レジスタ２２０、Ｓｙｎａｐｐｅｒモデルユニット２３０及びキャッシュメモリ２４０で行われることを制御することができる。

レジスタ２２０は、ＣＰＵ１００で受け取った文章をレジスタセットに入れなければならない。最初に、レジスタセットは、コンマ、ピリオド及び疑問符などの句読点を無視しながら順次組み合わされた、変換された神経概念コード（ＮＣＣ）文字である。

この簡単なレジスタセットで各神経概念コード（ＮＣＣ）の品詞を分析し、文章に対する正しいＳｙｎａｐｐｅｒモデルが何かを決定する。

例えば、「ＴｈｅＴｈｒｅｅＭｕｓｋｅｔｅｅｒｓｉｓａｖｅｒｙｇｏｏｄｂｏｏｋ．（三銃士はとても良い本です。）」において、最初の三つの単語（ＴｈｅＴｈｒｅｅＭｕｓｋｅｔｅｅｒｓ）は、三つの個別単語と見なされ得る。しかし、それらは、同じタイトルの本である一つの神経概念のみを示す。

したがって、三銃士は、たった一つの神経概念コード（ＮＣＣ）に縮小され得る。

００－－－－－－－－０５－－－－－－－－１１－－－－－－－－１５－－－－－－－－１０－－－－－－－－００－－－－－－－－

このＮＣＣ文字列は、文章の品詞が名詞（００）＋動詞（０５）＋限定詞（１１）＋副詞（１５）＋形容詞（１０）＋名詞（００）である（残りの８桁は関連しない）。この情報がレジスタに入力されると、論理ゲートを使用して単語の間の構文関係を形成する。例えば、副詞＋形容詞＋名詞の組み合わせ（「ｖｅｒｙｇｏｏｄｂｏｏｋ」）は、一つのノードとして共にグループ化されなければならないことを示す。ＡＮＤゲートを使用して、文字列ＮＣＣは次のように変わり得る。

００－－－－－－－－－０５－－－－－－－－－１１－－－－－－－－，１５－－－－－－－－＋１０－－－－－－－－ | ００－－－－－－－－

Ｔ．Ｔ．Ｍ．－ｉｓ－ａ，ｖｅｒｙ＋ｇｏｏｄ | ｂｏｏｋ

すなわち、図３に示したように、

－（ダッシュ）＝各ノードを水平に連結する（例：「ｉｓ－ｂｏｏｋ」）。

|（棒）＝ノードと枝とを連結する（例：「ａ | ｂｏｏｋ」）。

，（コンマ）＝次のトークンも枝であるが、同一の次元ではないことを示す（例：「ａ，ｇｏｏｄ」）。

＋（足し算）＝同じ次元に属するノード又は枝を連結する（例：「非常に＋良い」）。

すなわち、１５ＡＮＤ１０は「１５＋１０」になり、１０ＡＮＤ００は「１０ | ００．」になる（これは固定されている。「１０ＡＮＤ００」の全てのインスタンスに対して、結果は常に同一でなければならない。）したがって、三種類は、いずれも共に「１５＋１０ | ００」又は「非常に＋良い | 本。」である。これは、論理ゲートを使用するのと類似している。

足し算及び引き算などの記号を使用して算術を行う。

文章をＳｙｎａｐｐｅｒモデルに格納するためには、７個のレジスタセットが必要である。

ＰＮＰ＋ＰＶＰ＋ＳＰ＋ＣＥ１＋ＣＥ２＋ＣＥ３＋ＣＥ４

一般的な文章は、基本名詞句（ＰＮＰ）、基本動詞句（ＰＶＰ）及び下位述語（ＳＰ）に分けられる。一つの補完要素（ＣＥ）は、一番最初と一番前に配置され得る。

他の二つの補完要素は、ＰＮＰ、ＰＶＰ及びＳＰの間に配置され得る。ＳＶＯでは、文章が次のように表示される。

ＣＥ１＋ＰＮＰ＋ＣＥ２＋ＰＶＰ＋ＣＥ３＋ＳＰ＋ＣＥ４

次は、７個の部分が全て含まれた例示文章である。

Ｏｎｃｅｕｐｏｎａｔｉｍｅ，ａｄｒａｇｏｎ，ｆｅｍａｌｅ，ｆｌｅｗ，ｗｈｉｌｅｂｌｏｗｉｎｇｆｉｒｅ，ｏｖｅｒｔｈｅｍｏｕｎｔａｉｎ，ｓｕｐｐｏｓｅｄｌｙ．(昔々、雌の竜がおそらく火を吹きながら山を越えて飛んで行きました。)

核心文章（ＰＮＰ＋ＰＶＰ＋ＳＰ）は、簡単に「竜が山を越えて飛んで行きました。」である。

選択的な文具や節（ＣＥ）は、開始（「Ｏｎｃｅｕｐｏｎａｔｉｍｅ」）、ＰＮＰとＰＶＰとの間（「ｆｅｍａｌｅ」）、ＰＶＰとＳＰとの間（「ｗｈｉｌｅｂｌｏｗｉｎｇｆｉｒｅ」）、終了（「ｓｕｐｐｏｓｅｄｌｙ」）に追加され得る。各範疇にＮＣＣを格納できる十分な空間を確保するために、次を提案する。

ＰＮＰ：２５ｘ（３２ビットＮＣＣ＋２ビットＳ＋１ビットＰ）＋１ビットＶ＝８７６ビット

ＰＶＰ：１５ｘ（３２ビットＮＣＣ＋２ビットＳ＋１ビットＰ）＋１ビットＶ＝５２６ビット

ＳＰ：４０ｘ（３２ビットＮＣＣ＋２ビットＳ＋１ビットＰ）＋１ビットＶ＝１，４０１ビット

ＣＥ：２０ｘ（３２ビットＮＣＣ＋２ビットＳ＋１ビットＰ）＋１ビットＶ＝７０１ビット（合計２，８０４ビット）

全てのビットを合わせると、合計５，６０７ビットになる。しかし、神経概念コード（ＮＣＣ）が特定の方式で共にリンクできるように、各神経概念コード（ＮＣＣ）の間に３ビット符号レジスタも必要である。

その結果、ＰＮＰ、ＰＶＰ、ＳＰ及び４個のＣＥに対して、それぞれ７２ビット、４２ビット、１１７ビット及び２２８ビットが追加される。したがって、一つのＳｙｎａｐｐｅｒモデルを格納するために、合計６，０６６ビットのレジスタが必要である。

名詞の性（例：ｆｅｍａｌｅ）又は動詞の時制（例：過去型）などの情報を格納するためには、２ビットの補充レジスタＳが必要である。このレジスタは、形容詞が比較級であるのか、最上級であるのか、それとも両方でもないのかを示すのにも使用することができる。

複数の名詞（例：果物ｖｓ各果物）を確認するためには、１ビットのレジスタＰが必要である。このレジスタは、動詞の活用又は屈折条件を示すのにも使用することができる（例：ｇｏ／ｇｏｅｓ）。オーバーフロー（ｏｖｅｒｆｌｏｗ）を表示するためには、１ビットのレジスタＶが必要である。

オプションレジスタは、次のように各文章に対してさらに多く理解するために使用することができる。

文章類型（２ビット）：宣言的、疑問文など

コンテンツ類型（６ビット）：一般、対話、カジュアル、公式、法律、物理学など

言語類型（９ビット）：ｅｎ、ｅｎ－ｕｋ、ｅｎ－ｕｓ、ｆｒ－ｆｒ、ｆｒ－ｃａなど

単語の順序（３ビット）：ＳＶＯ、ＳＯＶなど

主語（３２ビット）：代名詞が示す名詞（例：ｈｅ→Ｊｏｈｎ）

目的語（３２ビット）：代名詞が示す名詞（例：ｉｔ→ｂｉｒｄ）

動詞（３２ビット）：補助動詞が参照する動詞（例：ｄｉｄ→ｗａｌｋｅｄ）

この特殊レジスタ（合計１１６ビット）は、文章が変更されるときのみに条件を変更する。

キャッシュメモリ２４０は、処理された文章を、出力を処理するために臨時に格納しなければならない。言語処理装置（ＬＰＵ）２００のキャッシュメモリ２４０は、一段落や二段落に属する文章を格納できる程度に大きくなければならない。

時には、本の全ての文章にアクセスしなければならない場合もある。すなわち、Ｓｙｎａｐｐｅｒモデルデータを格納するために特別に設計されたテキストランダムアクセスメモリ（ＴＲＡＭ）３１０に、数万文章を臨時に格納しなければならない。

言語処理装置２００用ＴＲＡＭ３１０は、ＧＰＵ用ＶＲＡＭと同一の概念であると見なすことができる。

すなわち、言語処理装置２００のキャッシュメモリ２４０は、一段落や二段落に属する文章を格納することができ、多くの文章を格納するためにはＴＲＡM ３１０を使用することを意味する。

また、フラッシュメモリ３２０は、重要な情報の含まれた文章を後でアクセスしなければならない場合もある。このような方式で、言語処理装置（ＬＰＵ）２００は、言語を処理するだけでなく、質問に答えることもできる。

これは、人間が収集できる人間の脳には、言語処理装置（「言語能力」）及び記憶力があるためである。重要であると考えられる文章のＳｙｎａｐｐｅｒモデルをフラッシュメモリ３２０に格納することによって、言語処理装置（ＬＰＵ）２００は人間の頭脳のように行動することができる。

また、本発明に係るＳｙｎａｐｐｅｒモデルを用いた自然語処理システムは、図５に示したように、カメラ／マイクのように自然語を入力する自然語入力装置１１０と、入力装置１１０に入力されたアナログデータをデジタルデータに変換するアナログ－デジタル変換器（ＡＤＣ）１２０と、デジタルデータに変換されたデータを神経概念コードに変換する第１コード変換器（ＷＮＣ）１６０と、第１コード変換器（ＷＮＣ）１６０を通じて入力される神経概念コードをＳｙｎａｐｐｅｒモデルユニット(ＳＭＵ）を通じて解釈して出力する言語処理装置２００と、言語処理装置２００から出力された神経概念コードを、解釈された単語データに変換する第２コード変換器（ＮＷＣ）１７０と、第２コード変換器（ＮＷＣ）１７０を通じて変換されたデジタルデータをアナログデータに変換するデジタル－アナログ変換器（ＤＡＣ）１８０と、デジタル－アナログ変換器（ＤＡＣ）１８０を通じて変換されたデータを、解釈された自然語で出力するディスプレイ装置／スピーカーなどの出力装置１９０とを含むことができる。

図６に示したように、本発明に係るＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理方法は、自然語で書かれたり発音されたテキスト、すなわち、ソースデータを受け取り、これを単語で構成された文章に変換する前処理段階（Ｓ１１０）と、前処理段階（Ｓ１１０）を通じて単語で構成された文章内の各単語を、第１コード変換器（ＷＮＣ）を通じて神経概念コードに変換する第１変換段階（Ｓ１２０）と、第１変換段階（Ｓ１２０）を通じて変換された神経概念コードを言語処理装置（ＬＰＵ）２００のＳｙｎａｐｐｅｒモデルユニットに入力するＳｙｎａｐｐｅｒモデルユニット入力段階（Ｓ１３０）と、言語処理装置のＳｙｎａｐｐｅｒモデルユニット(ＳＭＵ）を通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階（Ｓ１４０）と、言語処理装置で解釈されて出力されたデータの神経概念コードを第２コード変換器（ＮＷＣ）を通じて単語に変換する第２変換段階（Ｓ１５０）と、第２変換段階（Ｓ１５０）を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階（Ｓ１６０）とを含むことができる。

また、Ｓｙｎａｐｐｅｒモデルを用いた自然語処理方法における第１変換段階（Ｓ１２０）では、入力された単語を2進数/１０進数コードに変換することができる。

また、入力された単語を１０進数コードに変換したとき、前の２桁は品詞を示すことができる。

また、解釈及び出力段階（Ｓ１４０）では、レジスタセットで各神経概念コード（ＮＣＣ）の品詞を分析し、文章に対する正しい解釈が何かを決定することができる。

また、解釈及び出力段階（Ｓ１４０）では、第１変換段階（Ｓ１２０）を通じて文章の全ての単語が神経概念コード（ＮＣＣ）に変換されると、Ｓｙｎａｐｐｅｒモデルユニット（ＳＭＵ）で文章の構文構造が決定されて解釈され、解釈された神経概念コード（ＮＣＣ）として出力することができる。

また、解釈及び出力段階（Ｓ１４０）では、使用されるキャッシュメモリ２４０は、Ｓｙｎａｐｐｅｒモデルユニットを通じて解釈されたデータを、出力を生成するために臨時に格納することができる。

また、解釈及び出力段階（Ｓ１４０）では、テキストランダムアクセスメモリ（ＴＲＡＭ）３１０が使用される場合、キャッシュメモリ２４０で処理しにくい多量の文章にアクセスできるようにＳｙｎａｐｐｅｒモデルデータを格納することができる。

また、解釈及び出力段階（Ｓ１４０）では、フラッシュメモリ３２０が使用される場合、重要な情報が含まれた文章を後でアクセスできるように格納することができる。

また、解釈及び出力段階（Ｓ１４０）では、Ｓｙｎａｐｐｅｒモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝で、どれがノードであるのかを決定することができる。

また、解釈及び出力段階（Ｓ１４０）では、Ｓｙｎａｐｐｅｒモデルは、ノード及び枝を決定した後、各ノードを第１方向に互いに連結し、各枝は、第１方向以外の他の方向に対応する各ノードに連結することができる。

より具体的には、Ｓｙｎａｐｐｅｒモデルユニット（ＳＭＵ）を用いた自然語処理方法における処理過程を検討すると、例えば、「ヨンヒがチョルス家に行った。」という文章がある場合、このデータをＣＰＵや他のソースからテキストの形態で受信することができる。

受信されたデータがテキストでない場合はテキストに変換する。

この文章は、一般的な各単語で構成されているので、第１変換段階（Ｓ１２０）で第１コード変換器（ＷＮＣ）１６０を通じて各単語を神経概念コード（ＮＣＣ）に変換する。

このとき、各助詞は全部除去され得る。

ヨンヒ（が）チョルス家に行った。

→ヨンヒチョルス家に行った。

→００１２３３４５３４００３５４７５３４４００８４０２３４５３２０４８５５４６７１０５８７３３５２８８

この神経概念コードは、人が理解しやすいように１０進数で表記し、処理は二進数で行うことができる。よって、該当のデータは、言語処理装置（ＬＰＵ）に伝達された後、制御装置２１０を通じてレジスタ２２０に伝達される。

ＰＮＰ：００１２３３４５３４

ＰＶＰ：０５８７３３５２８８

ＳＰ：００３５４７５３４４００８４０２３４５３２０４８５５４６７１

次に、Ｓｙｎａｐｐｅｒモデルユニット（ＳＭＵ）で、該当のデータに基づいて解釈データを生成する。

例として、「名詞の後に名詞が入ると、枝として処理（ｉｆＷｏｒｄ０３ａｎｄＷｏｒｄ０４＝＝「ｎｏｕｎ」ｔｈｅｎ …）規則を通じて各ＮＣＣがどのように連結されるのかを決定する。そして、その順序に合わせて再び文章で羅列する。英語への翻訳が目的であれば、次の通りである。

（ＣＥ１）＋ＰＮＰ＋（ＣＥ２）＋ＰＶＰ＋（ＣＥ３）＋ＳＰ＋（ＣＥ４）

００１２３３４５３４＋０５８７３３５２８８＋２０４８５５４６７１＋００３５４７５３４４＋００８４０２３４５３

００１２３３４５３４－０５８７３３５２８８－２０４８５５４６７１－００３５４７５３４４ | ００８４０２３４５３

そして、このＳｙｎａｐｐｅｒモデルは、キャッシュメモリに移動させ、必要によってＴＲＡＭに格納することもできる。

該当の実施例では、作業が終了したので、言語処理装置（ＬＰＵ）から第２コード変換器（ＮＷＣ）１７０に該当のデータを送る。

第２コード変換器（ＮＷＣ）１７０は、神経概念コード（ＮＣＣ）を英語の単語に変換する。

ｙｏｕｎｇｈｅｅ－ｗｅｎｔ－ｔｏ－ｃｈｅｏｌｓｏｏ | ｈｏｕｓｅ

ＣＰＵ１００でこの出力値を受け取り、これを一般的な線形文章構造に変換させる。特定の言語にのみ該当する各規則は、ＣＰＵで既存の多くの方法で各言語の文法に合わせて修正する。

ｙｏｕｎｇｈｅｅｗｅｎｔｔｏｃｈｅｏｌｓｏｏｈｏｕｓｅ

→ ＹｏｕｎｇｈｅｅｗｅｎｔｔｏＣｈｅｏｌｓｏｏ’ｓｈｏｕｓｅ．

したがって、本発明によると、マシンランニング技術をベースとする現在のＮＭＴ（ｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ）とは異なり、翻訳時に原本文を毀損しない。

Ｓｙｎａｐｐｅｒモデルで原本文の構文構造を見出すと、その構造内で全ての言語の翻訳文を作成することができる。

人間が作った文章をそのまま維持しながら翻訳文が抽出されるので、翻訳が自然且つ正確になる。

また、本発明は、ビッグデータを必要としないので、学習する過程も必要ない。

マシンランニング基盤のＳＭＴやＮＭＴアルゴリズムは、特定の言語ごとに別途に学習させなければならない。例として、ネイバーのＰａｐａｇｏは、学習されたデータが多い英語→韓国語、韓国語→英語の翻訳には優れているが、ウズベク語→ベトナム語などのような他の言語の組み合わせには翻訳性能が低下し得る。しかし、本発明に係るＳｙｎａｐｐｅｒモデルを用いた自然語処理方法は、基本的に全ての言語に同一に適用できるので、翻訳性能が低下し得るという問題を解決することができる。

さらに、Ｓｙｎａｐｐｅｒモデル（ＳＭＵ）は、各文章の正確な構造を見出すことができ、各文章の意味に対する情報も有することができる。遺伝子構造が分かれば多くのことが可能になるように、文章の構造が分かると、既存には不可能であったり困難であったことが可能になる。すなわち、文章構造を分析すると、この文章が肯定的な表現であるのか、それとも否定的な表現であるのかを確認することができる。

したがって、現在、マシンランニング基盤のアルゴリズムが必要とする電力消費や演算力が要求されないので、簡単な作業であれば、一般のスマートフォン機器でも十分に処理が可能である。そのため、インターネットに接続されていなくても、本人が所有した機器で自然語処理が可能になる。膨大な量の文章を速く処理しなければならない場合、上記のプロセスをハードウェアチップで設計すると、より速い性能を期待することができる。

結論として、本発明によると、Ｓｙｎａｐｐｅｒモデルユニットを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語処理が可能であり、高い正確度及び一貫性がある自然語処理を行えるという効果を有する。

以上で説明したシステムは、ハードウェア構成要素、ソフトウェア構成要素、及び／又はハードウェア構成要素とソフトウェア構成要素との組み合わせで具現され得る。例えば、処理システムは、運営体制（ＯＳ）及び前記運営体制上で行われる一つ以上のソフトウェアアプリケーションを行うことができる。また、処理システムは、ソフトウェアの実行に応答して、データを接近、格納、操作、処理及び生成することもできる。理解の便宜のために、一つの処理装置が使用されることを説明した場合もあるが、該当の技術分野で通常の知識を有する者であれば、処理システムが複数個の処理要素及び／又は複数類型の処理要素を含み得ることが分かる。例えば、処理システムは、複数個のプロセッサ、又は一つのプロセッサ及び一つのコントローラを含むことができる。また、並列プロセッサなどの他の処理構成も可能である。

ソフトウェアは、コンピュータープログラム、コード、命令、又はこれらのうち一つ以上の組み合わせを含むことができ、望みどおりに動作するように処理システムを構成したり、処理システムで独立的に又は結合的に動作することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり、処理システムに命令又はデータを提供するために、一定の類型の機械、構成要素、物理的装置、仮想装置、コンピューター格納媒体又は装置に具体化され得る。ソフトウェアは、ネットワークで連結されたコンピューターシステム上に分散され、分散された方法で格納又は実行されることもある。ソフトウェア及びデータは、一つ以上のコンピューター判読可能な記録媒体に格納され得る。

実施例に係る方法は、多様なコンピューター手段を通じて行われ得るプログラム命令形態で具現され、コンピューター判読可能な媒体に記録され得る。前記コンピューター判読可能な媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、実施例のために特別に設計されて構成されたものであってもよく、コンピューターソフトウェアの当業者に公知の使用可能なものであってもよい。コンピューター判読可能な記録媒体の例には、ハードディスク、プロッピーディスク及び磁気テープなどの磁気記録媒体と、ＣＤ－ＲＯＭ、ＤＶＤなどの光学データ記憶媒体と、フロプティカルディスクなどの磁気－光媒体と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ、フラッシュメモリなどのプログラム命令を格納して行うように特別に構成されたハードウェア装置とが含まれる。プログラム命令の例には、コンパイラによって作られる機械語コードのみならず、インタープリターなどを使用してコンピューターによって実行され得る高級言語コードを含む。

以上では、本発明に係るＳｙｎａｐｐｅｒモデルユニットを用いた自然語処理システム及び方法に関する具体的な実施例について説明したが、本発明の範囲から逸脱しない限度内で様々な実施変形が可能であることは自明である。そのため、本発明の範囲は、説明した実施例に限定して定められてはならなく、後述する特許請求の範囲のみならず、この特許請求の範囲と均等なものによって定められなければならない。

すなわち、上述した実施例は、全ての面で例示的なものであって、限定的なものではないことを理解しなければならなく、本発明の範囲は、詳細な説明よりは後述する特許請求の範囲によって示され、その特許請求の範囲の意味、範囲、及びその等価概念から導出される全ての変更又は変形した形態が本発明の範囲に含まれるものと解釈しなければならない。

１００ＣＰＵ
１１０入力装置
１２０アナログ－デジタル変換器（ＡＤＣ）
１６０第１コード変換器（ＷＮＣ：Ｗｏｒｄ－ｔｏ－ＮＣＣＣｏｎｖｅｒｔｅｒ）
１７０第２コード変換器（ＮＷＣ：ＮＣＣ－ｔｏ－ＷｏｒｄＣｏｎｖｅｒｔｅｒ）
１８０デジタル－アナログ変換器（ＤＡＣ）
１９０出力装置
２００言語処理装置（ＬＰＵ）
２１０制御装置
２２０レジスタ
２３０Ｓｙｎａｐｐｅｒモデルユニット（ＳＭＵ）
２４０キャッシュメモリ
３１０テキストランダムアクセスメモリ（ＴＲＡＭ）
３２０フラッシュメモリ

Claims

コンピュータが実行する自然語処理方法であって、
自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階；
前記前処理段階を通じて前記単語で構成された文章内の各単語を、第１コード変換器（ＷＮＣ）を通じて、２進数の神経概念コード（ＮＣＣ）に変換する第１変換段階；
前記第１変換段階を通じて変換された前記神経概念コードを言語処理装置のＳｙｎａｐｐｅｒモデルに入力する段階；
前記言語処理装置の前記Ｓｙｎａｐｐｅｒモデルを通じて認識された前記神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階；
前記言語処理装置で解釈されて出力されたデータの前記神経概念コードを、第２コード変換器（ＮＷＣ）を通じて単語データに変換する第２変換段階；及び
前記第２変換段階を通じて変換された前記単語データを、前記解釈されたデータとして出力する解釈データ出力段階；を含み、
前記解釈及び出力段階における前記神経概念コードの解釈では、前記神経概念コードの１０進数表現で最初の２桁を２進数で表した数字を用いて前記文章の構文構造が決定される、自然語処理方法。
前記解釈及び出力段階では、
レジスタセットで、前記神経概念コード（ＮＣＣ）の前記最初の２桁が示す品詞を、前記Ｓｙｎａｐｐｅｒモデルで用いられる前記品詞に関する規則を通じて分析し、前記文章の前記構文構造を決定する、請求項１に記載の自然語処理方法。
前記解釈及び出力段階では、
前記構文構造が決定された前記文章内の各単語の前記神経概念コード（ＮＣＣ）を、前記解釈されたデータとして出力する、請求項１に記載の自然語処理方法。
前記解釈及び出力段階では、
キャッシュメモリは、前記Ｓｙｎａｐｐｅｒモデルを通じて解釈されたデータを、出力を生成するために臨時に格納する、請求項１に記載の自然語処理方法。
自然語で書かれた文章を入力する入力装置；
前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ－デジタル変換器（ＡＤＣ）；
前記デジタルデータに変換されたデータを、２進数の神経概念コードに変換する第１コード変換器（ＷＮＣ）；
前記第１コード変換器（ＷＮＣ）を通じて入力される前記神経概念コードをＳｙｎａｐｐｅｒモデルを通じて解釈して出力する言語処理装置；
前記言語処理装置から出力された前記神経概念コードを、解釈された単語データに変換する第２コード変換器（ＮＷＣ）；
前記第２コード変換器（ＮＷＣ）を通じて変換された前記単語データであるデジタルデータをアナログデータに変換するデジタル－アナログ変換器（ＤＡＣ）；及び
前記デジタル－アナログ変換器（ＤＡＣ）を通じて変換されたデータを、解釈された自然語で出力する出力装置；を含み、
前記言語処理装置による前記神経概念コードの解釈では、前記神経概念コードの１０進数表現で最初の２桁を２進数で表した数字を用いて前記文章の構文構造が決定される、Ｓｙｎａｐｐｅｒモデルユニットを用いた自然語処理システム。