[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP7511614B2 - Synapperモデルユニットを用いた自然語処理システム及び方法 - Google Patents

Synapperモデルユニットを用いた自然語処理システム及び方法 Download PDF

Info

Publication number
JP7511614B2
JP7511614B2 JP2022157480A JP2022157480A JP7511614B2 JP 7511614 B2 JP7511614 B2 JP 7511614B2 JP 2022157480 A JP2022157480 A JP 2022157480A JP 2022157480 A JP2022157480 A JP 2022157480A JP 7511614 B2 JP7511614 B2 JP 7511614B2
Authority
JP
Japan
Prior art keywords
synapper
data
code
natural language
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022157480A
Other languages
English (en)
Other versions
JP2024021023A (ja
Inventor
クー キム、ミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2024021023A publication Critical patent/JP2024021023A/ja
Application granted granted Critical
Publication of JP7511614B2 publication Critical patent/JP7511614B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Description

本発明は、自然語処理システム及び方法に関し、より具体的には、Synapperモデルユニットを用いた自然語処理システム及び方法に関する。
自然語処理(Natural Language Processing)は、要素技術を用いて自然語の分析、理解、生成などを行い、情報検索、機械翻訳、質疑応答などの多様な分野に応用される。
従来の自然語処理方法を通じて機械翻訳などを行う場合は、不正確であったり理解できない文章を生成する可能性があった。
より正確な自然語処理のために、多様な自然語処理過程を行うことができ、自然語処理には、自然語の分析、自然語の理解、自然語の生成などの技術が用いられ得る。
自然語の分析は、自然語の意味などを分析する技術で、自然語の理解は、コンピューターを自然語で与えられた入力によって作動させる技術で、自然語の生成は、動画や表の内容などを人が理解できる自然語に変換する技術である。
近年、このような自然語処理において、神経網モデル(Natural Network model)が用いられている。
このような神経網モデルは、自然語処理における意味分析で向上した性能を提供しているが、ソースデータが少ないと高い正確度を提供することができなく、一貫性がない動作で駆動するという問題を有していた。また、非常に速いコンピューター性能及び膨大な電力消耗を必要とするので、実用的に多くの困難さが存在していた。
大韓民国公開特許第10-2022-0049693号(2022.04.22.)
本発明の目的は、Synapperモデルを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語を処理することができ、高い正確度及び一貫性がある自然語処理を行えるSynapperモデルユニットを用いた自然語処理システム及び方法を提供することにある。
本発明が解決しようとする課題は、以上で言及した課題に制限されなく、言及していない他の課題は、下記の記載から通常の技術者に明確に理解され得るだろう。
本発明に係るSynapperモデルユニットを用いた自然語処理方法は、自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階;前記前処理段階を通じて単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて神経概念コード(neuro concept code)に変換する第1変換段階;前記第1変換段階を通じて変換された神経概念コードを言語処理装置のSynapperモデルに入力する段階;前記言語処理装置のSynapperモデルを通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階;前記言語処理装置で解釈されて出力されたデータの神経概念コードを第2コード変換器(NWC)を通じて単語に変換する第2変換段階;及び前記第2変換段階を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階;を含むことができる。
好ましくは、Synapperモデルを用いた自然語処理方法における前記第1変換段階では、入力された単語を2進数/10進数コードに変換することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記第1変換段階では、入力された単語を10進数コードに変換するとき、前の2桁は品詞を示すことができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、レジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しい解釈が何かを決定することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、第1変換器段階を通じて文章の全ての単語が神経概念コード(NCC)に変換されると、前記Synapperモデルで文章の構文構造が決定されて解釈され、解釈された神経概念コード(NCC)として出力することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、キャッシュメモリは、Synapperモデルを通じて解釈されたデータを、出力を生成するために臨時に格納することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、テキストランダムアクセスメモリ(TRAM)は、前記キャッシュメモリで処理しにくい多量の文章にアクセスできるようにSynapperモデルデータを格納することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、フラッシュメモリなどの格納装置は、重要な情報が含まれた文章を後でアクセスできるように格納することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、前記Synapperモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝(branch)で、どれがノード(node)であるのかを決定することができる。
また、好ましくは、Synapperモデルを用いた自然語処理方法における前記解釈及び出力段階では、前記Synapperモデルは、ノード及び枝を決定した後、各ノードを第1方向に互いに連結し、各枝は、第1方向以外の他の方向に対応する各ノードに連結することができる。
また、本発明に係るSynapperモデルを用いた自然語処理システムは、自然語を入力する入力装置;前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC);前記デジタル信号に変換されたデータを神経概念コードに変換する第1コード変換器(WNC);前記第1コード変換器(WNC)を通じて入力される神経概念コードをSynapperモデルを通じて解釈して出力する言語処理装置;前記言語処理装置から出力された神経概念コードを解釈された単語データに変換する第2コード変換器(NWC);前記第2コード変換器(NWC)を通じて変換されたデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC);及び前記デジタル-アナログ変換器(DAC)を通じて変換されたデータを、解釈された自然語で出力する出力装置;を含むことができる。
本発明によると、Synapperモデルユニットを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語を処理することができ、高い正確度及び一貫性がある自然語処理を行えるという効果がある。
自然語の語順の統合状態を示す図である。 本発明の実施例に係るSynapperモデルの概念を示す図である。 本発明の実施例に係るSynapperモデルの概念を示す図である。 本発明の一実施例に係るSynapperモデルユニットを用いた自然語処理システムを示す図である。 本発明の他の実施例に係るSynapperモデルユニットを用いた自然語処理システムを示す図である。 本発明の一実施例に係るSynapperモデルユニットを用いた自然語処理方法の流れを示すフローチャートである。
以下、添付の図面を参照しながら本発明に係る好ましい実施例を詳細に説明する。
本発明の利点、特徴、及びそれを達成する方法は、添付の図面と共に詳細に後述している各実施例を参照すれば明確になるだろう。しかし、本発明は、以下で開示する各実施例によって限定されるものではなく、互いに異なる多様な形態で具現可能であり、ただ、本実施例は、本発明の開示を完全にし、本発明の属する技術分野で通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであって、本発明は、特許請求の範囲によって定義されるものに過ぎない。
また、本発明を説明するにおいて、関連する公知の技術などが本発明の要旨を不明瞭にし得ると判断される場合、それに関する詳細な説明は省略する。
世界には多くの自然語が存在する。これらの自然語は、多様な語順で文章を使用するので、翻訳や文章処理において多くの困難さが存在する。これらの言語のそれぞれ異なる文章構造は、多くの次元を用いて一つの統一された構造システムで統合させることができる。
本明細書におけるソースデータは、自然語処理で用いられるテキストデータを含むデータを意味し得る。
図1に示したように、言語によって、各単語は、異なる順序で羅列されて文章を形成する。そのため、各言語の文法は、それぞれ異なるものとして見なされてきた。例えば、韓国語及び英語などの各言語は、文法的に共通性がほとんど存在しないものであることが分かり、これは、基本的に語順からして異なるためである。主語、目的語、及び動詞をどのような順序で羅列するのかによって各言語の語順が変わる。
すなわち、SOV、SVO、OVS、VOS、VSO、OSVの合計6つの語順のうち、韓国語は、SOV(主語-目的語-動詞)を基本として使用し、英語や他の西ヨーロッパの各言語は、ほとんどがSVO(主語-動詞-目的語)を基本として使用している。しかし、主語、目的語、及び動詞のこれらの三つのトークン(token)を円の形態で連結する場合、組み合わせ方式が6個から2個に縮小される。
図1(a)は、時計方向に移動しながらSOV、OVS、及びVSOの各語順を示す。その反対に、図1(b)は、反時計方向に移動しながらSVO、VOS、及びOSVの各語順を示す。トークンが移動する方向を除外する場合、二つの円は一つの同一の形態を示す。この一つの構造において、各自然言語の全ての語順が存在することが分かる。
このとき、各言語ごとに単語が羅列される順序が異なるとしても、文章の意味は変わらない。
単語を多くの次元で連結させると、Synapperモデルが完成する。
図2乃至図6を参照して、本発明に係るSynapperモデルを用いた自然語処理システム及び方法について説明する。
図2の文章を見ると、主語「Jane」から始めて時計方向に移動する場合、英語の文章が完成する。
その一方で、主語において反時計方向に単語を読むと、韓国語や日本語の語順に合わせて文章が出力され得る。
すなわち、英語:Jane has a very fast brown horse.
韓国語:Jane (a) very fast brown horse has.
Figure 0007511614000001
日本語:Jane (a) very fast brown horse has.
→ジェーンはとても早い茶色の馬を持っている。
冠詞は、韓国語や日本語では省略されるので、単語「a」は除去すればよい。いくつかの言語では、修飾語が被修飾語の後に入る場合があるが、そのような場合、処理する順序を変えて、該当の修飾語を被修飾語の次に処理すればよい。このような方式で一般的な敍述型文章をSynapperモデルに適用する場合、文章構造を確認できるようになる。
この構造で語順に合わせて単語を羅列すると、言語と関係なく正確な文章を見出すことができる。すなわち、n次元の文章構造を通じて、一般に使用される1次元的文章の抽出が可能になる。
すなわち、思考を文字で表現するとき、単語が多くなるほど、分析のための文章が徐々に複雑になるという問題があるが、これは、全ての単語が同一の方向や次元で使用されるためである。Synapperモデルを通じて、文章の構文構造は、二つ以上の方向又は次元を使用して遥かに直観的になる。
ここで使用されたSynapperモデルは、伝統的に作成された文章(1次元又は線形)を多次元の文章構造に変換するのに使用されるモデル基盤方法である。
言語、すなわち、Synapperモデルは、文章の多次元表現を実現するために処理に依存する。
Synapperモデルは、文章(思考)が人間の頭脳によって構造化される方式、すなわち、人間の頭脳が文章を形成する方式に対する推定を基盤にして文章を処理して提示する。文章(すなわち、文章の裏のアイディア又は概念)が処理され、Synapper形式やモデルで提示されると、翻訳及び解釈のためのほぼ全ての対象言語の文章に容易に再創造又はレンダリングされる。
一つ目、文章にSynapperモデルの構造が与えられる。すなわち、Synapperモデルは、本発明の学習データ(動詞データベース、形容詞データベース、ISPを通じて提供されるデータソースなど)を通じて各単語の品詞を把握するためにテキストを処理する。
次に、Synapperモデルは、処理中の文章の各単語が前と後に来る単語の品詞を分析し、これが枝であるのか、それともノードであるのかを判別する。
ここで、ノードは、メーンループに属する単語を意味する。
また、ここで、枝は、一つの特定のノードと関連する補完単語を意味する。
その後、本発明のSynapperモデルは、全てのノードを一方向に付着させ、枝単語を他の方向のノードに付着させる。
その後、Synapperモデルを基盤にして文章の類型を決定する。
すなわち、Synapperモデルで文章を処理し、全ての枝単語を除去することができる。
文章の残った部分(単純なノード)は、Synapperモデルを基盤にして核心文章として見なされる。これは、ソースデータ言語の元の文章をノードの品詞として追加的に除去するために独創的な原理によってさらに処理され得る。
その後、Synapperモデルは、この情報を使用して文章が質問であるのか、文章であるのか、それとも他のもの(すなわち、他の類型の文章構造)であるのかを把握することができる。
Synapperモデル処理を基盤とした文章は、文章又は命令として見なされ得る。その次に、即席に作った文章モデルは、主語、動詞句及び文章の残りの部分の識別などの内容に対してさらに分析され得る。
また、全てのノードが一次元にある一方で、枝単語は、必ずしも一次元に制限される必要はない。人間の頭脳は、枝単語に対して多くの次元を使用する可能性があるという理解を前提とする。
例えば、単語は、文章の他の単語との関係によってノード又は枝としてSynapperモデルによって決定される。
例えば、形容詞の後に他の形容詞や名詞が来ると、枝になる(例:fast car)。
また、形容詞の後に他の形容詞や名詞が来ないと、ノードになる(例:car is fast)。
上記で説明したように、Synapperモデルを通じた自然語処理方法において、全ての言語に対する単語の順序選択は6個に過ぎない。
すなわち、SOV、SVO、OSV、OVS、VSO及びVOSのうち3個は、一方向(時計方向)に移動し、残りの3個は反対方向(反時計方向)に移動する。
したがって、正しい構造を有している場合、少なくとも理論上には、文章を全ての自然語に翻訳することができる。
Synapperモデルは、文章に正しい構造を提供する。また、文章中の各単語を特定の数字コード(すなわち、神経概念コード)に変換し、特定の言語に依存しなくてもSynapperモデルで処理可能である。
これは、特定の言語(例:出発語)の各単語を他の言語(すなわち、目標言語)の単語に翻訳する一般的な慣行と区別される。
これは、多くの単語が多くの意味を有しており、誤訳が発生し得るためである。
図4乃至図5は、本発明に係るSynapperモデルを用いた自然語処理システムを示している。
図4乃至図5を参照すると、CPU 100に入力された自然語テキストから単語を抽出し、第1コード変換器160(WNC:Word-to-NCC Converter)を通じて単語を神経概念コードに変換する。
続いて、神経概念コードに変換された値を言語処理装置200(LPU:Language Processing Unit)に入力し、神経概念コードの自然語を処理した後、処理された神経概念コードを第2コード変換器170(NWC:NCC-to-Word Converter)に出力する。
第2コード変換器170では、言語処理装置200で自然語処理された出力値である神経概念コードを単語に変換することができる。
第2コード変換器170で変換された値をCPU 100に伝達し、入力された自然語を自然語処理(翻訳)して出力できることを特徴とする。
ここで、神経概念コードは、神経概念を示す32ビットの2進コード(binary code)を意味し得る。
また、2進コードを10進数で表現することができ、10進数の最初の2桁は品詞を示すのに使用され得る。
次の8桁は、特定の神経概念を示すのに使用され得る。
NCCは、次のように、2進数として32個、10進数として4個、294個、967個、295個が表現され得る。
1111 1111 1111 1111 1111 1111 1111 1111(バイナリ)
4294967295(10進数)
10進数の最初の2桁は品詞を示すのに使用される。次の8桁は、特定の神経概念を示すのに使用され得る。
例えば、0001001732(10進数)は、「タクシー運転手」を意味するNCCで、0500008055(10進数)は「約束する」を意味する。
一番目のNCCの最初の2桁である00は、神経概念が名詞であることを示す。また、二番目のNCCの最初の2桁である05は、神経概念が動詞であることを示す。
品詞を示すために、2桁の数字を使用する一つスキーマ(schema)がある。
00=名詞、05=動詞、10=形容詞、15=副詞、20=前置詞、22=接続詞、30=感嘆詞として示すことができる。
しかし、接続詞及び感嘆詞などの品詞には、数百個の神経概念が必要である。全ての言語で最も多い神経概念を要求する品詞は名詞である。ほぼ1億個の名詞 神経概念コード(正確には、94、967、295個)を示す可能性がある神経概念は、全ての実用的な目的に十分でなければならない。
NCCは、人間が理解すること(単語)と機械が理解すること(2進数)との間の中間地点にある。人間とコンピューターが互いに理解できるように、Cなどのプログラミング言語を使用するのと類似している。これが、神経概念コード(NCC)が10進数として表示される理由である。そうでない場合、人間は、コードで意味を探すことができない。しかし、コンピューターは2進数のみを処理することができる。したがって、10進数からなる神経概念コード(NCC)の最初の2桁を2進数で分析する追加段階を経なければならない。したがって、例えば、2200007710は、神経概念コード(NCC)を意味する。最初の2桁である22は接続詞であることを示す。人間は、品詞が何かを容易に理解できる。しかし、コンピューターは、この情報を2進法で分析しなければならない。したがって、最初の2桁の数字を得るためには6ビットが必要である。
神経概念コード(NCC)内で品詞を示す数字は、00から42である。例えば、22進数は010110である。論理ゲートは、このような種類の情報を分析し、文章を処理するのに使用される。神経概念コード(NCC)の残りの部分は、ほとんどが処理と関連しないので無視すべきである。
文章の全ての単語が神経概念コード(NCC)に変換されると、文章の構文構造が決定され、これがSynapperモデルに転換され得る。神経概念コード(NCC)での文章のSynapperモデルは、機械の青写真を有するのと同じである。文章分析のための十分な情報を有しているので、機械学習技術を使用しなくても翻訳、読解、会話などの応用が可能である。
これを通じて、自然語は、言語処理装置(LPU)200によって処理され得る、言語処理装置は、ビッグデータがなくても、非常に速い速度及び電力効率で言語を処理することができる。これは、ALU(Arithmetic Logic Unit)が非常に少ない電力及び非常に速い速度で数学的計算を出力できるのと類似している。
また、この段階の結果は、現在使用可能な自然語処理(NLP)用機械学習アルゴリズムより正確になり得る。これは、人間の頭脳と類似する方法で言語を処理するものと推定されるSynapperモデルユニット(SMU:Synapper Model Unit)のためである。
その一方で、機械学習アルゴリズムは、本質的に確率的予測を計算することによって、常に正確な結果を生成することができない。
言語処理装置(LPU)200は、制御装置210、レジスタ220、Synapperモデルユニット(SMU)230及びキャッシュメモリ240を含むことができる。
制御装置210は、レジスタ220、Synapperモデルユニット230及びキャッシュメモリ240で行われることを制御することができる。
レジスタ220は、CPU 100で受け取った文章をレジスタセットに入れなければならない。最初に、レジスタセットは、コンマ、ピリオド及び疑問符などの句読点を無視しながら順次組み合わされた、変換された神経概念コード(NCC)文字である。
この簡単なレジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しいSynapperモデルが何かを決定する。
例えば、「The Three Musketeers is a very good book.(三銃士はとても良い本です。)」において、最初の三つの単語(The Three Musketeers)は、三つの個別単語と見なされ得る。しかし、それらは、同じタイトルの本である一つの神経概念のみを示す。
したがって、三銃士は、たった一つの神経概念コード(NCC)に縮小され得る。
00-------- 05-------- 11-------- 15-------- 10-------- 00--------
このNCC文字列は、文章の品詞が名詞(00)+動詞(05)+限定詞(11)+副詞(15)+形容詞(10)+名詞(00)である(残りの8桁は関連しない)。この情報がレジスタに入力されると、論理ゲートを使用して単語の間の構文関係を形成する。例えば、副詞+形容詞+名詞の組み合わせ(「very good book」)は、一つのノードとして共にグループ化されなければならないことを示す。ANDゲートを使用して、文字列NCCは次のように変わり得る。
00-------- - 05-------- - 11-------- ,15-------- + 10-------- | 00--------
T.T.M.- is - a,very + good | book
すなわち、図3に示したように、
-(ダッシュ)=各ノードを水平に連結する(例:「is-book」)。
|(棒)=ノードと枝とを連結する(例:「a | book」)。
,(コンマ)=次のトークンも枝であるが、同一の次元ではないことを示す(例:「a,good」)。
+(足し算)=同じ次元に属するノード又は枝を連結する(例:「非常に + 良い」)。
すなわち、15 AND 10は「15 + 10」になり、10 AND 00は「10 | 00.」になる(これは固定されている。「10 AND 00」の全てのインスタンスに対して、結果は常に同一でなければならない。)したがって、三種類は、いずれも共に「15 + 10 | 00」又は「非常に + 良い | 本。」である。これは、論理ゲートを使用するのと類似している。
足し算及び引き算などの記号を使用して算術を行う。
文章をSynapperモデルに格納するためには、7個のレジスタセットが必要である。
PNP + PVP + SP+ CE 1 + CE 2 + CE 3 + CE 4
一般的な文章は、基本名詞句(PNP)、基本動詞句(PVP)及び下位述語(SP)に分けられる。一つの補完要素(CE)は、一番最初と一番前に配置され得る。
他の二つの補完要素は、PNP、PVP及びSPの間に配置され得る。SVOでは、文章が次のように表示される。
CE 1 + PNP + CE 2 + PVP + CE 3 + SP + CE 4
次は、7個の部分が全て含まれた例示文章である。
Once upon a time,a dragon,female,flew,while blowing fire,over the mountain,supposedly.(昔々、雌の竜がおそらく火を吹きながら山を越えて飛んで行きました。)
核心文章(PNP + PVP + SP)は、簡単に「竜が山を越えて飛んで行きました。」である。
選択的な文具や節(CE)は、開始(「 Once upon a time」)、PNPとPVPとの間(「female」)、PVPとSPとの間(「while blowing fire」)、終了(「supposedly」)に追加され得る。各範疇にNCCを格納できる十分な空間を確保するために、次を提案する。
PNP:25 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 876ビット
PVP:15 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 526ビット
SP:40 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 1,401ビット
CE:20 x(32ビット NCC + 2ビット S + 1ビット P)+ 1ビット V = 701ビット(合計2,804ビット)
全てのビットを合わせると、合計5,607ビットになる。しかし、神経概念コード(NCC)が特定の方式で共にリンクできるように、各神経概念コード(NCC)の間に3ビット符号レジスタも必要である。
その結果、PNP、PVP、SP及び4個のCEに対して、それぞれ72ビット、42ビット、117ビット及び228ビットが追加される。したがって、一つのSynapperモデルを格納するために、合計6,066ビットのレジスタが必要である。
名詞の性(例:female)又は動詞の時制(例:過去型)などの情報を格納するためには、2ビットの補充レジスタSが必要である。このレジスタは、形容詞が比較級であるのか、最上級であるのか、それとも両方でもないのかを示すのにも使用することができる。
複数の名詞(例:果物 vs 各果物)を確認するためには、1ビットのレジスタPが必要である。このレジスタは、動詞の活用又は屈折条件を示すのにも使用することができる(例:go/goes)。オーバーフロー(overflow)を表示するためには、1ビットのレジスタVが必要である。
オプションレジスタは、次のように各文章に対してさらに多く理解するために使用することができる。
文章類型(2ビット):宣言的、疑問文など
コンテンツ類型(6ビット):一般、対話、カジュアル、公式、法律、物理学など
言語類型(9ビット):en、en-uk、en-us、fr-fr、fr-caなど
単語の順序(3ビット):SVO、SOVなど
主語(32ビット):代名詞が示す名詞(例:he→John)
目的語(32ビット):代名詞が示す名詞(例:it→bird)
動詞(32ビット):補助動詞が参照する動詞(例:did→walked)
この特殊レジスタ(合計116ビット)は、文章が変更されるときのみに条件を変更する。
キャッシュメモリ240は、処理された文章を、出力を処理するために臨時に格納しなければならない。言語処理装置(LPU)200のキャッシュメモリ240は、一段落や二段落に属する文章を格納できる程度に大きくなければならない。
時には、本の全ての文章にアクセスしなければならない場合もある。すなわち、Synapperモデルデータを格納するために特別に設計されたテキストランダムアクセスメモリ(TRAM)310に、数万文章を臨時に格納しなければならない。
言語処理装置200用TRAM 310は、GPU用VRAMと同一の概念であると見なすことができる。
すなわち、言語処理装置200のキャッシュメモリ240は、一段落や二段落に属する文章を格納することができ、多くの文章を格納するためにはTRAM 310を使用することを意味する。
また、フラッシュメモリ320は、重要な情報の含まれた文章を後でアクセスしなければならない場合もある。このような方式で、言語処理装置(LPU)200は、言語を処理するだけでなく、質問に答えることもできる。
これは、人間が収集できる人間の脳には、言語処理装置(「言語能力」)及び記憶力があるためである。重要であると考えられる文章のSynapperモデルをフラッシュメモリ320に格納することによって、言語処理装置(LPU)200は人間の頭脳のように行動することができる。
また、本発明に係るSynapperモデルを用いた自然語処理システムは、図5に示したように、カメラ/マイクのように自然語を入力する自然語入力装置110と、入力装置110に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC)120と、デジタルデータに変換されたデータを神経概念コードに変換する第1コード変換器(WNC)160と、第1コード変換器(WNC)160を通じて入力される神経概念コードをSynapperモデルユニット(SMU)を通じて解釈して出力する言語処理装置200と、言語処理装置200から出力された神経概念コードを、解釈された単語データに変換する第2コード変換器(NWC)170と、第2コード変換器(NWC)170を通じて変換されたデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC)180と、デジタル-アナログ変換器(DAC)180を通じて変換されたデータを、解釈された自然語で出力するディスプレイ装置/スピーカーなどの出力装置190とを含むことができる。
図6に示したように、本発明に係るSynapperモデルユニットを用いた自然語処理方法は、自然語で書かれたり発音されたテキスト、すなわち、ソースデータを受け取り、これを単語で構成された文章に変換する前処理段階(S110)と、前処理段階(S110)を通じて単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて神経概念コードに変換する第1変換段階(S120)と、第1変換段階(S120)を通じて変換された神経概念コードを言語処理装置(LPU)200のSynapperモデルユニットに入力するSynapperモデルユニット入力段階(S130)と、言語処理装置のSynapperモデルユニット(SMU)を通じて認識された神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階(S140)と、言語処理装置で解釈されて出力されたデータの神経概念コードを第2コード変換器(NWC)を通じて単語に変換する第2変換段階(S150)と、第2変換段階(S150)を通じて変換されたデータを、解釈されたデータとして出力する解釈データ出力段階(S160)とを含むことができる。
また、Synapperモデルを用いた自然語処理方法における第1変換段階(S120)では、入力された単語を2進数/10進数コードに変換することができる。
また、入力された単語を10進数コードに変換したとき、前の2桁は品詞を示すことができる。
また、解釈及び出力段階(S140)では、レジスタセットで各神経概念コード(NCC)の品詞を分析し、文章に対する正しい解釈が何かを決定することができる。
また、解釈及び出力段階(S140)では、第1変換段階(S120)を通じて文章の全ての単語が神経概念コード(NCC)に変換されると、Synapperモデルユニット(SMU)で文章の構文構造が決定されて解釈され、解釈された神経概念コード(NCC)として出力することができる。
また、解釈及び出力段階(S140)では、使用されるキャッシュメモリ240は、Synapperモデルユニットを通じて解釈されたデータを、出力を生成するために臨時に格納することができる。
また、解釈及び出力段階(S140)では、テキストランダムアクセスメモリ(TRAM)310が使用される場合、キャッシュメモリ240で処理しにくい多量の文章にアクセスできるようにSynapperモデルデータを格納することができる。
また、解釈及び出力段階(S140)では、フラッシュメモリ320が使用される場合、重要な情報が含まれた文章を後でアクセスできるように格納することができる。
また、解釈及び出力段階(S140)では、Synapperモデルは、自然語で他の方式で表現された単語で構成された文章に分離し、文章内の各単語の品詞及び隣接単語の品詞に基づいて単語のうちどれが枝で、どれがノードであるのかを決定することができる。
また、解釈及び出力段階(S140)では、Synapperモデルは、ノード及び枝を決定した後、各ノードを第1方向に互いに連結し、各枝は、第1方向以外の他の方向に対応する各ノードに連結することができる。
より具体的には、Synapperモデルユニット(SMU)を用いた自然語処理方法における処理過程を検討すると、例えば、「ヨンヒがチョルス家に行った。」という文章がある場合、このデータをCPUや他のソースからテキストの形態で受信することができる。
受信されたデータがテキストでない場合はテキストに変換する。
この文章は、一般的な各単語で構成されているので、第1変換段階(S120)で第1コード変換器(WNC)160を通じて各単語を神経概念コード(NCC)に変換する。
このとき、各助詞は全部除去され得る。
ヨンヒ(が)チョルス家に行った。
→ヨンヒチョルス家に行った。
→0012334534 0035475344 0084023453 2048554671 0587335288
この神経概念コードは、人が理解しやすいように10進数で表記し、処理は二進数で行うことができる。よって、該当のデータは、言語処理装置(LPU)に伝達された後、制御装置 210を通じてレジスタ220に伝達される。
PNP:0012334534
PVP:0587335288
SP:0035475344 0084023453 2048554671
次に、Synapperモデルユニット(SMU)で、該当のデータに基づいて解釈データを生成する。
例として、「名詞の後に名詞が入ると、枝として処理(if Word03 and Word04 == 「noun」 then …)規則を通じて各NCCがどのように連結されるのかを決定する。そして、その順序に合わせて再び文章で羅列する。英語への翻訳が目的であれば、次の通りである。
(CE 1) + PNP + (CE 2) + PVP + (CE 3)+ SP + (CE4)
0012334534 + 0587335288 + 2048554671+ 0035475344 + 0084023453
0012334534 - 0587335288 - 2048554671- 0035475344 | 0084023453
そして、このSynapperモデルは、キャッシュメモリに移動させ、必要によってTRAMに格納することもできる。
該当の実施例では、作業が終了したので、言語処理装置(LPU)から第2コード変換器(NWC)170に該当のデータを送る。
第2コード変換器(NWC)170は、神経概念コード(NCC)を英語の単語に変換する。
0012334534 - 0587335288 - 2048554671 - 0035475344 | 0084023453
younghee - went - to - cheolsoo | house
CPU 100でこの出力値を受け取り、これを一般的な線形文章構造に変換させる。特定の言語にのみ該当する各規則は、CPUで既存の多くの方法で各言語の文法に合わせて修正する。
younghee went to cheolsoo house
→ Younghee went to Cheolsoo’s house.
したがって、本発明によると、マシンランニング技術をベースとする現在のNMT(neural machine translation)とは異なり、翻訳時に原本文を毀損しない。
Synapperモデルで原本文の構文構造を見出すと、その構造内で全ての言語の翻訳文を作成することができる。
人間が作った文章をそのまま維持しながら翻訳文が抽出されるので、翻訳が自然且つ正確になる。
また、本発明は、ビッグデータを必要としないので、学習する過程も必要ない。
マシンランニング基盤のSMTやNMTアルゴリズムは、特定の言語ごとに別途に学習させなければならない。例として、ネイバーのPapagoは、学習されたデータが多い英語→韓国語、韓国語→英語の翻訳には優れているが、ウズベク語→ベトナム語などのような他の言語の組み合わせには翻訳性能が低下し得る。しかし、本発明に係るSynapperモデルを用いた自然語処理方法は、基本的に全ての言語に同一に適用できるので、翻訳性能が低下し得るという問題を解決することができる。
さらに、Synapperモデル(SMU)は、各文章の正確な構造を見出すことができ、各文章の意味に対する情報も有することができる。遺伝子構造が分かれば多くのことが可能になるように、文章の構造が分かると、既存には不可能であったり困難であったことが可能になる。すなわち、文章構造を分析すると、この文章が肯定的な表現であるのか、それとも否定的な表現であるのかを確認することができる。
したがって、現在、マシンランニング基盤のアルゴリズムが必要とする電力消費や演算力が要求されないので、簡単な作業であれば、一般のスマートフォン機器でも十分に処理が可能である。そのため、インターネットに接続されていなくても、本人が所有した機器で自然語処理が可能になる。膨大な量の文章を速く処理しなければならない場合、上記のプロセスをハードウェアチップで設計すると、より速い性能を期待することができる。
結論として、本発明によると、Synapperモデルユニットを用いて自然語を処理する場合、ビッグデータがなくても非常に速い速度で自然語処理が可能であり、高い正確度及び一貫性がある自然語処理を行えるという効果を有する。
以上で説明したシステムは、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素とソフトウェア構成要素との組み合わせで具現され得る。例えば、処理システムは、運営体制(OS)及び前記運営体制上で行われる一つ以上のソフトウェアアプリケーションを行うことができる。また、処理システムは、ソフトウェアの実行に応答して、データを接近、格納、操作、処理及び生成することもできる。理解の便宜のために、一つの処理装置が使用されることを説明した場合もあるが、該当の技術分野で通常の知識を有する者であれば、処理システムが複数個の処理要素及び/又は複数類型の処理要素を含み得ることが分かる。例えば、処理システムは、複数個のプロセッサ、又は一つのプロセッサ及び一つのコントローラを含むことができる。また、並列プロセッサなどの他の処理構成も可能である。
ソフトウェアは、コンピュータープログラム、コード、命令、又はこれらのうち一つ以上の組み合わせを含むことができ、望みどおりに動作するように処理システムを構成したり、処理システムで独立的に又は結合的に動作することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり、処理システムに命令又はデータを提供するために、一定の類型の機械、構成要素、物理的装置、仮想装置、コンピューター格納媒体又は装置に具体化され得る。ソフトウェアは、ネットワークで連結されたコンピューターシステム上に分散され、分散された方法で格納又は実行されることもある。ソフトウェア及びデータは、一つ以上のコンピューター判読可能な記録媒体に格納され得る。
実施例に係る方法は、多様なコンピューター手段を通じて行われ得るプログラム命令形態で具現され、コンピューター判読可能な媒体に記録され得る。前記コンピューター判読可能な媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記媒体に記録されるプログラム命令は、実施例のために特別に設計されて構成されたものであってもよく、コンピューターソフトウェアの当業者に公知の使用可能なものであってもよい。コンピューター判読可能な記録媒体の例には、ハードディスク、プロッピーディスク及び磁気テープなどの磁気記録媒体と、CD-ROM、DVDなどの光学データ記憶媒体と、フロプティカルディスクなどの磁気-光媒体と、ROM(Read Only Memory)、RAM、フラッシュメモリなどのプログラム命令を格納して行うように特別に構成されたハードウェア装置とが含まれる。プログラム命令の例には、コンパイラによって作られる機械語コードのみならず、インタープリターなどを使用してコンピューターによって実行され得る高級言語コードを含む。
以上では、本発明に係るSynapperモデルユニットを用いた自然語処理システム及び方法に関する具体的な実施例について説明したが、本発明の範囲から逸脱しない限度内で様々な実施変形が可能であることは自明である。そのため、本発明の範囲は、説明した実施例に限定して定められてはならなく、後述する特許請求の範囲のみならず、この特許請求の範囲と均等なものによって定められなければならない。
すなわち、上述した実施例は、全ての面で例示的なものであって、限定的なものではないことを理解しなければならなく、本発明の範囲は、詳細な説明よりは後述する特許請求の範囲によって示され、その特許請求の範囲の意味、範囲、及びその等価概念から導出される全ての変更又は変形した形態が本発明の範囲に含まれるものと解釈しなければならない。
100 CPU
110 入力装置
120 アナログ-デジタル変換器(ADC)
160 第1コード変換器(WNC:Word-to-NCC Converter)
170 第2コード変換器(NWC:NCC-to-Word Converter)
180 デジタル-アナログ変換器(DAC)
190 出力装置
200 言語処理装置(LPU)
210 制御装置
220 レジスタ
230 Synapperモデルユニット(SMU)
240 キャッシュメモリ
310 テキストランダムアクセスメモリ(TRAM)
320 フラッシュメモリ

Claims (5)

  1. コンピュータが実行する自然語処理方法であって、
    自然語で書かれたり発音されたテキストを受け取り、これを単語で構成された文章に変換する前処理段階;
    前記前処理段階を通じて前記単語で構成された文章内の各単語を、第1コード変換器(WNC)を通じて、2進数の神経概念コード(NCC)に変換する第1変換段階;
    前記第1変換段階を通じて変換された前記神経概念コードを言語処理装置のSynapperモデルに入力する段階;
    前記言語処理装置の前記Synapperモデルを通じて認識された前記神経概念コードを解釈し、解釈されたデータを出力する解釈及び出力段階;
    前記言語処理装置で解釈されて出力されたデータの前記神経概念コードを、第2コード変換器(NWC)を通じて単語データに変換する第2変換段階;及び
    前記第2変換段階を通じて変換された前記単語データを、前記解釈されたデータとして出力する解釈データ出力段階;を含
    前記解釈及び出力段階における前記神経概念コードの解釈では、前記神経概念コードの10進数表現で最初の2桁を2進数で表した数字を用いて前記文章の構文構造が決定される、自然語処理方法。
  2. 前記解釈及び出力段階では、
    レジスタセットで、前記神経概念コード(NCC)の前記最初の2桁が示す品詞を、前記Synapperモデルで用いられる前記品詞に関する規則を通じて分析し、前記文章の前記構文構造を決定する、請求項1に記載の自然語処理方法。
  3. 前記解釈及び出力段階では、
    前記構文構造が決定された前記文章内の各単語の前記神経概念コード(NCC)を前記解釈されたデータとして出力する、請求項1に記載の自然語処理方法。
  4. 前記解釈及び出力段階では、
    キャッシュメモリは、前記Synapperモデルを通じて解釈されたデータを、出力を生成するために臨時に格納する、請求項1に記載の自然語処理方法。
  5. 自然語で書かれた文章を入力する入力装置;
    前記入力装置に入力されたアナログデータをデジタルデータに変換するアナログ-デジタル変換器(ADC);
    前記デジタルデータに変換されたデータを、2進数の神経概念コードに変換する第1コード変換器(WNC);
    前記第1コード変換器(WNC)を通じて入力される前記神経概念コードをSynapperモデルを通じて解釈して出力する言語処理装置;
    前記言語処理装置から出力された前記神経概念コードを、解釈された単語データに変換する第2コード変換器(NWC);
    前記第2コード変換器(NWC)を通じて変換された前記単語データであるデジタルデータをアナログデータに変換するデジタル-アナログ変換器(DAC);及び
    前記デジタル-アナログ変換器(DAC)を通じて変換されたデータを、解釈された自然語で出力する出力装置;を含
    前記言語処理装置による前記神経概念コードの解釈では、前記神経概念コードの10進数表現で最初の2桁を2進数で表した数字を用いて前記文章の構文構造が決定される、Synapperモデルユニットを用いた自然語処理システム。
JP2022157480A 2022-08-02 2022-09-30 Synapperモデルユニットを用いた自然語処理システム及び方法 Active JP7511614B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0096224 2022-08-02
KR1020220096224A KR20240018229A (ko) 2022-08-02 2022-08-02 시내퍼 모델을 이용한 자연어 처리 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2024021023A JP2024021023A (ja) 2024-02-15
JP7511614B2 true JP7511614B2 (ja) 2024-07-05

Family

ID=83546721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022157480A Active JP7511614B2 (ja) 2022-08-02 2022-09-30 Synapperモデルユニットを用いた自然語処理システム及び方法

Country Status (7)

Country Link
US (1) US11636275B1 (ja)
EP (1) EP4318300A1 (ja)
JP (1) JP7511614B2 (ja)
KR (2) KR20240018229A (ja)
CN (1) CN117494696A (ja)
CA (1) CA3197945A1 (ja)
TW (1) TWI822370B (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295884A (ja) 2003-03-25 2004-10-21 Microsoft Corp 自然言語生成システムの文章実現における順序付けのための構成素構造の言語的な情報に基づく統計モデル
US20130013291A1 (en) 2011-07-06 2013-01-10 Invertix Corporation Systems and methods for sentence comparison and sentence-based search
JP2018018286A (ja) 2016-07-27 2018-02-01 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
US20200243076A1 (en) 2019-01-27 2020-07-30 Min Ku Kim Multi-Dimensional Parsing Method and System for Natural Language Processing
JP2020161111A (ja) 2019-03-27 2020-10-01 ワールド ヴァーテックス カンパニー リミテッド 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
AUPR956901A0 (en) * 2001-12-17 2002-01-24 Jayaratne, Neville Real time translator
US7433893B2 (en) * 2004-03-08 2008-10-07 Marpex Inc. Method and system for compression indexing and efficient proximity search of text data
JP5309480B2 (ja) * 2007-06-14 2013-10-09 沖電気工業株式会社 文字列入力装置、文字列入力方法およびプログラム
US20100121630A1 (en) * 2008-11-07 2010-05-13 Lingupedia Investments S. A R. L. Language processing systems and methods
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
TWI660340B (zh) * 2017-11-03 2019-05-21 財團法人資訊工業策進會 聲控方法及系統
CN111368923B (zh) * 2020-03-05 2023-12-19 上海商汤智能科技有限公司 神经网络训练方法及装置、电子设备和存储介质
US11544457B2 (en) * 2020-03-25 2023-01-03 Adobe Inc. Machine learning based abbreviation expansion
US20220050967A1 (en) * 2020-08-11 2022-02-17 Adobe Inc. Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
TWI769520B (zh) * 2020-09-07 2022-07-01 和碩聯合科技股份有限公司 多國語言語音辨識及翻譯方法與相關的系統
TWM607509U (zh) * 2020-09-25 2021-02-11 國泰人壽保險股份有限公司 語音服務系統
KR102427934B1 (ko) 2020-10-15 2022-08-02 한동대학교 산학협력단 신경망 기반의 고유명사 기호화를 이용한 번역 방법 및 그 시스템
US11837221B2 (en) * 2021-02-26 2023-12-05 Rovi Guides, Inc. Age-sensitive automatic speech recognition
US11119985B1 (en) * 2021-03-19 2021-09-14 Atlassian Pty Ltd. Apparatuses, methods, and computer program products for the programmatic documentation of extrinsic event based data objects in a collaborative documentation service

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295884A (ja) 2003-03-25 2004-10-21 Microsoft Corp 自然言語生成システムの文章実現における順序付けのための構成素構造の言語的な情報に基づく統計モデル
US20130013291A1 (en) 2011-07-06 2013-01-10 Invertix Corporation Systems and methods for sentence comparison and sentence-based search
JP2018018286A (ja) 2016-07-27 2018-02-01 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
US20200243076A1 (en) 2019-01-27 2020-07-30 Min Ku Kim Multi-Dimensional Parsing Method and System for Natural Language Processing
JP2020161111A (ja) 2019-03-27 2020-10-01 ワールド ヴァーテックス カンパニー リミテッド 神経網基盤機械翻訳およびマスコーパス(Math Corpus)を利用した数学問題概念類型予測サービス提供方法

Also Published As

Publication number Publication date
TW202407576A (zh) 2024-02-16
CN117494696A (zh) 2024-02-02
KR20240018401A (ko) 2024-02-13
KR20240018229A (ko) 2024-02-13
EP4318300A1 (en) 2024-02-07
JP2024021023A (ja) 2024-02-15
US11636275B1 (en) 2023-04-25
TWI822370B (zh) 2023-11-11
CA3197945A1 (en) 2024-02-02

Similar Documents

Publication Publication Date Title
Kalyan et al. Ammus: A survey of transformer-based pretrained models in natural language processing
JP7072585B2 (ja) 文脈固有の単語ベクトルを用いた自然言語処理
Zhang et al. A simple and effective neural model for joint word segmentation and POS tagging
Zhang et al. SG-Net: Syntax guided transformer for language representation
US12045569B2 (en) Graph-based cross-lingual zero-shot transfer
US12050870B2 (en) Cross-lingual zero-shot transfer via semantic and synthetic representation learning
Chennoufi et al. Morphological, syntactic and diacritics rules for automatic diacritization of Arabic sentences
Wang et al. Automatic paper writing based on a RNN and the TextRank algorithm
Yang et al. Improving tree-based neural machine translation with dynamic lexicalized dependency encoding
Ballesteros et al. Greedy transition-based dependency parsing with stack lstms
Li et al. Empowering Large Language Models for Textual Data Augmentation
US11544468B2 (en) Document text extraction to field-specific computer executable operations
JP7511614B2 (ja) Synapperモデルユニットを用いた自然語処理システム及び方法
Han et al. Lexicalized neural unsupervised dependency parsing
Lee et al. Ensemble multi-channel neural networks for scientific language editing evaluation
Nawar et al. Fast and robust arabic error correction system
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
Haertel et al. Automatic diacritization for low-resource languages using a hybrid word and consonant CMM
WO2014030258A1 (ja) 形態素解析装置、テキスト分析方法、及びそのプログラム
Rahman et al. Dense word representation utilization in Indonesian dependency parsing
Kumar et al. Efficient text normalization via hybrid bi-directional lstm
do Carmo Chasing the Complexity of Threads from the Translation Process that Hide in Translation Data
de Paula Barros Baêta et al. Top-Down Parsing Error Correction Applied to Part of Speech Tagging
Chan Automatic linguistic resolution: framework and applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240625