[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5293607B2 - 略語生成装置およびプログラム、並びに、略語生成方法 - Google Patents

略語生成装置およびプログラム、並びに、略語生成方法 Download PDF

Info

Publication number
JP5293607B2
JP5293607B2 JP2009534254A JP2009534254A JP5293607B2 JP 5293607 B2 JP5293607 B2 JP 5293607B2 JP 2009534254 A JP2009534254 A JP 2009534254A JP 2009534254 A JP2009534254 A JP 2009534254A JP 5293607 B2 JP5293607 B2 JP 5293607B2
Authority
JP
Japan
Prior art keywords
abbreviation
word
original
abbreviations
original word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009534254A
Other languages
English (en)
Other versions
JPWO2009041220A1 (ja
Inventor
雅弘 西光
清一 三木
健 花沢
山本  仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009534254A priority Critical patent/JP5293607B2/ja
Publication of JPWO2009041220A1 publication Critical patent/JPWO2009041220A1/ja
Application granted granted Critical
Publication of JP5293607B2 publication Critical patent/JP5293607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)
  • Character Discrimination (AREA)

Description

本発明は、ある単語の表記・音韻等を組み合わせて、表記・音韻上は異なるが同じ物・事を表す別の表記を生成する略語生成装置に関し、特に人手にかかる労力が少なく、かつ高精度にその略語を生成する略語生成装置等に関する。
世間一般に通常用いられている語のなかには、ある語の表記・音韻等を組み合わせて、表記・音韻上は異なるが同じ物・事を表す語(以下、略語という。)が存在する。例えば、「パーソナルコンピュータ」を表す略語として「パソコン」、「シネマコンプレックス」を表す略語として「シネコン」などがある。なお、日本語では、「パーソナルコンピュータ」の略語として「パソコン」が一般的に使用されている。これらの略語は、世間一般で日常用いられている語であり、日常会話や文書等にも頻繁に出現する。したがって、日常会話や文書等を処理する、音声認識、音声検索、テキスト検索、機械翻訳等の音声言語処理においては、これらの略語を元の語と同義な語と認定し、各々の音声言語処理に用いる単語辞書にその語を登録する必要がある。従来、このような略語を生成する技術として、例えば、特許文献1及び非特許文献1に記載のものがある。
特許文献1に記載の技術は、ある語を構成単語に分割し、その構成単語ごとのモーラ列(読みがな列)を生成し、事前に用意した生成規則に基づいてそのモーラ列からモーラを取り出して連接することにより略語を生成する。非特許文献1に記載の技術は、ある語を構成単語に分割し、事前に用意した生成規則に関する5種類の確率モデルに基づいて、元の語の表記の部分の組み合わせから略語を生成する。
特許第3724649号 村山起文、奥村学、"Noisy−channelmodelを用いた略語自動推定"、言語処理学会全国大会、日本、2006年、3月13日
しかしながら、上記特許文献1及び非特許文献1に記載の技術は、事前に人手で用意した生成規則に基づき略語を生成するため、高精度に略語を生成するための生成規則の構築に特殊な専門知識と膨大な労力を必要とするという課題がある。
本発明は、このような問題点を解決するためになされたものであり、特殊な専門知識と膨大な労力を必要せず、かつ高精度な略語生成装置、略語生成方法及びプログラムを提供することを目的とする。
本発明に係る略語生成装置は、ある単語の略語を生成する略語生成装置であって、単語を特徴量系列に分析する単語分析部と、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルを参照し、前記単語分析部の分析結果である特徴量系列から前記単語の略語を生成する略語生成部とを備えるものである。
本発明に係る略語生成方法は、ある単語の略語を生成する略語生成方法であって、単語を特徴量系列に分析する単語分析工程と、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルを参照し、前記単語分析工程の分析結果である特徴量系列から前記単語の略語を生成する略語生成工程とを有するものである。
本発明に係るプログラムは、ある単語の略語を生成する動作をコンピュータに実行させるためのプログラムであって、単語を特徴量系列に分析する単語分析工程と、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルを参照し、前記単語分析工程の分析結果である特徴量系列から前記単語の略語を生成する略語生成工程とを有するものである。
本発明によれば、語の構成単語やそのモーラ等の複数の情報を用いて、機械学習に基づき自動的に構築した略語生成モデルを用いて略語を生成する。これにより、略語生成の上で従来必要としていた生成規則構築に要する特殊な専門知識と膨大な労力を削減することができる。また、人手で生成規則を構築する際には困難であった原語に関する複数の素性の組み合わせが実行可能となり、略語の生成精度を向上させることができる。
本発明の第1の実施例に係る略語生成装置を示すブロック図である。 本発明の第1の実施例に係る略語生成装置の動作を示すフローチャートである。 本発明の第1の実施例に係る略語生成装置の動作の具体例を示す図である。 略語生成モデルを学習するための学習データの一例を示す図である。 略語生成部が一時的に生成する中間データ等を記憶するテーブルの一例を示す図である。 本発明の第1の実施例に係る略語生成装置の動作の他の具体例を示す図である。 本発明の第2の実施例に係る略語生成装置を示すブロック図である。 本発明の第2の実施例に係る略語生成装置の動作を示すフローチャートである。 本発明の第2の実施例に係る略語生成装置の動作の具体例を示す図である。 原語「着信メロディ」と各略語の共起頻度のテーブルの一例を示す図である。 本発明の実施例にかかるコンピュータを示す図である。
符号の説明
11 単語解析部
12 略語生成部
13 原語
14 略語生成モデル
15 略語
16 単語分析用辞書
21 略語判定部
22 原語リソース
101 略語生成装置
102 略語生成装置
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、語の構成単語やそのモーラ等の複数の情報を用いて、機械学習に基づき自動的に構築した略語生成モデルを用いて略語を生成する略語生成装置に適用したものである。
図1は、本発明の実施例に係る略語生成装置を示す図である。本実施形態の略語生成装置101は、単語分析部11と、略語生成部12と、略語生成モデル14とを備える。単語分析部11、及び略語生成部12は、略語生成装置101のCPU(Central Processing Unit)(図示略)が実行するプログラムに対応する構成要素である。原語13及び略語15は、略語生成装置101の記憶デバイス(図示略)に記憶されたデータである。単語分析用辞書16は、単語分析部11において単語を分析するための辞書である。
原語13は、略語を生成するための元となる語を示す。本実施例において、略語13は、音声言語処理にて用いられる単語辞書に登録された単語の集合、WWWから収集したテキストデータから抽出される単語の集合のような予め用意された語である。
単語分析部11は、単語分析用辞書16を用いて原語13を分析し、所定の原語に関する特徴量系列を抽出して略語生成部12に提供する。本実施例において、原語に関する特徴量系列とは、例えば原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、音素の系列である。他にも、原語に含まれる単語の属性(表記、読み、単語位置、単語数、文字位置、文字数、モーラ位置、モーラ数、音素数、品詞、細品詞、格パタン、活用形、意味属性、類義語、重要度(例えばtf(単語の出現頻度)−idf(逆出現頻度)値等)など)、原語に含まれる単語間の関係(共起、係り受けなど)、原語を含む文の構造(構文構造、文の構成要素、文法パタン、章・節・段落構造、起承転結構造など)、原語を含む文の意味内容(文書・段落・文の話題語、要約、キーワードなど)などの系列を用いても良い。
ここで、特徴量系列の抽出とは、該当する特徴量の値を計算することや、特徴量の出現頻度を求める処理を指す。略語生成モデル14は、単語分析部11において抽出された、原語に関する特徴量系列に基づき略語を生成するために統計的に学習されたモデルである。略語生成モデル14は、本実施例では、条件付確率場(CRF:Conditional Random Fields)モデルを用いることができる。このとき、略語生成モデル14を次の式(1)のように定義することができる。
Figure 0005293607
式(1)において、"x"は略語を生成するための元となる原語13である。また、"y"は略語生成の結果であり、例えば、略語としてあるモーラを用いるか否かのラベル系列(すなわち、略語として得られる文字列そのもの)であり、"P(y|x)"は"x"に対する"y"の生起確率である。また、各ラベルに関する信頼度なども算出可能である。"Λ"はモデルパラメタの集合である。"Φ(y,x)"は特徴量の値の集合であり、単語分析部11が抽出した原語に関する複数の特徴量、もしくはそれらの組み合わせである。"Zx"は正規化項である。略語生成モデル14としては、この他に、ニューラルネットワーク、隠れマルコフモデル(HMM)、あるいは、サポートベクタマシン(SVM)などを用いることができる。
略語生成部12は、単語分析部11において抽出された、原語に関する特徴量系列と、略語生成モデル14を用いて略語を生成し、出力する。略語生成部12は、略語生成モデル14として、例えば略語構成文字にラベルを付与するラベルモデルを使用することができる。略語15は、略語生成部12が出力した略語仮説を表し、例えば、複数の略語仮説を含むNベストで表現される。
図2に示すフローチャートを参照して、上記の略語生成装置101の動作について説明する。略語生成装置101は、記憶デバイスから原語13および略語生成モデル14を読み出すと、原語13を単語分析部11へ入力し、略語生成モデル14を略語生成部12へ入力する(ステップS1)。また、単語解析用辞書16を単語解析部11へ入力する。
単語分析部11は、単語分析用辞書16を用いて、入力された原語13から原語に関する特徴量系列を抽出する(ステップS2)。そして、略語生成部12が、抽出された原語に関する特徴量系列および略語生成モデル14を用いて略語15を求め、それを記憶デバイスに保存する(ステップS3)。
次に、図2に示された略語生成装置101の具体的な動作例について説明する。このときの具体例として、原語13を「着信メロディ」とし、略語生成モデル14を、抽出された特徴量系列に基づき、原語の各モーラに略語の読みとなるか否かのラベルを付与する条件付確率場モデルとする。なお、日本語では、「着信メロディ」を意味する「チャクシンメロディ」という原語を、「チャクメロ」と略すことがある。図3は、その具体例を示したフローチャートであり、図4は略語生成モデル14を学習するための学習データの例であり、図5は略語生成部12が一時的に生成する中間データ等を記憶するテーブルの例である。
略語生成装置101は、記憶デバイスから原語13および略語生成モデル14を読み出すと、原語13である「着信メロディ」を単語分析部11へ入力し、略語生成モデル14を略語生成部12へ入力する(ステップS1)。
単語分析部11は、単語分析用辞書16を用いて、例えば形態素解析等を行うことで入力された原語13から原語に関する特徴量系列を抽出する(ステップS2)。つまり、原語「着信メロディ」から、例えば、原語に含まれる単語として「着信」「メロディ」や、その単語の読み「着信(チャクシン)」、「メロディ」、単語の読みから構成されるモーラ列「チャクシンメロディ」、モーラ列に含まれる各モーラに対応する文字「チャ(着)」などが抽出される。
次に、略語生成部12が、抽出された原語「着信メロディ」に対する特徴量系列である「着信」「メロディ」「着信(チャクシン)」「チャクシンメロディ」などから、略語生成モデル14を用いて略語15を求め、それを記憶デバイスに保存する(ステップS3)。このとき、略語生成モデル14は、単語分析部11において抽出された特徴量系列に基づき、略語の読みとなるか否かのラベルを付与する条件付確率場モデルであり、例えば図4に示すようなデータから学習される。
図4の学習データは、原語の読み(例えば「テレフォンカード」や「ケイタイデンワ」)とそのうちどの部分が略語の読みとして採用されたか(例えば「テレカ」や「ケータイ」)が、単語分析部11で用いられる原語に関する特徴量とともに記録されており、このようなデータを用意して学習させることで、この具体例で示す略語生成モデル14を得ることができる。なお、日本語では、「テレフォンカード」の略語として「テレカ」が一般的に使用され、「携帯電話」の略語として、「ケータイ」が一般的に使用されている。
略語生成部12では「着信メロディ」のモーラ列「チャクシンメロディ」の各モーラに対して、図5に示すように原語の特徴量に略語生成モデル14を適用し、略語とするか否かのラベル「○」「×」を「○○××○○×」のように付与し出力することで、「チャクシンメロディ」から「チャク(シン)メロ(ディ)」(カッコ内は略語として用いない、すなわち「×」となることを示す)という略語を生成する。
ここで、図5に示す「文字境界」とは、文字(漢字、ひらがな、カタカナ)の先頭となる文字(読み)を指す。例えば「着」の文字(漢字)であれば、読みは「チャ」「ク」の2語であり、このうちの先頭の「チャ」が文字境界となる(「チャ」の欄→「1」)。一方、「ク」は、読みの先頭にならないため、「0」が記入される。同様に、「信」の文字(漢字)の読みは、「シ」「ン」であり、「シ」が「信」の読みの先頭であるため文字境界となる(「シ」の欄→「1」)。また、カタカナの場合は、常に一文字は一文字の読み方(「メ」の読みは、「め」の一文字)であるので、全てのカタカナは、文字境界となり、「1」が格納される。ひらがなも同様である。
この「○」「×」のラベル系列に対して生起確率が算出され、複数の略語候補(例えばこの例では「チャク(シン)メロ(ディ)」や「チャク(シン)メ(ロディ)」等)に対し、候補毎にその妥当性を示す値を付与することができる。すなわち、例えば「○○××○○×(チャクメロ):0.81」「○○××○××(チャクメ):0.07」などが得られ、例えばスコアの良い順に並べることでNベストが実現できる。
図6は、本発明の第1の実施例に係る略語生成装置の動作を示す他の具体例を示す図である。略語生成部12では「Abbreviation」の文字列「Abbreviation」の各文字に対して、原語の特徴量に略語生成モデル14を適用する。そして、各文字に対して略語とするか否かのラベル「○」「×」を「○○○○○○××××××」のように付与し出力する。この結果、「Abbreviation」から「Abbrev(iation)」(カッコ内は略語として用いない、すなわち「×」となることを示す)という略語を生成する。
以上説明した第1の実施例によれば、人手で構築された略語生成規則を用いるのではなく、原語に関する複数の特徴量に基づく比較的容易に構築可能な統計的な略語生成モデルを用いて、略語を生成することができる。これにより、従来、特殊な専門知識と膨大な労力を必要としていた略語の生成規則を構築する必要がなく、少ない労力で略語を生成できる。また、機械学習に基づく統計的な略語生成モデルを用いることにより、人手で生成規則を構築する際には困難であった原語に関する複数の素性の組み合わせが実行可能となり、略語の生成精度を向上させることができる。
次に、本発明の第2の実施例について説明する。図7に、本発明の第2の実施例に係る略語生成装置の構成を示す。なお、第1の実施例と同一の構成要素には同一の符号を付しその詳細な説明は省略する。本実施例の略語生成装置102の構成は、上述の第1の実施形態の構成(図1)に略語判定部21を付加したものである。また、略語の判定を行うためのリソースとして、言語リソース22を用いる。
言語リソース22は、音声言語処理において対象とするドメインごとに登録された文書データの集合、あるいは、WWWから収集したテキストデータの集合、もしくは、略語生成部12により生成された当該略語をクエリとして、検索エンジンにより収集されたテキストデータの集合のような、言語リソースである。また、略語生成装置をネットワークに接続することで、インターネット上に存在するすべての用語を略語を判定するために使用してもよい。
略語判定部21は、言語リソース22を用いて、略語生成部12により生成された当該略語に対して、その略語が好適であるかどうかの判定を行う。判定の方法としては、例えば、略語生成部12において生成された略語の、言語リソース22における出現頻度や、原語13との共起頻度、原語13と共起する語と略語生成部において生成された略語と共起する語の頻度などを基に、当該略語の確からしさを判定する。他には、原語リソース22における、略語の表記文字列の出現しやすさ(表記文字n−gram)や、略語の読みの出現しやすさ(読みn−gram)、略語の文字数の傾向も略語の確からしさを判定する基準として用いることができる。
図8に示すフローチャートを参照して、略語生成装置102の動作について説明する。単語分析部11と略語生成部12が略語を生成するまでの処理(ステップS11、S12、S13)は、略語生成装置101に関し、図2により説明した手順と同様であり、説明を省略する。
略語判定部21は、言語リソース22を用いて、略語生成部12により生成された略語の判定を行い、その判定結果に基づいて略語を出力する(ステップS34)。具体的には、あらかじめ用意されたデータベースである言語リソース22において、生成された略語の出現頻度又は生成された略語と元の単語との共起頻度を基に、当該略語の確からしさを判定する。
次に、図8に示された略語生成装置102の具体的な動作例について説明する。図9は、その具体例を示したフローチャートであり、図10は略語判定部21が一時的に生成する中間データ等を記憶するテーブルの例である。
単語分析部11と略語生成部12が略語を生成するまでの処理(ステップS41、S42、S43)は、略語生成装置101に関し、図3により説明した手順と同様であり、説明を省略する。
略語判定部21は、言語リソース22として例えばWWWから収集したテキストデータを用いて、略語生成部12により「着信メロディ」の略語として生成された略語「チャクメロ」「チャクメ」「チャクシン」に対して、例えば原語「着信メロディ」と生成された各略語の共起頻度を求め、図10のような結果を得たとする。この共起頻度は、原語と生成した略語がWWWにおいて共に使われやすいことを示しており、ひいては原語に対する当該略語としての一指標として用いることができる。この指標に基づいて、略語判定部21の出力としては、例えば共起頻度が高い順に略語を出力することで、原語「着信メロディ」の略語としては「チャクメロ」が最も確からしいという結果が得られる。
なお、本実施例では共起頻度が高い順に略語を出力するとしたが、上位N個だけを出力するようにしても良いし、ある一定以上の共起頻度を持つもののみを出力するようにしても良い。また、本実施例では、生成された略語の共起頻度を求める際、生成された略語そのもの、「チャクメロ」を対象としたが、「着メロ」のような、生成された略語のモーラ列に対応する表記上の文字列を対象としてもよい。
また、図9、10では、日本語において用いられる「着信メロディ」の略語である「着メロ」の生成手順について説明したが、本実施形態に係る略語生成装置102は、英語の略語についても生成することができる。例えば、略語生成装置102によって「Abbreviation」の略語「Abbrev」を生成するとする。略語判定部21は、図9に示すフローチャートに従って、言語リソース22として例えばWWWから収集したテキストデータを用いて、略語生成部12により「Abbreviation」の略語として生成された略語「Abbrev」「Abbvi」「Abbation」に対して、原語「Abbreviation」と生成された各略語「Abbrev」「Abbvi」「Abbation」の共起頻度を求める。この指標に基づいて、略語判定部21は、例えば共起頻度が高い順に略語を出力することで、原語「Abbreviation」の略語としては「Abbrev」が最も確からしいという結果が得られる。
本第2の実施例によれば、言語リソース22を用いて、略語生成部12において生成された当該略語に対して、その略語が略語として好適であるかどうかの判定を行うことから、生成された略語の一般性を確保することができる。また、音声言語処理に用いる単語辞書に、本来用いられない、不要な語を登録することを防ぐことができる。
また、このような略語生成を複数回繰り返す構成も可能である。例えば「地上デジタルテレビジョン放送」の略称を生成したい場合に、一段目で「地上ディジタル放送」を生成し、更にそれを原語として二段目に「地デジ」を生成するといった構成が考えられる。このとき、それぞれの段階で用いられる単語分析部における特徴量の種類、単語分析用辞書、略語生成モデルは異なっていてもよい。なお、日本語では、「地上ディジタル放送」を示す「チジョウディジタルホウソウ」という原語を「チデジ」と略すことが一般的に行われている。
以上のような略語生成処理は、専用コンピュータ、又はパーソナルコンピュータ(PC)などのコンピュータにより実現可能である。但し、コンピュータは、物理的に単一である必要はなく、分散処理を実行する場合には、複数であってもよい。図10に示すように、コンピュータ200は、CPU201(Central Processing Unit)、ROM202(Read Only Memory)及びRAM203(Random Access Memory)を有し、これらがバス204を介して相互に接続されている。尚、コンピュータを動作させるためのOSソフトなどは、説明を省略するが、この情報処理装置を構築するコンピュータも当然備えているものとする。
バス204には又、入出力インターフェース205も接続されている。入出力インターフェース205には、例えば、キーボード、マウス、センサなどよりなる入力部206、CRT、LCDなどよりなるディスプレイ、並びにヘッドフォンやスピーカなどよりなる出力部207、ハードディスクなどより構成される記憶部208、モデム、ターミナルアダプタなどより構成される通信部209などが接続されている。
CPU201は、ROM202に記憶されている各種プログラム、又は記憶部208からRAM203にロードされた各種プログラムに従って各種の処理を実行する。本実施例においては、例えば、単語分析処理や、略語生成処理を実行する。RAM203にはまた、CPU201が各種の処理を実行する上において必要なデータなども適宜記憶される。
通信部209は、例えば図示しないインターネットを介しての通信処理を行ったり、CPU201から提供されたデータを送信したり、通信相手から受信したデータをCPU201、RAM203、記憶部208に出力したりする。記憶部208はCPU201との間でやり取りし、情報の保存・消去を行う。通信部209は又、他の装置との間で、アナログ信号又はディジタル信号の通信処理を行う。
入出力インターフェース205は又、必要に応じてドライブ210が接続され、例えば、磁気ディスク211、光ディスク212、フレキシブルディスク213、又は半導体メモリ214などが適宜装着され、それらから読み出されたコンピュータプログラムが必要に応じて記憶部208にインストールされる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。例えば、上述の実施例では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
本発明は、ある単語の表記・音韻等を組み合わせて、表記・音韻上は異なるが同じ物・事を表す別の表記を生成する略語生成装置に適用することができる。

Claims (12)

  1. 略語を生成するための元となる原語の特徴量分析し、その特徴量系列を抽出する単語分析部と、
    あらかじめ特徴量系列を統計的にモデル化した略語生成モデルが格納された略語モデルデータベースを参照して、前記原語から抽出された前記特徴量系列に対して略語となり得るか否かのラベルを付し、このラベルに基づいて前記原語の略語を生成する略語生成部とを備え
    前記単語分析部は、前記原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、及び音素のうちの一つ以上の系列、又は当該原語に含まれる単語の属性の系列、当該原語に含まれる単語間の関係の系列、当該原語を含む文の構造の系列、並びに当該原語を含む文の意味内容の系列の少なくとも一つ以上の系列を前記特徴量系列として抽出し、
    前記略語生成部が参照する前記略語モデルデータベースに格納された前記略語生成モデルは、予め用意された複数のラベルモデルから学習されたものであって、
    当該ラベルモデルは、原語を構成する略語構成文字のそれぞれに対して略語となり得るか否かのラベルが付与されたものであり、
    前記略語構成文字は、表記上の文字、モーラ、及び読みの少なくとも1つ以上からなる略語生成装置。
  2. 前記略語生成部は、前記ラベルモデルとして条件付確率場、隠れマルコフモデル、サポートベクタマシン、及びニューラルネットワークのいずれか1つのアルゴリズムを使用する
    ことを特徴とする請求項項記載の略語生成装置。
  3. 前記生成された略語の出現頻度又は前記生成された略語と元の語との共起頻度を基に、当該略語の確からしさを判定する判定部をさらに備える
    ことを特徴とする請求項1又は2項記載の略語生成装置。
  4. 前記判定部は、あらかじめ用意されたデータベースにおける前記出現頻度又は共起頻度に基づき前記略語の確からしさを判定する
    ことを特徴とする請求項記載の略語生成装置。
  5. ある語の略語を生成する略語生成方法であって、
    CPUが、略語を生成するための元となる原語の特徴量分析し、その特徴量系列を抽出する単語分析工程と、
    CPUが、あらかじめ特徴量系列を統計的にモデル化した略語生成モデルが格納された略語モデルデータベースを参照して、前記単語分析工程により、前記原語から抽出された前記特徴量系列に対して略語となり得るか否かのラベルを付し、このラベルに基づいて前記原語の略語を生成する略語生成工程とを有し、
    前記単語分析工程では、前記原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、及び音素のうちの一つ以上の系列、又は当該原語に含まれる単語の属性の系列、当該原語に含まれる単語間の関係の系列、当該原語を含む文の構造の系列、並びに当該原語を含む文の意味内容の系列の少なくとも一つ以上の系列が前記特徴量系列として抽出され、
    前記略語生成工程で参照される前記略語モデルデータベースに格納された前記略語生成モデルは、予め用意された複数のラベルモデルから学習されたものであって、
    当該ラベルモデルは、原語を構成する略語構成文字のそれぞれに対して略語となり得るか否かのラベルが付与されたものであり、
    前記略語構成文字は、表記上の文字、モーラ、及び読みの少なくとも1つ以上からな
    略語生成方法。
  6. 前記略語生成工程では、前記ラベルモデルとして条件付確率場、隠れマルコフモデル、サポートベクタマシン、及びニューラルネットワークのいずれか1つのアルゴリズムを使用する
    ことを特徴とする請求項項記載の略語生成方法。
  7. 前記生成された略語の出現頻度又は前記生成された略語と元の語との共起頻度を基に、当該略語の確からしさを判定する判定工程をさらに有する
    ことを特徴とする請求項5又は6項記載の略語生成方法。
  8. 前記判定工程では、あらかじめ用意されたデータベースにおける前記出現頻度又は共起頻度に基づき前記略語の確からしさを判定する
    ことを特徴とする請求項記載の略語生成方法。
  9. ある語の略語を生成する動作をコンピュータに実行させるためのプログラムであって、
    略語を生成するための元となる原語の特徴量分析し、その特徴量系列を抽出する単語分析処理と、
    あらかじめ特徴量系列を統計的にモデル化した略語生成モデルが格納された略語モデルデータベースを参照して、前記単語分析処理により、前記原語から抽出された前記特徴量系列に対して略語となり得るか否かのラベルを付し、このラベルに基づいて前記原語の略語を生成する略語生成処理
    をコンピュータに実行させるものであり、
    前記単語分析処理では、前記原語を構成している文字の文字種、文字境界、形態素情報、形態素境界、モーラ、読み、及び音素のうちの一つ以上の系列、又は当該原語に含まれる単語の属性の系列、当該原語に含まれる単語間の関係の系列、当該原語を含む文の構造の系列、並びに当該原語を含む文の意味内容の系列の少なくとも一つ以上の系列が前記特徴量系列として抽出され、
    前記略語生成処理で参照される前記略語モデルデータベースに格納された前記略語生成モデルは、予め用意された複数のラベルモデルから学習されたものであって、
    当該ラベルモデルは、原語を構成する略語構成文字のそれぞれに対して略語となり得るか否かのラベルが付与されたものであり、
    前記略語構成文字は、表記上の文字、モーラ、及び読みの少なくとも1つ以上からなるプログラム。
  10. 前記略語生成処理では、前記ラベルモデルとして条件付確率場、隠れマルコフモデル、サポートベクタマシン、及びニューラルネットワークのいずれか1つのアルゴリズムを使用する
    ことを特徴とする請求項項記載のプログラム。
  11. 前記生成された略語の出現頻度又は前記生成された略語と元の語との共起頻度を基に、当該略語の確からしさを判定する判定処理をさらに有する
    ことを特徴とする請求項9又は10項記載のプログラム。
  12. 前記判定処理では、あらかじめ用意されたデータベースにおける前記出現頻度又は共起頻度に基づき前記略語の確からしさを判定する
    ことを特徴とする請求項11記載のプログラム。
JP2009534254A 2007-09-26 2008-09-02 略語生成装置およびプログラム、並びに、略語生成方法 Active JP5293607B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009534254A JP5293607B2 (ja) 2007-09-26 2008-09-02 略語生成装置およびプログラム、並びに、略語生成方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007248564 2007-09-26
JP2007248564 2007-09-26
JP2009534254A JP5293607B2 (ja) 2007-09-26 2008-09-02 略語生成装置およびプログラム、並びに、略語生成方法
PCT/JP2008/065709 WO2009041220A1 (ja) 2007-09-26 2008-09-02 略語生成装置およびプログラム、並びに、略語生成方法

Publications (2)

Publication Number Publication Date
JPWO2009041220A1 JPWO2009041220A1 (ja) 2011-01-20
JP5293607B2 true JP5293607B2 (ja) 2013-09-18

Family

ID=40511112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009534254A Active JP5293607B2 (ja) 2007-09-26 2008-09-02 略語生成装置およびプログラム、並びに、略語生成方法

Country Status (2)

Country Link
JP (1) JP5293607B2 (ja)
WO (1) WO2009041220A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013121988A1 (ja) * 2012-02-16 2013-08-22 日本電気株式会社 略語生成システム
US10698937B2 (en) 2017-12-13 2020-06-30 Microsoft Technology Licensing, Llc Split mapping for dynamic rendering and maintaining consistency of data processed by applications
WO2022131740A1 (en) * 2020-12-14 2022-06-23 Samsung Electronics Co., Ltd. Methods and systems for generating abbreviations for a target word

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272789A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272789A (ja) * 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
JP2007200252A (ja) * 2006-01-30 2007-08-09 Ricoh Co Ltd 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200800063142; 村山紀文 他1名: 'Noisy-channel modelを用いた略語自動推定' 言語処理学会第12回年次大会発表論文集 , 20060314, 763-766頁, 言語処理学会 *
JPN6013006795; 村山紀文 他1名: 'Noisy-channel modelを用いた略語自動推定' 言語処理学会第12回年次大会発表論文集 , 20060314, 763-766頁, 言語処理学会 *

Also Published As

Publication number Publication date
WO2009041220A1 (ja) 2009-04-02
JPWO2009041220A1 (ja) 2011-01-20

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
US10176804B2 (en) Analyzing textual data
US10402493B2 (en) System and method for inputting text into electronic devices
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
Schuster et al. Japanese and korean voice search
US10606946B2 (en) Learning word embedding using morphological knowledge
US10552533B2 (en) Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
CN102982021B (zh) 用于消除语言转换中的多个读法的歧义的方法
JP2022539138A (ja) 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP7211045B2 (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN114580382A (zh) 文本纠错方法以及装置
US8356065B2 (en) Similar text search method, similar text search system, and similar text search program
US11257484B2 (en) Data-driven and rule-based speech recognition output enhancement
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
EP1617409A1 (en) Multimodal method to provide input to a computing device
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
JP5293607B2 (ja) 略語生成装置およびプログラム、並びに、略語生成方法
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
JP2010231149A (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
KR19980038185A (ko) 자연언어 인터페이스 에이전트 및 그의 의미 분석방법
US12073299B2 (en) Systems and methods for using contrastive pre-training to generate text and code embeddings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130527

R150 Certificate of patent or registration of utility model

Ref document number: 5293607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150