JPH0477857A - 不適切表現検出装置 - Google Patents
不適切表現検出装置Info
- Publication number
- JPH0477857A JPH0477857A JP2186226A JP18622690A JPH0477857A JP H0477857 A JPH0477857 A JP H0477857A JP 2186226 A JP2186226 A JP 2186226A JP 18622690 A JP18622690 A JP 18622690A JP H0477857 A JPH0477857 A JP H0477857A
- Authority
- JP
- Japan
- Prior art keywords
- inappropriate
- message
- word
- warning
- expressions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 131
- 238000001514 detection method Methods 0.000 claims description 23
- 230000000877 morphologic effect Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000000034 method Methods 0.000 description 14
- 230000021615 conjugation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、通信文に含まれる不適切な表現を、その通信
文の種別から自動的に判断して検出することができる不
適切表現検出装置に関するものである。
文の種別から自動的に判断して検出することができる不
適切表現検出装置に関するものである。
通信文において不適切となる表現は、その通信文が属す
る分野(通信文種別)により異なる。例えば、通信文種
別か「弔(悔やみ)」の場合には、′おめでとう″の表
現は不適切であるが、「慶(祝い)JJの場合には不適
切とはならない。このように、通信文における不適切表
現は通信文種別により異なるため、その検出は自動的に
は行えず、全て人手で検出され、訂正されていた。
る分野(通信文種別)により異なる。例えば、通信文種
別か「弔(悔やみ)」の場合には、′おめでとう″の表
現は不適切であるが、「慶(祝い)JJの場合には不適
切とはならない。このように、通信文における不適切表
現は通信文種別により異なるため、その検出は自動的に
は行えず、全て人手で検出され、訂正されていた。
また、新聞に含まれる禁止語を検出する装置においては
、文を単語単位に分割する際に用いる辞書の中に、予め
禁止語を登録しておき、この禁止語を用いて単語分割が
成功したときに、その単語を禁止語としていた。なお、
この禁止語の場合には、分野(通信文種別に対応する)
によらずに−定のものが登録されていた。この種の従来
文献としては、第33回情報処理学会全国大会45−9
゜p、、p、 1.719(1,986)に記載され
ている。
、文を単語単位に分割する際に用いる辞書の中に、予め
禁止語を登録しておき、この禁止語を用いて単語分割が
成功したときに、その単語を禁止語としていた。なお、
この禁止語の場合には、分野(通信文種別に対応する)
によらずに−定のものが登録されていた。この種の従来
文献としては、第33回情報処理学会全国大会45−9
゜p、、p、 1.719(1,986)に記載され
ている。
前述のように、従来の装置においては、(イ)ワードプ
ロセッサによる禁則処理の場合、行頭と行末の禁則文字
や記号を自動的に訂正するのみであり、不適切な表現等
は訂正できない。
ロセッサによる禁則処理の場合、行頭と行末の禁則文字
や記号を自動的に訂正するのみであり、不適切な表現等
は訂正できない。
また、(ロ)通信文の不適切表現を人手により検出する
場合、人間が行うため、検出漏れが生じるおそれがあり
、しかも不適切表現の判断基準が人により異なっていた
。
場合、人間が行うため、検出漏れが生じるおそれがあり
、しかも不適切表現の判断基準が人により異なっていた
。
また、(ハ)新聞に含まれる禁止語を検出する装置の場
合、通信文種別に無関係に禁止語を検出するため、該当
する通信文種別に対して不適切ではない表現までも検出
してしまい、しかも、不適切表現を単語として検出する
ため、不適切な文字を含む表現(例えば、「慶(祝い)
jにおける文字′“死′″)は、全て登録する必要があ
った。
合、通信文種別に無関係に禁止語を検出するため、該当
する通信文種別に対して不適切ではない表現までも検出
してしまい、しかも、不適切表現を単語として検出する
ため、不適切な文字を含む表現(例えば、「慶(祝い)
jにおける文字′“死′″)は、全て登録する必要があ
った。
本発明の目的は、これら従来の課題を解決し、通信文が
属する通信文種別において不適切である表現のみを自動
的に検出することが可能な不適切表現検出装置を提供す
ることにある。
属する通信文種別において不適切である表現のみを自動
的に検出することが可能な不適切表現検出装置を提供す
ることにある。
[課題を解決するための手段〕
上記目的を達成するため、本発明の不適切表現検出装置
は、通信文種別毎に不適切である表現を配列し、不適切
表現毎に該表現の不適切さのレベルを表わす警告レベル
と該警告の内容とを1組として記述した不適切表現辞書
を具備するとともに、例えば、慶、弔、祝い、悔みを含
む通信文種別を入力する手段と、通信文を入力する手段
と、入力された通信文を単語単位に分割して、単語毎に
形態素情報を付与するモジュールと、そのモジュルの実
行により分割された単語毎に、単語の原型情報をキーと
して不適切表現辞書を検索し、単語が入力された上記通
信文種別で不適切な表現であるか否かを判定するモジュ
ールと、そのモジュルの実行により不適切な表現を含む
と判定された単語に、不適切表現辞書の内容に従って不
適切表現の警告レベルと警告内容とを付与するモジュー
ルと、そのモジュールの実行により付与された警告レベ
ルと警告内容とともに、入力された通信文を出力する手
段とを具備することに特徴がある。
は、通信文種別毎に不適切である表現を配列し、不適切
表現毎に該表現の不適切さのレベルを表わす警告レベル
と該警告の内容とを1組として記述した不適切表現辞書
を具備するとともに、例えば、慶、弔、祝い、悔みを含
む通信文種別を入力する手段と、通信文を入力する手段
と、入力された通信文を単語単位に分割して、単語毎に
形態素情報を付与するモジュールと、そのモジュルの実
行により分割された単語毎に、単語の原型情報をキーと
して不適切表現辞書を検索し、単語が入力された上記通
信文種別で不適切な表現であるか否かを判定するモジュ
ールと、そのモジュルの実行により不適切な表現を含む
と判定された単語に、不適切表現辞書の内容に従って不
適切表現の警告レベルと警告内容とを付与するモジュー
ルと、そのモジュールの実行により付与された警告レベ
ルと警告内容とともに、入力された通信文を出力する手
段とを具備することに特徴がある。
本発明においては、通信文種別毎に不適切となる表現を
集め、不適切表現毎にその表現の不適切さのレベルを表
わす警報レベルとその警告の内容を記述した不適切表現
辞書を作成しておく。そして、利用者から通信文とその
通信文が属する通信文種別を入力として受けると、先ず
その通信文を形態素解析し、各単語に形態素情報を付与
する。
集め、不適切表現毎にその表現の不適切さのレベルを表
わす警報レベルとその警告の内容を記述した不適切表現
辞書を作成しておく。そして、利用者から通信文とその
通信文が属する通信文種別を入力として受けると、先ず
その通信文を形態素解析し、各単語に形態素情報を付与
する。
次に、上記不適切表現辞書を検索することにより、その
通信文中にその通信文の属する分野(通信文種別)にお
いて不適切な表現が存在するか否かを自動的に検出する
。その通信文に不適切表現が存在すると判定した場合に
は、不適切表現辞書の内容に従って警告を付与した後、
その通信文を出力する。これにより、その通信の通信文
種別において不適切な表現のみを、入力された通信文中
から確実に検出することができる。
通信文中にその通信文の属する分野(通信文種別)にお
いて不適切な表現が存在するか否かを自動的に検出する
。その通信文に不適切表現が存在すると判定した場合に
は、不適切表現辞書の内容に従って警告を付与した後、
その通信文を出力する。これにより、その通信の通信文
種別において不適切な表現のみを、入力された通信文中
から確実に検出することができる。
〔実施例]
以下、本発明の実施例を、図面により詳細に説明する。
第1図は、本発明の一実施例を示す不適切表現検出装置
の基本ブロック図である。
の基本ブロック図である。
第1図において、9はCPUやメモリ等から構成される
不適切表現検出装置本体、1は通信文の種別を入力する
通信文種別入力部、2は不適切表現を検出すべき対象と
なる通信文を入力する通信文人力部、3は形態素解析を
行う形態素解析部、4は不適切な表現を検出する不適切
表現検出部、5は不適切表現検出部4で検出された表現
に対して、警告のレベルと警告内容とを付与する警告付
与部、6は通信文と警告レベルと警告内容とを出力する
出力部、7は不適切表現を登録する不適切表現辞書、8
はデイスプレィやプリンタ等の出力装置である。ここで
、不適切表現辞書7は表現を登録するためのメモリ装置
、出力装置8はデイスプレィ、プリンタあるいはディス
ク等のハードウェア装置、通信文種別入力部1はキーボ
ード、テンキー等の入力装置、通信文人力部2はワード
プロセッサ等の文字入力装置、および出力部6はドライ
バ、レジスタ等であって、いずれもハードウェアである
。これに対して、形態素解析部3、不適切表現検出部4
、および警告付与部5は、それぞれの機能をプロセッサ
で実行するためのプログラムモジュールであり、不適切
表現検出装置9内のメモリ内に格納されている。
不適切表現検出装置本体、1は通信文の種別を入力する
通信文種別入力部、2は不適切表現を検出すべき対象と
なる通信文を入力する通信文人力部、3は形態素解析を
行う形態素解析部、4は不適切な表現を検出する不適切
表現検出部、5は不適切表現検出部4で検出された表現
に対して、警告のレベルと警告内容とを付与する警告付
与部、6は通信文と警告レベルと警告内容とを出力する
出力部、7は不適切表現を登録する不適切表現辞書、8
はデイスプレィやプリンタ等の出力装置である。ここで
、不適切表現辞書7は表現を登録するためのメモリ装置
、出力装置8はデイスプレィ、プリンタあるいはディス
ク等のハードウェア装置、通信文種別入力部1はキーボ
ード、テンキー等の入力装置、通信文人力部2はワード
プロセッサ等の文字入力装置、および出力部6はドライ
バ、レジスタ等であって、いずれもハードウェアである
。これに対して、形態素解析部3、不適切表現検出部4
、および警告付与部5は、それぞれの機能をプロセッサ
で実行するためのプログラムモジュールであり、不適切
表現検出装置9内のメモリ内に格納されている。
通信文種別入力部1が利用者から通信文の種別(慶、弔
、祝い、悔み等)の入力を受は取るとともに、通信文人
力部2が利用者から通信文自体の入力を受は取る。これ
により形態素解析部3は、通信文人力部2で受は取った
通信文を単語単位に分割し、各単語に原型情報、品詞や
活用形等の形態素情報を付与する。次に、不適切表現検
出部4は、不適切表現辞書7を検索して、受は取った通
信文種別において不適切となる表現が、入力された通信
文中に含まれる場合には、この表現を検出する。
、祝い、悔み等)の入力を受は取るとともに、通信文人
力部2が利用者から通信文自体の入力を受は取る。これ
により形態素解析部3は、通信文人力部2で受は取った
通信文を単語単位に分割し、各単語に原型情報、品詞や
活用形等の形態素情報を付与する。次に、不適切表現検
出部4は、不適切表現辞書7を検索して、受は取った通
信文種別において不適切となる表現が、入力された通信
文中に含まれる場合には、この表現を検出する。
次に、警告付与部5は、不適切表現検出部4で検出され
た不適切表現に対して、警告のレベル(致命的、注意等
)と警告内容(禁句、忌み語、または注意語等)を付与
する。次に、出力部6は、入力された通信文を、その通
信文種別とその通信文に含まれる不適切表現の警告レベ
ルおよび警告内容とともに、出力装置8に出力する。
た不適切表現に対して、警告のレベル(致命的、注意等
)と警告内容(禁句、忌み語、または注意語等)を付与
する。次に、出力部6は、入力された通信文を、その通
信文種別とその通信文に含まれる不適切表現の警告レベ
ルおよび警告内容とともに、出力装置8に出力する。
第2図は、第1図における不適切表現辞書のレコード・
フォーマット図である。
フォーマット図である。
第2図に示すように、不適切表現辞書7は、不適切表現
となり得る単語の原型情報10、あるいは不適切表現と
なり得る文字をキーとして持ち、原型情報10毎にこれ
が不適切となる通信文の種別11と、その警告のレベル
(致命的なレベルが、あるいは注意的なレベルか等)1
2、および警告の内容13とを記述したレコード14か
らなる辞書である。すなわち、不適切表現辞書7は、1
0〜13のフィールドからなるレコード14を複数レコ
ード分登録したものである。
となり得る単語の原型情報10、あるいは不適切表現と
なり得る文字をキーとして持ち、原型情報10毎にこれ
が不適切となる通信文の種別11と、その警告のレベル
(致命的なレベルが、あるいは注意的なレベルか等)1
2、および警告の内容13とを記述したレコード14か
らなる辞書である。すなわち、不適切表現辞書7は、1
0〜13のフィールドからなるレコード14を複数レコ
ード分登録したものである。
原型情報フィールド10は、不適切表現辞書7を検索す
るときのキーとなる部分であり、通信文種別フィールド
11は、このレコードの原型情報が不適切となる通信文
の種別を記述した部分である。警告レベルフィールド1
2は、このレコードの原型情報を持つ単語が致命的に不
適切なのか、あるいは注意して用いるべきものなのか等
の警告のレベルを記述する部分であり、警告内容フィー
ルド13は、このレコードの原型情報を持つ単語が、忌
み文字であるか、差別語であるか、注意語であるか等の
警告内容を記述する部分である。
るときのキーとなる部分であり、通信文種別フィールド
11は、このレコードの原型情報が不適切となる通信文
の種別を記述した部分である。警告レベルフィールド1
2は、このレコードの原型情報を持つ単語が致命的に不
適切なのか、あるいは注意して用いるべきものなのか等
の警告のレベルを記述する部分であり、警告内容フィー
ルド13は、このレコードの原型情報を持つ単語が、忌
み文字であるか、差別語であるか、注意語であるか等の
警告内容を記述する部分である。
第3図は、本発明の不適切表現検出装置の処理フローチ
ャートである。
ャートである。
先ず、通信文種別入力部1では、利用者からの通信文種
別(慶、弔、祝い、悔やみ等)の入力を受ける(ステッ
プSl)。入力された通信文種別は、不適切表現検出部
4に転送される。
別(慶、弔、祝い、悔やみ等)の入力を受ける(ステッ
プSl)。入力された通信文種別は、不適切表現検出部
4に転送される。
次に、通信文人力部2では、利用者からの通信文の入力
を受ける(ステップS2)。入力された通信文は、形態
素解析部3に転送される。
を受ける(ステップS2)。入力された通信文は、形態
素解析部3に転送される。
形態素解析部3では、入力された通信文を単語分割し、
さらに各単語に原型情報や品詞等の付与を行い、その結
果を不適切表現検出部4に転送する。ここでは、通信文
の単語数をnとし、第1番目の単語を処理するために、
i=1と置く(ステップS3)。
さらに各単語に原型情報や品詞等の付与を行い、その結
果を不適切表現検出部4に転送する。ここでは、通信文
の単語数をnとし、第1番目の単語を処理するために、
i=1と置く(ステップS3)。
不適切表現検出部4では、第1番目の単語の持つ原型情
報をキーとして、不適切表現辞書7を検索する(ステッ
プS4)。
報をキーとして、不適切表現辞書7を検索する(ステッ
プS4)。
検索が成功した場合には(ステップS5のYES)、キ
ーである原型情報に対する不適切表現辞書7の中の情報
を取得した後、ステップS6に移る。また、検索が失敗
した場合には(ステップS5のNo)、ステップS8に
移る。
ーである原型情報に対する不適切表現辞書7の中の情報
を取得した後、ステップS6に移る。また、検索が失敗
した場合には(ステップS5のNo)、ステップS8に
移る。
検索が成功した場合には、原型情報に対するレコード中
の通信文種別を検出し、通信文種別が利用者が入力した
通信文種別(ステップS1で入力)と一致するか否かを
判定する(ステップS6)。
の通信文種別を検出し、通信文種別が利用者が入力した
通信文種別(ステップS1で入力)と一致するか否かを
判定する(ステップS6)。
致する場合には、ステップS7に移り、不一致の場合に
は、ステップS8に移る。
は、ステップS8に移る。
警告付与部6では、第j番目の単語、つまり不適切表現
として検出され、通信文種別が一致した単語に対して、
警告の内容を警告のレベルとともにその単語に付与する
(ステップS7)。
として検出され、通信文種別が一致した単語に対して、
警告の内容を警告のレベルとともにその単語に付与する
(ステップS7)。
その単語に対する処理は終了したので、次の単語に移る
ため、単語番号1を+1し、j=i+1とする(ステッ
プ38)。
ため、単語番号1を+1し、j=i+1とする(ステッ
プ38)。
全単語の処理が終了しているか否かを判定しくi>n?
)(ステップS9)、終了している場合には、ステップ
S10に移り、まだ未処理の単語が存在する場合には、
ステップS4に戻る。
)(ステップS9)、終了している場合には、ステップ
S10に移り、まだ未処理の単語が存在する場合には、
ステップS4に戻る。
出力部6では、入力された通信文を、その通信文種別と
、そのレコードに含まれる不適切表現の警告レベルと警
告内容とともに出力装置8に出力する(ステップ510
)。
、そのレコードに含まれる不適切表現の警告レベルと警
告内容とともに出力装置8に出力する(ステップ510
)。
第4図は、第1図における形態素解析部で用いられる辞
書の内容例を示す図である。
書の内容例を示す図である。
形態素解析部3では、入力された通信文を単語に分割し
、各単語に原型情報や品詞、活用形等を付与する。その
場合、通常の単語辞書を参照しながら上記処理を行う。
、各単語に原型情報や品詞、活用形等を付与する。その
場合、通常の単語辞書を参照しながら上記処理を行う。
通常の単語辞書には、例えば、第4図に示すように、文
章を区切った状態である「単語表記Jと、それに対応す
る「原型情報」と、その原型情報の「品詞用と、単語表
記の「活用形」が記述されている。なお、この第4図の
辞書内容は、後述する具体例で利用される。
章を区切った状態である「単語表記Jと、それに対応す
る「原型情報」と、その原型情報の「品詞用と、単語表
記の「活用形」が記述されている。なお、この第4図の
辞書内容は、後述する具体例で利用される。
第5図は、第1図における不適切表現辞書の内容例を示
す図である。
す図である。
第5図に示すように、不適切表現辞書7には、「原型情
報Jと、その原型情報に属する「通信文種別Jと、不適
切である場合の「警告レベルよと、その「警告内容」と
がルーコードとして記述されている。第5図中、原型情
報のF*死*Jは、文字「死」を含む原型情報を持つ単
語が全て不適切表現となり得ることを表わしている。こ
の第5図の不適切表現辞書7の内容は、後述する具体例
で利用される。
報Jと、その原型情報に属する「通信文種別Jと、不適
切である場合の「警告レベルよと、その「警告内容」と
がルーコードとして記述されている。第5図中、原型情
報のF*死*Jは、文字「死」を含む原型情報を持つ単
語が全て不適切表現となり得ることを表わしている。こ
の第5図の不適切表現辞書7の内容は、後述する具体例
で利用される。
第6図は、本発明の具体例1の処理過程を説明する図で
ある。
ある。
通信文種別入力部1と通信文人力部2において、(通信
文種別) 慶 〈通 信 文〉 結婚、おめでとう 上記の通信文種別と通信文を受けたと仮定する(第3図
のステップSt、S2)。
文種別) 慶 〈通 信 文〉 結婚、おめでとう 上記の通信文種別と通信文を受けたと仮定する(第3図
のステップSt、S2)。
形態素解析部3では、通信文を単語単位に分割し、各単
語に形態素情報を付与するが、形態素解析部3で用いる
辞書が第4図の内容であるとすると、形態素解析の結果
は、第11 (1)に示すようになる。すなわち、単語
は「結婚」、「、」、「おめでとう」、「。」の4個で
あるため、n4.1=1とする(第3図のステップS3
)。
語に形態素情報を付与するが、形態素解析部3で用いる
辞書が第4図の内容であるとすると、形態素解析の結果
は、第11 (1)に示すようになる。すなわち、単語
は「結婚」、「、」、「おめでとう」、「。」の4個で
あるため、n4.1=1とする(第3図のステップS3
)。
不適切表現検出部4では、先ず第1番目の単語の原型情
報「結婚Jをキーとして不適切表現辞書7を検索するが
、不適切表現辞書7が第5図に示す内容であるとすると
、検索に失敗する。第2番目の単語の原型情報In、
JJと第4番目の単語の原型情報「。」についても、同
じように失敗する(第3図のステップ4〜8)。第3番
目の単語「おめでとう」では、第3番目の単語の原型情
報「おめでとう」をキーとして不適切表現辞書7を検索
すると、不適切表現辞書7が第5図に示す内容であるた
め、検索に成功する(第3図のステップS4、S5)。
報「結婚Jをキーとして不適切表現辞書7を検索するが
、不適切表現辞書7が第5図に示す内容であるとすると
、検索に失敗する。第2番目の単語の原型情報In、
JJと第4番目の単語の原型情報「。」についても、同
じように失敗する(第3図のステップ4〜8)。第3番
目の単語「おめでとう」では、第3番目の単語の原型情
報「おめでとう」をキーとして不適切表現辞書7を検索
すると、不適切表現辞書7が第5図に示す内容であるた
め、検索に成功する(第3図のステップS4、S5)。
しかし、通信文種別人ツノ部1で入力された通信文種別
が「慶」であるのに対して、不適切表現辞書7中に記述
されている「おめでとう」のレコードでは、通信文種別
が「弔jである。従って、入力された通信文の通信文種
別と不適切表現辞書7中の通信文種別とは不一致であり
、rおめでとうJは通信文種別のr慶Jにおいては不適
切ではないと判定される(第3図のステップS6)。
が「慶」であるのに対して、不適切表現辞書7中に記述
されている「おめでとう」のレコードでは、通信文種別
が「弔jである。従って、入力された通信文の通信文種
別と不適切表現辞書7中の通信文種別とは不一致であり
、rおめでとうJは通信文種別のr慶Jにおいては不適
切ではないと判定される(第3図のステップS6)。
これで、不適切表現検出部4の処理は終了する(第3図
のステップS9)。
のステップS9)。
第6図(2)に示すように、不適切表現なしという警告
付与が警告付与部5から出力される。出力部6では、入
力された通信文には不適切表現が含まれていないため、
第6図(3)に示すように、出ノJ装置8に対して通信
文と通信文種別のみを出力する。
付与が警告付与部5から出力される。出力部6では、入
力された通信文には不適切表現が含まれていないため、
第6図(3)に示すように、出ノJ装置8に対して通信
文と通信文種別のみを出力する。
こめように、不適切表現辞書7に同一通信文が含まれて
いる場合でも、通信文種別が異なるときには、不適切と
は判定しない。
いる場合でも、通信文種別が異なるときには、不適切と
は判定しない。
第7図は、本発明の具体例2の処理過程を示す説明図で
ある。
ある。
入力部1および2に対して、次のような通信文と通信文
種別か入力される。
種別か入力される。
く通信文種別〉 弔
〈通 信 文〉 結婚、おめでとう。
すなわち、具体例2では、具体例1と同じ通信文である
が、通信文種別が異なっている。換言すれば、具体例2
は、通信文種別を誤って入力した場合に相当する。
が、通信文種別が異なっている。換言すれば、具体例2
は、通信文種別を誤って入力した場合に相当する。
この場合にも、具体例】と同じように処理されるが、具
体例1とは異なり、丁おめでとう」が不適切表現として
検出される(第7図(2)参照)。これは、不適切表現
辞書7の内容の「おめでとう」が通信文種別T弔」にお
いて不適切であることを示しているからである。この場
合、警告付与部5では、致命的、禁句であることを付与
して、出力部6に転送する。出力結果は、第7図(3)
に示すようになる。この結果を得た利用者は、通信文と
通信文種別が一致していないことを知る。具体例2では
、利用者は通信文種別の入力の誤りに気がつくことにな
る。
体例1とは異なり、丁おめでとう」が不適切表現として
検出される(第7図(2)参照)。これは、不適切表現
辞書7の内容の「おめでとう」が通信文種別T弔」にお
いて不適切であることを示しているからである。この場
合、警告付与部5では、致命的、禁句であることを付与
して、出力部6に転送する。出力結果は、第7図(3)
に示すようになる。この結果を得た利用者は、通信文と
通信文種別が一致していないことを知る。具体例2では
、利用者は通信文種別の入力の誤りに気がつくことにな
る。
このように、通信文種別が通信文の内容に合致していな
い場合、通信文に含まれる不適切表現を検出することに
より、通信文種別の誤りを検出することが可能である。
い場合、通信文に含まれる不適切表現を検出することに
より、通信文種別の誤りを検出することが可能である。
第8図は1.本発明の具体例3の処理過程を示す説明図
である。
である。
通信文種別入力部1と通信文人力部2において、次のよ
うな通信文種別と通信文を受は取る(第3図のステップ
SL、2)。
うな通信文種別と通信文を受は取る(第3図のステップ
SL、2)。
(通信文種別〉 慶
(通 信 文〉 風が吹けば共にさえぎり、死ぬときも
二外−緒、そんな二人で いてください。
二外−緒、そんな二人で いてください。
具体例3では、具体例1,2と異なる通信文が入力され
る。具体例1と同じように、形態素解析部3で解析した
結果、第8図(1)に示すような原型情報と品詞と活用
形が得られる。この場合には、単語が19個であるため
、n−19となる(第3図のステップ33)。不適切表
現辞書7の内容は第5図に示すような内容であるため、
「さえぎるJと「死ぬ」の2個以外の17個については
、不適切表現辞書7の検索に失敗する。これらの失敗の
処理については、具体例1の「結婚」等と同じ処理にな
る。ここでは、不適切表現辞書7に記述された「さえぎ
るjと「死ぬ」の処理について、説明する。
る。具体例1と同じように、形態素解析部3で解析した
結果、第8図(1)に示すような原型情報と品詞と活用
形が得られる。この場合には、単語が19個であるため
、n−19となる(第3図のステップ33)。不適切表
現辞書7の内容は第5図に示すような内容であるため、
「さえぎるJと「死ぬ」の2個以外の17個については
、不適切表現辞書7の検索に失敗する。これらの失敗の
処理については、具体例1の「結婚」等と同じ処理にな
る。ここでは、不適切表現辞書7に記述された「さえぎ
るjと「死ぬ」の処理について、説明する。
「さえぎる」は第6番目の単語であって、不適切表現辞
書7中に記述されている。通信文種別入力部1で入力さ
れた通信文種別は「慶Jであり、不適切表現辞書7中の
「さえぎるjが不適切となる通信文種別も「慶Jである
。従って、両者は一致するので、「さえぎるJは不適切
表現として検出され、処理は警告付与部5の処理に移る
。
書7中に記述されている。通信文種別入力部1で入力さ
れた通信文種別は「慶Jであり、不適切表現辞書7中の
「さえぎるjが不適切となる通信文種別も「慶Jである
。従って、両者は一致するので、「さえぎるJは不適切
表現として検出され、処理は警告付与部5の処理に移る
。
警告付与部5では、「さえぎる」に対する不適切表現辞
書7の内容(警告レベル−注意、警告内容−注意語)を
「さえぎる」に付与する(第3図のステップ87)。
書7の内容(警告レベル−注意、警告内容−注意語)を
「さえぎる」に付与する(第3図のステップ87)。
次に、第8番目の単語「死ぬ」に関しては、不適切表現
辞書7の中に原型情報としては存在しないが、「*死*
J、つまり、文字「死Jを含む全ての文が不適切表現と
なり得ることを表わしているため、この場合にも不適切
表現として検出される。警告付与部5では、不適切表現
辞書7の内容(警告レベル一致命的、警告内容=忌み文
字)を「死ぬ町に付与する(第3図のステップS7)。
辞書7の中に原型情報としては存在しないが、「*死*
J、つまり、文字「死Jを含む全ての文が不適切表現と
なり得ることを表わしているため、この場合にも不適切
表現として検出される。警告付与部5では、不適切表現
辞書7の内容(警告レベル一致命的、警告内容=忌み文
字)を「死ぬ町に付与する(第3図のステップS7)。
この状態を、第8図(2)に示している。
最後の出力部6では、不適切表現として検出された「さ
えぎる」と「死ぬ町の2つに関する情報が、通信文と通
信文種別とともに出力装置8に出力される(第3図のス
テップ510)。その出力の状態は、第8図(3)に示
す通りである。
えぎる」と「死ぬ町の2つに関する情報が、通信文と通
信文種別とともに出力装置8に出力される(第3図のス
テップ510)。その出力の状態は、第8図(3)に示
す通りである。
このようにして、不適切表現辞書7に含まれ、かつ通信
文種別が入力されたものと一致する場合には、不適切表
現を検出して、これに対応する警告を出力する。さらに
、不適切さの程度に応じて、致命的であるか、注意のレ
ベルであるかについても出力する。また、不適切表現辞
書7の内容が「水死水Jのような文字であれば、この文
字を含む全ての表現を不適切であるどして検出する。
文種別が入力されたものと一致する場合には、不適切表
現を検出して、これに対応する警告を出力する。さらに
、不適切さの程度に応じて、致命的であるか、注意のレ
ベルであるかについても出力する。また、不適切表現辞
書7の内容が「水死水Jのような文字であれば、この文
字を含む全ての表現を不適切であるどして検出する。
以上説明したように、本発明によれば、入力された通信
文種別に応じて、不適切であるが否かを判定するので、
該当する通信文種別において不適切である表現のみを検
出することができる。その場合に、不適切表現辞書を用
いるので、そこに記述されている限り、不適切表現の検
出漏れは生じない。また、機械的に不適切表現を検出す
るので、利用者によるばらつきはない。さらに、不適切
表現検出の際に、文字単位の検出が可能であるため、そ
の文字を含む全ての単語を不適切表現辞書に記述する必
要がなくなる。
文種別に応じて、不適切であるが否かを判定するので、
該当する通信文種別において不適切である表現のみを検
出することができる。その場合に、不適切表現辞書を用
いるので、そこに記述されている限り、不適切表現の検
出漏れは生じない。また、機械的に不適切表現を検出す
るので、利用者によるばらつきはない。さらに、不適切
表現検出の際に、文字単位の検出が可能であるため、そ
の文字を含む全ての単語を不適切表現辞書に記述する必
要がなくなる。
第1図は本発明の一実施例を示す不適切表現検出装置の
全体構成図、第2図は第1図における不適切表現辞書の
内容説明図、第3図は本発明の不適切表現検出装置の処
理フローチャート、第4図は第1図の形態素解析部で利
用される辞書(単語辞書)の内容を示す図、第5図は本
発明の不適切表現辞書の内容例を示す図、第6図は本発
明の具体例1の処理過程を示す説明図、第7図は本発明
の具体例2の処理過程を示す説明図、第8図は本発明の
具体例3の処理過程を示す説明図である。 1:通信文種別入力部、2:通信文人ノコ部、3形態素
解析部、4:不適切表現検出部、5:警告付与部、6:
出力部、7:不適切表現辞書、8:出力装置、14:不
適切表現辞書のルコード。
全体構成図、第2図は第1図における不適切表現辞書の
内容説明図、第3図は本発明の不適切表現検出装置の処
理フローチャート、第4図は第1図の形態素解析部で利
用される辞書(単語辞書)の内容を示す図、第5図は本
発明の不適切表現辞書の内容例を示す図、第6図は本発
明の具体例1の処理過程を示す説明図、第7図は本発明
の具体例2の処理過程を示す説明図、第8図は本発明の
具体例3の処理過程を示す説明図である。 1:通信文種別入力部、2:通信文人ノコ部、3形態素
解析部、4:不適切表現検出部、5:警告付与部、6:
出力部、7:不適切表現辞書、8:出力装置、14:不
適切表現辞書のルコード。
Claims (1)
- (1)通信文種別毎に不適切である表現を配列し、不適
切表現毎に該表現の不適切さのレベルを表わす警告レベ
ルと該警告の内容とを1組として記述した不適切表現辞
書を具備するとともに、例えば、慶、弔、祝い、悔みを
含む通信文種別を入力する手段と、通信文を入力する手
段と、入力された該通信文を単語単位に分割して、単語
毎に形態素情報を付与するモジュールと、該モジュール
の実行により分割された単語毎に、該単語の原型情報を
キーとして上記不適切表現辞書を検索し、該単語が入力
された上記通信文種別で不適切な表現であるか否かを判
定するモジュールと、該モジュールの実行により不適切
な表現を含むと判定された単語に、上記不適切表現辞書
の内容に従って不適切表現の警告レベルと警告内容とを
付与するモジュールと、該モジュールの実行により付与
された警告レベルと警告内容とともに、入力された通信
文を出力する手段とを具備することを特徴とする不適切
表現検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2186226A JPH0477857A (ja) | 1990-07-13 | 1990-07-13 | 不適切表現検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2186226A JPH0477857A (ja) | 1990-07-13 | 1990-07-13 | 不適切表現検出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0477857A true JPH0477857A (ja) | 1992-03-11 |
Family
ID=16184569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2186226A Pending JPH0477857A (ja) | 1990-07-13 | 1990-07-13 | 不適切表現検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0477857A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015072614A (ja) * | 2013-10-03 | 2015-04-16 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
JP2016194864A (ja) * | 2015-04-01 | 2016-11-17 | 株式会社イージェーワークス | 入力支援装置、入力支援方法及びプログラム |
JP2018160159A (ja) * | 2017-03-23 | 2018-10-11 | 日本電信電話株式会社 | 発話文判定装置、方法、及びプログラム |
CN109739733A (zh) * | 2018-12-27 | 2019-05-10 | 深圳市计通智能技术有限公司 | 一种数据监控的多因素组合分析告警方法及系统 |
-
1990
- 1990-07-13 JP JP2186226A patent/JPH0477857A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015072614A (ja) * | 2013-10-03 | 2015-04-16 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
US9575959B2 (en) | 2013-10-03 | 2017-02-21 | International Business Machines Corporation | Detecting dangerous expressions based on a theme |
US10275447B2 (en) | 2013-10-03 | 2019-04-30 | International Business Machines Corporation | Detecting dangerous expressions based on a theme |
US11010552B2 (en) | 2013-10-03 | 2021-05-18 | International Business Machines Corporation | Detecting expressions learned based on a theme and on word correlation and co-occurence |
JP2016194864A (ja) * | 2015-04-01 | 2016-11-17 | 株式会社イージェーワークス | 入力支援装置、入力支援方法及びプログラム |
JP2018160159A (ja) * | 2017-03-23 | 2018-10-11 | 日本電信電話株式会社 | 発話文判定装置、方法、及びプログラム |
CN109739733A (zh) * | 2018-12-27 | 2019-05-10 | 深圳市计通智能技术有限公司 | 一种数据监控的多因素组合分析告警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11386269B2 (en) | Fault-tolerant information extraction | |
US20080040352A1 (en) | Method for creating a disambiguation database | |
JPH0477857A (ja) | 不適切表現検出装置 | |
JP4047895B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
KR20020059555A (ko) | 자연어 질의 응답 검색 엔진 및 검색 방법 | |
JPH08115330A (ja) | 類似文書検索方法および装置 | |
JP4047894B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JPH0785040A (ja) | 表記不統一検出方法およびかな漢字変換方法 | |
JP3187671B2 (ja) | 電子辞書表示装置 | |
JP3390567B2 (ja) | 誤字訂正装置 | |
JP2776069B2 (ja) | 文章検査装置 | |
JP2004280323A (ja) | 質問文書要約装置、質問応答検索装置、質問文書要約プログラム | |
JP3045886B2 (ja) | 手書き入力機能付き文字処理装置 | |
JP3118880B2 (ja) | 日本語文章処理装置 | |
Hema et al. | Malayalam spell checker using n-gram method | |
JPH087046A (ja) | 文書認識装置 | |
JP2009009583A (ja) | 構文パースを用いてセグメント化されていないテキストをセグメント化する方法 | |
CN114970493A (zh) | 生成标记语料的方法、装置、终端设备及存储介质 | |
JPS63234348A (ja) | 文章校正支援方式 | |
JPH0778137A (ja) | コメント付与方法及び文書処理装置 | |
JPH0468466A (ja) | かな漢字変換装置 | |
JP2002183129A (ja) | 単語登録方法 | |
JPH07110816A (ja) | 翻訳用辞書登録装置 | |
JPH077413B2 (ja) | 文章用語検定装置 | |
JPH07210578A (ja) | 文字列特定方式 |