WO2024219247A1

WO2024219247A1 - 教師データ修正装置

Info

Publication number: WO2024219247A1
Application number: PCT/JP2024/013984
Authority: WO
Inventors: 彩花大類; 拓藤本; 優太朗白水
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2023-04-20
Filing date: 2024-04-04
Publication date: 2024-10-24

Abstract

階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することを課題とする。階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置（１）は、一のカテゴリである第１カテゴリと、当該第１カテゴリと階層関係にあるカテゴリである第２カテゴリであって当該第１カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報を取得し、教師データに含まれる文書であって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定する削除データ決定部（１５）と、教師データに含まれる文書であって取得されたカテゴリ情報が示す第２カテゴリに属する文書のうち特定された用語を含む文書の組を当該教師データから削除する教師データ削除部（１６）とを備える。

Description

教師データ修正装置

　本開示の一側面は、教師データを修正する教師データ修正装置に関する。

　下記特許文献１では、不正確なラベルの付された教師データを修正作業の対象とする修正方法が開示されている。

特開２０２２－０２１８５８号公報

　上記修正方法におけるラベルは、正常品の画像データに付されたＯＫラベルと、異常品の画像データに付されたＮＧラベルとから構成される。それゆえ上記修正方法では、例えば、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することはできない。

　本開示の一側面に係る教師データ修正装置は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、一のカテゴリである第１カテゴリと、当該第１カテゴリと階層関係にあるカテゴリである第２カテゴリであって当該第１カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報を取得する取得部と、教師データに含まれる文書であって取得部によって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第２カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、を備える。

　このような側面においては、教師データは階層構造を持つカテゴリと当該カテゴリに属する文書との組からなり、教師データに含まれる（第１カテゴリと階層関係にあるカテゴリである）第２カテゴリに属する文書のうち、第１カテゴリに属する文書において特徴的な用語を含む文書の組が、当該教師データから削除される。すなわち、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することができる。

　本開示の一側面によれば、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することができる。

実施形態に係る教師データ修正装置の機能構成の一例を示す図である。階層構造を持つカテゴリの体系例を示す図である。図２の体系例が変更された場面を示す図である。誤った体系例の教師データに基づいて学習された文書分類モデルの誤分類例を示す図である。実施形態に係る教師データ修正装置が実行する処理の一例を示すフローチャートである。教師データのテーブル例を示す図である。上位－下位カテゴリペアデータのテーブル例を示す図である。カテゴリ分類結果を教師データに横に結合したテーブルデータのテーブル例を示す図である。要修正フラグがついた上位－下位カテゴリペアデータのテーブル例を示す図である。下位カテゴリの特徴語と特徴量を表すデータのテーブル例を示す図である。教師データの削除例を示す図である。機械学習部１１及び推論部１２が実行する処理の一例を示すフローチャートである。教師データの別のテーブル例を示す図である。学習データのテーブル例を示す図である。評価データのテーブル例を示す図である。カテゴリ分類結果のテーブル例を示す図である。カテゴリ分類結果を教師データに横に結合したテーブルデータの別のテーブル例を示す図である。誤分類率算出部１３及び教師データ修正判定部１４が実行する処理の一例を示すフローチャートである。図１７のテーブル例から抽出されたレコード例を示す図である。図７のテーブル例に誤分類率カラムが追記されたテーブル例を示す図である。削除データ決定部１５及び教師データ削除部１６が実行する処理の一例を示すフローチャートである。形態素解析したテーブルデータのテーブル例を示す図である。図２２のテーブル例の分割例を示す図である。図２３のテーブル例のうち抽出したテーブルの形態素解析カラムを全て結合したデータのテーブル例を示す図である。特徴量テーブルのテーブル例を示す図である。下位カテゴリの特徴語と特徴量を表すデータの別のテーブル例を示す図である。上位カテゴリテーブルの削除例を示す図である。実施形態に係る教師データ修正装置が実行する処理の別の一例を示すフローチャートである。実施形態に係る教師データ修正装置で用いられるコンピュータのハードウェア構成の一例を示す図である。

　以下、図面を参照しながら本開示での実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における本開示での実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。

　図１は、実施形態に係る教師データ修正装置１の機能構成の一例を示す図である。図１に示す通り、教師データ修正装置１は、格納部１０、機械学習部１１（学習部）、推論部１２（学習部）、誤分類率算出部１３、教師データ修正判定部１４、削除データ決定部１５（取得部、削除部）及び教師データ削除部１６（取得部、削除部）を含んで構成される。

　教師データ修正装置１の各機能ブロックは、教師データ修正装置１内にて機能することを想定しているが、これに限るものではない。例えば、教師データ修正装置１の機能ブロックの一部は、教師データ修正装置１とは異なるコンピュータ装置であって、教師データ修正装置１とネットワーク接続されたコンピュータ装置内において、教師データ修正装置１と情報を適宜送受信しつつ機能してもよい。また、教師データ修正装置１の一部の機能ブロックは無くてもよいし、複数の機能ブロックを一つの機能ブロックに統合してもよいし、一つの機能ブロックを複数の機能ブロックに分解してもよい。

　教師データ修正装置１は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する。カテゴリの階層構造は、時間経過と共に変更されてもよい。

　カテゴリについて説明する。背景として、階層構造を持つカテゴリ分類において、必要に応じて新規にカテゴリを切り出し、下位カテゴリとして追加及び削除する事がある。例えば、実施形態にて対象とするニュース記事サイトの場合、注目度が高い話題を新たに別カテゴリを追加することで、より多くのユーザがウェブサイト内で必要なコンテンツを見つけやすくすることができる。

　図２は、階層構造を持つカテゴリの体系例を示す図である。図２に示す体系例では、カテゴリとしてスポーツ、野球、新型肺炎及びワクチンが含まれる。各カテゴリは階層構造を持つ。例えば、スポーツカテゴリは野球カテゴリの上位カテゴリであり、逆に野球カテゴリはスポーツカテゴリの下位カテゴリである。同様に、新型肺炎カテゴリはワクチンカテゴリの上位カテゴリであり、逆にワクチンカテゴリは新型肺炎カテゴリの下位カテゴリである。

　各カテゴリには、当該カテゴリに属する文書が紐付いている（含まれている）。具体的には、スポーツカテゴリには、相撲の記事、ゴルフの記事、バスケの記事及びサッカーの記事が紐付いている。野球カテゴリには、野球国際大会の記事及びプロ野球の記事が紐付いている。新型肺炎カテゴリには、マスクの記事及び医療現場の記事が紐付いている。ワクチンカテゴリには、製薬会社Ｆの記事及び製薬会社Ｍの記事が紐付いている。

　図３は、図２の体系例が変更された場面を示す図である。図３は、時間経過と共にサッカーのＷ杯が開催され、サッカーに関する記事の注目度が高くなってきたため、新たにサッカーカテゴリを追加した（切り出した）場面を示す。サッカーカテゴリが追加される前はスポーツカテゴリに紐付いていたサッカーの記事は、スポーツカテゴリから削除され（紐付きが解除され）、追加されたサッカーカテゴリに移動される（紐付けられる）。具体的には、サッカーの記事であるＷ杯の記事、Ｗ杯開催国Ｑの記事及びＫ選手の記事が、追加されたサッカーカテゴリに移動される。このように、Ｗ杯の時期はサッカーカテゴリを追加し、流行りが沈静化したらカテゴリから削除する。

　上記のようなカテゴリの課題について説明する。機械学習を用いてカテゴリ毎に記事を自動分類する場合、過去のカテゴリ体系が異なるデータが混在していると誤分類を助長する。機械学習では、通常、データ数が多いほどより正確なモデルを作成することができるため、変更した箇所以外のデータは残しておくべきである。過去の教師データから、変更した箇所のみ（例えばサッカー関連の記事）を取り除くことで、誤分類を減らすことが求められる。

　図４は、誤った体系例の教師データに基づいて学習された文書分類モデルの誤分類例を示す図である。図４に示す２０２２年９月までの教師データ（過去の教師データ）及び２０２２年１２月時点の教師データ（現在の教師データ）はそれぞれ、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データである。

　過去の教師データでは、Ｗ杯の記事がスポーツカテゴリに紐付いている。現在の教師データでは、Ｗ杯の記事がスポーツカテゴリから削除され、新たに追加されたサッカーカテゴリに紐付いている。ここで、過去の教師データに基づいて学習された、カテゴリ毎に記事を自動分類する文書分類モデルを用いてＷ杯の新規記事を推論した場合、スポーツカテゴリに分類され、誤分類となる。一方、現在の教師データに基づいて学習された文書分類モデルを用いてＷ杯の新規記事を推論した場合、サッカーカテゴリに正しく分類される。

　教師データ修正装置１は、カテゴリ体系が変更した時、過去の教師データの修正・整形を効率的かつ容易に実施することができる。

　以下、図１に示す教師データ修正装置１の各機能について、図５に示すフローチャート及び図６～図１１に示すテーブル例などを用いながら説明する。図５は、教師データ修正装置１が実行する処理の一例を示すフローチャートである。

　格納部１０は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを格納する。図６は、教師データのテーブル例を示す図である。図６に示すテーブル例では、文書である記事本文と、当該記事本文が属するカテゴリである正解カテゴリ（の名称）とが対応付いている。正解カテゴリは、予め人が記事本文の内容を見て、人手によって付与されたカテゴリであってもよい。図６に示すテーブル例では、サッカーに関する記事本文である「サッカーのＩＰリーグでＭ選手…」の正解カテゴリが「スポーツ」となっているが（正しくは「サッカー」）、これを取り除くことが（図５に示すフローチャートの）目標である。

　格納部１０は、上位カテゴリと下位カテゴリのペアのデータである上位－下位カテゴリペアデータを格納する。図７は、上位－下位カテゴリペアデータのテーブル例を示す図である。図７に示すテーブル例では、上位カテゴリ（のカテゴリ名称）と、下位カテゴリ（のカテゴリ名称）とが対応付いている。

　格納部１０は、その他にも、教師データ修正装置１における算出などで利用される任意の情報（実施形態で説明する各種データを含む）及び教師データ修正装置１における算出の結果などを格納する。格納部１０によって格納された情報は、教師データ修正装置１の各機能によって適宜参照されてもよい。

　機械学習部１１は、格納部１０によって格納された教師データで文書分類モデルを機械学習させる（ステップＳ１）。文書分類モデルは、入力された任意の文書が属するカテゴリを分類するモデルである。

　Ｓ１に続き、推論部１２は、評価データ（例えば図６に示す教師データのテーブル例の記事本文）を学習済の文書分類モデルに入力し、カテゴリ分類結果を出力すると共に、カテゴリ分類結果を教師データに横に結合したテーブルデータを出力する（ステップＳ２）。図８は、カテゴリ分類結果を教師データに横に結合したテーブルデータのテーブル例を示す図である。図８に示すテーブル例では、（図６に示す教師データのテーブル例の）記事本文と、（図６に示す教師データのテーブル例の）正解カテゴリと、上述のカテゴリ分類結果とが対応付いている。

　Ｓ２に続き、誤分類率算出部１３は、格納部１０によって格納された上位－下位カテゴリペアデータに基づいて、Ｓ２で出力されたテーブルデータの予測カテゴリと正解カテゴリとを比較して、上位カテゴリへの誤分類率（後述）を算出する（ステップＳ３）。図９は、要修正フラグ（後述）がついた上位－下位カテゴリペアデータのテーブル例を示す図である。図９に示すテーブル例では、（図７に示す上位－下位カテゴリペアデータのテーブル例の）上位カテゴリと、（図７に示す上位－下位カテゴリペアデータのテーブル例の）下位カテゴリと、上述の誤分類率と、上述の要修正フラグとが対応付いている。

　Ｓ３に続き、教師データ修正判定部１４は、（要修正フラグがついた上位－下位カテゴリペアデータの）要修正カラムに要修正フラグがあるか否かを判定する（ステップＳ４）。Ｓ４にて要修正フラグが無いと判定された場合（Ｓ４：ＮＯ）、処理を終了する。

　Ｓ４にて要修正フラグがあると判定された場合（Ｓ４：ＹＥＳ）、削除データ決定部１５は、削除する単語を「カテゴリ名＋特徴語」で決定する（ステップＳ５）。図１０は、下位カテゴリの特徴語と特徴量を表すデータのテーブル例を示す図である。図１０に示すテーブル例では、下位カテゴリを示す名称と特徴語（後述）と当該特徴語の特徴量とから構成される下位カテゴリの特徴語が含まれる。

　Ｓ５に続き、教師データ削除部１６は、上位カテゴリから、下位カテゴリのデータを削除する（ステップＳ６）。図１１は、教師データの削除例を示す図である。図１１に示す削除例では、図６に示す教師データのテーブル例の記事本文のうち、図１０に示す下位カテゴリの特徴語と特徴量を表すデータのテーブル例に含まれている単語を含む記事本文が削除されていることを示している。

　Ｓ６の後、Ｓ１に戻り、処理が繰り返される。

　以下、機械学習部１１及び推論部１２の詳細について、図１２に示すフローチャート及び図１３～図１７に示すテーブル例などを用いながら説明する。図１２は、機械学習部１１及び推論部１２が実行する処理の一例を示すフローチャートである。

　機械学習部１１は、予め取得した（格納部１０によって格納された）教師データをＫ（Ｋは２以上の整数）グループに分割する（ステップＳ１０）。図１３は、教師データの別のテーブル例を示す図である。図１３に示すテーブル例では、（図６に示す教師データのテーブル例と同様の構成の）教師データが、３つ（Ｋ＝３）のグループであるグループＧ１（教師データの１レコード目と２レコード目を含む）、グループＧ２（教師データの３レコード目と４レコード目を含む）及びグループＧ３（教師データの５レコード目と６レコード目を含む）に分割されていることを示す。

　Ｓ１０に続き、機械学習部１１は、Ｋ－１グループのデータ（学習データ）を用いて文書分類モデルを学習する（ステップＳ１１）。例えば、機械学習部１１は、グループＧ１及びグループＧ２のデータで学習する。図１４は、学習データのテーブル例を示す図である。図１４に示すテーブル例は、図１３に示す教師データのテーブル例のうち、グループＧ１及びグループＧ２のデータを示している。

　機械学習部１１は、Ｓ１１についてＫ回繰り返し学習を行なって、Ｋ個の文書分類モデルを得る。例えば、機械学習部１１は、グループＧ１及びグループＧ２のデータで学習した文書分類モデル１、グループＧ１及びグループＧ３のデータで学習した文書分類モデル２、及び、グループＧ２及びグループＧ３のデータで学習した文書分類モデル３の３個の文書分類モデルを得る。

　Ｓ１１に続いて、推論部１２は、全ての文書分類モデルに対して学習で用いていない教師データ（評価データ）を用いて推論を行う（ステップＳ１２）。例えば、推論部１２は、文書分類モデル１に対してグループＧ３のデータで推論し、文書分類モデル２に対してグループＧ２のデータで推論し、文書分類モデル３に対してグループＧ１のデータで推論する。図１５は、評価データのテーブル例を示す図である。図１５に示すテーブル例は、図１３に示す教師データのテーブル例のうち、グループＧ３のデータ（文書分類モデル１に対する評価データ）を示している。

　Ｓ１２の推論の結果、推論部１２はカテゴリ分類結果を出力する。図１６は、カテゴリ分類結果のテーブル例を示す図である。図１６に示すテーブル例において、１レコード目及び２レコード目はグループＧ３の評価データで推論した結果であり、３レコード目及び４レコード目はグループＧ２の評価データで推論した結果であり、５レコード目及び６レコード目はグループＧ１の評価データで推論した結果である。

　続いて、推論部１２は、推論されたカテゴリ分類結果を全て縦に結合し、教師データに横に結合したテーブルデータを誤分類率算出部へ入力する（ステップＳ１３）。図１７は、カテゴリ分類結果を教師データに横に結合したテーブルデータの別のテーブル例を示す図である。図１７に示すテーブル例では、図１３に示す教師データのテーブル例と、図１６に示すカテゴリ分類結果のテーブル例とが結合されている。

　Ｓ１１～Ｓ１２の処理は、いわゆる交差検証を実施している。例えば、教師データをＫ＝５グループに分割して、Ｋ－１＝４グループのデータを学習（訓練）データ、１グループのデータを評価（テスト）データとする。全てのグループが評価（テスト）データとなるようＫ回繰り返し学習を行う。交差検証を実施する理由は、誤分類率を算出する際に用いるデータ（評価データ）に、今回教師データ修正をする正解カテゴリ「サッカー」及び「スポーツ」の記事（ニュース）が含まれていない、あるいは極端に少ないという可能性を排除するためである。すなわち、評価データに上位－下位カテゴリペアデータに対応する記事本文が含まれていないことを防ぎたいという動機で実施している。評価データに上位－下位カテゴリペアデータに対応する記事本文を必ず含めるよう定義づけしてもよい。

　以下、誤分類率算出部１３及び教師データ修正判定部１４の詳細について、図１８に示すフローチャート及び図１９及び図２０に示すテーブル例などを用いながら説明する。図１８は、誤分類率算出部１３及び教師データ修正判定部１４が実行する処理の一例を示すフローチャートである。

　Ｓ１３に続いて、誤分類率算出部１３は、機械学習部１１及び推論部１２で得られたテーブルデータ（カテゴリ分類結果を教師データに横に結合したテーブルデータ）内の正解カテゴリ・予測カテゴリペアを比較し、誤分類率を算出する（ステップＳ２０）。具体的には、誤分類率算出部１３は、予め用意した（格納部１０によって格納された）上位－下位カテゴリペアデータを元に、上位カテゴリへの誤分類率を算出する。

　より具体的には、まず、誤分類率算出部１３は、上位－下位カテゴリペアデータから１レコード（以降「上位下位１ペア」と呼称）ずつ抽出する。次に、誤分類率算出部１３は、機械学習部１１及び推論部１２より得られたテーブルデータ（カテゴリ分類結果を教師データに横に結合したテーブルデータ）の正解カテゴリが上位下位１ペアの下位カテゴリと対応するレコードを抽出し、当該抽出したレコードのうち予測カテゴリ・正解カテゴリペアが上位下位１ペアと並びが一致する割合を算出し、上位－下位カテゴリペアデータに新たに誤分類率カラムに追記する（ステップＳ２０）。例えば、誤分類率算出部１３は、正解カテゴリ「サッカー」に対して、上位カテゴリ「スポーツ」への誤分類率を算出する。誤分類率算出部１３は、全ての上位－下位カテゴリペアデータに対して同じ操作を行う。

　図１９は、図１７のテーブル例から抽出されたレコード例を示す図である。図１９に示すテーブル例は、図１７のテーブル例の正解カテゴリが、上位下位１ペアの下位カテゴリ「サッカー」と対応するレコードを抽出したものである。

　図２０は、図７のテーブル例に誤分類率カラムが追記されたテーブル例を示す図である。図２０に示すテーブル例では、図７のテーブル例に対して、Ｓ２０で算出された誤分類率が新たに対応付けられている。

　Ｓ２０に続き、誤分類率算出部１３は、上位－下位カテゴリペアデータの誤分類率カラム（図２０に示すテーブル例参照）から（所定の）閾値より高いレコードに要修正フラグをつけた、要修正フラグがついた上位－下位カテゴリペアデータ（図９に示すテーブル例参照）を出力する（ステップＳ２１）。

　Ｓ２１に続き、教師データ修正判定部１４は、要修正カラムに要修正フラグがあるか否かを判定し（ステップＳ２２）、要修正カラムに要修正フラグがある場合（ステップＳ２２：ＹＥＳ）、削除データ決定部１５へ遷移し、要修正カラムに要修正フラグが無い場合（ステップＳ２２：ＮＯ）、処理を終了する。

　以下、削除データ決定部１５及び教師データ削除部１６の詳細について、図２１に示すフローチャート及び図２２～図２７に示すテーブル例などを用いながら説明する。図２１は、削除データ決定部１５及び教師データ削除部１６が実行する処理の一例を示すフローチャートである。

　Ｓ２２：ＹＥＳに続き、削除データ決定部１５は、下位カテゴリに特徴的な単語を算出する。

　具体的には、まず、削除データ決定部１５は、機械学習部１１及び推論部１２より得られたテーブルデータ（カテゴリ分類結果を教師データに横に結合したテーブルデータ）に対して形態素解析を行う（ステップＳ３０）。図２２は、形態素解析したテーブルデータのテーブル例を示す図である。図２２に示すテーブル例は、図１７に示すカテゴリ分類結果を教師データに横に結合したテーブルデータのテーブル例について、記事本文カラムの各データの形態素解析結果を形態素解析カラムとして追加したものである。

　次に、削除データ決定部１５は、当該形態素解析したテーブルデータを正解カテゴリごとに分割する（ステップＳ３１）。なお、削除データ決定部１５は、上位カテゴリ－下位カテゴリペアデータを元に、下位カテゴリと上位カテゴリとそれ以外に分割してもよい。次に、削除データ決定部１５は、誤分類率算出部１３より得られた上位カテゴリ－下位カテゴリペアデータを元に「要修正」フラグがついているレコードを順に１レコード（以降「要修正上位下位１ペア」と呼称）ずつ抽出する。削除データ決定部１５は、抽出した要修正上位下位１ペアについて、分割されたテーブルデータと照らし合わせ、当該レコードの上位カテゴリに対応するテーブル以外のテーブルを抽出（ステップＳ３２）。図２３は、図２２のテーブル例の分割例を示す図である。図２３に示すテーブル例では、図２２のテーブル例を、正解カテゴリ「スポーツ」、「サッカー」及び「新型肺炎」ごとに分割し（それぞれ上位カテゴリテーブル、下位カテゴリテーブル及び新型肺炎テーブルとする）、上位カテゴリ「スポーツ」及び下位カテゴリ「サッカー」からなる要修正上位下位１ペアの上位カテゴリ「スポーツ」に対応するテーブル以外のテーブルである下位カテゴリテーブル及び新型肺炎テーブルを抽出していることを示している。

　Ｓ３２に続き、削除データ決定部１５は、下位カテゴリに特徴的な単語を算出する。

　具体的には、まず、削除データ決定部１５は、Ｓ３２にて抽出した各カテゴリテーブルの形態素解析カラムを全て結合する（ステップＳ３３）。図２４は、図２３のテーブル例のうち抽出したテーブルの形態素解析カラムを全て結合したデータのテーブル例を示す図である。図２４に示すテーブル例は、図２３のテーブル例のうち下位カテゴリテーブルの形態素解析カラムを全て結合したデータのテーブル例と、図２３のテーブル例のうち新型肺炎カテゴリテーブルの形態素解析カラムを全て結合したデータのテーブル例とを含む。

　次に、削除データ決定部１５は、ＴＦＩＤＦの計算式をもとに各単語のそのカテゴリ内での重要度（ＴＦＩＤＦ値）を算出する（ステップＳ３４）。ＴＦＩＤＦの計算式の一例は以下で示される（ｉ及びｊは本来下付形式ではあるが便宜上下付形式にしていない）。
ＴＦＩＤＦ_{ｗｉ，ｄｊ}＝ＴＦ_{ｗｉ，ｄｊ}×ＩＤＦ_ｗｉ
ＴＦ_{ｗｉ，ｄｊ}＝文書ｄｊの中の単語ｗｉの出現頻度
ＩＤＦ_ｗｉ＝ｌｏｇ（（１＋全文書数（Ｊ））／（単語ｗｉが登場する文書数））

　この時、文書ｄは上で結合した形態素解析結果とし、ｊは各カテゴリとする。つまり、ｄｊは各カテゴリｊの結合された形態素解析結果となる。

　削除データ決定部１５は、上記計算を行い、特徴量テーブルを得る。図２５は、特徴量テーブルのテーブル例を示す図である。図２５に示すテーブル例では、各カテゴリについて、各単語の重要度（ＴＦＩＤＦ値）が対応付けられている。

　続いて、教師データ削除部１６は、上位カテゴリから下位カテゴリに関連する記事を削除する。

　具体的には、まず、削除データ決定部１５は、前段で得られた特徴量テーブルから、要修正上位下位１ペアの下位カテゴリと対応するレコードをリスト形式で抽出し、ＴＦＩＤＦ値で降順にソートし、上位４件を抽出する（ステップＳ３５）。次に、教師データ削除部１６は、下位カテゴリ名を含めた特徴語全５件を用いて、上位カテゴリテーブルに混在する下位カテゴリの記事をキーワードマッチングで削除する（ステップＳ３６）。

　図２６は、下位カテゴリの特徴語と特徴量を表すデータの別のテーブル例を示す図である。図２６に示すテーブル例では、下位カテゴリ名（「サッカー」）と、ＴＦＩＤＦ値で降順にソートした上位４件の単語（「Ｍ選手」、「Ｑ国」、「Ｋ選手」及び「Ｗ杯」）と当該単語それぞれの特徴量とを含む下位カテゴリの特徴語が含まれている。

　図２７は、上位カテゴリテーブルの削除例を示す図である。図２７に示す削除例では、図２３に示す上位カテゴリテーブルについて、図２６に示す下位カテゴリの特徴語と特徴量を表すデータのテーブル例に含まれている単語（「Ｍ選手」）を含む記事本文のレコードが削除されていることを示している。

　次に、教師データ削除部１６は、前段で修正された上位カテゴリテーブル・下位カテゴリテーブル・その他のカテゴリのテーブルを縦に結合する（ステップＳ３７）。次に、教師データ削除部１６は、これらの操作を上位カテゴリ－下位カテゴリペアデータに「要修正」フラグがついているレコード全てに対して行い、全てのレコードに対し処理が終わったら、形態素解析カラム・予測カテゴリカラムを削除し、再度機械学習部１１及び推論部１２へ遷移する（ステップＳ３８）。すなわち、教師データ削除部１６は、修正（整形）された教師データを出力する（又は格納部１０によって格納させる）。

　以下、各機能ブロックの他の側面を説明する。

　機械学習部１１及び推論部１２は、教師データ削除部１６によって削除された教師データに基づいて、入力された任意の文書が属するカテゴリを分類する文書分類モデルを学習して出力してもよい。

　削除データ決定部１５は、一のカテゴリである第１カテゴリと、当該第１カテゴリと階層関係にあるカテゴリである第２カテゴリであって当該第１カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報を取得し、教師データに含まれる文書であって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定してもよい。第２カテゴリは、第１カテゴリの上位の階層であってもよい。

　削除データ決定部１５は、入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第１カテゴリと当該第２カテゴリとを示すカテゴリ情報を取得してもよい。教師データに基づく学習では、交差検証が実行されてもよい。誤分類率は、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率であってもよい。

　教師データ削除部１６は、教師データに含まれる文書であって削除データ決定部１５によって取得されたカテゴリ情報が示す第２カテゴリに属する文書のうち削除データ決定部１５によって特定された用語を含む文書の組を当該教師データから削除してもよい。入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して教師データ削除部１６による削除を実行してもよい。

　教師データ削除部１６は、教師データに含まれる文書であって削除データ決定部１５によって取得されたカテゴリ情報が示す第２カテゴリに属する文書のうち削除データ決定部１５によって特定された用語及び当該カテゴリ情報が示す第１カテゴリを示す名称を含む文書の組を当該教師データから削除してもよい。

　続いて、図２８を参照しながら、教師データ修正装置１が実行する処理の例を説明する。図２８は、教師データ修正装置１が実行する処理の別の一例を示すフローチャートである。

　まず、削除データ決定部１５が、一のカテゴリである第１カテゴリと、当該第１カテゴリと階層関係にあるカテゴリである第２カテゴリであって当該第１カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報（要修正フラグがついた上位－下位カテゴリペアデータ）を取得する（ステップＳ４０）。次に、削除データ決定部１５が、教師データに含まれる文書であってＳ４０にて取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、教師データ削除部１６が、当該教師データに含まれる文書であって当該カテゴリ情報が示す第２カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する（ステップＳ４１）。

　続いて、実施形態に係る教師データ修正装置１の作用効果について説明する。

　教師データ修正装置１は、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置１であって、一のカテゴリである第１カテゴリと、当該第１カテゴリと階層関係にあるカテゴリである第２カテゴリであって当該第１カテゴリに属すべき教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報を取得し、教師データに含まれる文書であって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定する削除データ決定部１５と、教師データに含まれる文書であって削除データ決定部１５によって取得されたカテゴリ情報が示す第２カテゴリに属する文書のうち削除データ決定部１５によって特定された用語を含む文書の組を当該教師データから削除する教師データ削除部１６と、を備える。この構成により、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データに含まれる（第１カテゴリと階層関係にあるカテゴリである）第２カテゴリに属する文書のうち、第１カテゴリに属する文書において特徴的な用語を含む文書の組が、当該教師データから削除される。すなわち、階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正することができる。

　また、教師データ修正装置１において、カテゴリの階層構造は、時間経過と共に変更されてもよい。この構成により、時間が経過しても、教師データを変更後の階層構造に沿ってより適切に修正することができる。

　また、教師データ修正装置１において、第２カテゴリは、第１カテゴリの上位の階層であってもよい。この構成により、教師データに、上位である第２カテゴリに下位である第一カテゴリの文書が属していても、当該文書を適切に削除することができる。

　また、教師データ修正装置１において、入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して（削除データ決定部１５及び）教師データ削除部１６による削除を実行してもよい。この構成により、教師データに不備がある場合により確実に当該教師データを修正することができる。

　また、教師データ修正装置１において、教師データに基づく学習では、交差検証が実行されてもよい。この構成により、誤分類率を算出する際に用いる評価データに、教師データの修正対象とする文書が含まれていない、あるいは極端に少ないという可能性を排除することができる。

　また、教師データ修正装置１において、誤分類率は、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率であってもよい。この構成により、第１カテゴリに属すべき文書が誤って第２カテゴリに属している教師データをより確実に修正することができる。

　また、教師データ修正装置１において、削除データ決定部１５は、入力された任意の文書が属するカテゴリを分類する文書分類モデルであって教師データに基づいて学習された文書分類モデルの、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第１カテゴリと当該第２カテゴリとを示すカテゴリ情報を取得してもよい。この構成により、教師データに不備がある場合により確実に当該教師データを修正することができる。

　また、教師データ修正装置１において、削除データ決定部１５は、教師データに含まれる文書であって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、教師データ削除部１６は、教師データに含まれる文書であって削除データ決定部１５によって取得されたカテゴリ情報が示す第２カテゴリに属する文書のうち削除データ決定部１５によって特定された用語及び当該第１カテゴリを示す名称を含む文書の組を当該教師データから削除してもよい。この構成により、第１カテゴリを示す名称を含む文書の組も教師データから削除されるため、より精度良く教師データを修正することができる。

　また、教師データ修正装置１において、教師データ削除部１６によって削除された教師データに基づいて、入力された任意の文書が属するカテゴリを分類する文書分類モデルを学習して出力する機械学習部１１をさらに備えてもよい。この構成により、文書分類モデルの精度を高めることができる。

　教師データ修正装置１は、教師データの整形自動化に関する。教師データ修正装置１は、新旧カテゴリが混在した不正確な学習データを用いて学習後、上位カテゴリへの誤分類率を算出し、算出した誤分類率によって、教師データの修正が必要な上位－下位カテゴリを特定し、下位カテゴリに特徴的な単語を特定し、過去教師データから下位カテゴリに関連する文書を削除することで、低コストかつ迅速に教師データを修正し、モデルの精度を高める。

　教師データ修正装置１によれば、ユーザ目線の効果として、記事が下位カテゴリに正しく分類されており、上位カテゴリ・下位カテゴリどちらにも記事が点在するという状態がなくなるという効果を奏する。また、運用者目線の効果として、あるカテゴリを新規に追加しても、容易にデータの整形が実施されるという効果を奏する。

　本開示の教師データ修正装置１は、以下の構成を有してもよい。

　［Ａ］
　上位カテゴリの教師データに混在する下位カテゴリの教師データを削除する教師データ修正装置であって、
　教師データを用いて文書分類モデルを学習し、教師データを構成するテキストデータを学習済の文書分類モデルに入力し、カテゴリ分類結果を出力させる機械学習・推論部と、
　前記より出力されたカテゴリ分類結果と教師データに予め付与されていたカテゴリとを比較して、上位－下位カテゴリペアデータに基づいて上位カテゴリへの誤分類率を算出する誤分類率算出部と、
　上位カテゴリへの誤分類率が閾値より高いかどうかによって教師データを修正するか否かを判断する教師データ修正判定部と、
　上位カテゴリの教師データに混在する下位カテゴリの教師データを下位カテゴリを表す特徴的な単語を用いて削除することで、教師データの修正を行う教師データ修正部を備える教師データ修正装置。

　［Ｂ］
　前記下位カテゴリを表す特徴的な単語を抽出するための削除データ決定部をさらに備え、
　前記教師データ修正部は、前記削除データ決定部を用いて得られた特徴語及びカテゴリ名を用いて、教師データの修正を行う、
　［Ａ］に記載の教師データ修正装置。

　［１］
　階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、
　一の前記カテゴリである第１カテゴリと、当該第１カテゴリと階層関係にある前記カテゴリである第２カテゴリであって当該第１カテゴリに属すべき前記教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報を取得する取得部と、
　前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第２カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、
　を備える教師データ修正装置。

　［２］
　前記カテゴリの階層構造は、時間経過と共に変更される、
　［１］に記載の教師データ修正装置。

　［３］
　第２カテゴリは、第１カテゴリの上位の階層である、
　［１］又は［２］に記載の教師データ修正装置。

　［４］
　入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して前記削除部による削除を実行する、
　［１］～［３］の何れか一項に記載の教師データ修正装置。

　［５］
　前記教師データに基づく学習では、交差検証が実行される、
　［４］に記載の教師データ修正装置。

　［６］
　誤分類率は、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率である、
　［４］又は［５］に記載の教師データ修正装置。

　［７］
　前記取得部は、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第１カテゴリと当該第２カテゴリとを示すカテゴリ情報を取得する、
　［１］～［６］の何れか一項に記載の教師データ修正装置。

　［８］
　前記削除部は、前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第２カテゴリに属する文書のうち特定された当該用語及び当該第１カテゴリを示す名称を含む文書の組を当該教師データから削除する、
　［１］～［７］の何れか一項に記載の教師データ修正装置。

　［９］
　前記削除部によって削除された前記教師データに基づいて、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルを学習して出力する学習部をさらに備える、
　［１］～［８］の何れか一項に記載の教師データ修正装置。

　なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本開示の一実施の形態における教師データ修正装置１などは、本開示の教師データ修正方法の処理を行うコンピュータとして機能してもよい。図２９は、本開示の一実施の形態に係る教師データ修正装置１のハードウェア構成の一例を示す図である。上述の教師データ修正装置１は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。教師データ修正装置１のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　教師データ修正装置１における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。例えば、上述の機械学習部１１、推論部１２、誤分類率算出部１３、教師データ修正判定部１４、削除データ決定部１５及び教師データ削除部１６などは、プロセッサ１００１によって実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、機械学習部１１、推論部１２、誤分類率算出部１３、教師データ修正判定部１４、削除データ決定部１５及び教師データ削除部１６は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ROM）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ROM）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency　Division　Duplex）及び時分割複信（ＴＤＤ：Time　Division　Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の機械学習部１１、推論部１２、誤分類率算出部１３、教師データ修正判定部１４、削除データ決定部１５及び教師データ削除部１６などは、通信装置１００４によって実現されてもよい。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　また、教師データ修正装置１は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　情報の通知は、本開示において説明した態様／実施形態に限られず、他の方法を用いて行われてもよい。

　本開示において説明した各態様／実施形態は、ＬＴＥ（Long　Term　Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ　３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ（4th　generation　mobile　communication　system）、５Ｇ（5th　generation　mobile　communication　system）、ＦＲＡ（Future　Radio　Access）、ＮＲ（new　Radio）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra　Mobile　Broadband）、ＩＥＥＥ　８０２．１１（Ｗｉ－Ｆｉ（登録商標））、ＩＥＥＥ　８０２．１６（ＷｉＭＡＸ（登録商標））、ＩＥＥＥ　８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて（例えば、ＬＴＥ及びＬＴＥ－Ａの少なくとも一方と５Ｇとの組み合わせ等）適用されてもよい。

　本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

　なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

　本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

　また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

　上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。

　本開示で使用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking　up、search、inquiry）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

　「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

　本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。

　本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

　１…教師データ修正装置、１０…格納部、１１…機械学習部、１２…推論部、１３…誤分類率算出部、１４…教師データ修正判定部、１５…削除データ決定部、１６…教師データ削除部、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス。

Claims

　階層構造を持つカテゴリと当該カテゴリに属する文書との組からなる教師データを修正する教師データ修正装置であって、
　一の前記カテゴリである第１カテゴリと、当該第１カテゴリと階層関係にある前記カテゴリである第２カテゴリであって当該第１カテゴリに属すべき前記教師データに含まれる文書が誤って属している又は誤って属している可能性がある第２カテゴリとを示すカテゴリ情報を取得する取得部と、
　前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第２カテゴリに属する文書のうち特定された当該用語を含む文書の組を当該教師データから削除する削除部と、
　を備える教師データ修正装置。
　前記カテゴリの階層構造は、時間経過と共に変更される、
　請求項１に記載の教師データ修正装置。
　第２カテゴリは、第１カテゴリの上位の階層である、
　請求項１に記載の教師データ修正装置。
　入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの誤分類率が所定の基準を満たす場合に、当該教師データに対して前記削除部による削除を実行する、
　請求項１に記載の教師データ修正装置。
　前記教師データに基づく学習では、交差検証が実行される、
　請求項４に記載の教師データ修正装置。
　誤分類率は、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率である、
　請求項４に記載の教師データ修正装置。
　前記取得部は、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルであって前記教師データに基づいて学習された文書分類モデルの、第１カテゴリに属すべき文書が誤って第２カテゴリに属すると分類される確率である誤分類率が所定の基準を満たす場合に、当該第１カテゴリと当該第２カテゴリとを示すカテゴリ情報を取得する、
　請求項１に記載の教師データ修正装置。
　前記削除部は、前記教師データに含まれる文書であって前記取得部によって取得されたカテゴリ情報が示す第１カテゴリに属する文書において特徴的な用語を特定し、当該教師データに含まれる文書であって当該カテゴリ情報が示す第２カテゴリに属する文書のうち特定された当該用語及び当該第１カテゴリを示す名称を含む文書の組を当該教師データから削除する、
　請求項１に記載の教師データ修正装置。
　前記削除部によって削除された前記教師データに基づいて、入力された任意の文書が属する前記カテゴリを分類する文書分類モデルを学習して出力する学習部をさらに備える、
　請求項１に記載の教師データ修正装置。