JP2007334429A - キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 - Google Patents
キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 Download PDFInfo
- Publication number
- JP2007334429A JP2007334429A JP2006162462A JP2006162462A JP2007334429A JP 2007334429 A JP2007334429 A JP 2007334429A JP 2006162462 A JP2006162462 A JP 2006162462A JP 2006162462 A JP2006162462 A JP 2006162462A JP 2007334429 A JP2007334429 A JP 2007334429A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- topic
- document
- search
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】キーワード検出処理部103は、入力される文字列からキーワードを検出して、そのキーワードとそのキーワードをカウントし、そのキーワードとカウント値をキーワード履歴記憶部105に記憶する。そして、カウント値とそのキーワードを入力として、話題区間推定処理部106がキーワード個々に対応した互いに異なる複数の検索語とそれらの検索語を含む文書とを対応付けた検索用データベースから、連続する検索語を含む話題区間を検索し、上記キーワードを含む最も長く連続するキーワードと対応した検索語を含む文書が検索できるキーワードの範囲を、話題区間の範囲として出力する。
【選択図】図1
Description
そのように仮定すると、上記した動作によって、キーワード履歴記憶部105に、(1,データベース)(2,クエリー)(3,ブラウザ)(4,インターネット)(5,接続)(6,出来ない)の順番でキーワードが記憶される。
〔話題区間の推定原理〕
複数の検索語KW*をand条件で検索した結果の文書数が0になるということは、最後に加えた検索語KWiを含む文書の集合と、それまでに加えた検索語(KWi+1,…,KWK)を全て含む文書の集合とに交わりが無いことになる。文書の集合が交わらないということは、それぞれが異なる話題を扱った文書集合と考えられる。すなわち、最後に追加した検索語を含めた検索語で文書を検索したキーワード出現箇所と、その直前までに追加した検索語を含めた検索語で文書を検索した範囲では、異なる話題を扱っていると推定することが出来る。したがって、複数の検索語KW*をand条件で含む文書数が0になる直前のキーワードの両端を求め、そのキーワードの在る範囲を話題区間とすることができる。
また、通話の音声情報を録音しておき、話題範囲内の音声情報を出力するようにしても良い。
上記したように、キーワード生成部305が認識文字列中の最新キーワードを検出するようにしておくことで、常に応対の最新の話題に沿った話題を適切に選択して見ることが可能である。
以上の各実施形態の他、本発明である各装置及び方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (17)
- 入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番またはそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部が出力する話題区間内のキーワードを出力するキーワード生成部と、
を具備することを特徴とするキーワード生成装置。 - 請求項1に記載のキーワード生成装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成装置。 - 請求項1及び2に記載したキーワード生成装置(以下、キーワード生成部と称す)と、上記キーワード生成部から上記キーワードを受け取り、これらキーワードを含むキーワードと関連する文書タイトル若しくは要約文を文書記憶装置から検索する文書検索部と、
上記文書検索部により検索された結果を映像信号に変換する表示信号変換部と、
上記表示信号変換部で変換された映像信号を表示する表示部と、
上記文書検索部に接続され、上記表示部に表示された上記文書タイトル若しくは要約文を選択する選択入力部と、
を具備し、上記選択入力部からの選択入力に基づき上記文書検索部は、上記文書検索装置から文書を読み出し、その文書データを上記表示信号変換部に出力するものであることを特徴とする文書検索装置。 - 請求項3に記載の文書検索装置において、
上記キーワード生成部は出力キーワードに対応した文書の文書インデックスを出力するものであり、上記文書検索部は、文書インデックスに対する文書タイトル若しくは要約文、及び文書本体を上記文書記憶装置から検索するものであることを特徴とする文書検索装置。 - 入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部の上記話題区間の範囲出力を外部に出力する話題範囲出力部と、
を具備することを特徴とする話題範囲推定装置。 - 請求項5に記載の話題範囲推定装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題範囲推定装置。 - 入力される文字列からキーワードを検出し、そのキーワードとそのキーワードの出現順番をカウントするキーワード検出処理部と、
上記キーワード検出処理部の出力するキーワードと出現順番を記憶するキーワード履歴記憶部と、
上記キーワードの個々をそれぞれ検索語とし、複数の文書ごとに、少なくともその文書に含まれる検索語が記憶された検索用データベースと、
上記キーワードの内、あるキーワードの出現順番又はそのキーワードを入力として、あるキーワードの出現順番若しくはそのキーワードと対応する検索語を含む文書を検索し、文書が検索できる上記入力されたキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理部と、
上記話題区間推定処理部の出力する話題区間と、その話題区間の外側で隣接するキーワードとの間の上記文字列中の位置情報を話題境界情報として生成する話題境界生成部と、
を具備することを特徴とする話題境界推定装置。 - 請求項7に記載の話題境界推定装置において、
上記話題区間推定処理部に入力される上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とする話題境界推定装置。 - キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力する出現順番とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記そのキーワード又はあるキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
話題区間キーワード抽出手段が、上記話題区間推定処理部が出力する話題区間内のキーワードを生成するキーワード生成処理過程と、
を有するキーワード生成方法。 - 請求項9に記載のキーワード生成方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。 - 請求項9又は10に記載したキーワード生成方法により生成されたキーワードを受信するキーワード受信過程と、
受信したキーワードに対応する検索語を含む文書タイトル若しくは要約文を文書記憶装置から検索する文書タイトル検索過程と、
上記検索された文書タイトル若しくは要約文を表示信号変換手段が映像信号に変換して表示部に表示する文書タイトル表示過程と、
上記表示信号変換手段が映像信号を文字表示する過程と、
上記表示部に表示された文書タイトル若しくは要約文の一つを選択する文書タイトル選択過程と、
上記選択された文書タイトル若しくは要約文の一つに対応する文書本体を上記文書記憶装置から読み出し、上記表示部に表示する文書表示過程と、
を有する文書検索方法。 - キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力する出現順番とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記そのキーワード又はあるキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
上記話題区間推定処理部の出力する話題区間の範囲を入力として話題区間の開始側の出現順番Kiと終了側の出現順番Kjを外部に出力する話題範囲出力過程と、
を有する話題範囲推定方法。 - 請求項12に記載のキーワード生成方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。 - キーワード検出手段が入力される文字列からキーワードを検出し、キーワードカウント手段がそのキーワードの出現順番をカウントするキーワード検出処理過程と、
キーワード履歴記憶部への格納手段が、上記キーワード検出処理部の出力するカウント値とキーワードとを、キーワード履歴記憶部に記憶するキーワード履歴記憶過程と、
話題区間推定処理手段が、上記キーワード個々に対応した互いに異なる複数の検索語と、
それらの検索語を含む文書とを対応付けた検索用データベースを照合し、上記キーワードの内、あるキーワードの出現順番又はそのキーワードと一致する検索語を含む文書を探し、キーワード履歴記憶部に記憶される上記あるキーワード又はそのキーワードを含み出現順番上で隣接して最も長く連続するキーワードの組み合わせの上記キーワード履歴記憶部に保存された出現順番上の範囲を話題区間の範囲として出力する話題区間推定処理過程と、
話題境界推定手段が、上記話題区間推定処理部の出力する話題区間と隣接するキーワードとの間の上記文字列中の位置を話題境界情報として生成する話題境界推定過程と、
を有する話題境界推定方法。 - 請求項14に記載の話題境界推定方法において、
上記話題区間推定処理過程における上記あるキーワードの出現順番又はそのキーワードが、上記キーワード検出処理部において最も新しく検出されたキーワードに対応することを特徴とするキーワード生成方法。 - 請求項1乃至8に記載した各装置としてコンピュータを機能させるための装置プログラム。
- 請求項16に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006162462A JP4724051B2 (ja) | 2006-06-12 | 2006-06-12 | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006162462A JP4724051B2 (ja) | 2006-06-12 | 2006-06-12 | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007334429A true JP2007334429A (ja) | 2007-12-27 |
JP4724051B2 JP4724051B2 (ja) | 2011-07-13 |
Family
ID=38933882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006162462A Active JP4724051B2 (ja) | 2006-06-12 | 2006-06-12 | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4724051B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010067565A1 (ja) * | 2008-12-12 | 2010-06-17 | 日本電気株式会社 | 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体 |
CN101826102A (zh) * | 2010-03-26 | 2010-09-08 | 浙江大学 | 一种图书关键字自动生成的方法 |
JP2011159100A (ja) * | 2010-02-01 | 2011-08-18 | Nippon Telegr & Teleph Corp <Ntt> | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム |
JP2016177311A (ja) * | 2016-05-25 | 2016-10-06 | 株式会社東芝 | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
US10304457B2 (en) | 2011-07-26 | 2019-05-28 | Kabushiki Kaisha Toshiba | Transcription support system and transcription support method |
JP2019197293A (ja) * | 2018-05-08 | 2019-11-14 | ベクスト株式会社 | 会話支援システムおよび会話支援方法 |
CN113407792A (zh) * | 2021-07-06 | 2021-09-17 | 亿览在线网络技术(北京)有限公司 | 一种基于话题的文本输入方法 |
WO2023144896A1 (ja) * | 2022-01-25 | 2023-08-03 | Nttテクノクロス株式会社 | 情報処理装置、情報処理方法及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203295A (ja) * | 1998-01-08 | 1999-07-30 | Ntt Data Corp | 情報提供装置および方法 |
JP2000235585A (ja) * | 1998-12-30 | 2000-08-29 | Xerox Corp | トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム |
JP2001249930A (ja) * | 2000-03-03 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 協調的応答型情報提供方法および装置 |
JP2004007358A (ja) * | 2002-03-28 | 2004-01-08 | Fujitsu Ltd | 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法 |
JP2004164678A (ja) * | 2002-09-24 | 2004-06-10 | Nariyuki Motoi | コンテンツ提供システム |
-
2006
- 2006-06-12 JP JP2006162462A patent/JP4724051B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11203295A (ja) * | 1998-01-08 | 1999-07-30 | Ntt Data Corp | 情報提供装置および方法 |
JP2000235585A (ja) * | 1998-12-30 | 2000-08-29 | Xerox Corp | トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム |
JP2001249930A (ja) * | 2000-03-03 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 協調的応答型情報提供方法および装置 |
JP2004007358A (ja) * | 2002-03-28 | 2004-01-08 | Fujitsu Ltd | 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法 |
JP2004164678A (ja) * | 2002-09-24 | 2004-06-10 | Nariyuki Motoi | コンテンツ提供システム |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010067565A1 (ja) * | 2008-12-12 | 2010-06-17 | 日本電気株式会社 | 文書分析装置、文書分析方法、及びコンピュータ読み取り可能な記録媒体 |
JP5464371B2 (ja) * | 2008-12-12 | 2014-04-09 | 日本電気株式会社 | 文書分析装置、文書分析方法、及びプログラム |
JP2011159100A (ja) * | 2010-02-01 | 2011-08-18 | Nippon Telegr & Teleph Corp <Ntt> | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム |
CN101826102A (zh) * | 2010-03-26 | 2010-09-08 | 浙江大学 | 一种图书关键字自动生成的方法 |
CN101826102B (zh) * | 2010-03-26 | 2012-07-25 | 浙江大学 | 一种图书关键字自动生成的方法 |
US10304457B2 (en) | 2011-07-26 | 2019-05-28 | Kabushiki Kaisha Toshiba | Transcription support system and transcription support method |
JP2016177311A (ja) * | 2016-05-25 | 2016-10-06 | 株式会社東芝 | テキスト処理装置、テキスト処理方法およびテキスト処理プログラム |
JP2019197293A (ja) * | 2018-05-08 | 2019-11-14 | ベクスト株式会社 | 会話支援システムおよび会話支援方法 |
CN113407792A (zh) * | 2021-07-06 | 2021-09-17 | 亿览在线网络技术(北京)有限公司 | 一种基于话题的文本输入方法 |
CN113407792B (zh) * | 2021-07-06 | 2024-03-26 | 亿览在线网络技术(北京)有限公司 | 一种基于话题的文本输入方法 |
WO2023144896A1 (ja) * | 2022-01-25 | 2023-08-03 | Nttテクノクロス株式会社 | 情報処理装置、情報処理方法及びプログラム |
GB2629319A (en) * | 2022-01-25 | 2024-10-23 | Ntt Technocross Corp | Information processing device, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4724051B2 (ja) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4724051B2 (ja) | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
JP4887264B2 (ja) | 音声データ検索システム | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP5300974B2 (ja) | 検索装置 | |
JP2006243728A (ja) | 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム | |
JP5722415B2 (ja) | 自動完成質疑語提供システム、検索システム、自動完成質疑語提供方法並びに記録媒体 | |
JP2007323558A (ja) | キーワード生成装置、文書検索装置、その方法、およびそのプログラム | |
JP6126965B2 (ja) | 発話生成装置、方法、及びプログラム | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
JP2004046775A (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP4416644B2 (ja) | 予測機能付き文字処理装置、方法、記録媒体およびプログラム | |
JP4015661B2 (ja) | 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体 | |
JP5583230B2 (ja) | 情報検索装置及び情報検索方法 | |
JP2009104475A (ja) | 類似文書検索装置、類似文書検索方法およびプログラム | |
JP2009181152A (ja) | データ入力装置及びデータ入力方法 | |
JP2009282835A (ja) | 音声検索装置及びその方法 | |
JPH06124305A (ja) | 文書検索方法 | |
JP4622861B2 (ja) | 音声入力システム、音声入力方法、および、音声入力用プログラム | |
JP5160120B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 | |
JP4847210B2 (ja) | 入力変換学習プログラム、入力変換学習方法及び入力変換学習装置 | |
JP5344649B2 (ja) | 文字列変換装置、文字列変換方法、プログラムおよび記録媒体 | |
JP3819959B2 (ja) | 音声による情報検索装置 | |
JP2011053851A (ja) | 分類処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110408 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140415 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |