JP2022542415A - Systems and methods for managing spoken queries using pronunciation information - Google Patents
Systems and methods for managing spoken queries using pronunciation information Download PDFInfo
- Publication number
- JP2022542415A JP2022542415A JP2022506260A JP2022506260A JP2022542415A JP 2022542415 A JP2022542415 A JP 2022542415A JP 2022506260 A JP2022506260 A JP 2022506260A JP 2022506260 A JP2022506260 A JP 2022506260A JP 2022542415 A JP2022542415 A JP 2022542415A
- Authority
- JP
- Japan
- Prior art keywords
- text
- entity
- query
- entities
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 134
- 238000006243 chemical reaction Methods 0.000 claims abstract description 18
- 230000005236 sound signal Effects 0.000 description 54
- 238000012545 processing Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 35
- 238000004891 communication Methods 0.000 description 32
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 230000001143 conditioned effect Effects 0.000 description 4
- 230000003750 conditioning effect Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000013016 learning Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
システムは、音声クエリをオーディオインターフェースにおいて受信し、音声クエリをテキストに変換する。システムは、変換中、発音情報を決定し、クエリの1つ以上の単語の発音を示すメタデータを生成すること、音素情報をテキストクエリ内に含むこと、または両方を行うことができる。クエリは、発音に基づいてより正確に識別され得る1つ以上のエンティティを含む。システムは、生成されたテキストクエリ、発音情報、ユーザプロファイル情報、検索履歴または傾向、随意に、他の情報に基づいて、1つ以上のデータベースの中の情報、コンテンツ、または両方を検索する。システムは、テキストクエリに合致する1つ以上のエンティティまたはコンテンツ項目を識別し、識別された情報を読み出し、ユーザに提供する。
The system receives the spoken query at the audio interface and converts the spoken query to text. During conversion, the system may determine phonetic information, generate metadata indicating the pronunciation of one or more words of the query, include phonemic information within the text query, or both. A query includes one or more entities that can be more accurately identified based on pronunciation. The system searches for information, content, or both in one or more databases based on generated text queries, phonetic information, user profile information, search histories or trends, and optionally other information. The system identifies one or more entities or content items that match the text query, retrieves the identified information, and provides it to the user.
Description
本開示は、音声クエリを管理するためのシステムに関し、より具体的に、発音情報に基づいて音声クエリを管理するためのシステムに関する。 TECHNICAL FIELD This disclosure relates to systems for managing phonetic queries and, more particularly, to systems for managing phonetic queries based on pronunciation information.
会話システムでは、ユーザが音声クエリをシステムに発すると、発話は、自動発話認識(ASR)モジュールを使用して、テキストに変換される。このテキストは、次いで、会話システムへの入力を形成し、それは、テキストへの応答を決定する。例えば、ユーザが、「Tom Cruiseの映画を見せて」と言うと、ASRモジュールは、ユーザの音声をテキストに変換し、それを会話システムに発する。会話システムは、それがASRモジュールから受信したテキストに基づいて行動するに過ぎない。時として、このプロセスでは、会話システムは、単語の発音の詳細またはユーザのクエリに含まれる音を失う。発音詳細は、特に、同じ単語が、2つ以上の発音を有し、発音が、異なる意味に対応するとき、検索に役立ち得る情報を提供し得る。 In conversational systems, when a user issues a spoken query to the system, the speech is converted to text using an automatic speech recognition (ASR) module. This text then forms the input to the conversation system, which determines the responses to the text. For example, when a user says, "Show me a Tom Cruise movie," the ASR module converts the user's speech to text and emits it to the conversation system. The conversation system only acts on the text it receives from the ASR module. Sometimes, in this process, the conversation system loses details of the pronunciation of words or sounds contained in the user's query. Pronunciation details can provide information that can be useful in searching, especially when the same word has two or more pronunciations and the pronunciations correspond to different meanings.
本開示は、ユーザがクエリ単語を発話すると、複数のコンテキスト入力に基づいて、検索を実施し、ユーザの意図する検索クエリを予測するシステムおよび方法を説明する。検索は、例えば、ユーザ検索履歴、ユーザの好きなものおよび嫌いなもの、一般的傾向、クエリ単語の発音詳細、および任意の他の好適な情報を含む複数のコンテキスト入力に基づき得る。アプリケーションが、音声クエリを受信し、音声クエリを表すテキストクエリを生成する。アプリケーションは、テキストクエリに含まれるテキストクエリに関連付けられたメタデータに含まれ得るか、または、データベース内のエンティティのメタデータに含まれ得る発音情報を使用して、検索結果をより正確に読み出す。いくつかの実施形態では、アプリケーションは、検索クエリからのエンティティの到達可能性を改良するために、テキスト→発話変換、および発話→テキスト変換に基づいて、メタデータを生成する。 This disclosure describes systems and methods for conducting a search and predicting the user's intended search query based on multiple contextual inputs as the user speaks query words. Searches may be based on multiple contextual inputs including, for example, user search history, user likes and dislikes, general trends, query word pronunciation details, and any other suitable information. An application receives a spoken query and generates a text query representing the spoken query. Applications use phonetic information, which may be included in the metadata associated with the text query included in the text query, or included in the metadata of entities in the database, to more accurately retrieve search results. In some embodiments, the application generates metadata based on text-to-speech and speech-to-text conversions to improve reachability of entities from search queries.
本開示の上記および他の目的および利点は、同様の参照記号が全体を通して同様の部分を指す付随する図面と併せて解釈される以下の詳細な説明の考慮に応じて明白であろう。 The above and other objects and advantages of the present disclosure will become apparent upon consideration of the following detailed description taken in conjunction with the accompanying drawings, in which like reference characters refer to like parts throughout.
いくつかの実施形態では、本開示は、音声クエリをユーザから受信し、音声クエリを分析し、コンテンツまたは情報を検索するためのテキストクエリ(例えば、転換物)を生成するように構成されたシステムを対象とする。システムは、1つ以上のキーワードの発音に部分的に基づいて、音声クエリに応答する。例えば、英語言語では、同じスペルであるが、異なる発音を有する複数の単語が存在する。これは、特に、人々の名前に当てはまり得る。いくつかの例は、以下を含む。
オプション1)「Fraud MagazineとのLouis Freehのインタビューを見せて」
オプション2)「CBSで放送されたLewis Blackのインタビューを見せて」
結果として生じるテキストクエリは、ユーザが単語「Louis」を発話した方法に依存する。ユーザが、「LOO-ee」と発音した場合、システムは、オプション1を選択するか、または、より重い重みをオプション1に適用する。ユーザが、「LOO-his」と発音した場合、システムは、オプション2を選択するか、または、より重い重みをオプション2に適用する。発音が考慮されないと、システムは、音声クエリに正確に応答することが可能ではないであろう可能性が高い。
In some embodiments, the present disclosure provides a system configured to receive spoken queries from users, analyze the spoken queries, and generate text queries (e.g., diversions) for retrieving content or information. for The system responds to voice queries based in part on the pronunciation of one or more keywords. For example, in the English language, there are multiple words with the same spelling but different pronunciations. This can be especially true for people's names. Some examples include:
Option 1) "Show me Louis Freeh's interview with Fraud Magazine"
Option 2) "Show me the Lewis Black interview that aired on CBS."
The resulting text query depends on how the user pronounced the word "Louis." If the user pronounces "LOO-ee", the system selects option 1 or applies a heavier weight to option 1. If the user pronounces "LOO-his", the system selects option 2 or applies a heavier weight to option 2. If pronunciation is not considered, it is likely that the system will not be able to respond accurately to spoken queries.
いくつかの状況では、人物の部分的名前を含む音声クエリは、その人を正しく検出することにおいて曖昧性を引き起こし得る(例えば、「非決定的人物検索クエリ」と称される)。例えば、ユーザが、「Tomが主演の映画を見せて」または「Louisのインタビューを見せて」と声に出す場合、システムは、ユーザが尋ねているのがTomまたはLouis/Louie/Lewisであるかを決定する必要があるであろう。発音情報に加え、システムは、例えば、ユーザ検索履歴(例えば、前のクエリおよび検索結果)、ユーザの好きなもの/嫌いなもの/選好(例えば、ユーザプロファイル情報から)、(例えば、複数のユーザの)一般的傾向、(例えば、複数のユーザの中の)人気、任意の他の好適な情報、またはそれらの任意の組み合わせ等の1つ以上のコンテキスト入力を分析し得る。システムは、自動発話認識(ASR)プロセス後、失われないように、発音情報を好適な形態において(例えば、テキストクエリ自体で、またはテキストクエリに関連付けられたメタデータで)に保持する。 In some situations, a spoken query containing a partial name of a person can cause ambiguity in correctly detecting that person (eg, referred to as a "non-deterministic person search query"). For example, if the user says, "Show me a movie starring Tom" or "Show me an interview with Louis," the system asks if it is Tom or Louis/Louie/Lewis that the user is asking. would need to be determined. In addition to pronunciation information, the system can, for example, collect user search history (e.g., previous queries and search results), user likes/dislikes/preferences (e.g., from user profile information), (e.g., multiple user ), popularity (eg, among multiple users), any other suitable information, or any combination thereof. The system retains the pronunciation information in a suitable form (eg, in the text query itself or in metadata associated with the text query) so that it is not lost after the automatic speech recognition (ASR) process.
いくつかの実施形態では、システムによって使用されるための発音情報に関して、その中でシステムが検索する情報フィールドは、クエリとの比較のための発音情報を含まなければならない。例えば、情報フィールドは、発音メタデータを含むエンティティについての情報を含み得る。システムは、音素転換プロセスを実施し得、素転換プロセスは、ユーザの音声クエリを入力としてとり、それをテキストに転換し、テキストは、読み返されると、音声学的に正しく聞こえる。システムは、音素転換プロセスの出力および発音メタデータを使用して、検索結果を決定するように構成され得る。例証的例では、エンティティに関して記憶される発音メタデータは、以下を含み得る。
いくつかの実施形態では、本開示は、音声クエリをユーザから受信し、音声クエリを分析し、コンテンツまたは情報を検索するためのテキストクエリ(例えば、転換物)を生成するように構成されたシステムを対象とする。システムが検索する情報フィールドは、発音メタデータ、エンティティの代替テキスト表現、または両方を含む。例えば、ユーザが、音声クエリをシステムに発すると、システムは、最初に、ASRモジュールを使用して、音声をテキストに変換する。結果として生じるテキストは、次いで、会話システム(例えば、クエリに応答して、アクションを実施する)への入力を形成する。例証するために、ユーザが、「Tom Cruiseの映画を見せて」と言う場合、ASRモジュールは、ユーザの発話をテキストに変換し、テキストクエリを会話システムに発する。「Tom Cruise」に対応するエンティティが、データ内に存在する場合、システムは、それをテキスト「Tom Cruise」と合致させ、適切な結果(例えば、Tom Cruiseについての情報、Tom Cruiseを特徴とするコンテンツ、またはそのコンテンツ識別子)を返す。エンティティが、(例えば、情報フィールドの)データ内に存在し、直接、エンティティタイトルを使用してアクセスされることができるとき、エンティティは、「到達可能」と称され得る。到達可能性は、システムが検索動作を実施するために最も重要である。例えば、あるデータ(例えば、映画、芸術家、テレビシリーズ、または他のエンティティ)が、システム内に存在し、関連付けられたデータが、記憶されるが、ユーザが、その情報にアクセスすることができない場合、エンティティは、「到達不能」と称され得る。データシステム内の到達不能エンティティは、検索システムの失敗を表す。 In some embodiments, the present disclosure provides a system configured to receive spoken queries from users, analyze the spoken queries, and generate text queries (e.g., diversions) for retrieving content or information. target. Information fields that the system retrieves include phonetic metadata, alternative textual representations of entities, or both. For example, when a user issues a spoken query to the system, the system first converts the speech to text using the ASR module. The resulting text then forms the input to a conversation system (eg, to perform actions in response to queries). To illustrate, if a user says, "Show me a Tom Cruise movie," the ASR module converts the user's utterance to text and issues a text query to the conversation system. If an entity corresponding to "Tom Cruise" exists in the data, the system will match it with the text "Tom Cruise" and display the appropriate results (e.g., information about Tom Cruise, content featuring Tom Cruise , or its content identifier). An entity may be referred to as 'reachable' when it exists within the data (eg, in an information field) and can be directly accessed using the entity title. Reachability is of utmost importance for the system to perform search operations. For example, if some data (e.g., movie, artist, television series, or other entity) exists within the system and the associated data is stored, the user cannot access that information. If so, the entity may be referred to as "unreachable." An unreachable entity in the data system represents a retrieval system failure.
システムは、複数の記憶された情報の中の1つ以上のエンティティまたはコンテンツ項目を識別し得る。いくつかの実施形態では、システムは、エンティティまたはコンテンツ項目を表す第1のテキスト文字列に基づいて、オーディオファイルを生成する。第1のテキスト文字列および少なくとも1つの発話基準に基づいて、システムは、発話→テキストモジュールを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成し得る。システムは、テキスト文字列を比較し、第2のテキスト文字列が第1のテキスト文字列と同一でない場合、第2のテキスト文字列を記憶する。いくつかの実施形態では、システムは、テキスト-発話-テキスト変換からの結果を含むメタデータを生成し、検索動作中、音声クエリに応答するとき、可能な誤識別を予想する。メタデータは、到達可能性を改良するために、エンティティの代替表現を含み得る。 The system may identify one or more entities or content items among the plurality of stored information. In some embodiments, the system generates an audio file based on the first text string representing the entity or content item. Based on the first text string and at least one speech criterion, the system may use the speech to text module to generate a second text string based on the audio file. The system compares the text strings and stores the second text string if the second text string is not identical to the first text string. In some embodiments, the system generates metadata that includes results from text-to-speech-to-text conversions to anticipate possible misidentifications when responding to spoken queries during search operations. Metadata may include alternative representations of entities to improve reachability.
図1は、本開示のいくつかの実施形態による、テキストクエリを生成するための例証的システム100のブロック図を示す。システム100は、ASRモジュール110と、会話システム120と、発音メタデータ150と、ユーザプロファイル情報160と、1つ以上のデータベース170とを含む。例えば、一緒にシステム199に含まれ得るASRモジュール110および会話システム120は、クエリアプリケーションを実装するために使用され得る。
FIG. 1 shows a block diagram of an
ユーザは、発話「先週のあのLouisのインタビューを見せて」を含むクエリ101をシステム199のオーディオインターフェースに対して声に出し得る。ASRモジュール110は、受信されたオーディオ入力をサンプリング、調整、およびデジタル化し、結果として生じるオーディオファイルを分析し、テキストクエリを生成するように構成されている。いくつかの実施形態では、ASRモジュール110は、ユーザプロファイル情報160からの情報を読み出し、テキストクエリを生成することに役立てる。例えば、ユーザに関する音声認識情報が、ユーザプロファイル情報160に記憶され得、ASRモジュール110は、音声認識情報を使用して、発話するユーザを識別し得る。さらなる例では、システム199は、好適なメモリに記憶されたユーザプロファイル情報160を含み得る。ASRモジュール110は、声に出された単語「Louis」に関する発音情報を決定し得る。テキスト単語「Louis」に関して2つ以上の発音が存在するので、システム199は、発音情報に基づいて、テキストクエリを生成する。さらに、音「Loo-his」は、「Louis」または「Lewis」としてテキストに変換され得、故に、コンテキスト情報は、音声クエリの正しいエンティティ(例えば、Louis FarrakhanにおけるようなLouisとは対照的に、Lewis BlackにおけるようなLewis)を識別することに役立ち得る。いくつかの実施形態では、会話システム120は、ASRモジュール110からの認識された単語、コンテキスト情報、ユーザプロファイル情報160、発音メタデータ150、1つ以上のデータベース170、任意の他の情報、またはそれらの任意の組み合わせに基づいて、テキストクエリを生成すること、テキストクエリに応答すること、または、両方を行うように構成される。例えば、会話システム120は、テキストクエリを生成し、次いで、合致を決定するために、テキストクエリを複数のエンティティに関する発音メタデータ150と比較し得る。さらなる例では、会話システム120は、1つ以上の認識された単語を複数のエンティティに関する発音メタデータ150と比較し、合致を決定し、次いで、識別されたエンティティに基づいて、テキストクエリを生成し得る。いくつかの実施形態では、会話システム120は、付随の発音情報を伴うテキストクエリを生成する。いくつかの実施形態では、会話システム120は、埋め込み発音情報を伴うテキストクエリを生成する。例えば、テキストクエリは、正しい文法的表現「Louis」ではなく、「loo-ee」等の単語の音素表現を含み得る。さらなる例では、発音メタデータ150は、それとテキストクエリが比較され得る1つ以上の基準音素表現を含み得る。
A user may vocalize a
ユーザプロファイル情報160は、ユーザ識別情報(例えば、名前、識別子、住所、連絡先情報)、ユーザ検索履歴(例えば、前の音声クエリ、前のテキストクエリ、前の検索結果、前の検索結果またはクエリに関するフィードバック)、ユーザ選好(例えば、検索設定、お気に入りエンティティ、2つ以上のクエリに含まれるキーワード)、ユーザが好きなもの/嫌いなもの(例えば、ソーシャルメディアアプリケーション内でユーザによってフォローされるエンティティ、ユーザ入力情報)、ユーザに接続される他のユーザ(例えば、友人、家族、ソーシャルネットワーキングアプリケーション内の連絡先、ユーザデバイスに記憶される連絡先)、ユーザ音声データ(例えば、オーディオサンプル、シグネチャ、発話パターン、またはユーザの音声を識別するためのファイル)、ユーザについての任意の他の好適な情報、またはそれらの任意の組み合わせを含み得る。
1つ以上のデータベース170は、テキストクエリを生成すること、テキストクエリに応答すること、または、両方を行うための任意の好適な情報を含む。いくつかの実施形態では、発音メタデータ150、ユーザプロファイル情報160、または両方は、1つ以上のデータベース170に含まれ得る。いくつかの実施形態では、1つ以上のデータベース170は、複数のユーザに関する統計的情報(例えば、検索履歴、コンテンツ消費履歴、消費パターン)を含む。いくつかの実施形態では、1つ以上のデータベース170は、人、場所、オブジェクト、イベント、コンテンツ項目、1つ以上のエンティティに関連付けられたメディアコンテンツ、またはそれらの組み合わせを含む複数のエンティティについての情報を含む。
One or
図2は、本開示のいくつかの実施形態による、音声クエリに応答してコンテンツを読み出すための例証的システム200のブロック図を示す。システム200は、発話処理システム210と、検索エンジン220と、エンティティデータベース250と、ユーザプロファイル情報240とを含む。発話処理システム210は、オーディオファイルを識別し得、キーワードが識別され得る音素、パターン、単語、または他の要素に関して、オーディオファイルを分析し得る。いくつかの実施形態では、発話処理システム210は、時間ドメイン、スペクトルドメイン、または両方において、オーディオ入力を分析し、単語を識別し得る。例えば、発話処理システム210は、時間ドメインにおいて、オーディオ入力を分析し、発話が生じる期間を決定し得る(例えば、一時停止または沈黙の期間を排除するため)。発話処理システム210は、次いで、スペクトルドメインにおいて、各期間を分析し、キーワードが識別され得る音素、パターン、単語、または他の要素を識別し得る。発話処理システム210は、生成されたテキストクエリ、1つ以上の単語、発音情報、またはそれらの組み合わせを出力し得る。いくつかの実施形態では、発話処理システム210は、音声認識、発話認識、または両方のために、ユーザプロファイル情報240からのデータを読み出し得る。
FIG. 2 shows a block diagram of an
検索エンジン220が、発話処理システム210からの出力を受信し、検索設定221およびコンテキスト情報222と組み合わせて、テキストクエリへの応答を生成する。検索エンジン220は、ユーザプロファイル情報240を使用して、テキストクエリを生成し、それを修正し、または、それに応答し得る。検索エンジン220は、テキストクエリを使用して、エンティティ250のデータベースのデータの中を検索する。エンティティ250のデータベースは、複数のエンティティに関連付けられたメタデータ、複数のエンティティに関連付けられたコンテンツ、または両方を含み得る。例えば、データは、エンティティに関する識別子、エンティティを説明する詳細、エンティティを指すタイトル(例えば、音素表現または代替表現を含み得る)、エンティティに関連付けられた語句(例えば、音素表現または代替表現を含み得る)、エンティティに関連付けられたリンク(例えば、IPアドレス、URL、ハードウェアアドレス)、エンティティに関連付けられたキーワード(例えば、音素表現または代替表現を含み得る)、エンティティに関連付けられた任意の他の好適な情報、またはそれらの任意の組み合わせを含み得る。検索エンジン220が、テキストクエリのキーワードに合致する1つ以上のエンティティを識別すること、テキストクエリのキーワードに合致する1つ以上のコンテンツ項目を識別すること、または、両方を行うと、検索エンジン220は、次いで、テキストクエリへの応答270として、情報、コンテンツ、または両方をユーザに提供し得る。いくつかの実施形態では、検索設定221は、テキストクエリの生成、検索結果の読み出し、または両方に影響を及ぼすデータベース、エンティティ、エンティティのタイプ、コンテンツのタイプ、他の検索基準、またはそれらの任意の組み合わせを含む。いくつかの実施形態では、コンテキスト情報222は、ジャンル情報(例えば、検索フィールドをさらに絞り込むため)、キーワード、データベース識別(例えば、標的情報またはコンテンツを含む可能性が高いデータベース)、コンテンツのタイプ(例えば、日付、ジャンル、タイトル、フォーマット別)、任意の他の好適な情報、またはそれらの任意の組み合わせを含む。応答270は、例えば、コンテンツ(例えば、表示されるビデオ)、情報、検索結果の一覧、コンテンツへのリンク、任意の他の好適な検索結果、またはそれらの任意の組み合わせを含み得る。
図3は、本開示のいくつかの実施形態による、発音情報を生成するための例証的システム300のブロック図を示す。システム300は、テキスト→発話エンジン310と、発話→テキストエンジン320とを含む。いくつかの実施形態では、システム300は、テキストまたは音声クエリから独立して、発音情報を決定する。例えば、システム300は、1つ以上のエンティティに関するメタデータ(例えば、システム100の発音メタデータ150またはシステム200のエンティティ250のデータベースに記憶されるメタデータ等)を生成し得る。テキスト→発話エンジン310は、音声クエリに含まれる可能性が高いエンティティ名または他の識別子を含み得る第1のテキスト文字列302を識別し得る。例えば、テキスト→発話エンジン310は、ユーザが、数値または英数字識別子ではなく、名前を含む音声クエリを発話する(例えば、ユーザが、「WIKI04556」ではなく、「Louis」と発話する)可能性がより高いので、「ID」フィールドではなく、エンティティメタデータの「名前」フィールドを識別し得る。テキスト→発話エンジン310は、第1のテキスト文字列に基づいて、スピーカまたは他のオーディオデバイスにおいて、オーディオ出力312を生成する。例えば、テキスト→発話エンジン310は、1つ以上の設定を使用して、生成されたオーディオ出力に影響を及ぼし得る音声詳細(例えば、男性/女性音声、アクセント、または他の詳細)、再生速度、または任意の他の好適な設定を規定し得る。発話→テキストエンジン320は、マイクロホンまたは他の好適なデバイスにおいて、オーディオ出力312からオーディオ入力313を受信し(例えば、記憶され得るオーディオファイルに加え、またはその代わりに)、オーディオ入力313のテキスト変換を生成する(例えば、記録されるオーディオのオーディオファイルを記憶することに加え、またはその代わりに)。発話→テキストエンジン320は、処理設定を使用して、新しいテキスト文字列322を生成し得る。新しいテキスト文字列322は、第1のテキスト文字列302と比較される。新しいテキスト文字列322が、テキスト文字列302と同一である場合、音声クエリが正確なテキストクエリへの変換をもたらし得るので、メタデータは、生成される必要がない。新しいテキスト文字列322が、テキスト文字列302と同一でない場合、これは、音声クエリがテキストクエリに正しくなく変換されたこともあることを示す。故に、新しいテキスト文字列322が、テキスト文字列302と同一でない場合、発話→テキストエンジン320は、新しいテキスト文字列322をテキスト文字列302が関連付けられる、エンティティに関連付けられたメタデータ内に含む。システム300は、複数のエンティティを識別し、各エンティティに関して、テキスト→発話エンジン310および発話→テキストエンジン320からの結果として生じるテキスト文字列(例えば、新しいテキスト文字列322等)を含むメタデータを生成し得る。いくつかの実施形態では、所与のエンティティに関して、テキスト→発話エンジン310、発話→テキストエンジン320、または両方は、2つ以上の設定を使用して、2つ以上の新しいテキスト文字列を生成し得る。故に、2つ以上のテキスト文字列は、テキスト文字列302と異なるので、次いで、各新しいテキスト文字列は、メタデータに記憶され得る。例えば、異なる設定から生じる異なる発音または発音の解釈は、異なる新しいテキスト文字列を生成し得、それは、異なるユーザからの音声クエリに備えて記憶され得る。代替表現(例えば、テキスト文字列302および新しいテキスト文字列322)を生成および記憶することによって、システム300は、メタデータを更新し、より正確な検索を可能にし得る(例えば、エンティティの到達可能性および検索の正確度を改良する)。
FIG. 3 shows a block diagram of an
例証的例では、エンティティに関して、システム300は、タイトルおよび関連語句を識別し、各語句をテキスト→発話エンジン310に通し、それぞれのオーディオファイルを保存し、次いで、各それぞれのオーディオファイルを発話→テキストエンジン320に通し、ASR書き起こし記録(例えば、新しいテキスト文字列322)を得る。ASR書き起こし記録が、元の語句(例えば、テキスト文字列302)と異なる場合、システム300は、ASR書き起こし記録を(例えば、メタデータに記憶されるような)エンティティの関連語句に追加する。いくつかの実施形態では、システム300は、任意の手動作業を要求せず、完全に自動化され得る(例えば、ユーザ入力は、要求されない)。いくつかの実施形態では、ユーザが、クエリを発し、所望の結果を得られないとき、システム300は、アラートされる。それに応答して、人が、クエリに関する正しいエンティティであるべきものを手動で識別する。正しくない結果は、記憶され、将来的クエリのための情報を提供する。システム300は、システムレベルではなく、メタデータレベルにおいて、潜在的不正確度に対処する。多くのエンティティに関するテキスト文字列302の分析は、全ての誤った例が、事前に(例えば、ユーザの音声クエリに先立って)識別され、解決されるように、網羅的かつ自動であり得る。システム300は、誤った例(例えば、代替表現)を生成するために、ユーザが音声クエリを提供することを要求しない。システム300は、クエリシステムとのユーザの相互作用をエミュレートし、検索を実施することにおける潜在的エラー源を予想するために使用され得る。
In the illustrative example, for entities,
ユーザは、コンテンツ、(例えば、音声クエリを解釈するための)アプリケーション、および、例えば、そのデバイス(すなわち、ユーザ機器またはオーディオ機器)、1つ以上のネットワーク接続デバイス、ディスプレイを有する1つ以上の電子デバイス、またはそれらの組み合わせのうちの1つ以上のものからの他の特徴にアクセスし得る。本開示の例証的技法のいずれかは、ユーザデバイス、ディスプレイをユーザに提供するデバイス、または、音声クエリに応答し、ディスプレイコンテンツをユーザに生成するように構成された任意の他の好適な制御回路によって実装され得る。 A user may access content, an application (e.g., for interpreting voice queries), and, for example, its device (i.e., user equipment or audio equipment), one or more network-connected devices, one or more electronic devices with displays. Other features from one or more of the devices, or combinations thereof, may be accessed. Any of the illustrative techniques of this disclosure may be implemented in a user device, a device providing a display to a user, or any other suitable control circuitry configured to respond to voice queries and generate display content to a user. can be implemented by
図4は、例証的ユーザデバイスの一般化された実施形態を示す。ユーザ機器システム401は、ディスプレイ412、オーディオ機器414、およびユーザ入力インターフェース410を含むか、または、それらに通信可能に結合されたセットトップボックス416を含み得る。いくつかの実施形態では、ディスプレイ412は、テレビディスプレイまたはコンピュータディスプレイを含み得る。いくつかの実施形態では、ユーザ入力インターフェース410は、遠隔制御デバイスである。セットトップボックス416は、1つ以上の回路基板を含み得る。いくつかの実施形態では、1つ以上の回路基板は、処理回路、制御回路、および記憶装置(例えば、RAM、ROM、ハードディスク、リムーバブルディスク等)を含む。いくつかの実施形態では、回路基板は、入/出力経路を含む。ユーザ機器デバイス400およびユーザ機器システム401の各々は、入力/出力(以降では「I/O」)経路402を介してコンテンツおよびデータを受信し得る。I/O経路402は、処理回路406と記憶装置408とを含む制御回路404に、コンテンツおよびデータを提供し得る。制御回路404は、I/O経路402を使用して、コマンド、要求、および他の好適なデータを送信および受信するために使用され得る。I/O経路402は、制御回路404(具体的に、処理回路406)を1つ以上の通信経路(下記に説明される)に接続し得る。I/O機能は、これらの通信経路のうちの1つ以上のものによって提供され得るが、図面を過剰に複雑にすることを回避するように、図4では単一の経路として示される。セットトップボックス416が、例証のために図4に示されるが、処理回路、制御回路、および記憶装置を有する任意の好適なコンピューティングデバイスが、本開示に従って使用され得る。例えば、セットトップボックス416は、パーソナルコンピュータ(例えば、ノートブック、ラップトップ、デスクトップ)、ユーザアクセス可能クライアントデバイスをホストするネットワークベースのサーバ、非ユーザ所有デバイス、任意の他の好適なデバイス、またはそれらの任意の組み合わせによって置換または補完され得る。
FIG. 4 shows a generalized embodiment of an illustrative user device.
制御回路404は、処理回路406等の任意の好適な処理回路に基づき得る。本明細書で参照されるように、処理回路は、1つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)等に基づく回路を意味すると理解されるべきであり、マルチコアプロセッサ(例えば、デュアルコア、クアッドコア、ヘキサコア、または任意の好適な数のコア)またはスーパーコンピュータを含み得る。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同じのタイプの処理ユニット(例えば、2つのIntel Core i7プロセッサ)または複数の異なるプロセッサ(例えば、Intel Core i5プロセッサおよびIntel Core i7プロセッサ)を横断して分散される。いくつかの実施形態では、制御回路404は、メモリ(例えば、記憶装置408)に記憶されたアプリケーションのための命令を実行する。具体的に、制御回路404は、上記および下記に議論される機能を実施するようにアプリケーションによって命令され得る。例えば、アプリケーションは、命令を制御回路404に提供し、メディアガイド表示を発生させ得る。いくつかの実装では、制御回路404によって実施される任意のアクションは、アプリケーションから受信される命令に基づき得る。
いくつかのクライアント/サーバベースの実施形態では、制御回路404は、アプリケーションサーバまたは他のネットワークまたはサーバと通信するために好適な通信回路を含む。上記に述べられる機能性を実行するための命令は、アプリケーションサーバ上に記憶され得る。通信回路は、他の機器または任意の他の好適な通信回路と通信するために、ケーブルモデム、総合サービスデジタルネットワーク(ISDN)モデム、デジタル加入者回線(DSL)モデム、電話モデム、イーサネット(登録商標)カード、または無線モデムを含み得る。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークまたは経路を伴い得る。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信または互いに遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路(下記により詳細に説明される)を含み得る。
In some client/server-based embodiments,
メモリは、制御回路404の一部である記憶装置408等の電子記憶デバイスであり得る。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」は、ランダムアクセスメモリ、読み取り専用メモリ、ハードドライブ、光学ドライブ、ソリッドステートデバイス、量子記憶デバイス、ゲーム機、ゲーム媒体、または任意の他の好適な固定またはリムーバブル記憶デバイス等の任意の組み合わせ等の電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意のデバイスを意味すると理解されるべきである。記憶装置408は、本明細書に説明される種々のタイプのコンテンツおよび上記に説明されるメディアガイドデータを記憶するために使用され得る。不揮発性メモリも、(例えば、ブートアップルーチンおよび他の命令を起動するために)使用され得る。クラウドベースの記憶装置が、例えば、記憶装置408を補完するために、または記憶装置408の代わりに使用され得る。
The memory may be an electronic storage device, such as
ユーザが、ユーザ入力インターフェース410を使用して、命令を制御回路404に送信し得る。ユーザ入力インターフェース410、ディスプレイ412、または両方は、表示を提供し、触覚入力を受信するように構成されたタッチスクリーンを含み得る。例えば、タッチスクリーンは、指、スタイラス、または両方から触覚入力を受信するように構成され得る。いくつかの実施形態では、機器デバイス400は、前向きの画面および後向きの画面、複数の前方画面、または複数の角度付き画面を含み得る。いくつかの実施形態では、ユーザ入力インターフェース410は、1つ以上のマイクロホン、ボタン、キーパッド、ユーザ入力を受信するように構成された任意の他のコンポーネント、またはそれらの組み合わせを有するリモートコントロールデバイスを含む。例えば、ユーザ入力インターフェース410は、英数字キーパッドおよびオプションを有するハンドヘルドリモートコントロールデバイスを含み得る。さらなる例では、ユーザ入力インターフェース410は、音声コマンドを受信および識別し、情報をセットトップボックス416に伝送するように構成されたマイクロホンおよび制御回路を有するハンドヘルドリモートコントロールデバイスを含み得る。
A user may use
オーディオ機器414は、ユーザデバイス400およびユーザ機器システム401の各々の他の要素と統合されるものとして提供され得るか、または、独立型ユニットであり得る。ディスプレイ412上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントが、オーディオ機器414のスピーカを通して再生され得る。いくつかの実施形態では、オーディオは、受信機(図示せず)に分配され得、受信機は、オーディオを処理し、オーディオ機器414のスピーカを介して出力する。いくつかの実施形態では、例えば、制御回路404は、オーディオ機器414のスピーカを使用して、オーディオキューをユーザに、または他のオーディオフィードバックをユーザに提供するように構成される。オーディオ機器414は、音声コマンドおよび発話(例えば、音声クエリを含む)等のオーディオ入力を受信するように構成されたマイクロホンを含み得る。例えば、ユーザは、文字または単語を話し得、それらは、マイクロホンによって受信され、制御回路404によってテキストに変換される。さらなる例では、ユーザは、コマンドを声に出し得、コマンドは、マイクロホンによって受信され、制御回路404によって認識される。
(例えば、音声クエリを管理するための)アプリケーションが、任意の好適なアーキテクチャを使用して実装され得る。例えば、独立型アプリケーションが、ユーザデバイス400およびユーザ機器システム401の各々上に完全に実装され得る。いくつかのそのような実施形態では、アプリケーションのための命令が、ローカルで(例えば、記憶装置408内に)記憶され、アプリケーションによって使用するためのデータが、周期的基準で(例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して)ダウンロードされる。制御回路404は、記憶装置408からアプリケーションのための命令を読み出し、命令を処理し、本明細書に議論される表示のうちのいずれかを発生させ得る。処理された命令に基づいて、制御回路404は、入力がユーザ入力インターフェース410から受信されるときに実施するべきアクションの内容を決定し得る。例えば、上/下への表示上のカーソルの移動は、入力インターフェース410が、上/下ボタンが選択されたことを示すときに、処理された命令によって示され得る。本明細書に議論される実施形態のうちのいずれかを実施するためのアプリケーションおよび/または任意の命令が、コンピュータ読み取り可能な媒体上にエンコードされ得る。コンピュータ読み取り可能な媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ読み取り可能な媒体は、限定ではないが、伝搬電気または電磁信号を含み、一過性であり得るか、または、限定ではないが、ハードディスク、フロッピー(登録商標)ディスク、USBドライブ、DVD、CD、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ(RAM)等の揮発性および不揮発性コンピュータメモリまたは記憶デバイスを含み、非一過性であり得る。
Applications (eg, for managing voice queries) may be implemented using any suitable architecture. For example, a standalone application may be fully implemented on each of
いくつかの実施形態では、アプリケーションは、クライアント/サーバベースのアプリケーションである。ユーザデバイス400およびユーザ機器システム401の各々上で実装される、シックまたはシンクライアントによって使用するためのデータが、ユーザ機器デバイス400およびユーザ機器システム401の各々から遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶し得る。遠隔サーバは、回路(例えば、制御回路404)を使用して、記憶された命令を処理し、上記および下記に議論される表示を発生させ得る。クライアントデバイスは、遠隔サーバによって発生させられる表示を受信し得、ユーザデバイス400上にローカルで表示のコンテンツを表示し得る。このように、命令の処理が、サーバによって遠隔で実施される一方、テキスト、キーボード、または他の視覚物を含み得る結果として生じる表示は、ユーザデバイス400上にローカルで提供される。ユーザデバイス400は、入力インターフェース410を介してユーザから入力を受信し、対応する表示を処理し、発生させるために、それらの入力を遠隔サーバに伝送し得る。例えば、ユーザデバイス400は、上/下ボタンが入力インターフェース410を介して選択されたことを示す通信を遠隔サーバに伝送し得る。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示(例えば、カーソルを上/下に移動させる表示)を発生させ得る。発生させられた表示は、次いで、ユーザへの提示のためにユーザデバイス400に伝送される。
In some embodiments the application is a client/server based application. Data for use by a thick or thin client implemented on each of
いくつかの実施形態では、アプリケーションは、ダウンロードされ、インタープリタまたは仮想マシン(例えば、制御回路404によって起動される)によって解釈され、または別様に起動される。いくつかの実施形態では、アプリケーションは、ETVバイナリ交換形式(EBIF)でエンコードされ、好適なフィードの一部として制御回路によって受信され、制御回路404上で起動するユーザエージェントによって解釈され得る。例えば、アプリケーションは、EBIFアプリケーションであり得る。いくつかの実施形態では、アプリケーションは、制御回路404によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される一連のJAVA(登録商標)ベースのファイルによって定義され得る。
In some embodiments, the application is downloaded, interpreted by an interpreter or virtual machine (eg, launched by control circuitry 404), or otherwise launched. In some embodiments, applications may be encoded in ETV Binary Interchange Format (EBIF), received by control circuitry as part of a preferred feed, and interpreted by a user agent running on
図5は、本開示のいくつかの実施形態による、音声クエリに応答するための例証的ネットワーク配置500のブロック図を示す。例証的システム500は、ユーザが、音声クエリをユーザデバイス550において提供すること、コンテンツをユーザデバイス550のディスプレイ上で視聴すること、または両方を行う状況を表し得る。システム500では、2つ以上のタイプのユーザデバイスが存在し得るが、1つのみのが、図面を過度に複雑にすることを回避するために、図5に示される。加えて、各ユーザは、2つ以上のタイプのユーザデバイスを利用し、2つ以上の各タイプのユーザデバイスも利用し得る。ユーザデバイス550は、図4のユーザデバイス400、ユーザ機器システム401、任意の他の好適なデバイス、またはそれらの任意の組み合わせと同じであり得る。
FIG. 5 shows a block diagram of an
無線対応デバイスとして図示されるユーザデバイス550は、通信ネットワーク510に結合され得る(例えば、インターネットに接続される)。例えば、ユーザデバイス550は、通信経路(例えば、アクセスポイントを含み得る)を介して、通信ネットワーク510に結合される。いくつかの実施形態では、ユーザデバイス550は、有線接続を介して通信ネットワーク510に結合されるコンピューティングデバイスであり得る。例えば、ユーザデバイス550は、LANへの有線接続またはネットワーク510への任意の他の好適な通信リンクも含み得る。通信ネットワーク510は、インターネット、携帯電話ネットワーク、モバイル音声またはデータネットワーク(例えば、4GまたはLTEネットワーク)、ケーブルネットワーク、公衆交換電話網、または他のタイプの通信ネットワークまたは通信ネットワークの組み合わせを含む1つ以上のネットワークであり得る。通信経路は、衛星経路、光ファイバ系経路、ケーブル経路、インターネット通信をサポートする経路、自由空間接続(例えば、ブロードキャストまたは他の無線信号のため)、または任意の他の好適な有線または無線通信経路またはそのような経路の組み合わせ等の1つ以上の通信経路を含み得る。通信経路は、ユーザデバイス550とネットワークデバイス520との間に描かれないが、これらのデバイスは、上記に説明されるもの等の通信経路、およびUSBケーブル、IEEE1394ケーブル、無線経路(例えば、Bluetooth(登録商標)、赤外線、IEEE802-11x等)等の他の短範囲2地点間通信経路、または有線または無線経路を介した他の短範囲通信を介して、直接、互いに通信し得る。BLUETOOTH(登録商標)は、Bluetooth(登録商標) SIG,Inc.によって所有される認証マークである。デバイスはまた、通信ネットワーク510を介した間接経路を通して、直接、互いに通信し得る。
図示されるようなシステム500は、好適な通信経路を介して通信ネットワーク510に結合されるネットワークデバイス520(例えば、サーバまたは他の好適なコンピューティングデバイス)を含む。ネットワークデバイス520とユーザデバイス550との間の通信は、1つ以上の通信経路を経由して交換され得るが、図面を過度に複雑にすることを回避するために、図5では、単一経路として示される。ネットワークデバイス520は、データベースと、1つ以上のアプリケーション(例えば、アプリケーションサーバ、ホストサーバとして)とを含み得る。複数のネットワークエンティティが、存在し、ネットワーク510と通信し得るが、1つのみが、図面を過度に複雑にすることを回避するために、図5に示される。いくつかの実施形態では、ネットワークデバイス520は、1つのソースデバイスを含み得る。いくつかの実施形態では、ネットワークデバイス520は、多くのユーザデバイス(例えば、ユーザデバイス550)におけるアプリケーションのインスタンスと通信するアプリケーションを実装する。例えば、ソーシャルメディアアプリケーションのインスタンスが、ユーザデバイス550上に実装され得、アプリケーション情報は、ユーザに関するプロファイル情報を記憶し得るネットワークデバイス520に、および、それから通信される(例えば、現在のソーシャルメディアフィードが、ユーザデバイス550以外のデバイス上で利用可能であるように)。さらなる例では、検索アプリケーションのインスタンスが、ユーザデバイス550上に実装され得、アプリケーション情報は、ユーザに関するプロファイル情報、複数のユーザからの検索履歴、エンティティ情報(例えば、コンテンツおよびメタデータ)、任意の他の好適な情報、またはそれらの任意の組み合わせを記憶し得るネットワークデバイス520に、および、それから通信される。
いくつかの実施形態では、ネットワークデバイス520は、例えば、エンティティ情報、メタデータ、コンテンツ、履歴通信および検索記録、ユーザ選好、ユーザプロファイル情報、任意の他の好適な情報、またはそれらの任意の組み合わせを含む、記憶された情報のうちの1つ以上のタイプを含む。ネットワークデバイス520は、アプリケーションホストデータベースまたはサーバ、プラグイン、ソフトウェア開発者キット(SDK)、アプリケーションプログラミングインターフェース(API)、または、(例えば、ユーザデバイスにダウンロードされるような)ソフトウェアを提供すること、(例えば、ユーザデバイスによってアクセスされるアプリケーションをホストする)ソフトウェアを遠隔で起動すること、または、別様に、アプリケーションサポートをユーザデバイス550のアプリケーションに提供することを行うように構成された他のソフトウェアツールを含み得る。いくつかの実施形態では、ネットワークデバイス520からの情報は、クライアント/サーバアプローチを使用して、ユーザデバイス550に提供される。例えば、ユーザデバイス550は、情報をサーバからプルし得るか、または、サーバは、情報をユーザデバイス550にプッシュし得る。いくつかの実施形態では、ユーザデバイス550上に常駐するアプリケーションクライアントは、ネットワークデバイス520とのセッションを開始し、必要に応じて(例えば、データが、古くなると、またはユーザデバイスが、データを受信するための要求をユーザから受信すると)、情報を取得し得る。いくつかの実施形態では、情報は、ユーザ情報(例えば、ユーザプロファイル情報、ユーザ作成コンテンツ)を含み得る。例えば、ユーザ情報は、ユーザが関わるコンテンツトランザクション、ユーザが実施した検索、ユーザが消費したコンテンツ、ユーザがソーシャルネットワークと相互作用するかどうか、任意の他の好適な情報、またはそれらの任意の組み合わせ等の現在および/または履歴ユーザアクティビティ情報を含み得る。いくつかの実施形態では、ユーザ情報は、ある期間にわたって、所与のユーザのパターンを識別し得る。図示されるように、ネットワークデバイス520は、複数のエンティティに関するエンティティ情報を含む。エンティティ情報521、522、および523は、それぞれのエンティティに関するメタデータを含む。それに関してメタデータがネットワークデバイス520に記憶されているエンティティは、互いにリンクされ得るか、互いに参照され得るか、メタデータ内に1つ以上のタグによって記述され得るか、またはそれらの組み合わせであり得る。
In some embodiments,
いくつかの実施形態では、アプリケーションは、ユーザデバイス550、ネットワークデバイス520、または両方上に実装され得る。例えば、アプリケーションは、ソフトウェアまたは実行可能命令の組として実装され得、それらは、ユーザデバイス550、ネットワークデバイス520、または両方の記憶装置に記憶され、それぞれのデバイスの制御回路によって実行され得る。いくつかの実施形態では、アプリケーションは、クライアント/サーバベースのアプリケーションとして実装されるオーディオ記録アプリケーション、発話→テキストアプリケーション、テキスト→発話アプリケーション、音声-認識アプリケーション、またはそれらの組み合わせを含み得、クライアントアプリケーションのみが、ユーザデバイス550上に常駐し、サーバアプリケーションは、遠隔サーバ(例えば、ネットワークデバイス520)上に常駐する。例えば、アプリケーションは、部分的に、クライアントアプリケーションとして、ユーザデバイス550上に(例えば、ユーザデバイス550の制御回路によって)、部分的に、遠隔サーバ上に、遠隔サーバの制御回路(例えば、ネットワークデバイス520の制御回路)上で起動するサーバアプリケーションとして、実装され得る。遠隔サーバの制御回路によって実行されると、アプリケーションは、ディスプレイを生成し、生成されたディスプレイをユーザデバイス550に伝送するように制御回路に命令し得る。サーバアプリケーションは、ユーザデバイス550上への記憶のためにデータを伝送するように遠隔デバイスの制御回路に命令し得る。クライアントアプリケーションは、アプリケーションディスプレイを生成するように受信側ユーザデバイスの制御回路に命令し得る。
In some embodiments, applications may be implemented on
いくつかの実施形態では、システム500の配置は、クラウドベースの配置である。クラウドは、例の中でもとりわけ、情報記憶、検索、メッセージング、またはソーシャルネットワーキングサービス等のサービスへのアクセス、およびユーザデバイスに関して上記に説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウド-コンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内に提供されることができる。例えば、クラウドベースのサービスは、ユーザソースコンテンツが接続されるデバイス上での他者による視聴のために配信される記憶サービス、共有サイト、ソーシャルネットワーキングサイト、検索エンジン、または他のサービスを含むことができる。これらのクラウドベースのサービスは、ユーザデバイスが、情報をローカルで記憶し、ローカルで記憶された情報にアクセスするのではなく、情報をクラウドに記憶し、情報をクラウドから受信することを可能にし得る。クラウドリソースは、例えば、ウェブブラウザ、メッセージングアプリケーション、ソーシャルメディアアプリケーション、デスクトップアプリケーション、またはモバイルアプリケーションを使用して、ユーザデバイスによってアクセスされ得、オーディオ記録アプリケーション、発話→テキストアプリケーション、テキスト→発話アプリケーション、音声-認識アプリケーション、および/またはそれらのアクセスアプリケーションの任意の組み合わせを含み得る。ユーザデバイス550は、アプリケーション配信のためにクラウドコンピューティングに依拠するクラウドクライアントであり得るか、または、ユーザデバイス550は、クラウドリソースへのアクセスを伴わずに、いくつかの機能性を有し得る。例えば、ユーザデバイス550上で起動するいくつかのアプリケーションは、クラウドアプリケーション(例えば、インターネットを経由してサービスとして配信されるアプリケーション)であり得る一方、他のアプリケーションは、ユーザデバイス550上で記憶および起動され得る。いくつかの実施形態では、ユーザデバイス550は、複数のクラウドリソースからの情報を同時に受信し得る。
In some embodiments, the deployment of
例証的例では、ユーザは、音声クエリをユーザデバイス550に発話し得る。音声クエリは、ユーザデバイス550のオーディオインターフェースによって記録され、アプリケーション560によってサンプリングおよびデジタル化され、アプリケーション560によってテキストクエリに変換される。アプリケーション560は、テキストクエリとともに、発音も含み得る。例えば、テキストクエリの1つ以上の単語が、適切なスペルではなく、音素記号によって表され得る。さらなる例では、発音メタデータは、テキストクエリの1つ以上の単語の音素表現を含むテキストクエリとともに記憶され得る。いくつかの実施形態では、アプリケーション560は、エンティティ、コンテンツ、メタデータ、またはそれらの組み合わせのデータベースの中を検索するために、テキストクエリおよび任意の好適な発音情報をネットワークデバイス520に伝送する。ネットワークデバイス520は、テキストクエリに関連付けられたエンティティ、テキストクエリに関連付けられたコンテンツ、または両方を識別し、その情報をユーザデバイス550に提供し得る。
In the illustrative example, a user may speak a voice query to
例えば、ユーザは、「Tom Cruiseの映画を見せて」とユーザデバイス550のマイクロホンに発話し得る。アプリケーション560は、テキストクエリ「Tom Cruiseの映画」を生成し、テキストクエリをネットワークデバイス520に伝送し得る。ネットワークデバイス520は、エンティティ「Tom Cruise」を識別し、次いで、エンティティにリンクされる映画を識別し得る。ネットワークデバイス520は、次いで、コンテンツ(例えば、ビデオファイル、トレーラ、またはクリップ)、コンテンツ識別子(例えば、映画タイトルおよび画像)、コンテンツアドレス(例えば、URL、ウェブサイト、またはIPアドレス)、任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス550に伝送し得る。「Tom」および「Cruise」の発音は、概して、曖昧ではないので、アプリケーション560は、この状況では、発音情報を生成する必要はない。
For example, a user may speak into the microphone of
さらなる例では、ユーザは、「Louisとのインタビューを見せて」とユーザデバイス550のマイクロホンに発話し得、ユーザは、名前Louisを「loo-ihs」ではなく、「loo-ee」と発音する。いくつかの実施形態では、アプリケーション560は、テキストクエリ「Louisとのインタビュー」を生成し、「loo-ee」としての音素表現を含むメタデータとともに、テキストクエリをネットワークデバイス520に伝送し得る。いくつかの実施形態では、アプリケーション560は、テキストクエリ「Loo-eeとのインタビュー」を生成し、テキストクエリをネットワークデバイス520に伝送し得、テキストクエリ自体は、発音情報(例えば、この例では、音素表現)を含む。名前Louisは、一般的であるので、この識別子を含む、多くのエンティティが存在し得る。いくつかの実施形態では、ネットワークデバイス520は、「loo-ee」を音素表現として有する発音タグを含むメタデータを有するエンティティを識別し得る。いくつかの実施形態では、ネットワークデバイス520は、トレンド検索、ユーザの検索履歴、または他のコンテキスト情報を読み出し、ユーザが指す可能性が高いエンティティを識別し得る。例えば、ユーザは、「FBI」を以前に検索していることもあり、エンティティLouis Freeh(例えば、FBIの前長官)は、「FBI」に関するタグを含むメタデータを含み得る。エンティティが、識別されると、ネットワークデバイス520は、次いで、コンテンツ(例えば、インタビューのビデオファイルまたはクリップ)、コンテンツ識別子(例えば、インタビューからのファイルタイトルおよび静止画像)、コンテンツアドレス(例えば、インタビューの1つ以上のビデオファイルをストリーミングするためのURL、ウェブサイト、またはIPアドレス)、Louis Freehに関連する任意の他の好適な情報、またはそれらの任意の組み合わせをユーザデバイス550に伝送し得る。「Louis」の発音は、曖昧であり得るので、アプリケーション560は、そのような状況では、発音情報を生成し得る。
In a further example, a user may say "Show me an interview with Louis" into the microphone of
例証的例では、ユーザは、「William Djoko」とユーザデバイス550のマイクロホンに発話し得る。アプリケーション560は、エンティティの正しいスペルに対応していないこともあるテキストクエリを生成し得る。例えば、音声クエリ「William Djoko」は、「William gjoka」として、テキストに変換され得る。この正しくないテキスト変換は、正しいエンティティを識別することにおいて困難をもたらし得る。いくつかの実施形態では、エンティティWilliam Djokoに関連付けられたメタデータは、発音に基づく代替表現を含む。エンティティ「William Djoko」に関するメタデータは、表1に示されるように、発音タグ(例えば、「関連語句」)を含み得る。
上記の例証的例では、エンティティWilliam Djokoの到達可能性は、特に、ASRプロセスがエンティティ名の文法的に正しくないテキスト変換をもたらし得るので、代替表現を記憶することによって改良される。 In the illustrative example above, the reachability of the entity William Djoko is improved by storing alternate representations, especially since the ASR process may result in a grammatically incorrect text translation of the entity name.
例証的例では、メタデータは、ユーザの音声クエリに応答してではなく、(例えば、テキストクエリまたは他の検索および読み出しプロセスによる)後の参照のために、発音に基づいて生成され得る。いくつかの実施形態では、ネットワークデバイス520、ユーザデバイス550、または両方は、発音情報に基づいて、メタデータを生成し得る。例えば、ユーザデバイス550は、エンティティの代替表現のユーザ入力を受信し得る(例えば、前の検索結果または発話→テキスト変換に基づいて)。いくつかの実施形態では、ネットワークデバイス520、ユーザデバイス550、または両方は、テキスト→発話モジュールおよび発話→テキストモジュールを使用して、エンティティに関するメタデータを自動的に生成し得る。例えば、アプリケーション560は、エンティティのテキスト表現(例えば、エンティティの名前のテキスト文字列)を識別し、テキスト表現をテキスト→発話モジュールに入力し、オーディオファイルを生成し得る。いくつかの実施形態では、テキスト→発話モジュールは、1つ以上の設定または基準(それらを用いてオーディオファイルが生成される)を含む。例えば、設定または基準は、言語(例えば、英語、スペイン語、マンダリン)、アクセント(例えば、地方または言語ベース)、音声(例えば、特定の人の音声、男性音声、女性音声)、速度(例えば、オーディオファイルの関連部分の再生時間)、発音(例えば、複数の音素変形例に関して)、任意の他の好適な設定または基準、またはそれらの任意の組み合わせを含み得る。アプリケーション560は、次いで、オーディオファイルを発話→テキストモジュールに入力し、結果として生じるテキスト表現を生成する。結果として生じるテキスト表現が、元のテキスト表現と同一でない場合、アプリケーション560は、結果として生じるテキスト表現をエンティティに関連付けられたメタデータに記憶し得る。いくつかの実施形態では、アプリケーション560は、種々の設定または基準のためのこのプロセスを繰り返し、したがって、メタデータに記憶され得る種々のテキスト表現を生成し得る。結果として生じるメタデータは、可能性が高い変形例を予想するためのテキスト-発話-テキスト変換を使用して生成された変形例とともに、元のテキスト表現を含む。故に、アプリケーション560が、音声クエリをユーザから受信し、テキストへの転換が、エンティティ識別子に正確に合致しないとき、アプリケーション560は、依然として、正しいエンティティを識別し得る。さらに、アプリケーション560は、メタデータが変形例を含むので、発音情報に関してテキストクエリを分析する必要はない(例えば、分析は、リアルタイムでではなく、事前に実施される)。
In an illustrative example, metadata may be generated based on pronunciation for later reference (eg, by text queries or other search and retrieval processes) rather than in response to a user's spoken query. In some embodiments,
アプリケーション560は、例えば、オーディオ記録、発話認識、発話→テキスト変換、テキスト→発話変換、クエリ生成、検索エンジン機能性、コンテンツ読み出し、ディスプレイ生成、コンテンツ提示、メタデータ生成、データベース機能性、またはそれらの組み合わせ等の任意の好適な機能性を含み得る。いくつかの実施形態では、アプリケーション560の側面は、2つ以上のデバイスを横断して実装される。いくつかの実施形態では、アプリケーション560は、単一デバイス上に実装される。例えば、エンティティ情報521、522、および523は、ユーザデバイス550のメモリ記憶装置に記憶され得、アプリケーション560によってアクセスされ得る。
図6は、本開示のいくつかの実施形態による、発音情報に基づいて音声クエリに応答するための例証的プロセス600のフローチャートを示す。例えば、クエリアプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス600を実施し得る。さらなる例では、クエリアプリケーションは、図5のアプリケーション560のインスタンスであり得る。
FIG. 6 shows a flowchart of an
ステップ602では、クエリアプリケーションが、音声クエリを受信する。いくつかの実施形態では、オーディオインターフェース(例えば、オーディオ機器414、ユーザ入力インターフェース410、またはそれらの組み合わせ)は、オーディオ入力を受信し、電子信号を生成するマイクロホンまたは他のセンサを含み得る。いくつかの実施形態では、オーディオ入力は、アナログセンサにおいて受信され、アナログセンサは、アナログ信号を提供し、アナログ信号は、オーディオファイルを生成するために、調整、サンプリング、デジタル化される。オーディオファイルは、次いで、ステップ604および606において、クエリアプリケーションによって分析され得る。いくつかの実施形態では、オーディオファイルは、メモリ(例えば、記憶装置408)に記憶される。いくつかの実施形態では、クエリアプリケーションは、ユーザインターフェース(例えば、ユーザ入力インターフェース410)を含み、それは、ユーザが、オーディオ記録を記録、再生、改変、クロッピング、可視化、または別様に管理することを可能にする。例えば、いくつかの実施形態では、オーディオインターフェースは、常時、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、ユーザが指示をユーザに入力インターフェースに提供すると(例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ記録を開始することによって)、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信し、発話または他の好適なオーディオ信号が検出されると、記録を開始するように構成される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するために、任意の好適な調整ソフトウェアまたはハードウェアを含み得る。例えば、クエリアプリケーションは、1つ以上のフィルタ(例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ)、増幅器、デジメータ、または他の調整を適用し、オーディオファイルを生成し得る。さらなる例では、クエリアプリケーションは、圧縮、転換(例えば、スペクトル変換、ウェーブレット変換)、正規化、等化、切り捨て(例えば、時間またはスペクトルドメインにおいて)、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを生成し得る。いくつかの実施形態では、ステップ602において、制御回路が、別個のアプリケーションから、クエリアプリケーションの別個のモジュールから、ユーザ入力に基づいて、またはそれらの任意の組み合わせにおいて、オーディオファイルを受信する。例えば、ステップ602では、制御回路は、さらなる処理(例えば、プロセス600のステップ604-612)のために、記憶装置(例えば、記憶装置408)に記憶されるオーディオファイルとして、音声クエリを受信し得る。
At
ステップ604では、クエリアプリケーションが、1つ以上のキーワードをステップ602の音声クエリから抽出する。いくつかの実施形態では、1つ以上のキーワードは、完全な音声クエリを表し得る。いくつかの実施形態では、1つ以上のキーワードは、重要な単語または発話の一部のみを含む。例えば、いくつかの実施形態では、クエリアプリケーションは、発話内の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択し得る。例えば、クエリアプリケーションは、単語を識別し、それらの単語の中から、前置詞ではない単語を選択し得る。さらなる例では、クエリアプリケーションは、キーワードとして、少なくとも3つの文字長の単語のみを識別し得る。さらなる例では、クエリアプリケーションは、キーワードを2つ以上の単語を含む語句として識別し得(例えば、より記述的であり、より多くのコンテキストを提供するために)、それは、関連コンテンツの潜在的検索フィールドを絞り込むために有用であり得る。いくつかの実施形態では、クエリアプリケーションは、オーディオ入力からキーワードを識別するための任意の好適な基準を使用して、例えば、単語、語句、名前、場所、チャネル、メディアアセットタイトル、または他のキーワード等のキーワードを識別する。クエリアプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理し得る。例えば、クエリアプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか(例えば、特定の単語がオーディオ信号に含まれるかどうか)を見出し得る。さらなる例では、クエリアプリケーションは、学習技法を適用し、音声クエリ内の単語をより良好に認識し得る。例えば、クエリアプリケーションは、複数のクエリとの関連で、複数の要求されるコンテンツ項目に関するフィードバックをユーザから集め、故に、推奨を行い、コンテンツを読み出すために、過去のデータを訓練セットとして使用し得る。いくつかの実施形態では、クエリアプリケーションは、検出された発話中、記録されたオーディオのスニペット(すなわち、短持続時間のクリップ)を記憶し、スニペットを処理し得る。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きなセグメント(例えば、10秒を上回る)をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、継続的な計算を使用することによって、単語を検出し得る。例えば、ウェーブレット変換が、リアルタイムで、発話に実施され、若干の時間の遅れがあっても、発話パターンの継続的な計算(例えば、単語を識別するための参照と比較され得る)を提供し得る。いくつかの実施形態では、クエリアプリケーションは、本開示に従って、単語および単語を発声したユーザ(例えば、音声認識)を検出し得る。
At
いくつかの実施形態では、ステップ604において、クエリアプリケーションは、検出された単語をクエリ内で検出された単語のリストに追加する。いくつかの実施形態では、クエリアプリケーションは、これらの検出された単語をメモリに記憶し得る。例えば、クエリアプリケーションは、メモリに、ASCII文字の集合(すなわち、8ビットコード)、パターン(例えば、単語を合致させるために使用される発話信号基準を示す)、識別子(例えば、単語のためのコード)、文字列、任意の他のデータタイプ、またはそれらの任意の組み合わせとして、単語を記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、単語が検出されるにつれて、単語をメモリに追加し得る。例えば、メディアガイドアプリケーションは、以前に検出された単語の文字列に新しく検出された単語を付加すること、新しく検出された単語を以前に検出された単語のセルアレイに追加すること(例えば、セルアレイサイズを1増加させる)、新しく検出された単語に対応する新しい変形例を作成すること、新しく作成された単語に対応する新しいファイルを作成すること、または、ステップ604において検出された1つ以上の単語を記憶することを行い得る。
In some embodiments, at
ステップ606では、クエリアプリケーションが、ステップ604の1つ以上のキーワードに関する発音情報を決定する。いくつかの実施形態では、発音情報は、1つ以上のキーワードの音素表現(例えば、国際音声記号を使用する)を含む。いくつかの実施形態では、発音情報は、発音を組み込むための1つ以上のキーワードの1つ以上の代替スペルを含む。いくつかの実施形態では、ステップ606では、制御回路が、音素表現を含むテキストクエリに関連付けられたメタデータを生成する。
At
ステップ608では、クエリアプリケーションが、ステップ604の1つ以上のキーワードおよびステップ606の発音情報に基づいて、テキストクエリを生成する。クエリアプリケーションは、1つ以上のキーワードを好適な順序で(例えば、発話された順序で)配置することによって、テキストクエリを生成し得る。いくつかの実施形態では、クエリアプリケーションは、音声クエリの1つ以上の単語(例えば、短単語、前置詞、または比較的にあまり重要ではないと決定された任意の他の単語)を省略し得る。テキストクエリは、ファイル(例えば、テキストファイル)として生成され、好適な記憶装置(例えば、記憶装置408)に記憶され得る。
At
ステップ610では、クエリアプリケーションが、テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別する。いくつかの実施形態では、メタデータは、発音タグを含む。いくつかの実施形態では、クエリアプリケーションは、エンティティに対応するコンテンツ項目のメタデータタグを識別することによって、エンティティを識別し得る。例えば、コンテンツ項目は、映画内の俳優に関するタグを有する映画を含み得る。テキストクエリが俳優を含む場合、クエリアプリケーションは、合致を決定し得、合致に基づいて、コンテンツ項目に関連付けられているとして、エンティティを識別し得る。例証するために、クエリアプリケーションは、最初に、エンティティを識別し(例えば、エンティティの中を検索し)、次いで、エンティティに関連付けられたコンテンツを読み出し得るか、または、クエリアプリケーションは、最初に、コンテンツを識別し(例えば、コンテンツの中を検索し)、コンテンツに関連付けられたエンティティがテキストクエリに合致するかどうかを決定し得る。エンティティ別に、コンテンツ別に、またはその両方で配置されているデータベースが、クエリアプリケーションによって検索され得る。
At
いくつかの実施形態では、クエリアプリケーションは、ユーザプロファイル情報に基づいて、エンティティを識別する。例えば、クエリアプリケーションは、前の音声クエリからの既に識別されたエンティティに基づいて、エンティティを識別し得る。さらなる例では、クエリアプリケーションは、エンティティに関連付けられた人気情報に基づいて(例えば、複数のユーザに関する検索に基づいて)、エンティティを識別し得る。いくつかの実施形態では、クエリアプリケーションは、ユーザの選好に基づいて、エンティティを識別する。例えば、1つ以上のキーワードがユーザプロファイル情報の好ましいエンティティ名または識別子に合致する場合、クエリアプリケーションは、そのエンティティを識別するか、または、そのエンティティにより重く重み付けし得る。 In some embodiments, the query application identifies entities based on user profile information. For example, a query application may identify entities based on already identified entities from previous voice queries. In a further example, a query application may identify entities based on popularity information associated with the entity (eg, based on searches for multiple users). In some embodiments, the query application identifies entities based on user preferences. For example, if one or more keywords match a preferred entity name or identifier in user profile information, the query application may identify the entity or weight it more heavily.
いくつかの実施形態では、クエリアプリケーションは、複数のエンティティを識別すること(例えば、各エンティティに関して記憶されたメタデータを用いて)と、それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティの各それぞれのエンティティに関して、それぞれのスコアを決定することと、最大スコアを決定することによって、エンティティを選択することとによって、エンティティを識別する。スコアは、テキストクエリのキーワードとエンティティまたはコンテンツ項目に関連付けられたメタデータとの間で識別された合致の数に基づき得る。 In some embodiments, the query application, based on identifying multiple entities (e.g., using metadata stored for each entity) and comparing each phonetic tag with the text query: For each respective entity of the plurality of entities, identifying the entity by determining a respective score and selecting the entity by determining the maximum score. The score may be based on the number of matches identified between the keywords of the text query and the metadata associated with the entity or content item.
いくつかの実施形態では、クエリアプリケーションは、テキストクエリに基づいて、複数のエンティティの中の2つ以上のエンティティ(例えば、関連付けられたメタデータ)を識別する。クエリアプリケーションは、クエリのエンティティのいくつかまたは全てに関連付けられたコンテンツ項目を識別し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリの少なくとも一部を各エンティティに関して記憶されたメタデータのタグと比較し、合致を識別することによって、エンティティを識別する。 In some embodiments, the query application identifies two or more entities (eg, associated metadata) among the plurality of entities based on the text query. A query application may identify content items associated with some or all of the entities of the query. In some embodiments, the query application identifies entities by comparing at least a portion of the text query to metadata tags stored for each entity to identify matches.
ステップ612では、クエリアプリケーションは、エンティティに関連付けられたコンテンツ項目を読み出す。いくつかの実施形態では、クエリアプリケーションは、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目を生成すること、または、それらの組み合わせを行う。例えば、音声クエリは、「最近のTom Cruiseの映画を見せて」を含み得、クエリアプリケーションは、ユーザがビデオコンテンツを視聴するために選択し得る映画「Mission Impossible:Fallout」へのリンクを提供し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致するエンティティに関連付けられた複数のコンテンツを読み出し得る。例えば、クエリアプリケーションは、本開示に従って、複数のリンク、ビデオファイル、オーディオファイル、または他のコンテンツ、または識別されたコンテンツ項目のリストを読み出し得る。
At
図7は、本開示のいくつかの実施形態による、代替表現に基づいて音声クエリに応答するための例証的プロセス700のフローチャートを示す。例えば、クエリアプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されるプロセス700を実施し得る。さらなる例では、クエリアプリケーションは、図5のアプリケーション560のインスタンスであり得る。
FIG. 7 shows a flowchart of an
ステップ702では、クエリアプリケーションが、音声クエリを受信する。いくつかの実施形態では、オーディオインターフェース(例えば、オーディオ機器414、ユーザ入力インターフェース410、またはそれらの組み合わせ)は、オーディオ入力を受信し、電子信号を生成するマイクロホンまたは他のセンサを含み得る。いくつかの実施形態では、オーディオ入力は、アナログセンサにおいて受信され、アナログセンサは、アナログ信号を提供し、アナログ信号は、オーディオファイルを生成するために、調整、サンプリング、デジタル化される。オーディオファイルは、次いで、ステップ704において、クエリアプリケーションによって分析され得る。いくつかの実施形態では、オーディオファイルは、メモリ(例えば、記憶装置408)に記憶される。いくつかの実施形態では、クエリアプリケーションは、ユーザインターフェース(例えば、ユーザ入力インターフェース410)を含み、それは、ユーザが、オーディオ記録を記録、再生、改変、クロッピング、可視化、または別様に管理することを可能にする。例えば、いくつかの実施形態では、オーディオインターフェースは、常時、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、ユーザが指示をユーザインターフェースに提供する(例えば、タッチスクリーン上のソフトボタンを選択し、オーディオ記録を開始することによって)と、オーディオ入力を受信するように構成される。さらなる例では、いくつかの実施形態では、オーディオインターフェースは、オーディオ入力を受信し、発話または他の好適なオーディオ信号が検出されると、記録を開始するように構成される。クエリアプリケーションは、オーディオ入力を記憶されたオーディオファイルに変換するための任意の好適な調整ソフトウェアまたはハードウェアを含み得る。例えば、クエリアプリケーションは、1つ以上のフィルタ(例えば、低域通過、高域通過、ノッチフィルタ、または帯域通過フィルタ)、増幅器、デジメータ、または他の調整を適用し、オーディオファイルを生成し得る。さらなる例では、クエリアプリケーションは、圧縮、転換(例えば、スペクトル変換、ウェーブレット変換)、正規化、等化、切り捨て(例えば、時間またはスペクトルドメインにおいて)、任意の他の好適な処理、またはそれらの任意の組み合わせ等の任意の好適な処理を調整された信号に適用し、オーディオファイルを生成し得る。いくつかの実施形態では、ステップ702では、制御回路が、別個のアプリケーションから、クエリアプリケーションの別個のモジュールから、ユーザ入力に基づいて、またはそれらの任意の組み合わせにおいてオーディオファイルを受信する。例えば、ステップ702は、さらなる処理(例えば、プロセス700のステップ704-710)のために、記憶装置(例えば、記憶装置408)に記憶されるオーディオファイルとして、音声クエリを受信することを含み得る。
At
ステップ704では、クエリアプリケーションが、1つ以上のキーワードをステップ702の音声クエリから抽出する。いくつかの実施形態では、1つ以上のキーワードは、完全な音声クエリを表し得る。いくつかの実施形態では、1つ以上のキーワードは、重要な単語または発話の一部のみを含む。例えば、いくつかの実施形態では、クエリアプリケーションは、発話内の単語を識別し、それらの単語のうちのいくつかをキーワードとして選択し得る。例えば、クエリアプリケーションは、単語を識別し、それらの単語の中から、前置詞ではない単語を選択し得る。さらなる例では、クエリアプリケーションは、キーワードとして、少なくとも3つの文字長の単語のみを識別し得る。さらなる例では、クエリアプリケーションは、キーワードを2つ以上の単語を含む語句として識別し得(例えば、より記述的であり、より多くのコンテキストを提供するために)、それは、関連コンテンツの潜在的検索フィールドを絞り込むために有用であり得る。いくつかの実施形態では、クエリアプリケーションは、オーディオ入力からキーワードを識別するための任意の好適な基準を使用して、例えば、単語、語句、名前、場所、チャネル、メディアアセットタイトル、または他のキーワード等のキーワードを識別する。クエリアプリケーションは、任意の好適な単語検出技法、発話検出技法、パターン認識技法、信号処理技法、またはそれらの任意の組み合わせを使用して、単語を処理し得る。例えば、クエリアプリケーションは、一連の信号テンプレートをオーディオ信号の一部と比較し、合致が存在するかどうか(例えば、特定の単語がオーディオ信号に含まれるかどうか)を見出し得る。さらなる例では、クエリアプリケーションは、学習技法を適用し、音声クエリ内の単語をより良好に認識し得る。例えば、クエリアプリケーションは、複数のクエリとの関連で、複数の要求されるコンテンツ項目に関するフィードバックをユーザから集め、故に、推奨を行い、コンテンツを読み出すために、過去のデータを訓練セットとして使用し得る。いくつかの実施形態では、クエリアプリケーションは、検出された発話中、記録されたオーディオのスニペット(すなわち、短持続時間のクリップ)を記憶し、スニペットを処理し得る。いくつかの実施形態では、クエリアプリケーションは、発話の比較的に大きなセグメント(例えば、10秒を上回る)をオーディオファイルとして記憶し、ファイルを処理する。いくつかの実施形態では、クエリアプリケーションは、発話を処理し、継続的な計算を使用することによって、単語を検出し得る。例えば、ウェーブレット変換が、リアルタイムで、発話に実施され、若干の時間の遅れがあっても、発話パターンの継続的な計算(例えば、単語を識別するための参照と比較され得る)を提供し得る。いくつかの実施形態では、クエリアプリケーションは、本開示に従って、単語および単語を発声したユーザ(例えば、音声認識)を検出し得る。
At
いくつかの実施形態では、ステップ704において、クエリアプリケーションは、検出された単語をクエリ内で検出された単語のリストに追加する。いくつかの実施形態では、クエリアプリケーションは、これらの検出された単語をメモリに記憶し得る。例えば、クエリアプリケーションは、メモリに、ASCII文字の集合(すなわち、8ビットコード)、パターン(例えば、単語を合致させるために使用される発話信号基準を示す)、識別子(例えば、単語のためのコード)、文字列、任意の他のデータタイプ、またはそれらの任意の組み合わせとして、単語を記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、単語が検出されるにつれて、単語をメモリに追加し得る。例えば、メディアガイドアプリケーションは、以前に検出された単語の文字列に新しく検出された単語を付加すること、新しく検出された単語を以前に検出された単語のセルアレイに追加すること(例えば、セルアレイサイズを1増加させる)、新しく検出された単語に対応する新しい変形例を作成すること、新しく作成された単語に対応する新しいファイルを作成すること、または、ステップ704において検出された1つ以上の単語を記憶することを行い得る。
In some embodiments, at
ステップ706では、クエリアプリケーションが、ステップ704の1つ以上のキーワードに基づいて、テキストクエリを生成する。クエリアプリケーションは、1つ以上のキーワードを好適な順序で(例えば、発話された順序で)配置することによって、テキストクエリを生成し得る。いくつかの実施形態では、クエリアプリケーションは、音声クエリの1つ以上の単語(例えば、短単語、前置詞、または比較的にあまり重要ではないと決定された任意の他の単語)を省略し得る。テキストクエリは、ファイル(例えば、テキストファイル)として生成され、好適な記憶装置(例えば、記憶装置408)に記憶され得る。
At
ステップ708では、クエリアプリケーションが、テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別する。メタデータは、発音に基づくエンティティの代替テキスト表現を含む。いくつかの実施形態では、クエリアプリケーションは、エンティティの代替表現に対応するコンテンツ項目のメタデータタグを識別することによって、エンティティを識別し得る。例えば、コンテンツ項目は、映画内の俳優に関するタグを有する映画を含み得、タグは、(例えば、システム300等のシステムから導出されるか、または別様にメタデータに含まれる)代替スペルを含む。テキストクエリが、俳優を含む場合、クエリアプリケーションは、合致を決定し得、合致に基づいて、コンテンツ項目に関連付けられているとして、エンティティを識別し得る。例証するために、クエリアプリケーションは、最初に、エンティティを識別し(例えば、エンティティの中を検索し)、次いで、エンティティに関連付けられたコンテンツを読み出し得るか、または、クエリアプリケーションは、最初に、コンテンツを識別し(例えば、コンテンツの中を検索し)、コンテンツに関連付けられたエンティティがテキストクエリに合致するかどうかを決定し得る。エンティティ別に、コンテンツ別に、またはその両方で配置されているデータベースが、クエリアプリケーションによって検索され得る。クエリアプリケーションは、テキストクエリの1つ以上の単語がエンティティの代替表現(例えば、エンティティに関連付けられたメタデータに記憶されるような)に合致するとき、合致を決定し得る。
At
いくつかの実施形態では、クエリアプリケーションは、ユーザプロファイル情報に基づいて、エンティティを識別する。例えば、クエリアプリケーションは、前の音声クエリからの既に識別されたエンティティに基づいて、エンティティを識別し得る。さらなる例では、クエリアプリケーションは、エンティティに関連付けられた人気情報に基づいて(例えば、複数のユーザに関する検索に基づいて)、エンティティを識別し得る。いくつかの実施形態では、クエリアプリケーションは、ユーザの選好に基づいて、エンティティを識別する。例えば、1つ以上のキーワードがユーザプロファイル情報の好ましいエンティティ名または識別子の代替表現に合致する場合、クエリアプリケーションは、そのエンティティを識別するか、または、そのエンティティにより重く重み付けし得る。 In some embodiments, the query application identifies entities based on user profile information. For example, a query application may identify entities based on already identified entities from previous voice queries. In a further example, a query application may identify entities based on popularity information associated with the entity (eg, based on searches for multiple users). In some embodiments, the query application identifies entities based on user preferences. For example, if one or more keywords match a preferred entity name or alternative representation of an identifier in the user profile information, the query application may identify the entity or weight it more heavily.
いくつかの実施形態では、クエリアプリケーションは、複数のエンティティ(例えば、各エンティティに関して記憶されたメタデータを伴う)を識別することと、それぞれのメタデータをテキストクエリと比較することに基づいて、複数のエンティティの各それぞれのエンティティに関して、それぞれのスコアを決定することと、最大スコアを決定することによって、エンティティを選択することとによって、エンティティを識別する。スコアは、テキストクエリのキーワードとエンティティまたはコンテンツ項目に関連付けられたメタデータとの間で識別された合致の数に基づき得る。 In some embodiments, a query application generates multiple entities based on identifying multiple entities (eg, with metadata stored for each entity) and comparing the respective metadata with the text query. , and identifying the entity by determining the respective score and selecting the entity by determining the maximum score. The score may be based on the number of matches identified between the keywords of the text query and the metadata associated with the entity or content item.
いくつかの実施形態では、クエリアプリケーションは、テキストクエリに基づいて、複数のエンティティの中の2つ以上のエンティティ(例えば、関連付けられたメタデータ)を識別する。クエリアプリケーションは、クエリのエンティティのいくつかまたは全てに関連付けられたコンテンツ項目を識別し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリの少なくとも一部を各エンティティに関して記憶されたメタデータのタグと比較し、合致を識別することによって、エンティティを識別する。 In some embodiments, the query application identifies two or more entities (eg, associated metadata) among the plurality of entities based on the text query. A query application may identify content items associated with some or all of the entities of the query. In some embodiments, the query application identifies entities by comparing at least a portion of the text query to metadata tags stored for each entity to identify matches.
ステップ710では、クエリアプリケーションは、エンティティに関連付けられたコンテンツ項目を読み出す。いくつかの実施形態では、クエリアプリケーションは、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目を生成すること、または、それらの組み合わせを行う。例えば、音声クエリは、「最近のTom Cruiseの映画を見せて」を含み得、クエリアプリケーションは、ユーザがビデオコンテンツを視聴するために選択し得る映画「Mission Impossible:Fallout」へのリンクを提供し得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致するエンティティに関連付けられた複数のコンテンツを読み出し得る。例えば、クエリアプリケーションは、本開示に従って、複数のリンク、ビデオファイル、オーディオファイル、または他のコンテンツ、または識別されたコンテンツ項目のリストを読み出し得る。
At
図8は、本開示のいくつかの実施形態による、発音に基づいてエンティティに関するメタデータを生成するための例証的プロセス800のフローチャートを示す。例えば、アプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス800を実施し得る。さらなる例では、アプリケーションは、図5のアプリケーション580のインスタンスであり得る。さらなる例では、図3のシステム300が、例証的プロセス800を実施し得る。
FIG. 8 shows a flowchart of an
ステップ802では、アプリケーションが、複数のエンティティのうちの情報が記憶されているエンティティを識別する。いくつかの実施形態では、アプリケーションは、所定の順序に基づいて、エンティティを選択する。例えば、アプリケーションは、エンティティをアルファベット順で選択し、プロセス800の一部を実施し得る。いくつかの実施形態では、アプリケーションは、エンティティに関するメタデータが作成されると、エンティティを識別する。例えば、アプリケーションは、エンティティがデータベース(例えば、エンティティのデータベース)に追加されると、エンティティを識別し得る。いくつかの実施形態では、アプリケーションは、検索動作が、エンティティを誤識別し、故に、代替表現が、さらなる誤識別を防止するために所望され得るとき、エンティティを識別する。いくつかの実施形態では、アプリケーションは、ユーザ入力に基づいて、エンティティを識別する。例えば、ユーザは、アプリケーションに、正しくない検索結果、到達不能エンティティ、または検索結果内で観察されるエラーに基づいて、エンティティを示し得る(例えば、好適なユーザインターフェースにおいて)。いくつかの実施形態では、アプリケーションは、検索結果におけるエラーまたは所定の順序に応答してエンティティを識別する必要はない。例えば、アプリケーションは、エンティティデータベースのエンティティをランダムに選択し、ステップ804に進み得る。いくつかの実施形態では、アプリケーションは、検索クエリ内のエンティティの人気に基づいて、エンティティを識別し得る。例えば、より大きな検索有効性は、より多くの検索クエリが正しく応答されるように、より一般的エンティティに関する代替表現を決定することによって達成され得る。さらなる例では、アプリケーションは、あまり一般的ではない、またはさらに曖昧なエンティティを識別し、非常に少ない検索クエリがこれらのエンティティを規定し得るので、それらのエンティティの到達不能性を防止し得る。アプリケーションは、任意の好適な基準を適用し、識別すべきエンティティを決定し得る。いくつかの実施形態では、アプリケーションは、ステップ802において、2つ以上のエンティティを識別し得、故に、ステップ804-810は、各識別されたエンティティに関して実施され得る。いくつかの実施形態では、アプリケーションは、エンティティではなく、またはそれに加え、コンテンツ項目を識別し得る。例えば、アプリケーションは、映画等のエンティティを識別し、次いで、そのエンティティに関連付けられた全ての他の重要なエンティティを識別し、ステップ804-810を受けることもある。
At
ステップ804では、アプリケーションが、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成する。第1のテキスト文字列は、ステップ802において識別されたエンティティを記述する。例えば、図3に図示されるように、アプリケーションは、テキスト→発話エンジン310を含み得、それは、オーディオファイルを生成するように構成され得る。アプリケーションは、マイクロホンまたは他の好適な検出デバイスによって検出され得るスピーカまたは他の好適な音生成デバイスから出力されたオーディオを生成し得る。アプリケーションは、オーディオファイルを生成および出力することにおいて1つ以上の設定または発話基準を適用し得る。例えば、生成された「音声」の側面は、任意の好適な基準に基づいて、調整または別様に選択され得る。いくつかの実施形態では、少なくとも1つの発話基準は、発音設定(例えば、1つ以上の音節、文字群、または単語が、発音される方法、または使用されるべき音素)を含む。いくつかの実施形態では、少なくとも1つの発話基準は、言語設定(例えば、言語、アクセント、地方アクセント、または他の言語情報を規定する)を含む。
At
複数の発話基準を含む例証的例では、アプリケーションは、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成し、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成し、それぞれの第2のテキスト文字列を第1のテキスト文字列と比較し、第1のテキスト文字列と同一でない場合、それぞれの第2のテキスト文字列を記憶し得る(例えば、エンティティに関連付けられたメタデータ内に)。 In an illustrative example involving multiple speech criteria, the application generates respective audio files based on the first text string and respective speech criteria, and generates respective second audio files based on the respective audio files. may generate a text string, compare each second text string to the first text string, and store each second text string if not identical to the first text string ( in the metadata associated with the entity).
例証的例では、アプリケーションは、第1のテキスト文字列を第1のオーディオ信号に変換し、オーディオ信号に基づいて、発話をスピーカにおいて生成し、マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成し、オーディオ信号を処理し、オーディオファイルを生成し得る。いくつかの実施形態では、アプリケーションは、テキスト→発話モジュールの少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成する。 In the illustrative example, the application converts a first text string into a first audio signal, generates speech on a speaker based on the audio signal, detects the speech using a microphone, and generates a second audio signal. audio signals, process the audio signals, and generate audio files. In some embodiments, the application generates speech at the speaker based on at least one speech setting of the text-to-speech module.
ステップ806では、アプリケーションが、オーディオファイルに基づいて、第2のテキスト文字列を生成する。第2のテキスト文字列は、テキスト→発話変換、または発話→テキスト変換から生じ得る差異は別として、第1のテキスト文字列に合致し、ステップ802において識別されたエンティティを記述するべきである。例えば、図3に図示されるように、アプリケーションは、発話→テキストエンジン320を含み得、それは、オーディオ入力またはその生成されたファイルを受信し、オーディオを書き起こし記録(例えば、テキスト文字列)に転換するように構成され得る。アプリケーションは、オーディオ入力をマイクロホンまたは他の好適な音検出デバイスにおいて受信し得る。アプリケーションは、オーディオファイルを受信し、調整し、テキストに変換することにおいて1つ以上の設定を適用し得る。例えば、検出された「音声」を調整および転換する側面は、任意の好適な基準に基づいて、調整または別様に選択され得る。
At
例証的例では、アプリケーションは、オーディオファイルの再生をスピーカにおいて生成し、マイクロホンを使用して、再生を検出し、オーディオ信号を生成し、1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換する。いくつかの実施形態では、アプリケーションは、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換する。 In the illustrative example, the application generates a playback of an audio file on a speaker, uses a microphone to detect the playback, generates an audio signal, identifies one or more words, and classifies the audio signal. 2 to a text string. In some embodiments, the application converts the audio signal into a second text string based on at least one text setting of the Speech to Text module.
ステップ808では、アプリケーションが、第2のテキスト文字列を第1のテキスト文字列と比較する。いくつかの実施形態では、アプリケーションは、第1および第2のテキスト文字列の各文字を比較し、合致を決定する。いくつかの実施形態では、アプリケーションは、第1のテキスト文字列および第2のテキスト文字列が合致する程度(例えば、合致するテキスト文字列の割合、存在する相違の数、合致するか、または、合致しない、キーワードの数)を決定する。アプリケーションは、任意の好適な技法を使用して、第1および第2のテキスト文字列が、同一であるか、類似するか、または、異なるかと、それらが類似または異なる程度とを決定し得る。
At
ステップ810では、アプリケーションが、第1のテキスト文字列と同一でない場合、第2のテキスト文字列を記憶する。いくつかの実施形態では、アプリケーションは、第2のテキスト文字列をエンティティに関連付けられたメタデータに記憶する。いくつかの実施形態では、ステップ810は、アプリケーションが、1つ以上のテキストクエリに基づいて、既存のメタデータを更新することを含む。例えば、クエリが、応答され、検索結果が、評価されると、アプリケーションは、メタデータを更新し、新しい学習を反映させ得る。第2のテキスト文字列が、第1のテキスト文字列と同一であると決定された場合、新しい情報は、第2のテキスト文字列を記憶することによって得られない。しかしながら、ステップ808の比較の指示は、メタデータに記憶され、音声クエリを介したエンティティの到達可能性における信頼度を増加させ得る。例えば、第2のテキスト文字列が、第1のテキスト文字列と同一である場合、それは、音声ベースのクエリに関する既存のメタデータを検証する役割を果たし得る。
At
図9は、本開示のいくつかの実施形態による、音声クエリのエンティティに関連付けられたコンテンツを読み出すための例証的プロセス900のフローチャートを示す。例えば、クエリアプリケーションは、図4のユーザデバイス400、図4のユーザ機器システム401、図5のユーザデバイス550、図5のネットワークデバイス520、任意の他の好適なデバイス、またはそれらの任意の組み合わせ等の任意の好適なハードウェア上に実装されたプロセス900を実施し得る。さらなる例では、クエリアプリケーションは、図5のアプリケーション560のインスタンスであり得る。
FIG. 9 depicts a flowchart of an
ステップ902では、クエリアプリケーションが、オーディオ信号をオーディオインターフェースにおいて受信する。システムは、マイクロホンまたは他のオーディオ検出デバイスを含み得、デバイスに入力されるオーディオに基づいて、オーディオファイルを記録し得る。
At
ステップ904では、クエリアプリケーションが、ステップ902のオーディオ信号を解析し、発話を識別する。クエリアプリケーションは、任意の好適なデシメーション、調整(例えば、増幅、フィルタリング)、処理(例えば、時間またはスペクトルドメインにおいて)、パターン認識、アルゴリズム、転換、任意の他の好適なアクション、またはそれらの任意の組み合わせを適用し得る。いくつかの実施形態では、クエリアプリケーションは、任意の好適な技法を使用して、単語、音、語句、またはそれらの組み合わせを識別する。
At
ステップ906では、クエリアプリケーションが、音声クエリが受信されたかどうかを決定する。いくつかの実施形態では、クエリアプリケーションは、オーディオ信号のパラメータに基づいて、音声クエリが受信されたことを決定する。例えば、クエリ前後の発話を伴わない期間は、記録内の音声クエリの範囲を区切り得る。いくつかの実施形態では、クエリアプリケーションは、キーワードを発話された順序で識別し、文またはクエリテンプレートをキーワードに適用し、テキストクエリを抽出する。例えば、名詞、固有名詞、動詞、形容詞、副詞、および発話の他の部分の配置は、音声クエリの開始および終了の指示を提供し得る。クエリアプリケーションは、オーディオ信号を解析する際、任意の好適な基準を適用し、テキストを抽出し得る。ステップ908では、クエリアプリケーションは、ステップ904および906の結果に基づいて、テキストクエリを生成する。いくつかの実施形態では、ステップ908において、クエリアプリケーションは、テキストクエリを好適な記憶装置(例えば、記憶装置408)に記憶し得る。ステップ906において、クエリアプリケーションが、音声クエリが受信されていない、または別様に、テキストクエリが、ステップ904の解析されるオーディオに基づいて生成されることができないことを決定する場合、クエリアプリケーションは、ステップ902に戻り、音声クエリが受信されるまで、オーディオを検出するステップに進み得る。
At
ステップ910では、クエリアプリケーションが、エンティティ情報に関するデータベースにアクセスする。クエリアプリケーションは、ステップ908のテキストクエリを使用して、データベースの情報の中を検索する。クエリアプリケーションは、任意の好適な検索アルゴリズムを適用し、データベースの情報、エンティティ、またはコンテンツを識別し得る。
At
ステップ912では、クエリアプリケーションが、ステップ910のデータベースのエンティティがステップ908のテキストクエリに合致するかどうかを決定する。クエリアプリケーションは、複数のエンティティを識別および評価し、合致を見出し得る。いくつかの実施形態では、テキストクエリは、2つ以上のエンティティを含み、クエリアプリケーションは、コンテンツの中を検索し、メタデータ内に関連付けられたエンティティを有するコンテンツ項目を決定する(例えば、テキストクエリとコンテンツ項目のメタデータタグを比較することによって)。いくつかの状況では、クエリアプリケーションは、合致を識別することが不可能であり得、それに応答して、検索を継続すること、別のデータベースの中を検索すること、テキストクエリを修正すること(例えば、ステップ908に戻る(図示せず))、ステップ904に戻り、ステップ904において使用される設定を修正すること(図示せず)、検索結果が見出されなかったことの指示を返すこと、任意の他の好適な応答を行うこと、または、それらの任意の組み合わせを行い得る。いくつかの実施形態では、クエリアプリケーションは、テキストクエリに合致する複数のエンティティ、コンテンツ、または両方を識別し得る。ステップ914は、クエリアプリケーションが、ステップ908のテキストクエリに関連付けられたコンテンツを識別することを含む。いくつかの実施形態では、ステップ914および910は、逆転され得、クエリアプリケーションは、テキストクエリに基づいて、コンテンツの中を検索し得る。いくつかの実施形態では、エンティティは、コンテンツ識別子を含み得、故に、ステップ910および914は、組み合わせられ得る。
At
ステップ916では、クエリアプリケーションが、ステップ908のテキストクエリに関連付けられたコンテンツを読み出す。ステップ916では、例えば、クエリアプリケーションが、コンテンツ項目を識別すること、コンテンツ項目をダウンロードすること、コンテンツ項目をストリーミングすること、表示のためにコンテンツ項目またはコンテンツ項目のリスト(例えば、またはコンテンツ項目へのリンクのリスト)を生成すること、または、それらの組み合わせを行い得る。
At
本開示の上記に説明される実施形態は、限定ではなく、例証の目的のために提示され、本開示は、以下に続く請求項のみによって限定される。さらに、いずれか1つの実施形態に説明される特徴および限界が、本明細書の任意の他の実施形態に適用され得、一実施形態に関するフローチャートまたは例が、好適な様式で任意の他の実施形態と組み合わせられること、異なる順序で行われること、または並行して行われ得ることに留意されたい。加えて、本明細書に説明されるシステムおよび方法は、リアルタイムで実施され得る。上記に説明されるシステムおよび/または方法が他のシステムおよび/または方法に適用される、またはそれに従って使用され得ることにも留意されたい。
本明細書は、限定ではないが、以下を含む実施形態を開示する:
(項目1)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに関する発音情報を決定することと、
制御回路を使用して、1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと、
を含む、方法。
(項目2)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目1に記載の方法。
(項目3)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目1に記載の方法。
(項目4)エンティティを識別することは、前の音声クエリからの以前に識別されたエンティティに基づく、項目3に記載の方法。
(項目5)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目1に記載の方法。
(項目6)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと、
を含む、項目1に記載の方法。
(項目7)エンティティは、第1のエンティティであり、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別することをさらに含み、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目1に記載の方法。
(項目8)データベースの複数のエンティティの中のエンティティを識別することは、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することを含む、項目1に記載の方法。
(項目9)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目1に記載の方法。
(項目10)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目1に記載の方法。
(項目11)音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信するためのオーディオインターフェースと、
オーディオインターフェースに結合された制御回路と
を備え、
制御回路は、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに関する発音情報を決定抽出することと、
1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成抽出することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別抽出することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を行うように構成されている、システム。
(項目12)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目11に記載のシステム。
(項目13)制御回路は、ユーザプロファイル情報に基づいて、エンティティを識別するようにさらに構成されている、項目11に記載のシステム。
(項目14)制御回路は、前の音声クエリから以前に識別されたエンティティに基づいて、エンティティを識別するようにさらに構成されている、項目13に記載のシステム。
(項目15)制御回路は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別するようにさらに構成されている、項目11に記載のシステム。
(項目16)制御回路は、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
ことによって、エンティティを識別するようにさらに構成されている、項目11に記載のシステム。
(項目17)エンティティは、第1のエンティティであり、制御回路は、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別するようにさらに構成され、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目11に記載のシステム。
(項目18)制御回路は、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することによって、データベースの複数のエンティティの中のエンティティを識別するようにさらに構成されている、項目11に記載の。
(項目19)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目11に記載のシステム。
(項目20)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目11に記載のシステム。
(項目21)エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
音声クエリをオーディオインターフェースにおいて受信することと、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに関する発音情報を決定することと、
1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
(項目22)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目23)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路にユーザプロファイル情報に基づいてエンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目24)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、前の音声クエリからの以前に識別されたエンティティに基づいて、エンティティを識別させる、項目23に記載の非一過性コンピュータ読み取り可能な媒体。
(項目25)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられた人気情報に基づいて、エンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目26)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のエンティティを識別することであってし、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択ることと
によって、制御回路にエンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目27)エンティティは、第1のエンティティであり、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別させ、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目28)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することによって、データベースの複数のエンティティの中のエンティティを識別させる、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目29)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目30)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目21に記載の非一過性コンピュータ読み取り可能な媒体。
(項目31)音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信する手段と、
1つ以上のキーワードを音声クエリから抽出する手段と、
1つ以上のキーワードに関する発音情報を決定する手段と、
1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成する手段と、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別する手段であって、メタデータは、発音タグを備えている、手段と、
エンティティに関連付けられたコンテンツ項目を読み出すための手段と
を備えている、システム。
(項目32)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目31に記載のシステム。
(項目33)エンティティを識別する手段は、ユーザプロファイル情報に基づいて、エンティティを識別する手段を備えている、項目31に記載のシステム。
(項目34)エンティティを識別する手段は、前の音声クエリからの以前に識別されたエンティティに基づいて、エンティティを識別する手段を備えている、項目33に記載のシステム。
(項目35)エンティティを識別する手段は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別する手段を備えている、項目31に記載のシステム。
(項目36)エンティティを識別する手段は、
複数のエンティティを識別する手段であって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、手段と、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定する手段と、
最大スコアを決定することによって、エンティティを選択する手段と
を備えている、項目31に記載のシステム。
(項目37)エンティティは、第1のエンティティであり、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別する手段をさらに備え、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目31に記載のシステム。
(項目38)データベースの複数のエンティティの中のエンティティを識別する手段は、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別する手段を備えている、項目31に記載のシステム。
(項目39)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目31に記載のシステム。
(項目40)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目31に記載のシステム。
(項目41)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに関する発音情報を決定することと、
制御回路を使用して、1つ以上のキーワードおよび発音情報に基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関する記憶されたメタデータに基づいて、データベースの複数のエンティティの中のエンティティを識別することであって、メタデータは、発音タグを備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
(項目42)発音情報は、1つ以上のキーワードのうちの1つの音素を備えている、項目41に記載の方法。
(項目43)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目41-42のいずれかに記載の方法。
(項目44)エンティティを識別することは、前の音声クエリからの以前に識別されたエンティティに基づく、項目41-43のいずれかに記載の方法。
(項目45)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目41-44のいずれかに記載の方法。
(項目46)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの発音タグをテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目41-45のいずれかに記載の方法。
(項目47)エンティティは、第1のエンティティであり、テキストクエリおよび第2のエンティティに関する第2のメタデータに基づいて、複数のエンティティの中の第2のエンティティを識別することをさらに含み、コンテンツ項目は、第1のエンティティおよび第2のエンティティに関連付けられている、項目41-46のいずれかに記載の方法。
(項目48)データベースの複数のエンティティの中のエンティティを識別することは、テキストクエリの少なくとも一部を記憶されたメタデータのタグと比較し、合致を識別することを含む、項目41-47のいずれかに記載の方法。
(項目49)1つ以上のキーワードのうちの第1のキーワードは、第1のキーワードの2つ以上の発音に関連付けられている、項目41-48のいずれかに記載の方法。
(項目50)発音情報は、1つ以上のキーワードのうちの第1のキーワードの音素表現を備えている、項目41-49のいずれかに記載の方法。
(項目51)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
(項目52)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目51に記載の方法。
(項目53)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目51に記載の方法。
(項目54)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目51に記載の方法。
(項目55)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって生成される、項目51に記載の方法。
(項目56)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目51に記載の方法。
(項目57)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目51に記載の方法。
(項目58)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目51に記載の方法。
(項目59)複数のテキストクエリを生成することをさらに含み、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目51に記載の方法。
(項目60)
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
をさらに含む、項目59に記載の方法。
(項目61)音声クエリに応答するためのシステムであって、システムは、
音声クエリを受信するためのオーディオインターフェースと、
制御回路と
を備え、
制御回路は、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を行うように構成されている、システム。
(項目62)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目61に記載のシステム。
(項目63)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目61に記載のシステム。
(項目64)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目61に記載のシステム。
(項目65)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、制御回路は、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって、複数の代替テキスト表現のうちの各代替テキスト表現を生成するように構成されている、項目61に記載のシステム。
(項目66)制御回路は、ユーザプロファイル情報に基づいて、エンティティを識別するようにさらに構成されている、項目61に記載のシステム。
(項目67)制御回路は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別するようにさらに構成されている、項目61に記載のシステム。
(項目68)制御回路は、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
によって、エンティティを識別するようにさらに構成されている、項目61に記載のシステム。
(項目69)制御回路は、複数のテキストクエリを生成するようにさらに構成され、複数のテキストクエリは、テキストクエリを備え、制御回路は、発話→テキストモジュールを備え、複数のテキストクエリのうちの各テキストクエリは、発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目61に記載のシステム。
(項目70)制御回路は、
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
を行うようにさらに構成されている、項目69に記載のシステム。
(項目71)エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
音声クエリをオーディオインターフェースにおいて受信することと、
1つ以上のキーワードを音声クエリから抽出することと、
1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
(項目72)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目73)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目74)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目75)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって、複数の代替テキスト表現のうちの各代替テキスト表現を生成させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目76)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、ユーザプロファイル情報に基づいて、エンティティを識別させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目77)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられた人気情報に基づいて、エンティティを識別させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目78)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと、
によって、制御回路にエンティティを識別させる、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目79)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、複数のテキストクエリを生成させ、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目71に記載の非一過性コンピュータ読み取り可能な媒体。
(項目80)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
を制御回路に行わせる、項目79に記載の非一過性コンピュータ読み取り可能な媒体。
(項目81)音声クエリに応答するためのシステムであって、システムは、
音声クエリをオーディオインターフェースにおいて受信する手段と、
1つ以上のキーワードを音声クエリから抽出する手段と、
1つ以上のキーワードに基づいて、テキストクエリを生成する手段と、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別する手段であって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、手段と、
エンティティに関連付けられたコンテンツ項目を読み出すための手段と
を備えている、システム。
(項目82)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目81に記載のシステム。
(項目83)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目81に記載のシステム。
(項目84)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目81に記載のシステム。
(項目85)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換する手段と、
オーディオファイルを第2のテキスト表現に変換する手段であって、第2のテキスト表現は、第1のテキスト表現と同一ではない、手段と
によって生成される、項目81に記載のシステム。
(項目86)エンティティを識別する手段は、ユーザプロファイル情報に基づいて、エンティティを識別する手段をさらに備えている、項目81に記載のシステム。
(項目87)エンティティを識別する手段は、エンティティに関連付けられた人気情報に基づいて、エンティティを識別する手段をさらに備えている、項目81に記載のシステム。
(項目88)エンティティを識別する手段は、
複数のエンティティを識別する手段であって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、手段と、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定する手段と、
最大スコアを決定することによって、エンティティを選択する手段と
を備えている、項目81に記載のシステム。
(項目89)複数のテキストクエリを生成する手段をさらに備え、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目81に記載のシステム。
(項目90)
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別する手段と、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定する手段と、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別する手段と
をさらに備えている、項目89に記載のシステム。
(項目91)音声クエリに応答する方法であって、方法は、
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを音声クエリから抽出することと、
制御回路を使用して、1つ以上のキーワードに基づいて、テキストクエリを生成することと、
テキストクエリおよびエンティティに関するメタデータに基づいて、エンティティを識別することであって、メタデータは、エンティティに関連付けられた識別子の発音に基づくエンティティの1つ以上の代替テキスト表現を備えている、ことと、
エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。
(項目92)1つ以上の代替テキスト表現は、エンティティの音素表現を備えている、項目91に記載の方法。
(項目93)1つ以上の代替テキスト表現は、発音に基づくエンティティの代替スペルを備えている、項目91-92のいずれかに記載の方法。
(項目94)エンティティの1つ以上の代替テキスト表現は、前の発話→テキスト変換に基づいて生成されたテキスト文字列を備えている、項目91-93のいずれかに記載の方法。
(項目95)1つ以上の代替テキスト表現は、複数の代替テキスト表現を備え、複数の代替テキスト表現のうちの各代替テキスト表現は、
第1のテキスト表現をオーディオファイルに変換することと、
オーディオファイルを第2のテキスト表現に変換することであって、第2のテキスト表現は、第1のテキスト表現と同一ではない、ことと
によって生成される、項目91-94のいずれかに記載の方法。
(項目96)エンティティを識別することは、ユーザプロファイル情報にさらに基づく、項目91-95のいずれかに記載の方法。
(項目97)エンティティを識別することは、エンティティに関連付けられた人気情報にさらに基づく、項目91-96のいずれかに記載の方法。
(項目98)エンティティを識別することは、
複数のエンティティを識別することであって、それぞれのメタデータが、複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
それぞれの1つ以上の代替テキスト表現をテキストクエリと比較することに基づいて、複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、エンティティを選択することと
を含む、項目91-97のいずれかに記載の方法。
(項目99)複数のテキストクエリを生成することをさらに含み、複数のテキストクエリは、テキストクエリを備え、複数のテキストクエリのうちの各テキストクエリは、制御回路の発話→テキストモジュールのそれぞれの設定に基づいて生成される、項目91-98のいずれかに記載の方法。
(項目100)
複数のテキストクエリのうちのそれぞれのテキストクエリに基づいて、それぞれのエンティティを識別することと、
それぞれのテキストクエリのそれぞれのエンティティに関連付けられたメタデータとの比較に基づいて、それぞれのエンティティに関するそれぞれのスコアを決定することと、
それぞれのスコアの最大スコアを選択することによって、エンティティを識別することと
をさらに含む、項目99に記載の方法。
(項目101)音声クエリに関するエンティティメタデータを生成する方法であって、方法は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
テキスト→発話モジュールを使用して、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成することであって、第1のテキスト文字列は、エンティティを記述する、ことと、
発話→テキストモジュールを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成することと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を含む、方法。
(項目102)少なくとも1つの発話基準は、発音設定を備えている、項目101に記載の方法。
(項目103)少なくとも1つの発話基準は、言語設定を備えている、項目101に記載の方法。
(項目104)少なくとも1つの発話基準は、複数の発話基準を備え、方法は、
テキスト→発話モジュールを使用して、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
発話→テキストモジュールを使用して、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
をさらに含む、項目101に記載の方法。
(項目105)1つ以上のテキストクエリに基づいて、メタデータを更新することをさらに含む、項目101に記載の方法。
(項目106)エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶することをさらに含む、項目101に記載の方法。
(項目107)第1のテキスト文字列に基づいて、オーディオファイルを生成することは、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を含む、項目101に記載の方法。
(項目108)発話をスピーカにおいて生成することは、テキスト→発話モジュールの少なくとも1つの発話設定にさらに基づく、項目107に記載の方法。
(項目109)オーディオファイルに基づいて、第2のテキスト文字列を生成することは、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
を含む、項目101に記載の方法。
(項目110)オーディオ信号を第2のテキスト文字列に変換することは、発話→テキストモジュールの少なくとも1つのテキスト設定に基づく、項目109に記載の方法。
(項目111)音声クエリに関するエンティティメタデータを生成するためのシステムであって、システムは、制御回路を備え、
制御回路は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
制御回路に結合されたオーディオインターフェースを使用して、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成することであって、第1のテキスト文字列は、エンティティを記述する、ことと、
オーディオインターフェースを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成することと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を行うように構成されている、システム。
(項目112)少なくとも1つの発話基準は、発音設定を備えている、項目111に記載のシステム。
(項目113)少なくとも1つの発話基準は、言語設定を備えている、項目111に記載のシステム。
(項目114)少なくとも1つの発話基準は、複数の発話基準を備え、制御回路は、
オーディオ機器を使用して、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
オーディオ機器を使用して、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
を行うようにさらに構成されている、項目111に記載のシステム。
(項目115)制御回路は、1つ以上のテキストクエリに基づいて、メタデータを更新するようにさらに構成されている、項目111に記載のシステム。
(項目116)制御回路は、エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶するようにさらに構成されている、項目111に記載のシステム。
(項目117)オーディオ機器は、スピーカとマイクロホンとを備え、制御回路は、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
によって、第1のテキスト文字列に基づいて、オーディオファイルを生成するようにさらに構成されている、項目111に記載のシステム。
(項目118)制御回路は、少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成するようにさらに構成されている、項目117に記載のシステム。
(項目119)オーディオ機器は、スピーカとマイクロホンとを備え、制御回路は、
オーディオファイルの再生をスピーカにおいて生成することと、
再生をマイクロホンにおいて検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
によって、オーディオファイルに基づいて、第2のテキスト文字列を生成するようにさらに構成されている、項目111に記載のシステム。
(項目120)制御回路は、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換するようにさらに構成されている、項目119に記載のシステム。
(項目121)エンコーディングされた命令を有する非一過性コンピュータ読み取り可能な媒体であって、命令は、制御回路によって実行されると、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成ることであって、第1のテキスト文字列は、エンティティを記述する、ことと、
オーディオファイルに基づいて、第2のテキスト文字列を生成ることと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を制御回路に行わせる、非一過性コンピュータ読み取り可能な媒体。
(項目122)少なくとも1つの発話基準は、発音設定を備えている、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目123)少なくとも1つの発話基準は、言語設定を備えている、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目124)少なくとも1つの発話基準は、複数の発話基準を備え、エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
を制御回路に行わせる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目125)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、1つ以上のテキストクエリに基づいて、メタデータを更新させる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目126)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶させる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目127)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を制御回路に行わせる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目128)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、テキスト→発話モジュールの少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成させる、項目127に記載の非一過性コンピュータ読み取り可能な媒体。
(項目129)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
を制御回路に行わせる、項目121に記載の非一過性コンピュータ読み取り可能な媒体。
(項目130)エンコーディングされた命令をさらに備え、命令は、制御回路によって実行されると、制御回路に、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換させる、項目129に記載の非一過性コンピュータ読み取り可能な媒体。
(項目131)音声クエリに関するエンティティメタデータを生成するためのシステムであって、システムは、
複数のエンティティのうちの情報が記憶されているエンティティを識別する手段と、
第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成する手段であって、第1のテキスト文字列は、エンティティを記述する、手段と、
オーディオファイルに基づいて、第2のテキスト文字列を生成する手段と、
第2のテキスト文字列を第1のテキスト文字列と比較する手段と、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶する手段と
を備えている、システム。
(項目132)少なくとも1つの発話基準は、発音設定を備えている、項目131に記載のシステム。
(項目133)少なくとも1つの発話基準は、言語設定を備えている、項目131に記載のシステム。
(項目134)少なくとも1つの発話基準は、複数の発話基準を備え、システムは、
第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成する手段と、
それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成する手段と、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較する手段と、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶する手段と
をさらに備えている、項目131に記載のシステム。
(項目135)1つ以上のテキストクエリに基づいて、メタデータを更新する手段をさらに備えている、項目131に記載のシステム。
(項目136)エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶する手段をさらに備えている、項目131に記載のシステム。
(項目137)第1のテキスト文字列に基づいて、オーディオファイルを生成する手段は、
第1のテキスト文字列を第1のオーディオ信号に変換する手段と、
オーディオ信号に基づいて、発話をスピーカにおいて生成する手段と、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成する手段と、
オーディオ信号を処理し、オーディオファイルを生成する手段と
を備えている、項目131に記載のシステム。
(項目138)発話をスピーカにおいて生成する手段は、テキスト→発話モジュールの少なくとも1つの発話設定に基づいて、発話をスピーカにおいて生成する手段をさらに備えている、項目137に記載のシステム。
(項目139)オーディオファイルに基づいて、第2のテキスト文字列を生成する手段は、
オーディオファイルの再生をスピーカにおいて生成する手段と、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成する手段と、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換する手段と
を含む、項目131に記載のシステム。
(項目140)オーディオ信号を第2のテキスト文字列に変換する手段は、発話→テキストモジュールの少なくとも1つのテキスト設定に基づいて、オーディオ信号を第2のテキスト文字列に変換する手段を備えている、項目139に記載のシステム。
(項目141)音声クエリのためのエンティティメタデータを生成する方法であって、方法は、
複数のエンティティのうちの情報が記憶されているエンティティを識別することと、
テキスト→発話モジュールを使用して、第1のテキスト文字列および少なくとも1つの発話基準に基づいて、オーディオファイルを生成することであって、第1のテキスト文字列は、エンティティを記述する、ことと、
発話→テキストモジュールを使用して、オーディオファイルに基づいて、第2のテキスト文字列を生成することと、
第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータに第2のテキスト文字列を記憶することと
を含む、方法。
(項目142)少なくとも1つの発話基準は、発音設定を備えている、項目141に記載の方法。
(項目143)少なくとも1つの発話基準は、言語設定を備えている、項目141-142のいずれかに記載の方法。
(項目144)少なくとも1つの発話基準は、複数の発話基準を備え、方法は、
テキスト→発話モジュールを使用して、第1のテキスト文字列およびそれぞれの発話基準に基づいて、それぞれのオーディオファイルを生成することと、
発話→テキストモジュールを使用して、それぞれのオーディオファイルに基づいて、それぞれの第2のテキスト文字列を生成することと、
それぞれの第2のテキスト文字列を第1のテキスト文字列と比較することと、
第1のテキスト文字列と同一でない場合、エンティティに関連付けられたメタデータにそれぞれの第2のテキスト文字列を記憶することと
をさらに含む、項目141-143のいずれかに記載の方法。
(項目145)1つ以上のテキストクエリに基づいて、メタデータを更新することをさらに含む、項目141-144のいずれかに記載の方法。
(項目146)エンティティに関連付けられたメタデータに第1のテキスト文字列の音素表現を記憶することをさらに含む、項目141-145のいずれかに記載の方法。
(項目147)第1のテキスト文字列に基づいて、オーディオファイルを生成することは、
第1のテキスト文字列を第1のオーディオ信号に変換することと、
オーディオ信号に基づいて、発話をスピーカにおいて生成することと、
マイクロホンを使用して、発話を検出し、第2のオーディオ信号を生成することと、
オーディオ信号を処理し、オーディオファイルを生成することと
を含む、項目141-146のいずれかに記載の方法。
(項目148)発話をスピーカにおいて生成することは、テキスト→発話モジュールの少なくとも1つの発話設定にさらに基づく、項目147に記載の方法。
(項目149)オーディオファイルに基づいて、第2のテキスト文字列を生成することは、
オーディオファイルの再生をスピーカにおいて生成することと、
マイクロホンを使用して、再生を検出し、オーディオ信号を生成することと、
1つ以上の単語を識別することによって、オーディオ信号を第2のテキスト文字列に変換することと
を含む、項目141-148のいずれかに記載の方法。
(項目150)オーディオ信号を第2のテキスト文字列に変換することは、発話→テキストモジュールの少なくとも1つのテキスト設定に基づく、項目149に記載の方法。
The above-described embodiments of the present disclosure are presented for purposes of illustration, not limitation, and the present disclosure is limited only by the claims that follow. Moreover, features and limitations described in any one embodiment may apply to any other embodiment herein, and flowcharts or examples relating to one embodiment may be used in any other implementation in a suitable manner. Note that forms may be combined, performed in a different order, or performed in parallel. Additionally, the systems and methods described herein can be implemented in real time. It should also be noted that the systems and/or methods described above may be applied to or used in accordance with other systems and/or methods.
This specification discloses embodiments including, but not limited to:
(Item 1) A method of responding to a voice query, the method comprising:
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query using control circuitry;
determining phonetic information for one or more keywords using a control circuit;
generating a text query based on one or more keywords and phonetic information using control circuitry;
identifying an entity among a plurality of entities in a database based on a text query and stored metadata about the entity, the metadata comprising a pronunciation tag;
retrieving a content item associated with the entity;
A method, including
2. The method of claim 1, wherein the phonetic information comprises one phoneme of the one or more keywords.
3. The method of claim 1, wherein identifying the entity is further based on user profile information.
4. The method of claim 3, wherein identifying entities is based on previously identified entities from previous voice queries.
5. The method of claim 1, wherein identifying the entity is further based on popularity information associated with the entity.
(Item 6) Identifying an entity is
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective pronunciation tag to the text query;
selecting an entity by determining a maximum score;
The method of item 1, comprising
(Item 7) the entity is a first entity, further comprising identifying a second entity in the plurality of entities based on the text query and second metadata about the second entity; The method of item 1, wherein the item is associated with a first entity and a second entity.
(Item 8) The method of item 1, wherein identifying an entity among the plurality of entities of the database includes comparing at least a portion of the text query to tags of stored metadata to identify a match. Method.
9. The method of claim 1, wherein a first of the one or more keywords is associated with two or more pronunciations of the first keyword.
10. The method of claim 1, wherein the phonetic information comprises a phoneme representation of a first one of the one or more keywords.
(Item 11) A system for responding to voice queries, the system comprising:
an audio interface for receiving voice queries;
a control circuit coupled to the audio interface;
The control circuit
extracting one or more keywords from the spoken query;
deterministically extracting phonetic information for one or more keywords;
generating and extracting a text query based on one or more keywords and pronunciation information;
identifying and extracting an entity among a plurality of entities in a database based on a text query and stored metadata about the entity, the metadata comprising a pronunciation tag;
A system configured to: retrieve content items associated with an entity.
12. The system of claim 11, wherein the phonetic information comprises one phoneme of the one or more keywords.
13. The system of claim 11, wherein the control circuitry is further configured to identify entities based on user profile information.
14. The system of claim 13, wherein the control circuitry is further configured to identify entities based on previously identified entities from previous voice queries.
15. The system of claim 11, wherein the control circuitry is further configured to identify the entity based on popularity information associated with the entity.
(Item 16) The control circuit is
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective pronunciation tag to the text query;
12. The system of item 11, further configured to identify the entity by selecting the entity by determining the maximum score.
(Item 17) the entity is a first entity, and the control circuit identifies a second entity in the plurality of entities based on the text query and second metadata about the second entity; 12. The system of item 11, further configured, wherein the content item is associated with the first entity and the second entity.
(Item 18) The control circuitry is further configured to identify an entity among the plurality of entities of the database by comparing at least a portion of the text query to stored metadata tags and identifying matches. of item 11.
19. The system of claim 11, wherein a first one of the one or more keywords is associated with two or more pronunciations of the first keyword.
20. The system of claim 11, wherein the phonetic information comprises a phoneme representation of a first one of the one or more keywords.
(Item 21) A non-transitory computer-readable medium having encoded instructions, the instructions, when executed by a control circuit,
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query;
determining phonetic information for one or more keywords;
generating a text query based on one or more keywords and phonetic information;
identifying an entity among a plurality of entities in a database based on a text query and stored metadata about the entity, the metadata comprising a pronunciation tag;
A non-transitory computer-readable medium that causes control circuitry to read content items associated with an entity.
22. The non-transitory computer-readable medium of claim 21, wherein the phonetic information comprises one phoneme of the one or more keywords.
23. The non-transitory computer readable of claim 21 further comprising encoded instructions that, when executed by the control circuit, cause the control circuit to identify the entity based on the user profile information. medium.
(Item 24) Further comprising encoded instructions that, when executed by the control circuit, cause the control circuit to identify entities based on previously identified entities from previous voice queries, item 23. 3. The non-transitory computer-readable medium of .
25. The method of claim 21 further comprising encoded instructions that, when executed by the control circuit, cause the control circuit to identify the entity based on popularity information associated with the entity. transient computer readable medium.
(Item 26) further comprising encoded instructions, the instructions, when executed by the control circuit,
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective pronunciation tag to the text query;
22. The non-transitory computer readable medium of item 21, causing the control circuit to identify the entity by selecting the entity by determining the maximum score.
(Item 27) The entity is the first entity and further comprises encoded instructions which, when executed by the control circuit, provide the control circuit with the text query and second metadata about the second entity. 22. The non-transitory computer-readable according to item 21, wherein a second entity among the plurality of entities is identified based on the content item is associated with the first entity and the second entity medium.
(Item 28) Further comprising encoded instructions which, when executed by the control circuitry, cause the control circuitry to compare at least a portion of the text query to tags of stored metadata to identify matches. 22. The non-transitory computer-readable medium of item 21 that identifies an entity in a plurality of entities of a database by.
(Item 29) The non-transitory computer-readable medium of item 21, wherein a first keyword of the one or more keywords is associated with two or more pronunciations of the first keyword.
30. The non-transitory computer-readable medium of claim 21, wherein the phonetic information comprises a phoneme representation of the first of the one or more keywords.
(Item 31) A system for responding to voice queries, the system comprising:
means for receiving voice queries;
means for extracting one or more keywords from a spoken query;
means for determining pronunciation information for one or more keywords;
means for generating a text query based on one or more keywords and pronunciation information;
means for identifying an entity among a plurality of entities in a database based on a text query and stored metadata about the entity, the metadata comprising a pronunciation tag;
and means for retrieving content items associated with the entity.
32. The system of claim 31, wherein the phonetic information comprises one phoneme of the one or more keywords.
33. The system of claim 31, wherein means for identifying an entity comprises means for identifying an entity based on user profile information.
34. The system of claim 33, wherein means for identifying entities comprises means for identifying entities based on previously identified entities from previous voice queries.
35. The system of claim 31, wherein means for identifying an entity comprises means for identifying an entity based on popularity information associated with the entity.
(Item 36) The means for identifying an entity is
means for identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
means for determining a respective score for each respective entity of the plurality of entities based on comparing the respective pronunciation tag to the text query;
and means for selecting an entity by determining a maximum score.
(Item 37) the entity is a first entity and further comprising means for identifying a second entity among the plurality of entities based on the text query and second metadata about the second entity; 32. The system of item 31, wherein the item is associated with a first entity and a second entity.
(Item 38) The means for identifying an entity among the plurality of entities of the database comprises means for comparing at least a portion of the text query to stored metadata tags to identify a match. System as described.
39. The system of claim 31, wherein a first of the one or more keywords is associated with two or more pronunciations of the first keyword.
40. The system of claim 31, wherein the phonetic information comprises a phoneme representation of a first one of the one or more keywords.
(Item 41) A method of responding to a voice query, the method comprising:
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query using control circuitry;
determining phonetic information for one or more keywords using a control circuit;
generating a text query based on one or more keywords and phonetic information using control circuitry;
identifying an entity among a plurality of entities in a database based on a text query and stored metadata about the entity, the metadata comprising a pronunciation tag;
and retrieving a content item associated with the entity.
42. The method of claim 41, wherein the phonetic information comprises one phoneme of the one or more keywords.
(Item 43) The method of any of items 41-42, wherein identifying the entity is further based on user profile information.
(Item 44) The method of any of items 41-43, wherein identifying the entity is based on previously identified entities from previous speech queries.
(Item 45) The method of any of items 41-44, wherein identifying the entity is further based on popularity information associated with the entity.
(Item 46) Identifying an entity is
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective pronunciation tag to the text query;
46. A method according to any of items 41-45, comprising selecting an entity by determining a maximum score.
(Item 47) the entity is the first entity and further comprising identifying a second entity in the plurality of entities based on the text query and second metadata about the second entity; 47. The method of any of items 41-46, wherein the items are associated with a first entity and a second entity.
(Item 48) Identifying an entity among the plurality of entities of the database includes comparing at least a portion of the text query to tags of stored metadata to identify a match. Any method described.
49. The method of any of items 41-48, wherein a first of the one or more keywords is associated with two or more pronunciations of the first keyword.
50. The method of any of items 41-49, wherein the phonetic information comprises a phoneme representation of a first one of the one or more keywords.
(Item 51) A method of responding to a voice query, the method comprising:
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query using control circuitry;
generating a text query based on one or more keywords using control circuitry;
identifying an entity based on a text query and metadata about the entity, the metadata comprising one or more alternative textual representations of the entity based on the pronunciation of an identifier associated with the entity; ,
and retrieving a content item associated with the entity.
52. The method of claim 51, wherein the one or more alternative textual representations comprise phonemic representations of the entity.
53. The method of claim 51, wherein the one or more alternative textual representations comprise phonetic-based alternative spellings of entities.
54. The method of claim 51, wherein the one or more alternative textual representations of the entity comprise text strings generated based on previous speech-to-text conversions.
(Item 55) The one or more alternative text representations comprises a plurality of alternative text representations, each alternative text representation of the plurality of alternate text representations comprising:
converting the first textual representation into an audio file;
52. Method according to item 51, produced by converting an audio file into a second textual representation, the second textual representation being not identical to the first textual representation.
(Item 56) The method of item 51, wherein identifying the entity is further based on user profile information.
(Item 57) The method of item 51, wherein identifying the entity is further based on popularity information associated with the entity.
(Item 58) Identifying the entity is
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective one or more alternative textual representations to the textual query;
52. The method of item 51, comprising selecting an entity by determining a maximum score.
(Item 59) further comprising generating a plurality of text queries, the plurality of text queries comprising the text queries, each text query of the plurality of text queries corresponding to a respective setting of the control circuit's utterance->text module; 52. The method of item 51, wherein the method is generated based on
(Item 60)
identifying each entity based on each text query of the plurality of text queries;
determining a respective score for each entity based on comparison of each text query to metadata associated with each entity;
60. The method of item 59, further comprising identifying the entity by selecting the maximum score of each score.
(Item 61) A system for responding to voice queries, the system comprising:
an audio interface for receiving voice queries;
a control circuit;
The control circuit
extracting one or more keywords from the spoken query;
generating a text query based on one or more keywords;
identifying an entity based on a text query and metadata about the entity, the metadata comprising one or more alternative textual representations of the entity based on the pronunciation of an identifier associated with the entity; ,
A system configured to: retrieve content items associated with an entity.
62. The system of claim 61, wherein the one or more alternative textual representations comprise phonemic representations of entities.
63. The system of claim 61, wherein the one or more alternative textual representations comprise phonetic-based alternative spellings of entities.
(Item 64) The system of Item 61, wherein the one or more alternative textual representations of the entity comprise text strings generated based on previous speech-to-text conversions.
(Item 65) The one or more alternative text representations comprises a plurality of alternative text representations, the control circuit comprising:
converting the first textual representation into an audio file;
converting the audio file to a second textual representation, the second textual representation not identical to the first textual representation, thereby converting each alternate textual representation of the plurality of alternate textual representations to 62. The system of item 61, configured to generate.
66. The system of claim 61, wherein the control circuitry is further configured to identify entities based on user profile information.
67. The system of claim 61, wherein the control circuitry is further configured to identify the entity based on popularity information associated with the entity.
(Item 68) The control circuit
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective one or more alternative textual representations to the textual query;
62. The system of item 61, further configured to identify an entity by determining a maximum score, selecting the entity, and identifying the entity.
(Item 69) The control circuit is further configured to generate a plurality of text queries, the plurality of text queries comprising the text queries, the control circuit comprising an utterance to text module, 62. The system according to item 61, wherein each text query is generated based on a respective set of speech to text modules.
(Item 70) The control circuit
identifying each entity based on each text query of the plurality of text queries;
determining a respective score for each entity based on comparison of each text query to metadata associated with each entity;
70. The system of item 69, further configured to: identify the entity by selecting the maximum score of the respective scores.
(Item 71) A non-transitory computer-readable medium having encoded instructions, the instructions, when executed by a control circuit,
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query;
generating a text query based on one or more keywords;
identifying an entity based on a text query and metadata about the entity, the metadata comprising one or more alternative textual representations of the entity based on the pronunciation of an identifier associated with the entity; ,
A non-transitory computer-readable medium that causes control circuitry to read content items associated with an entity.
(Item 72) The non-transitory computer-readable medium of Item 71, wherein the one or more alternative textual representations comprise phonemic representations of the entity.
(Item 73) The non-transitory computer-readable medium of Item 71, wherein the one or more alternative textual representations comprise phonetic-based alternative spellings of the entity.
(Item 74) The non-transitory computer-readable medium of Item 71, wherein the one or more alternative textual representations of the entity comprise text strings generated based on previous speech-to-text conversions.
(Item 75) The one or more alternative textual representations comprises a plurality of alternative textual representations and further comprises encoded instructions which, when executed by the control circuitry, cause the control circuitry to:
converting the first textual representation into an audio file;
converting the audio file to a second textual representation, the second textual representation not identical to the first textual representation, thereby converting each alternate textual representation of the plurality of alternate textual representations to 72. The non-transitory computer readable medium of item 71 that is generated.
76. The non-transitory computer-readable of claim 71 further comprising encoded instructions that, when executed by the control circuit, cause the control circuit to identify the entity based on the user profile information. possible medium.
77. The method of claim 71 further comprising encoded instructions that, when executed by the control circuit, cause the control circuit to identify the entity based on popularity information associated with the entity. transient computer readable medium.
(Item 78) Further comprising encoded instructions, the instructions, when executed by the control circuit,
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective one or more alternative textual representations to the textual query;
selecting an entity by determining a maximum score;
72. The non-transitory computer readable medium of item 71 that causes the control circuit to identify the entity by.
(Item 79) Further comprising encoded instructions, the instructions, when executed by the control circuit, causing the control circuit to generate a plurality of text queries, the plurality of text queries comprising the text queries, the plurality of text queries. 72. The non-transitory computer-readable medium of item 71, wherein each text query of the control circuit is generated based on a respective setting of the speech-to-text module of the control circuit.
(Item 80) further comprising encoded instructions, the instructions, when executed by the control circuit,
identifying each entity based on each text query of the plurality of text queries;
determining a respective score for each entity based on comparison of each text query to metadata associated with each entity;
80. The non-transitory computer-readable medium of item 79, causing the control circuit to identify the entity by selecting the maximum score of the respective scores.
(Item 81) A system for responding to voice queries, the system comprising:
means for receiving voice queries at an audio interface;
means for extracting one or more keywords from a spoken query;
means for generating a text query based on one or more keywords;
means for identifying an entity based on a text query and metadata about the entity, the metadata comprising one or more alternative textual representations of the entity based on pronunciation of an identifier associated with the entity; ,
and means for retrieving content items associated with the entity.
(Item 82) The system of item 81, wherein the one or more alternative textual representations comprise phonemic representations of the entity.
83. The system of claim 81, wherein the one or more alternative textual representations comprise phonetic-based alternative spellings of entities.
(Item 84) The system of Item 81, wherein the one or more alternative textual representations of the entity comprise text strings generated based on previous speech-to-text conversions.
(Item 85) The one or more alternative text representations comprises a plurality of alternative text representations, each alternative text representation of the plurality of alternate text representations comprising:
means for converting the first textual representation into an audio file;
82. System according to item 81, produced by means for converting an audio file into a second textual representation, wherein the second textual representation is not identical to the first textual representation.
86. The system of claim 81, wherein means for identifying an entity further comprises means for identifying an entity based on user profile information.
87. The system of claim 81, wherein means for identifying an entity further comprises means for identifying the entity based on popularity information associated with the entity.
(Item 88) The means for identifying an entity is
means for identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
means for determining a respective score for each respective entity of the plurality of entities based on comparing the respective one or more alternative textual representations to the textual query;
82. The system of item 81, comprising means for selecting entities by determining maximum scores.
(Item 89) further comprising means for generating a plurality of text queries, the plurality of text queries comprising the text queries, each text query of the plurality of text queries corresponding to the utterance of the control circuit→the respective setting of the text module; 82. The system of item 81, wherein the system is generated based on:
(Item 90)
means for identifying respective entities based on respective text queries of the plurality of text queries;
means for determining a respective score for each entity based on comparison of each text query to metadata associated with each entity;
and means for identifying entities by selecting the maximum score of each score.
(Item 91) A method of responding to a voice query, the method comprising:
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query using control circuitry;
generating a text query based on one or more keywords using control circuitry;
identifying an entity based on a text query and metadata about the entity, the metadata comprising one or more alternative textual representations of the entity based on the pronunciation of an identifier associated with the entity; ,
and retrieving a content item associated with the entity.
92. The method of claim 91, wherein the one or more alternative textual representations comprise phonemic representations of the entity.
(Item 93) The method of any of items 91-92, wherein the one or more alternative textual representations comprise phonetic-based alternative spellings of entities.
(Item 94) The method of any of items 91-93, wherein the one or more alternative textual representations of the entity comprise text strings generated based on previous speech-to-text conversions.
(Item 95) The one or more alternative text representations comprises a plurality of alternative text representations, each alternative text representation of the plurality of alternate text representations comprising:
converting the first textual representation into an audio file;
95. Any of paragraphs 91-94, produced by converting an audio file into a second textual representation, wherein the second textual representation is not identical to the first textual representation. Method.
(Item 96) The method of any of items 91-95, wherein identifying the entity is further based on user profile information.
(Item 97) The method of any of items 91-96, wherein identifying the entity is further based on popularity information associated with the entity.
(Item 98) Identifying the entity is
identifying a plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective one or more alternative textual representations to the textual query;
selecting an entity by determining a maximum score.
(Item 99) further comprising generating a plurality of text queries, the plurality of text queries comprising the text queries, each text query of the plurality of text queries corresponding to a respective setting of the control circuit's utterance->text module; 99. A method according to any of items 91-98, wherein the method is generated based on
(Item 100)
identifying each entity based on each text query of the plurality of text queries;
determining a respective score for each entity based on comparison of each text query to metadata associated with each entity;
100. The method of item 99, further comprising identifying the entity by selecting the maximum score of each score.
(Item 101) A method of generating entity metadata for a voice query, the method comprising:
identifying an entity for which information is stored among a plurality of entities;
generating an audio file using a text-to-speech module based on a first text string and at least one speech criterion, wherein the first text string describes an entity; ,
generating a second text string based on the audio file using the Speech→Text module;
comparing the second text string to the first text string;
If not identical to the first text string, storing the second text string in metadata associated with the entity.
(Item 102) The method of
(Item 103) The method of
(Item 104) The at least one speech criterion comprises a plurality of speech criteria, the method comprising:
generating respective audio files based on the first text string and respective speech criteria using a Text to Speech module;
generating respective second text strings based on respective audio files using the Speech to Text module;
comparing each second text string to the first text string;
102. The method of
(Item 105) The method of
(Item 106) The method of
(Item 107) Generating an audio file based on the first text string includes:
converting the first text string into a first audio signal;
generating speech at a speaker based on the audio signal;
detecting speech using a microphone to generate a second audio signal;
102. The method of
(Item 108) The method of item 107, wherein generating the speech at the speaker is further based on at least one speech setting of the text-to-speech module.
(Item 109) Generating a second text string based on the audio file includes:
producing playback of the audio file on the speaker;
detecting playback and generating an audio signal using a microphone;
102. The method of
(Item 110) The method of item 109, wherein converting the audio signal to the second text string is based on at least one text setting of the Speech to Text module.
(Item 111) A system for generating entity metadata for a spoken query, the system comprising a control circuit;
The control circuit
identifying an entity for which information is stored among a plurality of entities;
generating an audio file, using an audio interface coupled to the control circuit, based on a first text string and at least one speech criterion, the first text string describing an entity; to do and
generating a second text string based on the audio file using the audio interface;
comparing the second text string to the first text string;
If not identical to the first text string, store the second text string in metadata associated with the entity.
(Item 112) The system of item 111, wherein the at least one speech criterion comprises a pronunciation setting.
(Item 113) The system of item 111, wherein the at least one speech criterion comprises a language setting.
(Item 114) The at least one speech reference comprises a plurality of speech references, the control circuit comprising:
using audio equipment to generate respective audio files based on the first text string and respective speech criteria;
generating respective second text strings based on respective audio files using audio equipment;
comparing each second text string to the first text string;
If not identical to the first text string, storing each second text string in metadata associated with the entity.
(Item 115) The system of item 111, wherein the control circuitry is further configured to update the metadata based on one or more text queries.
(Item 116) The system of item 111, wherein the control circuitry is further configured to store the phoneme representation of the first text string in metadata associated with the entity.
(Item 117) The audio device includes a speaker and a microphone, and the control circuit includes:
converting the first text string into a first audio signal;
generating speech at a speaker based on the audio signal;
detecting speech using a microphone to generate a second audio signal;
112. The system of item 111, further configured to generate an audio file based on the first text string by processing the audio signal and generating the audio file.
118. The system of claim 117, wherein the control circuit is further configured to generate speech at the speaker based on the at least one speech setting.
(Item 119) The audio equipment includes a speaker and a microphone, and the control circuit includes:
producing playback of the audio file on the speaker;
detecting the playback at the microphone and generating an audio signal;
further configured to generate a second text string based on the audio file by converting the audio signal into a second text string by identifying one or more words; 111. The system of item 111.
(Item 120) The system of item 119, wherein the control circuit is further configured to convert the audio signal to the second text string based on at least one text setting of the speech-to-text module.
(Item 121) A non-transitory computer-readable medium having encoded instructions that, when executed by a control circuit,
identifying an entity for which information is stored among a plurality of entities;
generating an audio file based on a first text string and at least one speech criterion, wherein the first text string describes an entity;
generating a second text string based on the audio file;
comparing the second text string to the first text string;
and storing the second text string in metadata associated with the entity if it is not identical to the first text string.
(Item 122) The non-transitory computer-readable medium of Item 121, wherein the at least one speech criterion comprises pronunciation settings.
(Item 123) The non-transitory computer-readable medium of item 121, wherein the at least one speech criterion comprises a language setting.
(Item 124) The at least one speech criterion comprises a plurality of speech criteria and further comprises encoded instructions, the instructions, when executed by the control circuit,
generating respective audio files based on the first text string and respective speech criteria;
generating respective second text strings based on respective audio files;
comparing each second text string to the first text string;
122. The non-transitory computer reading of clause 121, causing the control circuit to store each second text string in metadata associated with the entity if not identical to the first text string. possible medium.
(Item 125) The non-uniformity of item 121 further comprising encoded instructions that, when executed by the control circuitry, cause the control circuitry to update the metadata based on the one or more text queries. transient computer readable medium.
(Item 126) Item 121 further comprising encoded instructions that, when executed by the control circuit, cause the control circuit to store the phoneme representation of the first text string in metadata associated with the entity. 3. The non-transitory computer-readable medium of .
(Item 127) Further comprising encoded instructions, the instructions, when executed by the control circuit,
converting the first text string into a first audio signal;
generating speech at a speaker based on the audio signal;
detecting speech using a microphone to generate a second audio signal;
122. The non-transitory computer-readable medium of item 121 that causes the control circuit to process the audio signal and generate the audio file.
(Item 128) Further comprising encoded instructions which, when executed by the control circuit, cause the control circuit to generate speech at the speaker based on at least one speech setting of the text-to-speech module. 3. The non-transitory computer-readable medium of .
(Item 129) Further comprising encoded instructions, the instructions, when executed by the control circuit,
producing playback of the audio file on the speaker;
detecting playback and generating an audio signal using a microphone;
122. The non-transitory computer-readable medium of item 121, causing the control circuit to convert the audio signal into the second text string by identifying one or more words.
(Item 130) Further comprising encoded instructions which, when executed by the control circuit, cause the control circuit to convert the audio signal into a second text string based on at least one text setting of the Speech->Text module. 130. The non-transitory computer-readable medium of item 129 that converts to
(Item 131) A system for generating entity metadata for a voice query, the system comprising:
means for identifying an entity of a plurality of entities for which information is stored;
means for generating an audio file based on a first text string and at least one speech criterion, wherein the first text string describes an entity;
means for generating a second text string based on the audio file;
means for comparing the second text string to the first text string;
means for storing the second text string in metadata associated with the entity if it is not identical to the first text string.
(Item 132) The system of item 131, wherein the at least one speech criterion comprises a pronunciation setting.
(Item 133) The system of item 131, wherein the at least one speech criterion comprises a language setting.
(Item 134) The at least one speech criterion comprises a plurality of speech criteria, the system comprising:
means for generating respective audio files based on the first text string and respective speech criteria;
means for generating respective second text strings based on respective audio files;
means for comparing each second text string to the first text string;
132. The system of clause 131, further comprising means for storing each second text string in metadata associated with the entity if not identical to the first text string.
(Item 135) The system of item 131, further comprising means for updating metadata based on one or more text queries.
(Item 136) The system of item 131, further comprising means for storing the phoneme representation of the first text string in metadata associated with the entity.
(Item 137) The means for generating an audio file based on the first text string comprises:
means for converting the first text string into a first audio signal;
means for generating speech at a speaker based on the audio signal;
means for detecting speech and generating a second audio signal using a microphone;
and means for processing audio signals and generating audio files.
138. The system of claim 137, wherein the means for generating speech at the speaker further comprises means for generating speech at the speaker based on at least one speech setting of the text-to-speech module.
(Item 139) The means for generating a second text string based on the audio file comprises:
means for generating playback of an audio file on a speaker;
means for detecting playback and generating an audio signal using a microphone;
means for converting the audio signal into a second text string by identifying one or more words.
(Item 140) The means for converting the audio signal to the second text string comprises means for converting the audio signal to the second text string based on at least one text setting of the speech to text module. , item 139.
(Item 141) A method of generating entity metadata for a voice query, the method comprising:
identifying an entity for which information is stored among a plurality of entities;
generating an audio file using a text-to-speech module based on a first text string and at least one speech criterion, wherein the first text string describes an entity; ,
generating a second text string based on the audio file using the Speech→Text module;
comparing the second text string to the first text string;
If not identical to the first text string, storing the second text string in metadata associated with the entity.
(Item 142) The method of item 141, wherein the at least one speech criterion comprises a pronunciation setting.
(Item 143) The method of any of items 141-142, wherein the at least one speech criterion comprises a language setting.
(Item 144) The at least one speech criterion comprises a plurality of speech criteria, the method comprising:
generating respective audio files based on the first text string and respective speech criteria using a Text to Speech module;
generating respective second text strings based on respective audio files using the Speech to Text module;
comparing each second text string to the first text string;
144. The method of any of items 141-143, further comprising, if not identical to the first text string, storing each second text string in metadata associated with the entity.
(Item 145) The method of any of items 141-144, further comprising updating metadata based on one or more text queries.
(Item 146) The method of any of items 141-145, further comprising storing the phoneme representation of the first text string in metadata associated with the entity.
(Item 147) Generating an audio file based on the first text string includes:
converting the first text string into a first audio signal;
generating speech at a speaker based on the audio signal;
detecting speech using a microphone to generate a second audio signal;
147. A method according to any of items 141-146, comprising processing an audio signal and generating an audio file.
(Item 148) The method of item 147, wherein generating the speech at the speaker is further based on at least one speech setting of the text-to-speech module.
(Item 149) Generating a second text string based on the audio file includes:
producing playback of the audio file on the speaker;
detecting playback and generating an audio signal using a microphone;
converting the audio signal into a second text string by identifying one or more words.
(Item 150) The method of item 149, wherein converting the audio signal to the second text string is based on at least one text setting of the Speech to Text module.
Claims (13)
音声クエリをオーディオインターフェースにおいて受信することと、
制御回路を使用して、1つ以上のキーワードを前記音声クエリから抽出することと、
前記制御回路を使用して、前記1つ以上のキーワードに基づいて、テキストクエリを生成することと、
エンティティを識別することであって、前記エンティティを識別することは、前記テキストクエリおよび前記エンティティに関するメタデータに基づき、前記メタデータは、前記エンティティの1つ以上の代替テキスト表現を備え、前記1つ以上の代替テキスト表現は、前記エンティティに関連付けられた識別子の発音に基づく、ことと、
前記エンティティに関連付けられたコンテンツ項目を読み出すことと
を含む、方法。 A method of responding to voice queries, the method comprising:
receiving a voice query at an audio interface;
extracting one or more keywords from the spoken query using control circuitry;
generating a text query based on the one or more keywords using the control circuit;
identifying an entity, wherein identifying the entity is based on the text query and metadata about the entity, the metadata comprising one or more alternative textual representations of the entity; said alternative text representation is based on the pronunciation of an identifier associated with said entity;
and retrieving a content item associated with said entity.
第1のテキスト表現をオーディオファイルに変換することと、
前記オーディオファイルを第2のテキスト表現に変換することと
によって生成され、
前記第2のテキスト表現は、前記第1のテキスト表現と同一ではない、請求項1-4のいずれかに記載の方法。 The one or more alternative text representations comprise a plurality of alternative text representations, each alternative text representation of the plurality of alternate text representations comprising:
converting the first textual representation into an audio file;
converting the audio file into a second textual representation; and
A method according to any of claims 1-4, wherein said second textual representation is not identical to said first textual representation.
前記複数のエンティティを識別することであって、それぞれのメタデータが、前記複数のエンティティのうちの各エンティティに関して記憶されている、ことと、
前記それぞれの1つ以上の代替テキスト表現を前記テキストクエリと比較することに基づいて、前記複数のエンティティのうちの各それぞれのエンティティに関して、それぞれのスコアを決定することと、
最大スコアを決定することによって、前記エンティティを選択することと
を含む、請求項1-7のいずれかに記載の方法。 Identifying the entity includes:
identifying the plurality of entities, wherein respective metadata is stored for each entity of the plurality of entities;
determining a respective score for each respective entity of the plurality of entities based on comparing the respective one or more alternative textual representations to the textual query;
and selecting the entity by determining a maximum score.
前記それぞれのテキストクエリの前記それぞれのエンティティに関連付けられたメタデータとの比較に基づいて、前記それぞれのエンティティに関するそれぞれのスコアを決定することと、
前記それぞれのスコアの最大スコアを選択することによって、前記エンティティを識別することと
をさらに含む、請求項9に記載の方法。 identifying respective entities based on respective text queries of the plurality of text queries;
determining a respective score for each entity based on comparing the respective text query to metadata associated with the respective entity;
10. The method of claim 9, further comprising: identifying said entity by selecting the maximum score of said respective scores.
メモリと、
請求項1-10のいずれかに記載の方法のステップを実装する手段と
を備えている、システム。 A system for responding to voice queries, said system comprising:
memory;
and means for implementing the method steps of any of claims 1-10.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/528,550 | 2019-07-31 | ||
US16/528,539 US20210034662A1 (en) | 2019-07-31 | 2019-07-31 | Systems and methods for managing voice queries using pronunciation information |
US16/528,541 | 2019-07-31 | ||
US16/528,539 | 2019-07-31 | ||
US16/528,550 US11410656B2 (en) | 2019-07-31 | 2019-07-31 | Systems and methods for managing voice queries using pronunciation information |
US16/528,541 US11494434B2 (en) | 2019-07-31 | 2019-07-31 | Systems and methods for managing voice queries using pronunciation information |
PCT/US2020/043131 WO2021021529A1 (en) | 2019-07-31 | 2020-07-22 | Systems and methods for managing voice queries using pronunciation information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022542415A true JP2022542415A (en) | 2022-10-03 |
JPWO2021021529A5 JPWO2021021529A5 (en) | 2023-07-25 |
Family
ID=72047056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022506260A Pending JP2022542415A (en) | 2019-07-31 | 2020-07-22 | Systems and methods for managing spoken queries using pronunciation information |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4004913A1 (en) |
JP (1) | JP2022542415A (en) |
CA (1) | CA3143967A1 (en) |
WO (1) | WO2021021529A1 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102852B2 (en) * | 2015-04-14 | 2018-10-16 | Google Llc | Personalized speech synthesis for acknowledging voice actions |
US10331312B2 (en) * | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10445360B2 (en) * | 2015-11-24 | 2019-10-15 | Comcast Cable Communications, Llc | Content analysis to enhance voice search |
-
2020
- 2020-07-22 EP EP20754479.2A patent/EP4004913A1/en active Pending
- 2020-07-22 WO PCT/US2020/043131 patent/WO2021021529A1/en unknown
- 2020-07-22 CA CA3143967A patent/CA3143967A1/en active Pending
- 2020-07-22 JP JP2022506260A patent/JP2022542415A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021021529A1 (en) | 2021-02-04 |
EP4004913A1 (en) | 2022-06-01 |
CA3143967A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11494434B2 (en) | Systems and methods for managing voice queries using pronunciation information | |
US10410627B2 (en) | Automatic language model update | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
US11450311B2 (en) | System and methods for accent and dialect modification | |
EP3736807B1 (en) | Apparatus for media entity pronunciation using deep learning | |
JP5257071B2 (en) | Similarity calculation device and information retrieval device | |
US10839788B2 (en) | Systems and methods for selecting accent and dialect based on context | |
US12118978B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs indicative of a user in a hurry | |
US20210034662A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
US20220058213A1 (en) | Systems and methods for identifying dynamic types in voice queries | |
WO2019031268A1 (en) | Information processing device and information processing method | |
US20240249718A1 (en) | Systems and methods for phonetic-based natural language understanding | |
US11410656B2 (en) | Systems and methods for managing voice queries using pronunciation information | |
JP2022542415A (en) | Systems and methods for managing spoken queries using pronunciation information | |
JP2021128632A (en) | Information processing apparatus and information processing method | |
Adell Mercado et al. | Buceador, a multi-language search engine for digital libraries | |
KR102648990B1 (en) | Peer learning recommendation method and device | |
CN111061845A (en) | Method, apparatus and computer storage medium for managing chat topics of chat room | |
US20230142836A1 (en) | Predictive query execution | |
US11935539B1 (en) | Integrating voice controls into applications | |
TWI767197B (en) | Method and server for providing interactive voice tutorial | |
JP2023138894A (en) | Information processing system, information processing method, and program | |
CN117651192A (en) | Video playing method and device | |
TW202006563A (en) | Dialogic type search display method performing an interactive search and obtain a corresponding search result by means of natural speech or natural sentence expression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230714 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230714 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240723 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20241017 |