JP7453712B2

JP7453712B2 - オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器

Info

Publication number: JP7453712B2
Application number: JP2022573581A
Authority: JP
Inventors: チュー、チャンバオ; ニウ、ジェンウェイ; ユー、カイ
Original assignee: 深▲せん▼地平▲線▼机器人科技有限公司
Priority date: 2021-04-16
Filing date: 2022-02-14
Publication date: 2024-03-21
Anticipated expiration: 2042-02-14
Also published as: CN113126951B; JP2023527473A; US20240004606A1; CN113126951A; WO2022218027A1

Description

本開示は、コンピュータ技術の分野に関し、特に、オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器に関する。

近年、スマート電子機器の普及に伴い、マンマシンインタラクションの手段は豊富になってきた。人と機器は音声認識、ジェスチャ認識等の方式によってインタラクションすることができる。例えば、スマート自動車分野では、ユーザは手動操作や音声制御等の方式により、音楽再生のオン、エアコンのオン又はオフ、ナビゲーションの設定、ナビゲーションの変更などのように、車載電子機器を制御することができる。ユーザがオーディオ再生装置を制御する時、今は、主に手動制御や音声認識等の方式を用いてオーディオ再生装置を能動的に制御して、音楽を再生したり、ラジオ等をオンにしたりする。

本開示の実施例は、オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器を提供する。

本開示の実施例は、オーディオ再生方法を提供し、当該方法は、目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得するステップと、意図判定データに基づいて、前記少なくとも１人のユーザが持つ目標発声意図を決定するステップと、前記目標発声意図に基づいて、前記少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定するステップと、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するステップと、を含む。

本開示の実施例の別の態様によれば、オーディオ再生装置を提供し、当該装置は、目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得するための取得モジュールと、前記意図判定データに基づいて、前記少なくとも１人のユーザが持つ目標発声意図を決定するための第１決定モジュールと、前記目標発声意図に基づいて、前記少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定する第２決定モジュールと、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するための第１再生モジュールと、を含む。

また、本開示の実施例の別の態様によれば、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、上記オーディオ再生方法を実行するためのコンピュータプログラムが記憶されている。

本開示の実施例の別の態様によれば、電子機器を提供し、電子機器は、プロセッサと、プロセッサの実行可能な命令を記憶するためのメモリーと、を含み、プロセッサは、メモリーから実行可能な命令を読み取って実行して、上記オーディオ再生方法を実現するために用いられる。

本開示の上記実施例にて提供されるオーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器によれば、目標空間内の少なくとも１人のユーザについての意図判定データを収集し、意図判定データに基づいて、少なくとも１人のユーザが持つ目標発声意図を決定してから、目標発声意図に基づいて特徴情報を決定し、最後に、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生し、それにより、電子機器がユーザの目標発声意図を自動判断し、ユーザが発声意図を持つと判定した場合、電子機器がオーディオを自動再生し、ユーザが、オーディオを再生する操作を能動的にトリガーする必要がなく、オーディオを再生するユーザの操作ステップを減らし、オーディオ再生操作の利便性を向上させた。また、ユーザの現在特徴を決定することにより、再生されるオーディオをユーザの特徴に適応させ、それにより、より正確にユーザが聴取したいオーディオを再生することが実現され、オーディオの自動再生の指向性を向上させた。

以下、添付図面及び実施例により、本開示の技術的解決手段についてさらに詳細に説明する。
添付図面を参照しながら、本開示の実施例についてより詳細に説明することにより、本開示の上記及び他の目的、特徴と利点はより明らかになる。添付図面は、本開示の実施例のさらなる理解を提供するためのものであり、かつ、本明細書の一部を構成し、本開示の実施例とともに本開示を説明するためのものであり、本開示を限定するものではない。添付図面において、同一の参照番号は、同一の部材又はステップを表すことが一般的である。

本開示が適用されるシステム図である。本開示の例示的な一実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の別の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本開示の例示的な一実施例にて提供されるオーディオ再生装置の概略構造図である。本開示の別の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。本開示の例示的な一実施例にて提供される電子機器の構成図である。

以下、添付図面を参照しながら、本開示による例示的な実施例について詳細に説明する。説明される実施例は本開示の全ての実施例ではなく、本開示の一部の実施例にすぎないことは明らかであり、本開示は、本明細書に説明される例示的な実施例に限定されないことを理解すべきである。

なお、これらの実施例に記載されている部材及びステップの相対的な配置、数式及び値は、特に明記しない限り、本開示の範囲を限定するものではない。

当業者であれば、本開示の実施例における「第１」、「第２」等の用語は異なるステップ、装置又はモジュール等を区別するために用いられるだけで、いかなる特定の技術的意味を表すこともないし、それらの間の必然的な論理的順序を表すこともないことを理解できる。

本開示の実施例において、「複数」は２つ又は２つ以上を指すことができ、「少なくとも１つ」は１つ、２つ又は２つ以上を指すことができることも理解すべきである。

本開示の実施例に言及されたいずれか１つの部材、データ又は構造は、明確に限定されていない場合又は文脈上で逆の意味の示唆がない場合、一般的に、１つ又は複数であると理解できることも理解すべきである。

また、本開示における「及び／又は」という用語は、関連する対象の関連関係だけのもので、３種類の関係が存在することを示し、例えば、Ａ及び／又はＢは、Ａが単独で存在する場合、ＡとＢが同時に存在する場合、Ｂが単独で存在する場合という３つの状況を表すことができる。また、本開示における符号「／」は、一般的に、前後の関連する対象が「又は」という関係であることを示す。

本開示の各実施例に対する説明は各実施例間の相違点を強調し、その同じ点又は類似点は互に参照でき、簡潔にするために、一々説明しないことも理解すべきである。

また、説明の便宜上、添付図面に示された各部分の寸法は実際の比例関係に基づいて描かれたものではないことを理解されたい。

少なくとも１つの例示的な実施例についての以下の説明は、実際には例示にすぎず、決して本開示及びその適用又は使用を限定するものではない。

関連分野の一般技術者に知られている技術、方法及び装置については、詳細に議論しないが、適切な場合、前記技術、方法及び装置は本明細書の一部と見なされるべきである。

なお、以下の添付図面では、類似する番号及び文字は類似の項目を示しており、したがって、ある項目が１つの添付図面で定義されると、その後の添付図面でさらに説明する必要がない。

本開示の実施例は端末機器、コンピュータシステム、サーバ等の電子機器に適用でき、それらは多くの他の汎用又は専用のコンピューティングシステム環境又は配置と共に操作することができる。端末機器、コンピュータシステム、サーバ等の電子機器とともに使用することに適する周知の端末機器、コンピューティングシステム、環境及び／又は配置の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、シッククライアント、ハンドヘルド又はラップトップデバイス、マイクロプロセッサベースに基づくシステム、セットトップボックス、プログラム可能な家電製品、ネットワークパーソナルコンピュータ、小型コンピュータシステム、大型コンピュータシステム、及び上記のいずれかのシステムを含む分散型クラウドコンピューティング技術環境等を含むが、これらに限定されない。

端末機器、コンピュータシステム、サーバ等の電子機器は、コンピュータシステムによって実行されるコンピュータシステム実行可能命令（プログラムモジュール等）の一般的なコンテクストで説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか又は特定の抽象データタイプを実現するルーチン、プログラム、オブジェクトプログラム、コンポーネント、論理、データ構造等が含まれ得る。コンピュータシステム／サーバは、分散型クラウドコンピューティング環境で実施でき、分散型クラウドコンピューティング環境において、タスクは、通信ネットワークを介してリンクされたリモート処理機器によって実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶装置を含むローカル又はリモートコンピューティングシステムの記憶媒体に位置することができる。

出願の概要
現在のオーディオ再生システムでは、一般に、ユーザが、再生するオーディオを手動で選択するか、又は音声認識やジェスチャ認識等の方式によりオーディオの再生をトリガーする必要がある。これらの方式では、一般に、ユーザが能動的にオーディオ再生システムとインタラクションする必要があり、自動的にユーザの発声意図を判定してオーディオを再生することができず、利便性が足りなく、かつ、ユーザの特徴に基づいて対応するオーディオを自動再生することができず、オーディオ再生の指向性も足りない。

例示的なシステム
図１は、本開示の実施例のオーディオ再生方法又はオーディオ再生装置を適用できる例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１と、ネットワーク１０２と、サーバ１０３と、情報収集装置１０４と、を含み得る。ネットワーク１０２は、端末機器１０１とサーバ１０３との間に通信リンクを提供するための媒体である。ネットワーク１０２には、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプが含まれ得る。

ユーザは、メッセージ等の受信又は送信のために、端末機器１０１を用いてネットワーク１０２を介してサーバ１０３とインタラクションすることができる。端末機器１０１には、例えばオーディオプレイヤー、ビデオプレイヤー、ウェブブラウザアプリケーション、インスタント通信ツール等の様々な通信クライアントアプリケーションがインストールされていてもよい。

端末機器１０１は、オーディオ再生が可能な様々な電子機器であり得、例えば、車載端末、携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレット型コンピュータ）、ＰＭＰ（携帯型マルチメディアプレイヤー）等のモバイル端末、及び、デジタルＴＶ、デスクトップコンピュータ、スマート家電等の固定端末等を含むが、これらに限定されない。

情報収集装置１０４は、ユーザ関連情報（意図判定データを含む）を収集するための様々な装置であり得、カメラ、マイク等のうちの少なくとも１つを含むが、これらに限定されない。

通常、端末機器１０１は、範囲が限定された空間１０５内に設けられ、情報収集装置１０４は空間１０５に関連付けられる。例えば、情報収集装置１０４は、空間１０５内に設けられてもよく、ユーザの画像、サウンド等の様々な情報を収集するために用いられ、空間１０５の外に設けられてもよく、空間１０５の周辺の画像やサウンド等の様々な情報を収集するために用いられる。空間１０５は、例えば、車両内部、部屋内部等、範囲が限定された様々な空間であり得る。

サーバ１０３は、端末機器１０１で再生されるオーディオをサポートするバックグラウンドオーディオサーバなど、様々なサービスを提供するサーバであり得る。バックグラウンドオーディオサーバは受信した意図判定データを処理して、ユーザの目標発声意図、ユーザの特徴情報、再生対象のオーディオ等の情報を得ることができる。

なお、本開示の実施例にて提供されるオーディオ再生方法は、サーバ１０３によって実行されてもよいし、端末機器１０１によって実行されてもよく、対応して、オーディオ再生装置は、サーバ１０３に設けられてもよいし、端末機器１０１に設けられてもよい。本開示の実施例にて提供されるオーディオ再生方法を端末機器１０１及びサーバ１０３が一緒に実行してもよく、例えば、意図判定データを取得するステップ及び目標発声意図を決定するステップは、端末機器１０１によって実行され、特徴情報を判定するステップ及びオーディオを抽出するステップは、サーバ１０３によって実行され、対応して、オーディオ再生装置が備える各モジュールは、それぞれ端末機器１０１及びサーバ１０３に設けられてもよい。

なお、図１における端末機器、ネットワーク及びサーバの数は例示的なものにすぎない。実現のニーズに応じて、任意の数の端末機器、ネットワーク、サーバ及び情報収集装置を有することができる。例えば、プリセットのオーディオライブラリがローカルに設けられた場合、上記のシステムアーキテクチャはネットワーク及びサーバを含まず、端末機器及び情報収集装置のみを含んでもよい。

例示的な方法
図２は、本開示の例示的な実施例にて提供されるオーディオ再生方法の概略フローチャートである。本実施例は、電子機器（図１に示す端末機器１０１又はサーバ１０３）に適用でき、図２に示すように、当該方法はステップ２０１～２０４を含む。

ステップ２０１において、目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得する。

本実施例において、電子機器は、目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得することができる。ここで、目標空間（例えば、図１における空間１０５）は、車両内部、部屋内部等の様々な空間であり得る。意図判定データは、ユーザの意図を判定するための様々なデータであってもよく、例えばユーザの顔画像データ、ユーザが発する音声等のうちの少なくとも１つを含むが、これらに限定されない。

ステップ２０２において、意図判定データに基づいて、少なくとも１人のユーザが持つ目標発声意図を決定する。

本実施例において、電子機器は、意図判定データに基づいて、少なくとも１人のユーザが持つ目標発声意図を決定することができる。ここで、目標発声意図が示す発声タイプは予め設定したものであってもよい。例えば、目標発声意図は、歌を歌う意図、朗読意図等のうちの少なくとも１つを含み得るが、これらに限定されない。電子機器は、意図判定データのタイプに基づいて、該当する方式を選択して目標発声意図の判定を行うことができる。

例示として、意図判定データにユーザの顔画像データが含まれている場合、顔画像に対して感情（情緒）認識を行って、感情タイプを取得し、感情タイプが喜びであれば、上記の少なくとも１人のユーザに目標発声意図（例えば歌を歌う意図）があると判定してもよい。意図判定データにユーザが発するサウンド信号が含まれている場合、サウンド信号を認識することができ、認識結果はユーザが鼻歌を歌っていることを示す場合、目標発声意図があると決定することができる。

ステップ２０３において、前記目標発声意図に基づいて、前記少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定する。

本実施例において、電子機器は、少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定することができる。ここで、ユーザの現在特徴は、ユーザの感情、ユーザの数、ユーザの聴取習慣等のうちの少なくとも１つを含み得るが、これらに限定されない。電子機器は、上記各種類の特徴のそれぞれに対応する方式を用いて、特徴情報を決定することができる。例えば、カメラが撮影したユーザの顔画像を取得し、顔画像に対して感情認識を行って、ユーザの現在感情を特徴付ける特徴情報を得ることができる。また例えば、ユーザの再生記録履歴を取得し、再生記録履歴に基づいてユーザが習慣的に聴取しているオーディオのタイプを特徴情報として決定することができる。

ステップ２０４において、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生する。

本実施例において、電子機器は、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生することができる。ここで、プリセットのオーディオライブラリは上記電子機器に設けられてもよいし、上記の電子機器に通信可能に接続される他の電子機器に設けられてもよい。上記特徴情報はオーディオのタイプに対応し、電子機器は特徴情報に基づいて、再生対象のオーディオのタイプを決定し、当該タイプのオーディオから、（例えば再生量によって選択、ランダム選択等の方式）オーディオを選択して再生することができる。

例示として、特徴情報がユーザの現在の感情が喜びであることを示す場合、プリセットのオーディオライブラリから喜びタイプとマークされたオーディオを抽出して再生することができる。特徴情報が、ユーザが習慣的にロック音楽を聴取することを示す場合、プリセットのオーディオライブラリからロックジャンルのオーディオを抽出して再生することができる。

本開示の上記実施例にて提供される方法は、目標空間内の少なくとも１人のユーザについて意図判定データを収集することにより、意図判定データに基づいて、ユーザが持つ目標発声意図を決定してから、目標発声意図に基づいて特徴情報を決定し、最後に、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生し、それにより、電子機器によってユーザの目標発声意図を能動的に判断することを実現し、ユーザがオーディオ再生の操作をトリガーする必要がなく、ユーザが発声意図を持つと判定した場合、電子機器がオーディオを自動再生し、オーディオを再生するユーザの操作ステップを減らし、オーディオ再生操作の利便性を向上させた。また、ユーザの現在特徴を決定することにより、再生されるオーディオをユーザの特徴に適応させ、それにより、より正確にユーザが聴取したいオーディオを再生することが実現され、オーディオの自動再生の指向性を向上させた。

いくつかの選択可能な実現形態では、上記ステップ２０２において、以下の方式１～方式３のいずれかに基づいて、上記の少なくとも１人のユーザが持つ目標発声意図を決定することができる。

方式１において、意図判定データに少なくとも１人のユーザの顔画像が含まれていると決定することに応答して、予め訓練しておいた第３感情認識モデルに顔画像を入力し、感情タイプ情報を取得し、感情タイプ情報がプリセットの感情タイプ情報である場合、少なくとも１人のユーザが目標発声意図を持つと決定する。

ここで、第３感情認識モデルは、事前にプリセットの訓練サンプル集合を利用して、第３感情認識モデルを訓練するための予め設定された初期モデルを訓練することにより得ることができる。訓練サンプル集合内の訓練サンプルはサンプル顔画像及び対応する感情タイプ情報を含んでもよい。電子機器は、サンプル顔画像を初期モデル（例えば、畳み込みニューラルネットワーク、分類器（ｃｌａｓｓｉｆｉｅｒ）等を含む）の入力とし、入力されたサンプル顔画像に対応する感情タイプ情報を初期モデルの所望の出力として初期モデルを訓練して、上記第３感情認識モデルを得ることができる。

上記プリセットの感情タイプ情報によって特徴付けられるプリセットの感情は、興奮、喜び、悲しみ等の様々な感情であり得、第３感情認識モデルが出力した感情タイプ情報によって特徴付けられるユーザの感情が上記のプリセットの感情であると、少なくとも１人のユーザが目標発声意図を持つと決定する。例えば、感情タイプ情報によってユーザの感情が興奮であると特徴づけられると、ユーザがこの時に歌を歌って自分の気分を表現したい可能性があることを示し、この場合、ユーザが歌を歌う意図があると決定する。

方式２において、意図判定データに少なくとも１人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果が少なくとも１人のユーザがオーディオ再生を指示したと特徴付ける場合、少なくとも１人のユーザが目標発声意図を持つと決定する。

ここで、サウンド情報に対して音声認識を行う方法は既存技術であり、ここでは詳細な説明を省略する。例示として、あるユーザが「この歌はいいね、歌いたい」という音声を発したことを認識すると、上記の少なくとも１人のユーザが目標発声意図（すなわち、歌を歌う意図）を持つと決定する。

方式３において、意図判定データに少なくとも１人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対してメロディー認識を行い、メロディー認識結果を取得し、メロディー認識結果によって、少なくとも１人のユーザが目標形態の発声を行っていることが特徴づけられた場合、少なくとも１人のユーザが目標発声意図を持つと決定する。

ここで、上記の目標形態の発声は、目標発声意図に対応する。例えば、目標形態の発声には、歌を歌うこと、朗読すること、鼻歌を歌うこと等が含まれ得る。サウンド情報に対してメロディー認識を行う方法は、既存技術であり、一般に、音符の分割及び基音の抽出により、メロディー認識モデルに入力される人声に対してメロディー抽出を行い、メロディー抽出により音符列を取得するステップにしたがって行われる。電子機器は、さらに、メロディー認識モデルから出力された音符列とオーディオライブラリにおけるオーディオの音符列とをマッチングさせ、出力された音符列と、あるオーディオの音符列との類似度がプリセットの類似度閾値よりも大きい場合、ユーザが現在歌を歌っている（すなわち、目標形態の発声）ことを示し、この場合、上記の少なくとも１人のユーザが目標発声意図を持つと決定する。

本実現形態は、ユーザの目標発声意図を決定する複数の方法を提供し、それにより、感情認識、音声認識、メロディー認識等のマルチモードの方式によりユーザの目標発声意図を全面的に検出することを実現し、その検出精度がより高く、ユーザが手動で操作することを必要とせずに、後で目標発声意図に基づいてユーザのためにオーディオを再生することができ、それにより、オーディオ再生操作の利便性を向上させた。

いくつかの選択可能な実現形態では、ステップ２０３において、以下の方式１～方式４の少なくとも１つの方式で特徴情報を決定することができる。

方式１において、少なくとも１人のユーザについてのオーディオ再生記録履歴を取得し、オーディオ再生記録履歴に基づいて、少なくとも１人のユーザの聴取習慣情報を決定し、聴取習慣情報に基づいて、特徴情報を決定する。

ここで、電子機器は、ローカル又はリモートからオーディオ再生記録履歴を取得することができ、聴取習慣情報は、ユーザがよく聴取するオーディオのタイプや聴取時間等の特徴を特徴付けるために用いられる。例えば、オーディオ再生記録履歴に基づいて、聴取回数の最も多いオーディオタイプを聴取習慣情報として決定することができる。一般に、聴取習慣情報を特徴情報が含む情報としてもよい。

方式２において、少なくとも１人のユーザの顔画像を取得し、顔画像を予め訓練しておいた第４感情認識モデルに入力して、少なくとも１人のユーザの現在感情を特徴付ける感情タイプ情報を取得し、感情タイプ情報に基づいて、特徴情報を決定する。

ここで、第４感情認識モデルは、顔画像に対して感情分類を行うためのニューラルネットワークモデルであってもよく、それは上記の選択可能な実現方式に記載された第３感情認識モデルと同じであっても、異なってもよいが、訓練方法は第３感情認識モデルを訓練する方法と基本的に同じであり、ここでは詳細な説明を省略する。一般に、感情タイプ情報を特徴情報が含む情報としてもよい。

方式３において、少なくとも１人のユーザが位置する環境の環境画像を取得し、環境画像を予め訓練しておいた環境認識モデルに入力して、環境タイプ情報を取得し、環境タイプ情報に基づいて、特徴情報を決定する。

ここで、環境画像は、カメラが上記目標空間以外の環境を撮像したものであってもよい。環境認識モデルは、環境画像を分類するためのニューラルネットワークモデルであってもよく、電子機器は、事前にプリセットの訓練サンプル集合を利用して、環境認識モデルを訓練するためのプリセットの初期モデルを訓練することにより環境認識モデルを得ることができる。訓練サンプル集合内の訓練サンプルは、サンプル環境画像及び対応する環境タイプ情報を含んでもよい。電子機器は、サンプル環境画像を初期モデル（例えば畳み込みニューラルネットワーク、分類器等を含む）の入力とし、入力されたサンプル環境画像に対応する環境タイプ情報を初期モデルの所望の出力として初期モデルを訓練して、上記環境認識モデルを得ることができる。

環境タイプ情報は、上記の少なくとも１人のユーザが位置する環境のタイプを特徴付けるために用いられる。例示として、環境のタイプは、郊外、高速道路、農村等の地点タイプであってもよいし、晴天、雨、雪等の天気タイプでもあってもよい。一般に、環境タイプ情報を特徴情報が含む情報としてもよい。

方式４において、目標空間の撮影で得られた空間内画像を取得し、空間内画像に基づいて、目標空間内の人数を決定し、人数に基づいて、特徴情報を決定する。

ここで、空間内画像は、目標空間内に設置されたカメラによって撮影された画像であってもよく、空間内画像の数は１つであっても、複数であってもよく、電子機器は、既存の目標検出方法に基づいて、各空間内画像からその中にいる人物を決定して人数を統計することができる。一般に、人数を特徴情報が含む情報としてもよい。

本実現形態は、上記４つの方式を提供してユーザの特徴情報を決定することにより、ユーザの現在の状態を全面的に検出することができ、得られた特徴情報はより全面的であり、さらに、特徴情報に基づいて、ユーザが興味を持つオーディオをより的確に抽出することに役立ち、ユーザのために再生するオーディオの的確さを向上させる。

いくつかの選択可能な実現形態では、特徴情報を決定する上記の４つの方式に基づいて、ステップ２０４は以下のように実行されてもよい。

特徴情報に聴取習慣情報が含まれると決定することに応答して、聴取習慣に対応するオーディオを抽出して再生する。

特徴情報に感情タイプ情報が含まれると決定することに応答して、感情タイプ情報に対応するオーディオを抽出して再生する。

特徴情報に環境タイプ情報が含まれると決定することに応答して、環境タイプ情報に対応するオーディオを抽出して再生する。

特徴情報に人数が含まれると決定することに応答して、人数に対応するオーディオを抽出して再生する。

例示として、聴取習慣情報が、ユーザがロック音楽を聞くことを好むことを示す場合、ロックジャンルのオーディオを抽出して再生することができる。感情タイプ情報が、ユーザの現在の感情が喜びであることを示す場合、テンポの速いタイプのオーディオを抽出して再生することができる。環境タイプ情報が、ユーザが現在位置する環境が野外であることを示す場合、テンポの遅いタイプのオーディオを抽出して再生することができる。決定されたユーザの人数が２人以上である場合、合唱タイプのオーディオを抽出して再生することができる。

なお、特徴情報に聴取習慣情報、感情タイプ情報、環境タイプ情報、人数のうちの少なくとも２つが含まれている場合、様々な情報のそれぞれに対応するオーディオタイプに含まれるオーディオの共通集合を取って再生対象のオーディオとすることができる。

本実現形態では、ユーザの特徴を全面的に表すことができる特徴情報を用いたため、ユーザは抽出されたオーディオに、より魅力を感じ、それにより、ユーザのために再生するオーディオの的確さを向上させる。

さらに、図３を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。図３に示すように、上記の図２に示す実施例に加え、ステップ２０４の後、以下のステップ２０５～２０６をさらに含むことができる。

ステップ２０５において、現在の混合サウンド信号からユーザオーディオ情報を抽出する。

ここで、上記の混合サウンド信号は、上記の目標空間内に設置された図１に示すような情報収集装置１０４（すなわちマイクロホン）によって収集される信号であってもよい。ユーザオーディオ情報は、１つのユーザが発するサウンドである。一般に、マイクロホンによって収集されるオーディオ信号には、ノイズ信号が含まれるか、又は少なくとも２つのユーザが同時に発するオーディオ信号が含まれ、この時に収集されるサウンド信号は混合サウンド信号である。つまり、混合サウンド信号には、ノイズ信号が含まれてもよいし、ユーザが発するサウンド情報が含まれてもよいし、ノイズ信号とユーザが発するサウンド信号の両方が含まれてもよい。本実施例では、既存の音声分離方法（例えばブラインド信号源分離（ＢＳＳ、ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）方法、聴覚シーン分析（ＡＳＡ、ＡｕｄｉｔｏｒｙＳｃｅｎｅＡｎａｌｙｓｉｓ）方法等）を用いることができ、混合サウンド信号から各ユーザにそれぞれ対応するユーザオーディオ情報を抽出する。

ステップ２０６において、ユーザオーディオ情報がプリセットの条件に合致する場合、ユーザオーディオ情報を再生する。

具体的には、電子機器は、抽出されたユーザオーディオ情報を分析することができ、ユーザオーディオ情報がプリセットの条件を満たす場合、ユーザオーディオ情報を再生する。例示として、電子機器は、ユーザオーディオ情報によってユーザが歌を歌っていることが特徴付けられることを認識すると、スピーカで、音量を大きくしたユーザオーディオ情報を再生する。又は、電子機器は、ユーザオーディオ情報によってユーザが発するサウンドのメロディーと現在再生中のオーディオとがマッチングすることが特徴付けられることを認識すると、ユーザオーディオ情報を再生する。

一般に、ステップ２０５～ステップ２０６は、ステップ２０４で説明したオーディオの再生と同時に、実行される。例えば、再生されるオーディオは音楽であってもよく、音楽を再生しながら、少なくとも１人のユーザが現在発している混合サウンド信号からユーザオーディオ情報をリアルタイムに抽出し、ユーザオーディオ情報と再生された音楽とがマッチングする場合、ユーザオーディオ情報を再生し、それにより、ユーザが音楽に合わせて歌を歌うシーンを実現した。

任意選択的に、さらに、従来のフィードバック音除去方法をもちいてもよく、マイクロホンによって収集される、スピーカの再生からのオーディオ信号をフィルタリングし、それにより、ユーザオーディオ情報の再生に対するフィードバック音の干渉を低減させる。

図３に対応する実施例にて提供される方法は、混合サウンド信号からユーザオーディオ情報を抽出して再生することにより、ユーザオーディオ情報とプリセットのオーディオライブラリから抽出されたオーディオとの同時再生を実現でき、ユーザのサウンドを再生するための専用のマイクロホンを別途でユーザに提供する必要がなく、目標空間内の各ユーザの混合サウンドを収集するためのマイクロホンを用いるだけで、混合サウンド信号からユーザが発するサウンドを抽出して、現在再生中のオーディオと同時に再生することができ、それにより、ユーザオーディオ情報を再生するために必要なハードウェアを簡略化し、ユーザが目標発声意図を実現する利便性を向上させた。また、プリセットの条件に合致するユーザオーディオ情報を再生し、ユーザの会話などのコンテンツを再生することによるユーザオーディオ情報の再生への干渉を避けることができる。

さらに、図４を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。図４に示すように、上記の図３に示す実施例に加え、ステップ２０５は、以下のステップ２０５１と２０５２をさらに含む。

ステップ２０５１において、目標空間に設置されたオーディオ収集装置によって収集される初期オーディオ情報を取得する。当該初期オーディオ情報には、混合サウンド信号が含まれ得る。

ここで、オーディオ収集装置は、図１に示すような情報収集装置１０４が備える機器である。オーディオ収集装置の数は１つであっても、複数であってもよく、初期オーディオ情報のチャンネルの数はオーディオ収集装置の数と一致し、すなわち、各オーディオ収集装置は１チャンネルの初期オーディオ情報を収集する。例示として、目標空間が車両内部空間である場合、オーディオ取得装置の数が車内の座席の数とマッチングしてもよい。すなわち、各座席の近傍に１つのオーディオ収集装置を取り付ける。

ステップ２０５２において、初期オーディオ情報に対して人声分離を行って、少なくとも１チャンネルのユーザオーディオ情報を得る。

ここで、少なくとも１チャンネルのユーザオーディオ情報はそれぞれ１つのユーザに対応する。具体的には、電子機器は、既存の音声分離方法を利用して、初期オーディオ情報から各ユーザのそれぞれに対応するユーザオーディオ情報を抽出することができる。例示として、ブラインド信号源分離アルゴリズムを用いて初期オーディオ情報から少なくとも１チャンネルのユーザオーディオ情報を分離することができる。又は、オーディオ収集装置の数が２つ以上である場合、従来のマイクロホンアレイに基づく音声分離アルゴリズムを用いて、各オーディオ収集装置によって収集される初期オーディオ情報から少なくとも１チャンネルのユーザオーディオ情報を分離することができる。

図４に対応する実施例にて提供される方法は、初期オーディオ情報に対して人声分離を行うことにより、少なくとも１チャンネルのユーザオーディオ情報を取得し、オーディオの再生中に、複数のユーザのそれぞれのユーザオーディオ情報をリアルタイムに収集することを実現でき、かつ、各チャンネルのユーザオーディオ情報から他のユーザのサウンドの干渉を排除し、後続で再生されるユーザオーディオ情報は各ユーザのサウンドを明確に反映することができ、複数のユーザのサウンドを再生する品質を向上させる。

いくつかの選択可能な実現形態では、上記のステップ２０５１～ステップ２０５２に基づいて、上記の図３に対応する実施例におけるステップ２０６は以下のことによって実行されてもよい。

少なくとも１チャンネルのユーザオーディオ情報の音量をそれぞれ目標音量に調整して、音量が調整されたユーザオーディオ情報を合成し、かつ、合成後のユーザオーディオ情報を再生する。各チャンネルのユーザオーディオ情報に対応する目標音量は同じであっても、異なってもよい。例えば、音量が最も大きい１チャンネルのユーザオーディオ情報の音量を目標音量とし、他のチャンネルのユーザオーディオ情報の音量をいずれも目標音量に調整してもよいし、１つの固定音量を目標音量として設定し、各チャンネルのユーザオーディオ情報をいずれも同じ目標音量に設定してもよい。さらに、各チャンネルのユーザオーディオ情報をステレオ音声に合成して再生してもよいし、同一サウンドチャンネルに合成して再生してもよい。

各チャンネルのユーザオーディオ情報について音量を調整して合成した後に再生し、再生される各ユーザオーディオ情報の音量は一致するようになるか、又は、それぞれに設定された音量に達することができることにより、ユーザが発する音量が小さいことによる再生時の音量が小さすぎることを避ける。

いくつかの選択可能な実現形態では、上記の図３に対応する実施例を基に、上記ステップ２０６は、以下の方式１と方式２のうちの少なくとも１つに基づいてユーザオーディオ情報を再生することができる。

方式１において、ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、ユーザのメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第１マッチング結果に基づいてユーザオーディオ情報を再生する。

ここで、ユーザオーディオ情報に対してメロディー認識を行う方法は、既存技術であり、一般に、音符の分割及び基音抽出により、メロディー認識モデルに入力されるユーザオーディオ情報に対してメロディー抽出を行い、メロディー抽出により音符列をメロディー情報として取得するステップにしたがって行う。電子機器は、さらに、メロディー認識モデルから出力されたメロディー情報と現在再生中のオーディオのメロディー情報との類似度を計算し、類似度（すなわち、第１マッチング結果）がプリセットの第１類似度閾値以上である場合、第１マッチング結果がプリセットの条件に合致すると決定でき、ユーザオーディオ情報を再生できる。

方式２において、ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第２マッチング結果に基づいてユーザオーディオ情報を再生する。

ここで、音声認識結果はテキスト情報であってもよい。なお、ユーザオーディオ情報に対して音声認識を行う方法は既存技術であり、ここでは詳細な説明を省略する。現在再生中のオーディオに対応するテキスト情報は、オーディオとの対応関係が予め確立されているテキスト情報であり、例えば、現在再生中のオーディオが歌であれば、それに対応するテキスト情報は歌詞であり得、現在再生中のオーディオが詩の朗読であれば、それに対応するテキスト情報は詩の原文である。電子機器は、音声認識結果と上記の対応するテキスト情報との類似度を計算することができ、類似度（すなわち、第２マッチング結果）がプリセットの第２類似度閾値以上である場合、第２マッチング結果がプリセットの条件に合致すると決定でき、ユーザオーディオ情報を再生できる。

電子機器は、上記の方式１及び方式２のいずれかを実行してユーザオーディオ情報を再生することができることを理解されたい。上記の方式１及び方式２を同時に実行することもでき、第１マッチング結果及び第２マッチング結果に基づいて、２つの方式のどちらでもユーザオーディオ情報を再生できる場合、ユーザオーディオ情報を再生する。なお、上記のユーザオーディオ情報の数が１チャンネルより大きい場合、各チャンネルのユーザオーディオ情報に対して方式１及び／又は方式２を実行できる。

本実現形態は、ユーザオーディオ情報に対してメロディー認識及び／又は音声認識を行うことにより、ユーザオーディオ情報を用いて一定の条件を満たす時に再生することができ、それにより、現在再生中のオーディオと無関係なユーザオーディオ情報を再生することを避け、再生されるユーザオーディオ情報と現在再生中のオーディオとのマッチング度がより高くなり、さらに、ユーザオーディオ情報を再生する品質を向上させる。

いくつかの選択可能な実現形態では、上記の図３に対応する実施例の方法に基づいて、上記のステップ２０６は、さらに、以下を含む。

まず、ユーザオーディオ情報の音高を決定する。ここで、ユーザオーディオ情報の音高を決定する方法は既存技術であり、ここでは詳細な説明を省略する。

続いて、以下のステップ１とステップ２の少なくとも１つを実行する。

ステップ１で、現在再生中のオーディオの音高を、ユーザオーディオ情報の音高にマッチングする目標音高に調整する。

具体的には、現在再生中のオーディオの音高をユーザオーディオ情報の音高と比較することができ、両者の差がプリセットの差の範囲外である場合、ユーザオーディオ情報の音高との差がプリセットの差の範囲内になるように、現在再生中のオーディオの音高を調整する。

例示として、ユーザオーディオ情報が、ユーザが歌を歌うオーディオ情報であり、現在再生中のオーディオが歌の音楽である場合、ユーザオーディオ情報の音高が現在再生している音楽の音高より高い又は低いと決定すると、ユーザが歌を歌う音高に適応するように音楽の音高を動的に調整することができ、すなわち、再生されている音楽に合わせて歌う難易度を調整して、ユーザが、再生されている音楽によりよく合わせることができる。

ステップ２で、ユーザオーディオ情報の音高に対応するオーディオを推薦するための推薦情報を出力する。

ここで、ユーザオーディオ情報の音高に対応するオーディオは、ユーザオーディオ情報の音高との差がプリセットの差の範囲内にあるオーディオであってもよい。推薦情報は、提示音、文字表示、画像等の方式で出力することができ、推薦情報を出力した後、ユーザは、推薦されたオーディオを再生するか否かを選択することができ、それにより、新たに再生されるオーディオの音高をユーザの音高にマッチングさせる。

本実施形態は、ユーザオーディオ情報の音高を決定し、音高に基づいて再生されるオーディオを調整することにより、再生されるオーディオの音高がユーザの音高に合わせられ、ユーザオーディオ情報の再生効果がよりよくなり、また、ユーザは、再生されるオーディオの音高を手動又は音声制御等の能動的な方式で調整する必要がなく、オーディオを調整する利便性を向上させる。

さらに、図５を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。図５に示すように、上記の図３に示す実施例に加え、ステップ２０６の後に、以下のステップ２０７～２１０をさらに含んでもよい。

ステップ２０７において、少なくとも１人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得る。

ここで、顔画像は、目標空間に設置されている、図１の情報収集装置１０４に含まれるカメラが撮影する画像であり得る。具体的には、電子機器は、混合サウンド信号からユーザオーディオ情報を抽出する時、既存の音声分離方法に基づいて、ユーザオーディオ情報に対応する音源の位置（例えば、既存のマイクロホンアレイによるマルチ音域音声分離方法を用いて、ユーザオーディオ情報が目標空間内のどの位置に対応するかを決定する）を決定することができ、音源の位置がユーザの位置であり、ユーザの位置はユーザを撮影した画像から決定することができ、さらに、ユーザオーディオ情報に対応するユーザの顔画像を取得することができる。

ステップ２０８において、少なくとも１人のユーザのそれぞれの顔画像を予め訓練しておいた第１感情認識モデルに入力して、少なくとも１人のユーザのそれぞれに対応する感情タイプ情報を得る。つまり、当該ステップにおいて、ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第１感情認識モデルに入力し、それに応じて、目標ユーザに対応する感情タイプ情報を得る。

ここで、第１感情認識モデルは、上記選択可能な実現形態で説明した第３感情認識モデル及び第４感情認識モデルの少なくとも１つと同じであっても、異なってもよいが、訓練方法は、第３感情認識モデル及び第４感情認識モデルの少なくとも１つの訓練方法と基本的に同じであり、ここでは詳細な説明を省略する。

ステップ２０９において、感情タイプ情報に基づいて、少なくとも１人のユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第１スコアを決定する。当該ステップにおける感情タイプ情報が目標ユーザに対応する感情タイプ情報であると、決定された第１スコアは、目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるために用いられる。

ここで、第１スコアは、第１感情認識モデルによって算出された、出力される感情タイプ情報に対応する確率値に基づいて得ることができる。一般に、第１感情認識モデルは入力された顔画像を分類して、複数の感情タイプ情報及び各感情タイプ情報のそれぞれに対応する確率値を取得することができ、最大確率値に対応する感情タイプ情報を今回認識した顔画像の感情タイプ情報として決定することができる。

今回認識した顔画像の感情タイプ情報が一種類であれば、この種類の感情タイプ情報に対応する確率に基づいて第１スコアを決定することができる。今回認識された顔画像の感情タイプ情報に複数の種類が含まれている場合、複数の感情タイプ情報から現在再生中のオーディオのタイプにマッチングする感情タイプ情報を目標感情タイプ情報として決定し、その後、目標感情タイプ情報に対応する確率に基づいて第１スコアを決定することができる。第１スコアの値が大きいほど、現在再生中のオーディオとのマッチング度が高いことを示す。ここで、現在再生中のオーディオのタイプと感情タイプ情報との対応関係は予め設定されたものであってもよい。例えば、現在再生中のオーディオのタイプが「明るい」とマークされている場合、第１スコアはモデルから出力された、明るい感情を特徴付ける感情タイプ情報に対応する確率に基づいて得ることができる。

ステップ２１０において、第１スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力する。

具体的には、ユーザオーディオ情報のスコアを、表示画面に表示する、スピーカから出力する等の様々な方式で出力することができる。ユーザオーディオ情報のスコアの決定方法は複数種類があり、例示として、第１スコアをユーザオーディオ情報のスコアとして決定してもよい。

代替可能に、ステップ２０９は、ユーザオーディオ情報に基づいて、ユーザオーディオ情報と現在再生中のオーディオとのマッチング度を特徴付ける第２スコアを決定し、つまり、当該ステップにおいて、ユーザオーディオ情報に基づいて第２スコアを決定し、当該第２スコアはユーザオーディオ情報と現在再生中のオーディオとのマッチング度を特徴付けるために用いられることによって実行されてもよい。

ステップ２１０は、第２スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力することによって実行されてもよい。

ここで、第２スコアは既存のユーザオーディオ情報に対する採点方法を利用して決定することができ、例えば、ユーザオーディオ情報によりユーザが歌を歌っていることが示される場合、既存の歌の採点方法に基づいて第２スコアを決定することができる。さらに、第２スコアをユーザオーディオ情報のスコアとして決定することができる。

選択可能に、ステップ２１０は、さらに、第１スコア及び第２スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力することによって実行されてもよい。

例えば、第１スコア及び第２スコアのそれぞれに対応するプリセットの重みに基づいて、第１スコア及び第２スコアに対して重み付け加算を行って、ユーザオーディオ情報のスコアを得る。

図５に対応する実施例にて提供される方法は、顔画像認識及び／又はオーディオ採点に基づいてユーザオーディオ情報のスコアを決定し、スコアにユーザオーディオ情報と再生されるオーディオとのマッチング度を十分に反映させることができ、ユーザオーディオ情報に対する採点の精度を向上させる。

いくつかの選択可能な実現形態では、ステップ２０８は以下のことによって実行されてもよい。

少なくとも１人のユーザのそれぞれの顔画像を第１感情認識モデルに入力して、少なくとも１人のユーザのそれぞれに対応する第１感情タイプ情報シーケンスを得る。ここで、第１感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ１つの顔画像サブシーケンスに対応する。本実施例において、ユーザの顔画像の数は少なくとも２つであり、すなわち、第１感情認識モデルに入力されるのはユーザの顔画像シーケンスであり、一般に、あるユーザの顔画像シーケンスは、当該ユーザの顔を撮影したビデオに含まれる顔画像からなる画像シーケンスであってもよい。感情タイプ情報シーケンスは、ベクトルの形で表すことができ、ここで、ベクトルにける各数値は、１つの顔画像サブシーケンスに対応し、かつある感情タイプを表す。各顔画像サブシーケンスは、少なくとも１つの顔画像を含み得る。例示として、現在再生中のオーディオの時間長は３分間であり、再生中にユーザの顔を３分間撮影し、この３分間の顔画像シーケンスを、１００個の顔画像サブシーケンスに分割し、各サブシーケンスを第１感情認識モデルに順番に入力し、１００個の数値を含むベクトルを得て、感情タイプ情報シーケンスとすることができる。

図６に示すように、上記のステップ２０９において、上記の第１感情タイプ情報シーケンスに基づいて、以下のステップ２０９１～２０９４を用いて第１スコアを決定することができる。

ステップ２０９１において、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出する。

ここで、目標人物は現在再生中のオーディオに関連する人物であってもよい。例えば、現在再生中のオーディオが歌であれば、それに対応するビデオは当該歌を歌う人の画像を含むビデオであってもよく、目標人物は歌を歌う人であってもよいし、歌と伴って演じる人物であってもよい。目標人物は、手動で予め設定してもよいし、電子機器でビデオを認識して取得してもよく、例えば従来の口部動作認識方法に基づいて、口部の動作頻度が歌のリズムとマッチングする人物を目標人物として認識する。

電子機器は既存の顔画像検出方法を用いて、予め設定されたか又は認識された目標人物に基づいて、ビデオに含まれる画像フレームから目標人物の顔画像シーケンスを抽出することができる。

ステップ２０９２において、顔画像シーケンスを第１感情認識モデルに入力して、第２感情タイプ情報シーケンスを得る。

当該ステップは、上記の第１感情タイプ情報シーケンスを決定するステップと基本的に同じであり、ここでは詳細な説明を省略する。

ステップ２０９３において、第１感情タイプ情報シーケンスと第２感情タイプ情報シーケンスとの類似度を決定する。

ここで、第１感情タイプ情報シーケンス及び第２感情タイプ情報シーケンスはいずれもベクトルの形であってもよく、電子機器は、ベクトル間の距離を決定し、距離に基づいて類似度（例えば、距離の逆数が類似度である）を決定できる。

ステップ２０９４において、類似度に基づいて、第１スコアを決定する。

例示として、類似度を第１スコアとして決定してもよいし、類似度をプリセットの割合でスケーリングして、第１スコアを得てもよい。

本実現形態は、ユーザの第１感情タイプ情報シーケンスと元のビデオにおける目標人物の第２感情タイプシーケンスとを比較することにより、ユーザの感情と元のビデオの感情との合致程度を正確に決定することができ、得られた第１スコアはユーザの感情と現在再生中のオーディオとの合致程度をより正確に反映し、それにより、ユーザオーディオ情報の採点正確性を向上させる。

さらに、図７を参照し、オーディオ再生方法の又の実施例の概略フローチャートを示す。図７に示すように、上記の図３に示す実施例に加え、ステップ２０６の後に、以下のステップ２１１～２１３をさらに含んでもよい。

ステップ２１１において、少なくとも１人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得る。

当該ステップは、上記のステップ２０７と基本的に同じであり、ここでは詳細な説明を省略する。

ステップ２１２において、ユーザオーディオ情報に対応する目標ユーザの顔画像及びユーザオーディオ情報を予め訓練しておいた第２感情認識モデルに入力して、感情タイプ情報を得る。

ここで、本ステップにおける第２感情認識モデルは上記第１感情認識モデル、第３感情認識モデル、第４感情認識モデルのいずれとも異なり、第２感情認識モデルは、画像及びオーディオを入力として同時に受信し、画像及びオーディオを統合分析し、感情タイプ情報を出力することができる。プリセットの訓練サンプル集合を利用して、第２感情認識モデルを訓練するためのプリセットの初期モデルを訓練することにより、第２感情認識モデルを予め取得することができる。訓練サンプル集合内の訓練サンプルには、サンプル顔画像、サンプルオーディオ情報及び対応する感情タイプ情報を含まれ得る。電子機器は、サンプル顔画像及びサンプルオーディオ情報を初期モデル（例えば、ニューラルネットワーク、分類器等を含む）の入力とし、入力されたサンプル顔画像及びサンプルオーディオ情報に対応する感情タイプ情報を初期モデルの所望の出力として初期モデルを訓練して、上記第３感情認識モデルを取得することができる。一般に、初期モデルに含まれるニューラルネットワークは、入力されたサンプル顔画像及びサンプルオーディオ情報の特徴情報を決定することができ、分類器は特徴情報を分類することができ、実際に出力された情報を所望の出力と比較して、初期モデルのパラメーターを調整し、実際の出力と所望の出力との差を収束させるまで徐々に減少させ、それにより訓練で上記の第２感情認識モデルを得る。

ステップ２１３において、感情タイプ情報に基づいて、ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力する。

ここで、スコアは、第２感情認識モデルによって算出された、出力される感情タイプ情報に対応する確率値に基づいて取得することができる。確率値に基づいてスコアを決定する方法は、上記のステップ２０９での第１スコアを決定する方法と基本的に一致し、ここでは詳細な説明を省略する。

図７に対応する実施例にて提供される方法は、顔画像とユーザオーディオ情報とを第２感情認識モデルに同時に入力することにより、スコアを直接取得し、顔画像とユーザオーディオ情報を別々に採点する必要がなく、それにより採点ステップが簡略化され、採点効率を向上させる。第２感情認識モデルは、入力された顔画像及びユーザオーディオ情報の特徴を統合して分類することができるため、スコアはユーザのサウンドと再生されるオーディオとのマッチング度を正確に反映することができる。

いくつかの選択可能な実現形態では、ステップ２１２は以下のことによって実行されてもよい。

ユーザオーディオ情報に対応するユーザの顔画像及びユーザオーディオ情報を第２感情認識モデルに入力して、第３感情タイプ情報シーケンスを得る。ここで、第３感情タイプ情報シーケンスにおける感情タイプ情報は、それぞれ１つの顔画像サブシーケンスに対応する。第３感情タイプ情報シーケンスの定義は、上記の第１感情タイプ情報と基本的に同じであり、ここでは詳細な説明を省略する。

これに基づいて、図８に示すように、ステップ２１３は以下のように実行されてもよい。

ステップ２１３１において、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出する。

当該ステップは、上記ステップ２０９１と基本的に同じであり、ここでは詳細な説明を省略する。

ステップ２１３２において、顔画像シーケンス及び現在再生中のオーディオを第２感情認識モデルに入力して、第４感情タイプ情報シーケンスを得る。

当該ステップは、上記の第３感情タイプ情報シーケンスを決定するステップと基本的に同じであり、ここでは詳細な説明を省略する。

ステップ２１３３において、第３感情タイプ情報シーケンスと第４感情タイプ情報シーケンスとの類似度を決定する。

ここで、第３感情タイプ情報シーケンス及び第４感情タイプ情報シーケンスはいずれもベクトルの形であってもよく、電子機器は、ベクトル間の距離を決定し、距離に基づいて類似度（例えば、距離の逆数が類似度である）を決定できる。

ステップ２１３４において、類似度に基づいて、ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定する。

例示として、類似度をスコアとして決定してもよいし、類似度をプリセットの割合でスケーリングして、スコアを得てもよい。

本実施形態における第３感情タイプ情報シーケンス及び第４感情タイプ情報シーケンスは、ユーザの顔画像及びユーザオーディオ情報に基づいて得られたものであり、感情を分類する時に画像とオーディオを総合したため、２つの感情タイプ情報シーケンスの感情を表す正確性がより高くなり、そのため、２つの感情タイプ情報シーケンス間の類似度で決定したスコアは、ユーザの感情と元のビデオの感情との合致程度をより正確に表すことができ、ユーザオーディオ情報の採点正確性をさらに向上させる。

例示的な装置
図９は、本開示の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。本実施例は電子機器に適用でき、図９に示すように、オーディオ再生装置は、目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得するための取得モジュール９０１と、意図判定データに基づいて、少なくとも１人のユーザが持つ目標発声意図を決定するための第１決定モジュール９０２と、前記目標発声意図に基づいて、少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定するための第２決定モジュール９０３と、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生するための第１再生モジュール９０４と、を含む。

本実施例では、取得モジュール９０１は、目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得することができる。ここで、目標空間（例えば、図１における空間１０５）は、車両内部、部屋内部等の様々な空間であり得る。意図判定データは、様々なユーザの意図を判定するための情報であってもよく、例えば、ユーザの顔画像、ユーザが発する音声等のうちの少なくとも１つを含むが、これらに限定されない。

本実施例において、第１決定モジュール９０２は、意図判定データに基づいて、少なくとも１人のユーザが持つ目標発声意図を決定することができる。ここで、目標発声意図によって表される発声タイプは、予め設定されたものであってもよい。例えば、目標発声意図は、歌を歌う意図、朗読意図等のうちの少なくとも１つを含むが、これらに限定されない。第１決定モジュール９０２は、意図判定データのタイプに応じて、対応する方式を選択して目標発声意図を判定してもよい。

例示として、意図判定データにユーザの顔画像が含まれている場合、顔画像に対して感情認識を行って、感情タイプを取得し、感情タイプが喜びであると、上記の少なくとも１人のユーザが目標発声意図（例えば歌を歌う意図）を持つと判定してもよい。意図判定データにユーザが発するサウンド信号が含まれている場合、サウンド信号を認識することができ、認識結果はユーザが鼻歌を歌っていることを示す場合、目標発声意図があると決定することができる。

本実施例において、第２決定モジュール９０３は、少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定することができる。ここで、ユーザの現在特徴は、ユーザの感情、ユーザの数、ユーザの聴取習慣等のうちの少なくとも１つを含むが、これらに限定されない。第２決定モジュール９０３は、上記の様々な特徴のそれぞれに対応する方式を用いて、特徴情報を決定することができる。例えば、カメラが撮影したユーザの顔画像を取得し、顔画像に対して感情認識を行って、ユーザの現在の感情を特徴付ける特徴情報を取得することができる。また例えば、ユーザの再生記録履歴を取得し、再生記録履歴に基づいてユーザが習慣的に聴取しているオーディオのタイプを特徴情報として決定してもよい。

本実施例において、第１再生モジュール９０４は、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生することができる。ここで、プリセットのオーディオライブラリは上記電子機器に設けられてもよいし、上記の電子機器に通信可能に接続される他の電子機器に設けられてもよい。上記の特徴情報は、オーディオのタイプに対応し、第１再生モジュール９０４は、特徴情報に基づいて、再生対象のオーディオのタイプを決定して、当該タイプのオーディオから、オーディオを選択して（例えば再生量によって選択、ランダム選択等の方式）再生することができる。

例示として、ユーザの現在の感情が喜びであることを特徴情報が示す場合、プリセットのオーディオライブラリから喜びタイプとマークされたオーディオを抽出して再生することができる。特徴情報がユーザがロック音楽の聴取に慣れていることを示す場合、プリセットのオーディオライブラリからロックジャンルのオーディオを抽出して再生することができる。

図１０を参照し、図１０は、本開示の別の例示的な実施例にて提供されるオーディオ再生装置の概略構造図である。

いくつかの選択可能な実現形態では、装置は、さらに、現在の混合サウンド信号からユーザオーディオ情報を抽出するための抽出モジュール９０５と、前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第２再生モジュール９０６と、を含む。

いくつかの選択可能な実現形態では、装置は、さらに、少なくとも１人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得るための第３決定モジュール９０７と、ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第１感情認識モデルに入力して、目標ユーザのそれぞれに対応する感情タイプ情報を得るための第１感情認識モジュール９０８と、感情タイプ情報に基づいて、ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第１スコアを決定するための第４決定モジュール９０９、及び／又は、ユーザオーディオ情報に基づいて、ユーザオーディオ情報と現在再生中のオーディオとのマッチング度を特徴付ける第２スコアを決定するための第５決定モジュール９１０と、第１スコア及び／又は第２スコアに基づいて、ユーザオーディオ情報のスコアを決定して出力するための第６決定モジュール９１１と、を含む。

いくつかの選択可能な実現形態では、第１感情認識モジュール９０８は、少なくとも１人のユーザのそれぞれの顔画像を第１感情認識モデルに入力して、少なくとも１人のユーザのそれぞれに対応する第１感情タイプ情報シーケンスを得るために用いられ、ここで、第１感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ１つの顔画像サブシーケンスに対応する第１感情認識ユニット９０８１と、感情タイプ情報に基づいて、少なくとも１人のユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第１スコアを決定するための第１決定ユニット９０８２と、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出するための第１取得ユニット９０８３と、顔画像シーケンスを第１感情認識モデルに入力して、第２感情タイプ情報シーケンスを得るための第２感情認識ユニット９０８４と、第１感情タイプ情報シーケンスと第２感情タイプ情報シーケンスとの類似度を決定するための第２決定ユニット９０８５と、類似度に基づいて、第１スコアを決定するための第３決定ユニット９０８６と、を含む。

いくつかの選択可能な実現形態では、装置は、さらに、少なくとも１人のユーザからユーザオーディオ情報に対応する目標ユーザを決定して、目標ユーザの顔画像を得るための第７決定モジュール９１２と、ユーザオーディオ情報に対応する目標ユーザの顔画像及びユーザオーディオ情報を予め訓練しておいた第２感情認識モデルに入力して、感情タイプ情報を得るための第２感情認識モジュール９１３と、感情タイプ情報に基づいて、ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力するための第８決定モジュール９１４と、を含む。

いくつかの選択可能な実現形態では、第２感情認識モジュール９１３は、さらに、ユーザオーディオ情報に対応するユーザの顔画像及びユーザオーディオ情報を第２感情認識モデルに入力して、第３感情タイプ情報シーケンスを得るために用いられ、ここで、第３感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ１つの顔画像サブシーケンスに対応する。第８決定モジュール９１４は、現在再生中のオーディオに対応するビデオを取得し、ビデオから目標人物の顔画像シーケンスを抽出するための第２取得ユニット９１４１と、顔画像シーケンス及び現在再生中のオーディオを第２感情認識モデルに入力して、第４感情タイプ情報シーケンスを得るための第３感情認識ユニット９１４２と、第３感情タイプ情報シーケンスと第４感情タイプ情報シーケンスとの類似度を決定するための第４決定ユニット９１４３と、類似度に基づいて、ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定するための第５決定ユニット９１４４と、を含む。

いくつかの選択可能な実現形態では、抽出モジュール９０５は、目標空間に設置されたオーディオ収集装置が収集した、混合サウンド信号を含む初期オーディオ情報を取得するための第３取得ユニット９０５１と、初期オーディオ情報に対して人声分離を行って、それぞれ１つのユーザに対応する少なくとも１チャンネルのユーザオーディオ情報を得るための分離ユニット９０５２と、を含む。

いくつかの選択可能な実現形態では、第２再生モジュール９０６は、さらに、少なくとも１チャンネルのユーザオーディオ情報の音量をそれぞれ目標音量に調整して、音量が調整されたユーザオーディオ情報を合成し、かつ、合成後のユーザオーディオ情報を再生するために用いられる。

いくつかの選択可能な実現形態では、第２再生モジュール９０６は、ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、ユーザのメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第１マッチング結果に基づいてユーザオーディオ情報を再生するための第１メロディー認識ユニット９０６１、及び／又は、ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第２マッチング結果に基づいてユーザオーディオ情報を再生するための第１音声認識ユニット９０６２、を含む。

いくつかの選択可能な実現形態では、第２再生モジュール９０６は、ユーザオーディオ情報の音高を決定するための第６決定ユニット９０６３、現在再生中のオーディオの音高を、ユーザオーディオ情報の音高にマッチングする目標音高に調整するための調整ユニット９０６４、及び／又は、ユーザオーディオ情報の音高に対応するオーディオを推薦するための推薦情報を出力するための出力ユニット９０６５、を含む。

いくつかの選択可能な実現形態では、第１決定モジュール９０２は、意図判定データに少なくとも１人のユーザの顔画像が含まれていると決定することに応答して、予め訓練しておいた第３感情認識モデルに顔画像を入力して、感情タイプ情報を取得し、感情タイプ情報がプリセットの感情タイプ情報である場合、少なくとも１人のユーザが目標発声意図を持つと決定するための第４感情認識ユニット９０２１、又は、意図判定データに少なくとも１人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対して音声認識を行って、音声認識結果を取得し、音声認識結果が少なくとも１人のユーザがオーディオ再生を指示したと特徴付ける場合、少なくとも１人のユーザが目標発声意図を持つと決定するための第２音声認識ユニット９０２２、又は、意図判定データに少なくとも１人のユーザのサウンド情報が含まれていると決定することに応答して、サウンド情報に対してメロディー認識を行い、メロディー認識結果を取得し、少なくとも１人のユーザが目標形態の発声を行っていることがメロディー認識結果によって特徴付けられた場合、少なくとも１人のユーザが目標発声意図を持つと決定するための第２メロディー認識ユニット９０２３、を含む。

いくつかの選択可能な実現形態では、第２決定モジュール９０３は、少なくとも１人のユーザについてのオーディオ再生記録履歴を取得するために用いられ、オーディオ再生記録履歴に基づいて、少なくとも１人のユーザの聴取習慣情報を決定し、聴取習慣情報に基づいて、特徴情報を決定する第７決定ユニット９０３１、及び／又は、少なくとも１人のユーザの顔画像を取得し、顔画像を予め訓練しておいた第４感情認識モデルに入力し、少なくとも１人のユーザの現在感情を特徴付ける感情タイプ情報を得るために用いられ、感情タイプ情報に基づいて、特徴情報を決定する第５感情認識ユニット９０３２、及び／又は、少なくとも１人のユーザが位置する環境の環境画像を取得し、環境画像を予め訓練しておいた環境認識モデルに入力し、環境タイプ情報を取得するために用いられ、環境種別情報に基づいて、特徴情報を決定する環境認識ユニット９０３３、及び／又は、目標空間に対して撮影して空間内画像を取得するために用いられ、空間内画像に基づいて、目標空間内の人数を決定し、人数に基づいて、特徴情報を決定する第８決定ユニット９０３４、を含む。

いくつかの選択可能な実現方式では、第１再生モジュール９０４は、特徴情報に聴取習慣情報が含まれると決定することに応答して、聴取習慣に対応するオーディオを抽出して再生するための第１再生ユニット９０４１と、特徴情報に感情タイプ情報が含まれると決定することに応答して、感情タイプ情報に対応するオーディオを抽出して再生するための第２再生ユニット９０４２と、特徴情報に環境タイプ情報が含まれると決定することに応答して、環境タイプ情報に対応するオーディオを抽出して再生するための第３再生ユニット９０４３と、特徴情報に人数が含まれると決定することに応答して、人数に対応するオーディオを抽出して再生するための第４再生ユニット９０４４と、を含む。

本開示の上記実施例にて提供されるオーディオ再生装置は、目標空間内の少なくとも１人のユーザついての意図判定データを収集することにより、意図判定データに基づいて、ユーザが持つ目標発声意図を決定し、続いて、目標発声意図に基づいて特徴情報を決定し、最後に、プリセットのオーディオライブラリから特徴情報に対応するオーディオを抽出して再生し、それにより、電子機器がユーザの目標発声意図を自動判断することを実現し、ユーザが発声意図を持つと判定した場合、電子機器がオーディオを自動再生し、ユーザがオーディオ再生を能動的にトリガーする操作を必要とせず、オーディオを再生するユーザの操作ステップを減らし、オーディオ再生操作の利便性を向上させた。また、ユーザの現在特徴を決定することにより、再生されるオーディオをユーザの特徴に適応させ、それにより、より正確にユーザが聴取したいオーディオを再生することが実現され、オーディオの自動再生の指向性を向上させた。

例示的な電子機器
以下、図１１を参照しながら本開示の実施例による電子機器について説明する。当該電子機器は、図１に示す端末機器１０１及びサーバ１０３のうちのいずれか１つ、又は両方、又はそれらとは別体の単体機器であってもよく、当該単体機器は端末機器１０１及びサーバ１０３と通信して、収集された入力信号をそれらから受信することができる。

図１１は、本開示の実施例による電子機器のブロック図を示す。

図１１に示すように、電子機器１１００は、１つ又は複数のプロセッサ１１０１及びメモリー１１０２を含む。

プロセッサ１１０１は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）又はデータ処理能力及び／又は命令実行能力を有する他の形態の処理装置であってもよく、かつ、電子機器１１００内の他の構成要素を制御して所望の機能を実行することができる。

メモリー１１０２は、１つ又は複数のコンピュータプログラム製品を含んでもよく、コンピュータプログラム製品は、揮発性メモリー及び／又は不揮発性メモリー等の様々な形態のコンピュータ可読記憶媒体を含んでもよい。揮発性メモリーは、例えば、ランダムアクセスメモリー（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）及び／又はキャッシュメモリー（ｃａｃｈｅ）等を含んでもよい。不揮発性メモリーは、例えば、読み取り専用メモリー（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ハードディスク、フラッシュメモリー等を含むことができる。コンピュータ可読記憶媒体に１つ又は複数のコンピュータプログラム命令を記憶することができ、プロセッサ１１０１はプログラム命令を実行して上記の本開示の様々な実施例のオーディオ再生方法及び／又は他の所望の機能を実現することができる。コンピュータ可読記録媒体に、意図判定データ、特徴情報、オーディオ等の様々な内容も記憶してもよい。

例示において、電子機器１１００は、さらに、入力装置１１０３及び出力装置１１０４を含んでもよく、これらの構成要素はバスシステム及び／又は他の形態の接続機構（図示せず）を介して互に接続する。

例えば、当該電子機器が端末機器１０１又はサーバ１０３である場合、入力装置１１０３は、意図判定データを入力するためのカメラ、マイクロホン等のデバイスであってもよい。当該電子機器が単体機器である場合、入力装置１１０３は通信ネットワークコネクタであってもよく、端末機器１０１及びサーバ１０３から、入力された意図判定データを受信するために用いられる。

出力装置１１０４は、抽出されたオーディオを含む様々な情報を外部に出力することができる。出力装置１１０４は、例えばディスプレイ、スピーカ、通信ネットワーク及びそれらによって接続されるリモート出力装置等を含んでもよい。

当然のことながら、簡略化のために、図１１では、電子機器１１００のうち、本開示に関連する構成要素の一部のみを示し、バス、入力／出力インターフェース等の部材は省略された。それ以外に、具体的な適用状況に応じて、電子機器１１００は任意の他の適切な構成要素をさらに含むことができる。

例示的なコンピュータプログラム製品及びコンピュータ可読記憶媒体
本開示の実施例は、上記の方法及び機器以外に、コンピュータプログラム命令を含むコンピュータプログラム製品でもあり得、前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサが、本明細書の上記「例示的な方法」部分に記載された本開示の様々な実施例によるオーディオ再生方法のステップを実行する。

前記コンピュータプログラム製品は、１つ又は複数のプログラミング言語の任意の組み合わせで、本開示の実施例の操作を実行するためのプログラムコードを書くことができ、前記プログラミング言語は、Ｊａｖａ（登録商標）、Ｃ＋＋等のオブジェクト指向のプログラミング言語を含み、さらに、「Ｃ」言語又は同様のプログラミング言語等の従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザコンピューティングデバイス上で実行されても、部分的にユーザデバイス上で実行されても、スタンドアロンソフトウェアパッケージとして実行されても、一部分がユーザコンピューティングデバイス上で一部分がリモートコンピューティングデバイス上で実行されても、完全にリモートコンピューティングデバイス上で又はサーバ上で実行されてもよい。

また、本開示の実施例は、コンピュータ可読記憶媒体であってもよく、それにはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサによって実行されると、前記プロセッサが、本明細書の上記「例示的な方法」部分に記載された本開示の様々な実施例によるオーディオ再生方法のステップを実行する。

前記コンピュータ可読記憶媒体として、１つ又は複数の読み取り可能な媒体の任意の組み合わせを用いてもよい。読み取り可能な媒体は、読み取り可能な信号媒体であっても、読み取り可能な記憶媒体であってもよい。読み取り可能な記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、又は半導体のシステム、装置、若しくはデバイス、又はこれらの任意の組み合わせを含むことができるが、これらに限定されない。読み取り可能な記憶媒体のより具体的な例（非網羅的なリスト）は、１つ又は複数のリード線を有する電気接続、ポータブルディスク、ハードディスク、ランダムアクセスメモリー（ＲＡＭ）、読み取り専用メモリー（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリー（（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）又はフラッシュメモリー）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリー（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよい。

以上は、具体的な実施例を参照しながら本開示の基本的な原理について説明したが、本開示に言及された利点、優位性、効果等は例示的なものにすぎず、限定的なものではなく、これらの利点、優位性、効果等は本開示の各実施例が必ず備えると考えるべきではないことに留意されたい。また、上記に開示した具体的な詳細は、例示的な役割及び理解を容易にする役割のためのものにすぎず、限定するものではなく、上記の詳細は、上記の具体的な詳細を用いて本開示を実現しなければならないと限定するものではない。

本明細書における各実施例は、いずれも漸進的な方式を用いて説明し、他の実施例との相違点を中心に各実施例説明し、各実施例間の同一又は類似の部分は互に参照すればよい。システムの実施例にとって、それは方法の実施例に基本的に対応するため、簡単に説明し、関連箇所は方法の実施例の部分についての説明を参照すればよい。

本開示において、関わるデバイス、装置、機器、システムのブロック図は、例示的な例に過ぎず、必ずしもブロック図に示す方式に従って接続、配置、構成するように要求又は示唆することを意図しない。当業者であれば、任意の方式に従ってこれらのデバイス、装置、機器、システムを接続、配置、構成することができることを理解するだろう。「含む」、「含有する」、「有する」等の用語は、オープン型用語であり、「含むが、これらに限定されない」ということを意味し、かつ、それと互換的に使用できる。本明細書に使用される用語「又は」と「及び」は、用語「及び／又は」を意味し、文脈上でそうでないことを明示しない限り、それらと互換的に使用できる。本明細書に使用される用語「例えば…等」は、連語の「例えば…等、限定するものではない」を意味し、かつ、それと互換的に使用できる。

多くの方式で本開示の方法及び装置を実現することが可能である。例えば、本開示の方法及び装置は、ソフトウェア、ハードウェア、ファームウェア、又はソフトウェア、ハードウェア、ファームウェアの任意の組み合わせで実現できる。前記方法のステップに用いられる上記順序は、説明するだけで、本開示の方法のステップは、ほかの形態で特に説明しない限り、上記の具体的に説明した順序に限定されない。さらに、いくつかの実施例では、本開示による方法を実現するための機械読み取り可能な命令を含む、記録媒体に記録されたプログラムとして、本開示を実施してもよい。したがって、本開示は、本開示による方法を実行するためのプログラムを記憶する記録媒体も包含する。

なお、本開示の装置、機器及び方法では、各部材又は各ステップは、分解及び／又は再結合が可能である。これらの分解及び／又は再結合を、本開示の等価解決手段と見なすべきである。

開示された態様の上記説明は、当業者が本開示を作製又は使用することを可能にするために提供される。これらの態様に対する様々な修正は、当業者にとって明らかであり、かつ、本明細書に定義された一般的な原理は、本開示の範囲から逸脱せず、他の態様に適用することも可能である。したがって、本開示は、本明細書に開示される原理及び新規の特徴と一致する最も広い範囲に従い、本明細書に示した態様に限定されることを意図するものではない。

上記の説明は、例示及び説明のために提示されている。さらに、この説明は、本開示の実施例を本明細書に開示されている形態に限定することを意図しない。以上、複数の例示的な態様及び実施例を説明したが、当業者であれば、それらの一部の変形、修正、変更、追加、及びサブ組み合わせを分かるだろう。

Claims

電子機器に適用され、前記電子機器によって実現されるオーディオ再生方法であって、
目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得するステップと、
前記意図判定データに基づいて、前記少なくとも１人のユーザが持つ目標発声意図を決定するステップと、
前記目標発声意図に基づいて、前記少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定するステップと、
プリセットのオーディオライブラリから前記特徴情報に対応するオーディオを抽出して再生するステップと、を含み、
前記特徴情報に対応するオーディオを抽出して再生する前記ステップの後、さらに、
現在の混合サウンド信号からユーザオーディオ情報を抽出するステップと、
前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップと、を含み、
前記ユーザオーディオ情報に基づいて、前記ユーザオーディオ情報を再生する前記ステップは、
前記ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、前記ユーザメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第１マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップ、及び／又は、
前記ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第２マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するステップ、を含む、オーディオ再生方法。
前記ユーザオーディオ情報を再生する前記ステップの後、さらに、
前記少なくとも１人のユーザから前記ユーザオーディオ情報に対応する目標ユーザを決定して、前記目標ユーザの顔画像を取得するステップと、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像を予め訓練しておいた第１感情認識モデルに入力し、前記目標ユーザに対応する感情タイプ情報を得るステップと、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付ける第１スコアを決定するステップ、及び／又は、
前記ユーザオーディオ情報に基づいて、前記ユーザオーディオ情報と前記現在再生中のオーディオとのマッチング度を特徴付ける第２スコアを決定するステップと、
前記第１スコア及び／又は前記第２スコアに基づいて、前記ユーザオーディオ情報のスコアを決定して出力するステップと、を含む、請求項１に記載の方法。
前記ユーザオーディオ情報を再生する前記ステップの後、さらに、
前記少なくとも１人のユーザから前記ユーザオーディオ情報に対応する目標ユーザを決定して、前記目標ユーザの顔画像を取得するステップと、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を予め訓練しておいた第２感情認識モデルに入力し、感情タイプ情報を得るステップと、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定して出力するステップと、を含む、請求項１に記載の方法。
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を予め訓練しておいた第２感情認識モデルに入力して、感情タイプ情報を得る前記ステップは、
前記ユーザオーディオ情報に対応する目標ユーザの顔画像及び前記ユーザオーディオ情報を前記第２感情認識モデルに入力して、第３感情タイプ情報シーケンスを得るステップを含み、ここで、前記第３感情タイプ情報シーケンスにおける感情タイプ情報はそれぞれ１つの顔画像サブシーケンスに対応し、
前記感情タイプ情報に基づいて、前記ユーザオーディオ情報に対応する目標ユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定する前記ステップは、
前記現在再生中のオーディオに対応するビデオを取得して、前記ビデオから目標人物の顔画像シーケンスを抽出するステップと、
前記顔画像シーケンス及び前記現在再生中のオーディオを前記第２感情認識モデルに入力して、第４感情タイプ情報シーケンスを得るステップと、
前記第３感情タイプ情報シーケンスと前記第４感情タイプ情報シーケンスとの類似度を決定するステップと、
前記類似度に基づいて、前記ユーザオーディオ情報に対応するユーザの感情と現在再生中のオーディオのタイプとのマッチング度を特徴付けるスコアを決定するステップと、を含む、請求項３に記載の方法。
現在の混合サウンド信号からユーザオーディオ情報を抽出する前記ステップは、
前記目標空間に設置されたオーディオ収集装置によって収集される、前記混合サウンド信号を含む初期オーディオ情報を取得するステップと、
前記初期オーディオ情報に対して人声分離を行って、それぞれ１つのユーザに対応する少なくとも１チャンネルのユーザオーディオ情報を得るステップと、を含む、請求項１に記載の方法。
前記意図判定データに基づいて、前記少なくとも１人のユーザが持つ目標発声意図を決定する前記ステップは、
前記意図判定データに前記少なくとも１人のユーザの顔画像が含まれると決定したことに応答し、前記顔画像を予め訓練しておいた第３感情認識モデルに入力して、感情タイプ情報を取得し、前記感情タイプ情報がプリセットの感情タイプ情報である場合、前記少なくとも１人のユーザが目標発声意図を持つと決定するステップ、又は、
前記意図判定データに前記少なくとも１人のユーザのサウンド情報が含まれると決定したことに応答し、前記サウンド情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果が前記少なくとも１人のユーザがオーディオの再生を指示することを特徴付ける場合、前記少なくとも１人のユーザが目標発声意図を持つと決定するステップ、又は、
前記意図判定データに前記少なくとも１人のユーザのサウンド情報が含まれると決定したことに応答し、前記サウンド情報に対してメロディー認識を行って、メロディー認識結果を取得し、前記メロディー認識結果が前記少なくとも１人のユーザが目標形態の発声を行っていることを特徴付ける場合、前記少なくとも１人のユーザが目標発声意図を持つと決定するステップを含む、請求項１に記載の方法。
前記少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定する前記ステップは、
前記少なくとも１人のユーザについてのオーディオ再生記録履歴を取得し、前記オーディオ再生記録履歴に基づいて、前記少なくとも１人のユーザの聴取習慣情報を決定し、前記聴取習慣情報に基づいて、前記特徴情報を決定するステップ、及び／又は、
前記少なくとも１人のユーザの顔画像を取得し、前記顔画像を予め訓練しておいた第４感情認識モデルに入力して、前記少なくとも１人のユーザの現在の感情を特徴付ける感情タイプ情報を取得し、前記感情タイプ情報に基づいて、前記特徴情報を決定するステップ、及び／又は、
前記少なくとも１人のユーザが位置する環境の環境画像を取得し、前記環境画像を予め訓練しておいた環境認識モデルに入力して、環境タイプ情報を取得し、前記環境タイプ情報に基づいて、前記特徴情報を決定するステップ、及び／又は、
前記目標空間を撮影して空間内画像を取得し、前記空間内画像に基づいて、前記目標空間内の人数を決定し、前記人数に基づいて、前記特徴情報を決定するステップを含む、請求項１に記載の方法。
目標空間内の少なくとも１人のユーザについて収集された意図判定データを取得するための取得モジュールと、
前記意図判定データに基づいて、前記少なくとも１人のユーザが持つ目標発声意図を決定するための第１決定モジュールと、
前記少なくとも１人のユーザの現在特徴を特徴付ける特徴情報を決定するための第２決定モジュールと、
プリセットのオーディオライブラリから前記特徴情報に対応するオーディオを抽出して再生するための第１再生モジュールと、
現在の混合サウンド信号からユーザオーディオ情報を抽出するための抽出モジュールと、
前記ユーザオーディオ情報がプリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第２再生モジュールと、を含み、
前記第２再生モジュールは、前記ユーザオーディオ情報に対してメロディー認識を行って、ユーザメロディー情報を取得し、前記ユーザメロディー情報と現在再生中のオーディオのメロディー情報とをマッチングさせ、得られた第１マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第１メロディー認識ユニット、及び／又は、前記ユーザオーディオ情報に対して音声認識を行って、音声認識結果を取得し、前記音声認識結果と現在再生中のオーディオに対応するテキスト情報とをマッチングさせ、得られた第２マッチング結果が前記プリセットの条件に合致する場合、前記ユーザオーディオ情報を再生するための第１音声認識ユニット、を含む、オーディオ再生装置。
上記の請求項１～７のいずれか１項に記載の方法を実行するためのコンピュータプログラムが記憶されている、コンピュータ可読記憶媒体。
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリーと、を含み、
前記プロセッサは、前記メモリーから前記実行可能な命令を読み取り、前記命令を実行して上記の請求項１～７のいずれか１項に記載の方法を実現するために用いられる、電子機器。