[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6701478B2 - 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム - Google Patents

映像生成装置、映像生成モデル学習装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6701478B2
JP6701478B2 JP2016165787A JP2016165787A JP6701478B2 JP 6701478 B2 JP6701478 B2 JP 6701478B2 JP 2016165787 A JP2016165787 A JP 2016165787A JP 2016165787 A JP2016165787 A JP 2016165787A JP 6701478 B2 JP6701478 B2 JP 6701478B2
Authority
JP
Japan
Prior art keywords
time
series
video
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016165787A
Other languages
English (en)
Other versions
JP2018032316A (ja
Inventor
健太 丹羽
健太 丹羽
一哉 武田
一哉 武田
健登 大谷
健登 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokai National Higher Education and Research System NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016165787A priority Critical patent/JP6701478B2/ja
Publication of JP2018032316A publication Critical patent/JP2018032316A/ja
Application granted granted Critical
Publication of JP6701478B2 publication Critical patent/JP6701478B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、楽器の演奏または歌唱それぞれに係る音響信号を演奏または歌唱するエージェントの映像を得る映像生成技術に関する。
(a)音楽に対して、演奏やダンスをつける技術として、MikuMikuDance(MMD)(非特許文献1参照)が知られている。また、(b)対話システムの合成音声に合わせて3Dモデルが動くMMDエージェントに関する研究として非特許文献2が知られている。また、(c)既存の音楽動画の映像部分を、新たな別の音楽に合うように切り貼りして映像を自動生成するものとしてDanceReProducer(非特許文献3参照)が知られている。
(a)のMMD技術は、フリーの3DCGムービー製作ツールである。あらかじめ、3Dモデルを用意し、行動を自分自身でつける、または、配布されているモーション(行動)ファイルを読み込むことで、3Dモデルを動かす。なお、行動のパターンについては任意の動きをツール上で作成可能であり、時間と行動の対応関係については作成者自身がマニュアルで記述する。
(b)のMMDエージェント技術では、対話のシナリオに応じた会話文と行動の関係についてあらかじめ記述する。ユーザとエージェントが対話し、音声認識された結果に応じてシーンを推定し、あらかじめ作成された会話文と行動を出力するシステムである。
(c)のDanceReProducer技術は、youtubeやニコニコ動画等で配信された音楽動画(別の楽曲でも可)の映像を、入力した音楽に合うように切り貼りして映像を自動生成する技術である。
"Vocaloid Promotion Video Project"、[online]、[平成28年7月18日検索]、インターネット<URL:http://www.geocities.jp/higuchuu4/index.htm> "MMDAgent"、[online]、[平成28年7月18日検索]、インターネット<URL:http://http://www.mmdagent.jp/> 室伏空, 中野倫靖,後藤真孝, 森島繁生. "ダンス動画コンテンツを再利用して音楽に合わせた動画を自動生成するシステム"、 情報処理学会音楽情報科学研究会研究報告. Vol.2009-MUS-81, No.7, pp.1-5, July 2009.
しかしながら、(a)MMD,(b)MMDエージェントに共通するのは、音に対する行動があらかじめ記述されていることである。つまり、人手により所定の音(音楽や会話)に対する所定の行動パターンを記述しておき、それに基づき、エージェントに所定の行動を実行させている。また、(c)については、エージェントの行動を推定するという研究ではない。よって、何れの従来技術も音からエージェントの行動が自動的に推定されている訳ではない。
シナリオが有限に限られる場合には、マニュアルで音と行動の関係を入力すればよいが、音楽における音と楽器演奏/ボーカルの行動の関係となると、シナリオ(特徴量と行動の関係)をマニュアルで入力することも難しく、また、行動を記述すべきオブジェクト数(=楽器数)も多い。よって、自動化することが好ましい。
本発明は、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成する映像生成装置、そのための映像生成モデルを学習する映像生成モデル学習装置、その方法、及びプログラムを提供することを目的とする。なお、「エージェントの映像を生成する」とは、エージェントのモーション(行動)を生成または取得することを意味してもよいし、その生成したモーションを用いて実際にエージェントの映像を生成することを意味してもよい。例えば、本発明の映像生成装置は、エージェントのモーション(行動)を生成または取得し、外部の映像生成装置にモーションデータを出力し、外部の映像生成装置が映像を生成し、提示してもよい。
上記の課題を解決するために、本発明の一態様によれば、映像生成装置は、Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成装置は、Nを1以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、その時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、N種類の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、N種類の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成モデル学習装置は、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習する事前学習部を含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成装置は、Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶された記憶部と、利用者画面上に、(i)記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか1つと、(ii)記憶部に記憶された少なくとも1つの仮想空間の背景の映像に対応する少なくとも1つの被選択物のうちの何れか1つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示部と、選択提示部で提示した少なくとも1つの被選択物のうちの何れか1つの利用者の選択結果の入力を受け付ける利用者選択入力受付部と、(i)利用者選択入力受付部で選択された1つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して記憶部に記憶された課金情報と、(ii)利用者選択入力受付部で選択された1つの被選択物に対応する仮想空間の背景映像に対応して記憶部に記憶された課金情報との少なくとも何れかに基づいて、利用者に課金を行う課金部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成装置は、Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、N個の各時系列音響信号について、その時系列音響信号について部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶された記憶部と、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する選択提示部と、選択提示部で提示した少なくとも1つの被選択物のうちの何れか1つの利用者の選択結果の入力を受け付ける利用者選択入力受付部と、利用者選択入力受付部で選択された1つの被選択物に対応する第一配置に対応して記憶部に記憶された課金情報に基づいて、利用者に課金を行う課金部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N個の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Nを1以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、その時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N種類の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N種類の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成モデル学習方法は、事前学習部が、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習する事前学習ステップを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N個の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶部に記憶されるものとし、選択提示部が、利用者画面上に、(i)記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか1つと、(ii)記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか1つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示ステップと、利用者選択入力受付部が、選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか1つの利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、課金部が、(i)利用者選択入力受付ステップで選択された1つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して記憶部に記憶された課金情報と、(ii)利用者選択入力受付部で選択された1つの被選択物に対応する仮想空間の背景映像に対応して記憶部に記憶された課金情報との少なくとも何れかに基づいて、利用者に課金を行う課金ステップとを含む。
上記の課題を解決するために、本発明の他の態様によれば、映像生成方法は、Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、その時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、部分映像取得部が、N個の各時系列音響信号に含まれる各時間区間について、その時系列音響信号のその時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、時系列映像生成部が、N個の各時系列音響信号について、その時系列音響信号について部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、その時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶部に記憶されるものとし、選択提示部が、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する選択提示ステップと、利用者選択入力受付部が、選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか1つの利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、課金部が、利用者選択入力受付ステップで選択された1つの被選択物に対応する第一配置に対応して記憶部に記憶された課金情報に基づいて、利用者に課金を行う課金ステップとを含む。
本発明によれば、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。
第一実施形態に係る映像生成装置の機能ブロック図。 第一実施形態に係る映像生成装置の処理フローの例を示す図。 学習用時系列音響信号と学習用行動ラベルを説明するための図。 時系列全体映像の例を示す図。 俯瞰映像の例を示す図。 課金情報記憶部222に記憶されるデータの例を示す図。 エージェントデザイン選択画面の例、及び、背景デザイン選択画面の例を示す図。 利用者画面上に複数の選択肢を提示する例を示す図。 第二実施形態の構成例を示す図。 第二実施形態に係る音源強調装置の機能ブロック図。 第一実施形態に係る音源強調装置の処理フローの例を示す図。 従来技術の構成を説明するための図。 座標系の定義を説明するための図。 第三実施形態に係る映像生成装置の機能ブロック図。 第三実施形態に係る映像生成装置の処理フローの例を示す図。 合成パラメータ選択画面の例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
図1は第一実施形態に係る映像生成装置の機能ブロック図を、図2はその処理フローを示す。
映像生成装置200は、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号sn(t)(n=1,2,…,N)を入力とし、その時系列音響信号sn(t)全体を演奏または歌唱するエージェントの映像である時系列映像を生成し、利用者が見る画面(以下、利用者画面ともいう)上に表示する。tは時間のインデックスを、nは楽器の演奏または歌唱のインデックスを表す。Nは1以上の整数の何れかである。なお、本実施形態では、N種類のエージェントの時系列映像を用いて、N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を生成し、利用者画面上に表示する。また、本実施形態では、映像生成装置200は、N個の時系列音響信号sn(t)から得られる全体音響信号を出力し、利用者の聴く再生装置で再生する。
このような構成により、利用者は、全体音響信号と、全体音響信号を演奏するエージェントの映像とを合わせて視聴することができる。
映像生成装置200は、部分映像取得部201と、時系列映像取得部202と、全体映像生成部203と、音響信号生成部204と、俯瞰映像提示部212と、入力受付部213と、事前学習部291とを含む。
<本実施形態のポイント>
本実施形態では、深層学習を用いて、音と行動の関係をあらかじめニューラルネットワークを用いて記述することで、音を入力するだけで行動パターンを推定する。
図1に示すように、あらかじめ楽曲から各楽器/ボーカルを強調して収音した分離信号群、あるいは事前に各楽器の近傍に設置したマイクロホンで観測した信号(他の音の混入レベルが低い)を用いることを前提とする。この信号が時系列音響信号sn(t)に相当する。事前に学習したニューラルネットに時系列音響信号sn(t)、あるいはそれらを特徴量子化したベクトル群を入力することで、時系列音響信号sn(t)に対応する演奏者または歌手の行動動パターンを推定する。行動パターンとは数個〜数十個のインデックスを表し、例えば、ドラムの演奏の行動パターンであれば、(i)4拍子でリズムを刻む、(ii)頭にシンバルを叩いて4拍子でリズムを刻む、(iii)フィルインでタムを回すなどの行動をそれぞれ一つのインデックスで表すこととする。ニューラルネットは、楽器/ボーカルごとに別々に生成されるとする。例えば、ドラム演奏モデル、ギター演奏モデル、鍵盤演奏モデル、男性ボーカル振付モデル、女性ボーカル振付モデル等が生成される。なお、各時系列音響信号sn(t)がどの楽器/ボーカルの音響信号であるかはあらかじめ既知であるとする。
図1の処理フローについて簡潔に説明する。部分映像取得部201では、時系列音響信号sn(t)を入力とし、各時刻における尤もらしい行動パターンのインデックスを出力する。なお、n、tはそれぞれ各楽器/ボーカル、時刻を示すインデックスである。時系列音響信号の個数をNとし、n=1,2,…,Nである。ここで、ニューラルネットは全結合型深層ニューラルネット(Full-connected Deep Neural Networks)、再帰型ニューラルネット(Recurrent Neural Networks)(参考文献1参照)、畳み込みニューラルネットワーク(Convolutional Neural Networks)(参考文献1参照)等のどれでもよい。つまり、ニューラルネットワークの実装形態に依存しない。なお、実際に行った実装に用いたのは、RNNの一種であるLSTM(Long Short Term Memories)(参考文献1参照)である。
(参考文献1)岡谷貴之, ”深層学習(第一版)”, 講談社サイエンティフィク, 2015, p.7-54.
なお、ネットワークパラメータは、事前に大量のデータセットを用いて訓練する必要がある。例えば、データセットは、学習用時系列音響信号sL2,n(t)と各学習用時系列音響信号sL2,n(t)に含まれる各時間区間の演奏または歌唱するものの行動を示す学習用行動ラベルLL2,n(t)とのセットを含む。
図3に示すように、ニューラルネットパラメータを訓練するために用意した学習用時系列音響信号sL2,n(t)(図3では、ドラムの演奏に係る音響信号(ステレオ信号sL2,n (R)(t)、sL2,n (L)(t))を利用している)の各時刻tに対して、行動インデックスのラベリングを行った。
このようにして、学習用時系列音響信号sL2,n(t)を特徴量子化したベクトル群(e.g.フィルタバンク出力パワー)と教師となる学習用行動ラベルLL2,n(t)との組から成るデータセットをあらかじめ用意する。学習用行動ラベルLL2,n(t)は、例えば、10パターンの行動があらかじめ用意されているとし、3番目の行動インデックスがマニュアルで与えたラベルとすると「0,0,1,0,0,0,0,0,0,0」のような系列をラベルベクトルとする。
誤差逆伝搬法(あるいはネットワーク形状に依ってはその変形)に則って、事前学習部291においてネットワークパラメータを事前に学習する。部分映像取得部201では、学習された後の固定のネットワークパラメータが与えられたという前提の下で、行動パターンを得る。
<事前学習部291>
事前学習部291は、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号sL2,n(t)と、N個の各学習用時系列音響信号sL2,n(t)に含まれる各時間区間の演奏または歌唱するものの行動を示す学習用行動ラベルLL2,n(t)とを入力とし、時系列音響信号sn(t)と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習し、学習結果を部分映像取得部201に出力する。なお、演奏または歌唱するものの行動の遷移には傾向があり、現在の行動から次の行動を推定することができる。そのため、行動生成モデルは、時間遷移を考慮したモデルであることが望ましい。
本実施形態では、行動生成モデルをニューラルネットワークで記述し、事前学習部291は、ニューラルネットワークで用いるネットワークパラメータを学習し、学習結果を部分映像取得部201に出力する。
<部分映像取得部201>
部分映像取得部201は、学習結果(本実施形態ではニューラルネットワークで用いるネットワークパラメータ)を入力とし、事前にニューラルネットワークに与えておく。
部分映像取得部201は、N個の時系列音響信号sn(t)を入力とし、N個の各時系列音響信号sn(t)に含まれる各時間区間について、時系列音響信号sn(t)の時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得(S201)、時系列映像取得部202に出力する。なお、時間区間映像の時間区間は、時刻を表すインデックスtが離散時刻を表すとき、離散時刻と同じ時間区間でもよいし、離散時刻の時間区間の数倍から数十倍に設定してもよい。
このとき、部分映像取得部201は、時系列音響信号と演奏または歌唱するものの行動との関係を表す行動生成モデル(本実施形態ではニューラルネットワーク)を用いて、N個の各時系列音響信号sn(t)に含まれる各時間区間についてのエージェントの時間区間映像を得る。例えば、部分映像取得部201は、時系列音響信号sn(t)を特徴量子化したベクトル群(e.g.フィルタバンク出力パワー)をニューラルネットワークに与え、ニューラルネットワークの出力値(行動ラベルLn(t))を受け取り、行動ラベルにLn(t)に対応するエージェントの演奏映像または歌唱映像を図示しない記憶部から取り出し、時間区間映像として取得する。なお、図示しない記憶部には、全ての行動ラベルにLn(t)に対応するエージェントの演奏映像または歌唱映像が事前に記憶されているものとする。
<時系列映像取得部202>
時系列映像取得部202は、時系列音響信号sn(t)の時間区間に対応する時間区間映像を入力とし、N個の各時系列音響信号sn(t)(n=1,2,…,N)について、時系列音響信号sn(t)について部分映像取得部201で得た1個以上の時間区間映像を時系列順に組み合わせることにより、時系列音響信号sn(t)全体に対応するエージェントの演奏または歌唱に係る時系列映像を得(S202)、出力する。
<全体映像生成部203>
時系列映像は、時系列音響信号sn(t)毎に得られるものであり、1種類の楽器または歌唱に係るエージェントの演奏または歌唱の映像である。
全体映像生成部203は、N種類のエージェントの時系列映像と後述するエージェント位置と後述する視点位置とを入力とし、N種類のエージェントの時系列映像を用いて、N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得(S203)、出力する。図4は時系列全体映像の例を示す。なお、全体映像生成部203は、エージェント位置と視点位置とを用いて、エージェント位置に、対応するエージェントの時系列映像を配置し、それを視点位置から見た1つの時系列全体映像を生成し、出力する。なお、N=1の場合には、全体映像生成部203を用いなくともよい。
<入力受付部213及び俯瞰映像提示部212>
入力受付部213は、利用者からの入力(以下、利用者入力ともいう)を受け付ける。なお、利用者入力は、利用者端末の入力部(タッチパネル等)や利用者端末に接続された入力装置(タッチパネルディスプレイやマウス、キーボード等)を介して利用者の操作により入力される。図4の時系列全体映像の中に「edit」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、俯瞰映像提示部212に制御信号を出力する。
俯瞰映像提示部212は、「edit」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、利用者画面に所定の仮想空間を俯瞰する映像(以下、俯瞰映像ともいう)を提示するように全体映像生成部203に指示し、全体映像生成部203は、俯瞰映像を生成し、出力する。よって、俯瞰映像提示部212は、全体映像生成部203を介して俯瞰映像を利用者に提示する。図5は俯瞰映像の例を示す。
例えば、俯瞰映像では以下のような操作が可能である。
俯瞰映像には、各エージェントの仮想空間における位置と、受聴位置と、視点位置とを提示する。
利用者は、各エージェントの仮想空間における位置と、受聴位置と、視点位置とを変更することができる。例えば、入力部または入力装置を使って、何れかの位置をドラッグ&ドロップすることで変更することができる。また、例えば、一度目のタップ(クリック)で、変更しようとする各エージェントの仮想空間における位置、受聴位置、視点位置を指定し、二度目のタップ(クリック)で変更後の位置を指定することで変更してもよい。
このようにして、入力受付部213は、俯瞰映像提示部212が提示した画面上の所望の位置に、(i)N種類のエージェントのそれぞれを配置するための入力、(ii)視点を配置するための入力、(iii)俯瞰映像提示部が提示した画面上の所望の位置に、受聴点を配置するための入力を受け付ける。
なお、入力受付前には、各位置の初期値が設定されているものとする。なお、二回目以降に映像生成装置を利用した場合は、前回の利用終了時の各位置をそれぞれ利用してもよい。
入力受付部213は、各エージェント位置と視点位置とを全体映像生成部203に出力し、各エージェント位置と受聴位置とを音響信号生成部204に出力する。
全体映像生成部203は、入力受付部213で受け付けられた入力に基づく仮想空間内の各位置に、N種類のエージェントの時系列映像を配置した1つの俯瞰映像を得、利用者画面に表示させる。
図5の俯瞰映像の中に「Return」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、俯瞰映像提示部212に制御信号を出力する。
俯瞰映像提示部212は、「Return」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、時系列全体映像を提示するように全体映像生成部203に指示し、全体映像生成部203は、入力受付部213で受け付けられた入力に基づく仮想空間内の各位置に、N種類のエージェントの時系列映像を配置し、それを視点位置から見た1つの時系列全体映像を生成し(図4参照)、出力する。なお、俯瞰映像は、利用者が仮想空間上の位置を特定することができるような映像であればどのような映像であってもよい。
<音響信号生成部204>
音響信号生成部204は、N個の時系列音響信号sn(t)とN個のエージェント位置と受聴位置とを入力とし、エージェント位置に対応する時系列音響信号sn(t)に対する定位操作をし、それらを加算することで、受聴位置から受聴した際の全体音響信号を得(S204)、出力する。
<効果>
以上の構成により、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができ、音楽に含まれる楽器/ボーカル信号群と演奏/ダンスといった行動を自動で記述することができる。これは、CDやインターネット経由で配信された音楽からライブのような映像へ自動で可視化することに役立つ。
<実装について>
映像生成装置200は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。事前学習部291をサーバ上に実装し、それ以外の構成を利用者端末上に実装し、学習結果(パラメータ、さらには、パラメータにより特定される映像生成モデル)を部分映像取得部201で利用してもよい。事前学習部291は、映像生成モデルを学習する装置として、別途設けてもよい。この観点から事前学習部291を映像生成モデル学習装置ともいう。例えば、利用者端末としてはスマホ、タブレット、PC等が考えられる。
映像生成装置200を利用者端末上に実装する場合には、N個の時系列音響信号sn(t)をダウンロードしたり、CD等の記録媒体や、N個の時系列音響信号sn(t)を記録した利用者端末内の記憶部から取り出し、そのN個の時系列音響信号sn(t)から全体音響信号と時系列全体映像とを生成し、利用者端末の再生部や利用者端末に接続された再生装置(スピーカ等)で全体音響信号を再生し、同時に、利用者端末の画面(ディスプレイやタッチパネル等)や、利用者端末に接続された表示装置(ディスプレイなど)に時系列全体映像を表示する。
一方、映像生成装置200をサーバ上に実装した場合には、利用者端末がN個の音響信号sn(t)を通信回線等をサーバに送信する。また、サーバ上にN個の音響信号sn(t)を記憶しておく構成としてもよい。この場合、複数の曲名を利用者画面上に表示し、利用者は、利用者端末の入力部や入力装置を介して、曲名を選択し、選択結果が通信回線等を介してサーバに送信される。サーバは、選択された曲名に対応するN個の音響信号sn(t)をサーバ内の記憶部から取り出す。映像生成装置200は、N個の音響信号sn(t)から全体音響信号と時系列全体映像とを生成し、通信回線等を介して利用者端末に送信する。利用者端末の再生部や再生装置で全体音響信号を再生し、同時に、利用者端末の画面や表示装置に時系列全体映像を表示する。なお、N個の音響信号sn(t)や全体音響信号、時系列全体映像は信号をそのまま送るのではなく、信号から得られる特徴量を送信し、特徴量から各信号を生成する構成としてもよい。利用者入力は、利用者端末の入力部や利用者端末に接続された入力装置を介して利用者の操作により入力され、通信回線を介してサーバに送信される。
<第一変形例>
第一実施形態と異なる部分を中心に説明する。
映像生成装置200は、さらに、選択提示部221と課金部223と課金情報記憶部222とを含む(図1中、破線で示す)。
<課金情報記憶部222>
課金情報記憶部222には、(i)少なくとも1つのエージェントの識別子と、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する、少なくとも1つの仮想空間の背景の識別子と、各背景に対応する課金情報とが記憶されている。図6は、課金情報記憶部222に記憶されるデータの例を示す。なお、課金情報は0以上であればよい。
<選択提示部221>
図4の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
選択提示部221は、「Select」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、利用者画面にエージェントデザイン選択画面、背景デザイン選択画面を提示するように全体映像生成部203に指示し、全体映像生成部203はエージェントデザイン選択画面、背景デザイン選択画面を生成し、出力する。よって、選択提示部221は、全体映像生成部203を介してエージェントデザイン選択画面、背景デザイン選択画面を利用者に提示する。図7はエージェントデザイン選択画面、背景デザイン選択画面の例を示す。
例えば、エージェントデザイン選択画面、背景デザイン選択画面では以下のような操作が可能である。
エージェントデザイン選択画面には、各エージェントのデザインと、そのエージェントの値段(課金情報)とを提示する。背景デザイン選択画面には、各背景のデザインと、その背景の値段(課金情報)とを提示する。
利用者は、少なくとも1つのエージェントのデザインの中から一つのエージェントデザインを選択することができる。また、少なくとも1つの背景のデザインの中から一つのエージェントデザインを選択することができる。例えば、入力部または入力装置を使って、デザインをタップ(クリック)することで選択することができる。なお、エージェントのデザインとは、エージェント自体だけではなく、エージェントの衣装や身に着けるアイテムのデザインを含んでもよい。
このようにして、入力受付部213は、利用者の選択結果を受け付ける。
なお、入力受付前には、エージェントデザイン、背景の初期値が設定されているものとする。なお、二回目以降に映像生成装置を利用した場合は、前回の利用終了時の各エージェントデザイン、背景をそれぞれ利用してもよい。
入力受付部213は、選択結果を課金部223に出力する。
<課金部223>
課金部223は、選択結果に対応するエージェントに対応して課金情報記憶部222に記憶された課金情報と、選択結果に対応する背景に対応して課金情報記憶部222に記憶された課金情報との少なくとも何れかに基づいて課金を行う。例えば、初めて映像生成装置200を利用する際に、利用者に利用者登録処理を促し、その際に、利用者IDの登録と請求情報(例えば、クレジットカード番号等)の登録を求める。課金が行われた際には、その利用者IDと請求情報とから課金処理を実行する。
課金部223は、選択結果に対応するエージェントのデザインに基づき、時間区間映像を得るように部分映像取得部201に指示する。部分映像取得部201は、N個の時系列音響信号sn(t)を入力とし、N個の各時系列音響信号sn(t)に含まれる各時間区間について、時系列音響信号sn(t)の時間区間に対応するエージェントの演奏映像または歌唱映像(選択結果に対応するエージェントのデザインに対応する演奏映像または歌唱映像)である時間区間映像を得(S201)、時系列映像取得部202に出力する。
課金部223は、選択結果に対応する背景のデザインに基づき、時系列全体映像を生成するように全体映像生成部203に指示する。全体映像生成部203は、選択結果に対応する背景の映像を用いて時系列全体映像を生成し、出力する。
図7のエージェントデザイン選択画面、背景デザイン選択画面の中に「Return」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
選択提示部221は、「Return」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、時系列全体映像を提示するように全体映像生成部203に指示し、全体映像生成部203は、入力受付部213で受け付けられた入力に基づくエージェントのデザイン、背景のデザインで時系列全体映像を生成し(図4参照)、出力する。
このような構成により、課金を含む、より柔軟なシステム設計が可能となる。
本変形例では、エージェントのデザインと背景のデザインとの両方を選択可能としたが、何れか一方のみを選択可能としてもよい。また、エージェントのデザインと背景のデザインとの中で必要な部分のみを課金対象とすればよい。なお、エージェントのデザインは、少なくともN体のエージェントに対して、全て同じデザインを適用してもよいし、エージェント毎に異なるデザインを適用してもよい。エージェント毎に異なるデザインを適用する場合には、利用者がエージェント毎にデザインを選択すればよい。
なお、エージェントのデザインや背景のデザインに代えて、複数のエージェントの配置を選択可能としてもよい。
その場合、課金情報記憶部222には、N体のエージェントそれぞれに対するそれぞれに対するN個の配置からなる第一配置の識別子が少なくとも1つと、各第一配置に対応する課金情報とが記憶される。なお、複数の第一配置を用意した場合には、各第一配置は、互いに異なるものとする。
選択提示部221は、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する(図8参照)。なお、図8の○はエージェント位置を示す。具体的な処理はエージェントのデザインや背景のデザインの場合と同じである。
課金部223は、選択結果に対応する第一配置に対応して課金情報記憶部222に記憶された課金情報に基づいて課金を行う。
なお、選択提示部221は、利用者画面上に、課金情報記憶部222に記憶された複数の第一配置のそれぞれに対応する複数の点(図4中破線で示しているが、この破線で示した複数の点は表示されなくともよく、スライドバーのツマミ部分が離散的に移動するように設計してもよい)を1軸上に並べて提示するとともに、提示された複数の点のうちの何れか1つを利用者が選択可能なスライドバーを提示するものとしてもよい(図4参照)。なお、スライドバーの全ての点を課金対象としてもよいし、スライドバーの一部の点を課金対象としてもよい。
入力受付部213は、選択提示部221が提示したスライドバーによる、提示された複数の点のうちの何れか1つの利用者の選択結果の入力を受け付ける。
なお、この例では、第一配置は、N体のエージェントそれぞれに対するそれぞれに対するN個の配置からなるものとしたが、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなるものとしてもよい。Tを1以上N以下の整数の何れかとする。その他の(N-T)体のエージェントの配置に関しては、システム側で設定してもよいし、利用者が設定してもよい。
<その他の変形例>
本実施形態では、エージェント位置、受聴位置、視点位置をそれぞれ変更可能としたが、必ずしも変更可能としなくともよい。例えば、エージェント位置、受聴位置、視点位置の何れか、または、全てを固定(変更不可能)としてもよい。そのような場合であっても、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。
全体映像生成部203を含まず、時系列映像取得部202の出力値を映像生成装置200の出力としてもよい。そのような場合であっても、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。
また、受聴位置と視点位置とを同一の位置に固定してもよい。そのような設定とすることで、受聴位置と視点位置とを異なるように設定した場合に比べ、利用者が仮想空間上の視点位置(受聴位置)において演奏を聴いているように感じ、高い臨場感を得ることができる。ただし、本実施形態の場合であっても、利用者が受聴位置と視点位置とを同一の位置に設定すれば同様の効果を得ることができる。
なお、本実施形態では、エージェント位置に対応する時系列音響信号sn(t)を定位させているが、エージェント位置とは異なる位置に時系列音響信号sn(t)を定位させてもよい。
本実施形態では、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号を対象としたが、他の時系列音響信号を対象としてもよい。エージェントの映像は、時系列音響信号を表出するものであればよく、演奏または歌唱するエージェントの映像に限定されない。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第二実施形態に係る映像生成装置200は、その前段に音源強調装置100を配置し、音源強調装置100の出力値を入力とする(図9参照)。なお、映像生成装置200が、音源強調装置100を含む構成としてもよい。
音源強調装置100は、N個の時系列音響信号を含む楽曲信号からN個の時系列音響信号をそれぞれ強調し(S100)、強調信号^s(t)を出力する。映像生成装置200では、強調信号^s(t)を時系列音響信号sn(t)の代わりに用いる。
以下に、音源強調装置100の一例を示す。
図10は音源強調装置100の機能ブロック図を、図11はその処理フローを示す。
特定の音源の音信号(強調したい音響信号)をs(t)、強調したい音源以外の雑音の音信号(以下、雑音信号ともいう)をn(t)と表す。例えば、楽曲信号からギターの音だけを抽出したい場合には、ギターの音響信号をs(t)、雑音信号(その他の音源(ベース、ドラム、キーボード、ボーカルなど)が混合された音信号)をn(t)として扱うことを意味する。s(t)、n(t)の周波数領域に展開された信号をS(τ,ω)、N(τ,ω)と表す。ここで、τ,ωは、時間フレーム、周波数のインデックスを表す。この時、強調前の音響信号(混合信号)X(τ,ω)は、以下のように表現される。
X(τ,ω) = S(τ,ω) + N(τ,ω)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。
音源強調装置100は、N種類の、楽器の演奏または歌唱それぞれに係る音源の音響信号sn(t)を含む混合信号x(t)を入力とし、N種類の音響信号sn(t)に対応するN個の強調信号^sn(t)を出力する。ただし、n=1,2,…,Nであり、Nは1以上の整数の何れかである。
音源強調装置100は、周波数領域変換部102、雑音抑圧量推定部103、音源強調部104、時間領域変換部105、データベース部190、特徴量−ラベル生成部191及び事前学習部192を含む。
<周波数領域変換部102>
周波数領域変換部102は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し(S102)、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。
<データベース部190>
データベース部190には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL,n(τ,ω)と、学習用の雑音信号NL,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号SL,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号SL,n(τ,ω)と学習用の雑音信号NL,n(τ,ω)とが用意され、格納されている。なお、XL(τ,ω)=SL,n(τ,ω)+NL,n(τ,ω)であり、データベース部190には、XL(τ,ω),SL,n(τ,ω),NL,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部190または特徴量−ラベル生成部191で計算により求めてもよい。
<特徴量−ラベル生成部191>
特徴量−ラベル生成部191は、従来方式(参考文献2参照)と以下の2点において異なる。
(参考文献2)Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
(差異1)
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、ΩO個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,ΩO}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。
(差異2)
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。
特徴量−ラベル生成部191では、学習用の音響信号SL,n(τ,ω)、学習用の雑音信号NL,n(τ,ω)を入力として、特徴量とラベルとを出力する。特徴量の設計方法は様々あるが、最も単純な例として、学習用の音響信号SL,n(τ,ω)のパワースペクトル|SL,n(τ,ω)|2、学習用の雑音信号NL,n(τ,ω)のパワースペクトル|NL,n(τ,ω)|2やそれを平滑化した値を利用する。また、ラベルの設計方法も様々あるが、最も単純な例として、複数の離散値からなる学習用雑音抑圧量WL,n(τ,ω)を設定する方法がある。パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2や学習用雑音抑圧量WL,n(τ,ω)は、各フレーム時間、各周波数ごとに用意する。学習用雑音抑圧量WL,n(τ,ω)は、以下のように計算する。
ここで、SNRL,nは観測時点のSN比であり、θ1、θ2、…、θC-1は学習用雑音抑圧量WL,nの値(q1、q2、…、qC)を決定する際に用いる閾値であり、θ12<…<θC-1であり、0≦q1<q2<…<qC-1≦1である。ラベル[q1,q2,…,qC]は周波数ωごとに書かれる。閾値θ1、θ2、…、θC-1は実験等により適切な値を求めておく。これは、該当する周波数−時間フレームτで、目的とする音源(e.g. ギター)がどの程度の割合を示す音源かを示す。また、フロア値q1は、0を利用してもよいし、0<q1<q2<…<qC-1≦1を満たす値q1を用いてもよい。例えばq1を0.1〜0.3 程度の値とする。フロア値q1を0より大きな値とすることで、「プッ」っと音が途切れるような音響信号が再生されるのを防ぐことができる。なお、SNRL,nは、以下のように計算される。
このようにして、特徴量−ラベル生成部191は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを求め、出力する。
<事前学習部192>
事前学習部192は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを入力とし、雑音抑圧量推定部103で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。
まず、(i)の連続的な雑音抑圧量を表す方式について簡潔に説明する。例えば、C段階の雑音抑圧量参照値(q=[q1,q2,…,qC]T)とn番目の音響信号Sn(τ,ω)(時間フレームτ、周波数ω)のC段階の雑音抑圧量参照値に対する出力確率をon(τ,ω)=[on,1(τ,ω),…,on,C(τ,ω)]Tとするとき、n番目の音響信号Sn(τ,ω)(時間フレームτ、周波数ω)に対する連続量で表した雑音抑圧量の推定値Wn(τ,ω)は、以下で書くことができる。
Wn(τ,ω)=qTon(τ,ω) (5)
よって、雑音抑圧量の推定値Wn(τ,ω)は、出力確率on(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q1,q2,…,qC]T))の重み付け加算により連続値で表現される。なお、出力確率on(τ,ω)は、雑音抑圧量推定部103を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。
次に、(ii)の再合成時の元の信号の再現性を保証するためのパラメータpを最適化する提案方式について説明する。まず、n番目の音源を強調した信号(以下、強調信号ともいう)を^Sn(τ,ω)と表す。強調信号^Sn(τ,ω)は、
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)=qTon(τ,ω)X(τ,ω) (7)
となる。
N個の強調信号を単純加算した信号と、元の混合信号X(τ,ω)との二乗誤差E(τ)を以下で定義する。
以下のように、二乗誤差E(τ)をニューラルネットの出力層の値on(τ,ω)で微分することで、再合成信号の再現性を考慮して、パラメータpを最適化できるのではないかと考えた。
誤差逆伝搬法(参考文献1参照)に則って、ニューラルネットのパラメータを最適化する方法について簡略的に説明する。
一つの例として、全結合型DNN(Deep Neural Networks)をNN(Neural Networks)構築に用いた場合についてのみ説明する。なお、この部分は、従来のCNN(Convolutional Neural Networks)、RNN(Recurrent Neural Networks)等で置き換え可能である。まず、順方向のニューラルネットの計算について説明する。なお、この順方向のニューラルネットの計算は、最適化されたパラメータpと入力信号(上述の混合信号に相当)X(τ,ω)を入力として、雑音抑圧量推定部103にて行う演算に対応する。入力信号X(τ,ω)をΩO個の周波数バンドに分割し、式(10)のように特徴量化する。
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
ここで、|X(τ,Ω)|2は、Ω番目の周波数バンド、時間フレームτにおける入力信号のバンドパワーを表す。Ω={1,…,ΩO}とする。ψ層目のノード数をJψと表すとき、J1Oである。つまり、1層目のノード数と周波数バンドの総数ΩOとが一致する。また、層の総数をΨとし、ψ=1,2,…,Ψとする。パラメータpは、ニューラルネットで用いられるパラメータであり、重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とが含まれる。以下の計算をΨ-1回繰り返すことでパラメータpが得られる。
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
ここで、各変数の次元は、u(ψ)∈RJ_ψ×1、q(ψ)∈RJ_ψ×1、P(ψ)∈RJ_ψ×J_(ψ-1)、b(ψ)∈RJ_ψ×1である。なお、上付き添え字X_YはXYを意味する。また、f(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをVi,1,…,Vi,Cとする。そして、u(ψ)の対応する要素をuV_i,1,…,uV_i,Cとする。ただし、下付き添え字X_YはXYを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。
なお、
on(τ,ω)=q(Ψ) (15)
である。また、JΨ=C×ΩOである。
次に、誤差逆伝搬法に則って、パラメータpを最適化する計算について説明する。学習用のサンプル総数をDとする。つまり、Dフレーム分のデータを使用する。D個のサンプルに対して、式(11)、(12)の処理を実施する場合、以下のような行列形式で表される。
U(ψ)=P(ψ)Q(ψ-1)+b(ψ)1T D (16)
Q(ψ)=f(ψ)(U(ψ)) (17)
ここで、U(ψ)∈RJ_ψ×D、Q(ψ)∈RJ_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ(ψ)は以下で計算される。
ネットワークパラメータの勾配は、
となるので、以下のように逐次的に更新される。
P(ψ)←P(ψ)+ΔP(ψ) (21)
b(ψ)←b(ψ)+Δb(ψ) (22)
ここで、
ΔP(ψ)=μΔP(ψ)*-γ(∂P(ψ)+λP(ψ)) (23)
Δb(ψ)=μΔb(ψ)*-γ∂b(ψ) (24)
であり、ΔP(ψ)*とΔb(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。
よって、パラメータpは、(i)N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号SL,n(τ,ω)と、(ii)N種類の学習用音響信号SL,nを含む学習用混合信号XL(τ,ω)と、(iii)N種類の学習用音響信号SL,n(τ,ω)に対して付与される雑音抑圧量参照値(q=[q1,q2,…,qC]T))とを用いて、事前に学習されたものと言える。なお、雑音抑圧量参照値(q=[q1,q2,…,qC]T))は、学習用混合信号XL(τ,ω)に含まれる雑音を抑圧する量を示すものである。
<雑音抑圧量推定部103>
雑音抑圧量推定部103は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号Sn(τ,ω)の総和と、の差分が小さくなるように、各音響信号Sn(τ,ω)に対する雑音抑圧量を推定し(S103)、推定値Wn(τ,ω)を出力する。なお、式(10)-(15)の計算と、式(5)を行うことで、推定値Wn(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
を求める。パラメータpに含まれる重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とを用いて、
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
を計算する。前述の通り、f(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
このようにして、q(2),q(3),…,q(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、
なお、
on(τ,ω)=q(Ψ) (15)
である。以上の処理により、on(τ,ω)を求め、次式により、雑音抑圧量の推定値Wψ(τ,ω)を求め、音源強調部104に出力する。
Wn(τ,ω)=qTon(τ,ω) (5)
q=[q1,q2,…,qC]T
on(τ,ω)=[on,1(τ,ω),on,2(τ,ω),…,on,C(τ,ω)]T
なお、この演算はN個の音源nそれぞれに対して行う。
よって、雑音抑圧量の推定値Wn(τ,ω)は、(i)C個の雑音抑圧量参照値q=[q1,q2,…,qC]Tと、(ii)音響信号Sn(τ,ω)の雑音抑圧量参照値qに対する出力確率on(τ,ω)と、の重み付け加算により表現されるものと言える。出力確率on(τ,ω)は、前述の通り、混合信号X(τ,ω)とパラメータpとに基づき得られる値である。
<音源強調部104>
音源強調部104は、混合信号X(τ,ω)とN個の推定値Wn(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号Sn(τ,ω)を強調した強調信号^Sn(τ,ω)を求め(S104)、出力する。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。
<時間領域変換部105>
時間領域変換部105は、強調信号^Sn(τ,ω)を入力とし、周波数領域の強調信号^Sn(τ,ω)を時間領域の強調信号^sn(t)に変換し(S105)、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部102に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。
以上の構成により、従来よりも適切に所望の音源だけを強調し、強調信号群を再合成したときに合成後の信号の歪みを低減することができる。楽曲信号に対して適用することで、楽器音を強調して抽出することができる。例えば、本変形例のように、楽曲のリミックスやリマスタリングなどに適する。
なお、本実施形態では、式(5),(6)-(9),(15)を周波数ωで行っているが、周波数バンドΩで同様の処理を行ってもよい。
本実施形態では、パラメータpを求める際に用いるモデルとしてニューラルネットワークを利用しているが、他のモデル(例えば、混合ガウス分布(GMM))を利用してもよい。
<効果>
音源強調装置100は、楽器(ドラム、ギター、ベース、鍵盤)/ボーカル(男性、女性)ごとに強調するための統計モデル(e.g.ニューラルネットワークのパラメータも含む)を用意されており、ドラム強調音、ギター強調音…といった具合に、それぞれの指定したオーディオオブジェクト毎に強調された強調信号群を出力する。この場合、ドラムを強調した信号に対して、ドラムの演奏行動モデルを適応し、行動パターンを生成するといったことが可能となるので、演奏モデルの対応関係が取りやすいというメリットがある。
なお、本実施形態と第一実施形態の変形例を組合せてもよい。
<実装について>
前述の通り、音源強調装置100を、映像生成装置200の前段に配置してもよいし、映像生成装置200に含まれる構成としてもよい。また、音源強調装置100は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。
音源強調装置100を利用者端末上に実装する場合には、混合信号x(t)をダウンロードしたり、CD等の記録媒体や、混合信号x(t)を記録した利用者端末内の記憶部から取り出し、N個の強調信号^sn(t)を生成し、後段の映像生成装置200に出力する。なお、混合信号x(t)はモノラル信号であってもよいし、ステレオ信号等の多チャネル信号であってもよい。多チャネル信号の場合には、加算したり、重み付け加算してシングルチャネル化することで、本実施形態の混合信号x(t)と同様の処理を適用することができる。また、チャネル毎に混合信号x(t)と同様の処理を適用し、最後に加算したり、重み付け加算してN個の強調信号^sn(t)を生成してもよい。
一方、音源強調装置100をサーバ上に実装した場合には、利用者端末において、混合信号x(t)をダウンロードしたり、CD等の記録媒体や、混合信号x(t)を記録した利用者端末内の記憶部から取り出し、音源強調処理を行わずに、混合信号x(t)(モノラル信号であってもよいし、多チャネル信号であってもよい)を通信回線等を介してサーバに送信する。サーバ上の音源強調装置100は、混合信号x(t)からN個の強調信号^s(t)を生成し、後段の映像生成装置200に出力する。
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
まず、本実施形態の処理内容を説明するために、従来技術(参考文献3)の内容を説明する。
(参考文献3)K. Ohtani, K. Niwa, K. Takeda, "Single Dimensional Control of Spatial Audio Object Arrangement", Proc. of 12th Western Pacific Acoustics Conference 2015 (WESPAC2015), pp. 456-461, Dec. 2015.
<参考文献3の内容>
図12は、従来技術の簡略化した構成図を示す。
再合成部81では、周波数領域の音響信号Sn(τ,ω)および各音響信号に対応する印象操作パラメータrとを入力とし、受聴信号y(L)(t)、y(R)(t)を出力する。なお、受聴信号y(L)(t)、y(R)(t)が、第一実施形態の全体音響信号に相当する。左耳の受聴信号の時間周波数領域表現をY(L)(τ,ω)、右耳の受聴信号の時間周波数領域表現をY(R)(τ,ω)と表した。畳み込み混合に対する周波数領域での演算は以下で表される。
受聴信号y(L)(t)、y(R)(t)は、Y(L)(τ,ω)、Y(R)(τ,ω)を逆離散フーリエ変換することで得られる。H(L) n(ω,r)、H(R) n(ω,r)は、それぞれn番目の音響信号に対する左耳、右耳用の空間印象関数を表す。空間印象関数とは、個々の音源の定位感を操作するための関数で、例えば両耳間の音量差だけを制御するパンニングであれば、以下のようにH(L) n(ω,r)、H(R) n(ω,r)を設計することができる。
座標系の定義は、図13に示す。パンニング関数に含まれるθnは、受聴者に対するn番目の音源の到来角度に相当し、各音源合成パラメータに含まれることになる。また、上下前後方向を含めて、立体感のある音響印象を付加するためには、頭部伝達関数をH(L) n(ω,r)、H(R) n(ω,r)として利用することも可能である。なお、空間印象関数は、受聴者の三次元位置(以下、単に位置と表現)、N個の音源群の位置に応じて計算または選択されるものである。
音源配置推薦部82では、合成パラメータrを出力する。合成パラメータrは、受聴者の位置、N個の音源群の位置で構成される。従来技術では、受聴信号の聴感上の印象が互いに異なるようなJパターンの合成パラメータを推薦する方式を提案した。なお、Jは人間が簡単に選択できる程度の数で10程度を想定している。Jパターンの合成パラメータは、1次元のツマミ/スライダーで操作できるように実装した。これにより、多数のボタン、ツマミ、スライダーがインタフェース上に現れないので、システムの操作に不慣れな利用者でも簡易に利用することができる。以下、聴感上の印象ができるだけ異なるようなJパターンの合成パラメータを算出する方法に関して簡単に説明する。
まず、候補となる合成パラメータはM通り存在することとする。例えば、平面上に25cm間隔で、縦10点、横10点の離散位置を設置し、そのどこかに音源を配置できるとする。N個の音源があるので、M=100PNとなる。M個の音源アレンジ候補から、互いに聴感上の印象が異なるJ種類の合成パラメータを選択するために、聴感上の印象を簡易的に算出することとする。一つの手段として、合成パラメータの内積値で表した。k(i,j)はi番目の合成パラメータriとj番目の合成パラメータrjにおける聴感上の印象の類似性を表す値であり、以下のように計算される。
k(i,j)=ri・rj (35)
ただし、・は内積演算を表す。J種類の合成パラメータの相互的な類似度は次のような行列で表すことが出来る。
できるだけ異なる聴感印象を持つJ種類の合成パラメータを選択することは、Kの非対角成分の値が小さくなるに音源配置を構成することに相当する。行列Kの対角度cを以下のように計算する。
ここで、Tr{・}はトレース演算子である。cが大きくなる際、行列Kは対角行列に近づき、それは、異なる聴覚印象を得られるようなJ種類の音源配置が得られることを示す。つまり、cが大きくなるほど良い。
従来技術では、以下のようなアルゴリズムを実装し、J種類の聴覚印象の異なる合成パラメータを取得するようにした。
ステップ1.存在するM種類の合成パラメータのうちの2種類を選択する全組み合わせに対し、2×2行列Kの対角度cを計算する。
ステップ2.MC2組の中からcを最大化する2種類の合成パラメータの組み合わせを取得する。
ステップ3.前ステップの2種類の合成パラメータに別の合成パラメータを加え、3×3行列Kに対して対角度cを計算する。
M-2種類の合成パラメータについて対角度の計算を繰り返し、対角度cを最大化する合成パラメータを新たに一つ加える。
ステップ4.J種類の合成パラメータを得るまでステップ3を繰り返す。つまり、それまでに加えたj種類の合成パラメータに別の合成パラメータを1つ加え、(j+1)×(j+1)行列Kに対して対角度cを計算する。M-j種類の合成パラメータについて対角度の計算を繰り返し、対角度cを最大化する合成パラメータを新たに一つ加え、j=Jになるまで繰り返す。
<参考文献3の課題>
参考文献3では、受聴信号の聴感上の印象ができる限り異なるようなJ個の音源配置群(J個の合成パラメータrjを含むR)を出力していた。しかし、個々の利用者にとって好ましい印象の音源配置群が提示されているとは限らなかった。そのため、参考文献3では、合成パラメータrjが、各利用者に対して最適化されていないことが課題である。
<本実施形態のポイント>
本実施形態では、参考文献3に含まれる一次元の操作系(ツマミ、スライダー)を用いた楽曲印象操作の機能を保持しつつ、各利用者がクライアント上にあるGUI(Graphical User Interface)で簡易的なフィードバック(e.g.「いいね」ボタンが画面上にあり、それを押すことで利用者の意志を送信する)を送信し、サーバでフィードバックデータを収集し、それを用いてデータ解析することで、各利用者に対して最適化されたと考えられる(各利用者が好ましいと思うような)合成パラメータrを返す機構を追加した。よって、本実施形態の映像生成装置300は、サーバ上に実装される。
これにより、個々の利用者が好ましいと思われる聴感上の印象を得られるような楽曲印象操作系を提供する。
図14は本実施形態の映像生成装置300の機能ブロック図を、図15はその処理フローの例を示す。
映像生成装置300は、映像生成装置200の構成に加え、フィードバック記憶部331と個人最適化部332とを含む。
なお、音響信号生成部204が、図12の再合成部81に相当する。ただし、本実施形態では、音響信号生成部204に利用者ごとに最適化された合成パラメータru(u=1,…,U)が入力される。なお、uは利用者を示すインデックスである。なお、本実施形態では、合成パラメータruは、各エージェントの位置、受聴位置、視点位置を含む。
<入力受付部213>
入力受付部213は、複数の合成パラメータのそれぞれについて、音響信号生成部204で得た全体音響信号を利用者に提示した際の利用者の評価(フィードバック情報fu)の入力を受け付ける。フィードバック情報fuを得るために、利用者画面のGUI上にボタンやスライダー等が配置されているインタフェースが用意されていることを想定する。評価(フィードバック情報fu)の入力を受け付ける例を二つ提示する。
(1)例えば、図4の時系列全体映像の中に「Like」とのボタンアイコンを表示し、利用者が好ましいと感じたときに、そのボタンアイコンを押下するようにする。ボタンが押下されると、エージェント位置、受聴位置、視点位置に関する情報と「Like」ボタンを押したという情報(好印象を持った旨)を伝えるフィードバック情報fuが映像生成装置200に送信される。このような構成とすることで、好ましい音源配置に関する情報を収集できると考えられる。
(2)エージェント位置、受聴位置、視点位置が変更されたときに、利用者が(移動する前の)元々の配置よりも、移動後の配置のほうが好ましいと感じたのだろう推定する。なお、エージェント位置、受聴位置、視点位置を変更するためのインターフェースは、例えば、第一実施形態で説明したものである。変更後のエージェント位置、受聴位置、視点位置に関する情報が送信され、映像生成装置300は変更後の音源位置を好ましいと感じていると判断し、変更後のエージェント位置、受聴位置、視点位置に関する情報とその音源位置が好ましいとの情報をフィードバック情報fuとする。
なお、(1),(2)両方を採用し、双方のフィードバック情報をマージした情報fuを各利用者ごとに送信する機構を有してもよい。
<フィードバック記憶部331>
映像生成装置200の入力受付部213は、そのフィードバック情報fuを受け付け、フィードバック記憶部331に記憶する。このようにして、フィードバック記憶部331は、全利用者u(u=1,…,U)からのフィードバック情報fuを収集し、集約する。ユーザ情報(個人ID、楽曲ID)や利用者のフィードバック情報fuをマージした情報をfと記載する。
<個人最適化部332>
個人最適化部332は、フィードバック情報fを入力とし、フィードバック情報fに少なくとも基づいて、利用者uに適した1つ以上の合成パラメータruを得(S332)、音響信号生成部204及び全体映像生成部203に出力する。
(合成パラメータが一つの場合)
音響信号生成部204は、N個の時系列音響信号を合成パラメータに含まれるエージェント位置と受聴位置とを用いて合成して全体音響信号を得、出力する。
全体映像生成部203は、合成パラメータruに含まれるエージェント位置と視点位置を用いて、エージェントの位置に、それぞれ対応するN種類のエージェントの時系列映像を配置し、それを視点位置から見た1つの時系列全体映像を生成し、出力する。
(合成パラメータが複数の場合)
選択提示部221は、利用者画面上に、複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、提示された複数の点のうちの何れか1つを利用者が選択可能なスライドバーを提示する(図4参照)。
入力受付部213は、選択提示部221が提示したスライドバーによる、提示された複数の点のうちの何れか1つの利用者の選択結果の入力を受け付ける。選択結果に対応する合成パラメータに含まれるエージェント位置と受聴位置を音響信号生成部204に出力し、合成パラメータに含まれるエージェント位置と視点位置を全体映像生成部203に出力する。音響信号生成部204及び全体映像生成部203における処理は合成パラメータが一つの場合と同様である。
ただし、合成パラメータが複数の場合、必ずしも利用者が選択可能なスライドバーを提示する必要はなく、他の方法で選択可能としてもよい。例えば、複数の合成パラメータに対応する複数の配置(エージェント位置、受聴位置、視点位置の配置)を提示する配置選択画面を表示し、利用者に選択可能としてもよい。また、必ずしも選択可能としなくともよい。例えば、映像生成装置300側で、何らかの方法で、複数の配置の中から1つの配置を選択してもよい。例えば、利用者uに最も適した配置を選択してもよいし、ランダムに選択してもよいし、利用者uに適した度合いを重みとしてランダムに選択してもよい。
個人最適化部332において、フィードバック情報fに少なくとも基づいて、利用者uに適した1つ以上の合成パラメータruを得る方法を説明する。
処理は、大きく2ブロックで構成される。
(i)まず、利用者uが、フィードバック情報fuを返す条件下で、エージェント位置、受聴位置及び視点位置の配置(以下、単に配置ともいう)lを好む確率P(l|u,f)を混合数Jの混合ガウス分布(GMM)を利用してモデル化する。例えば、混合数Jの混合ガウス分布(GMM)でフィッティングし、モデル化する。フィッティングのアルゴリズムはEMアルゴリズムといった従来からよく用いられているものを利用すればよい。
(ii)その後、J個それぞれのガウス分布の平均値に一番近い配置インデックス群(J個)を合成パラメータruを構成する要素として抽出し、出力する。以下では、配置lを好む確率をP(l|u,f)の求め方を説明する。
(i)第1のブロックであるP(l|u,f)を算出するための方法について述べる。まず、フィードバック情報fuに基づいて、各利用者uについて、フィードバック情報fuに基づく各配置lに対する好みを表す確率関数Q(l|u,f)を計算する。
ここで、|fu|は「Like」ボタンを押した回数、fu(i)はi回目に「Like」ボタンを押したときの合成パラメータ(音源等の配置)を表すインデックス、Gauss(a,b)は、平均a、分散bのガウス関数を表す。その後、前回システム終了時の利用者uが各配置lを好む確率P*(l|u,f)とフィードバック情報fuに基づく各配置lに対する好みを表す確率関数Q(l|u,f)を時定数0<α<1で重みづけして加算することで、各配置lを好む確率P(l|u,f)を更新する。
ここで、P(l|u',f)は、利用者u'が各配置lを好む確率であり、利用者uに対してどの程度他の利用者u'の各配置lに対する好みを表すP(l|u',f)を足し込むのかを重み係数wu,u'で表している。wu,u'は例えば以下のように実装される。
ここで、0<b<1はバイアスパラメータであり、利用者u自身の好みの反映を保証する程度を表す。式(41)の
は、フィードバック情報を多く返す利用者に対しては利用者自身の好みをより強く反映させることに対応する。相対的に、フィードバック情報をあまり返さないユーザに対しては他のユーザのフィードバック情報の影響をより強く反映させることになる。また、式(41)の
は、他者の好みに対しては、重み係数wu,u'を一定にし、一様に取り入れることに対応する。また、フィードバック情報をあまり返さない利用者の場合、分子(1-wu,u)が大きくなり、他の利用者のフィードバック情報の影響をより強く反映させることになる。よって、評価の回数が多い利用者ほど、その利用者の評価をより強く反映させた合成パラメータを得ることができる。
このようにして、各配置lを好む確率をP(l|u,f)を求め、各配置lを好む確率P(l|u,f)からお勧めの配置(J個の合成パラメータ)を抽出することができる。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、楽曲のオブジェクトを自在に操作できる楽曲定位操作系において、各利用者の好ましいと感じるように、合成パラメータが最適化されていく。それにより、利用者の利用頻度が高まるような楽曲定位操作系が構築される。
なお、合成パラメータの最適化を行うという観点からすると、映像生成装置300を合成パラメータ最適化装置と呼んでもよい。
全体映像生成部203、音響信号生成部204、入力受付部213では、複数の合成パラメータのそれぞれに対応する利用者の評価を得ており、全体映像生成部203、音響信号生成部204、入力受付部213を含む構成を評価部ともいう。
全体音響信号を聴く際に合成パラメータを最適化する場合(時系列全体映像が不要な場合)、音響信号生成部204、入力受付部213、フィードバック記憶部331、個人最適化部332とを含めばよく、合成パラメータはエージェント位置と受聴位置を含めばよい。エージェント位置や受聴位置を利用者が編集できるようにする場合には、俯瞰映像提示部212や全体映像生成部203を含めばよい。
一方、時系列全体映像を見る際に合成パラメータを最適化する場合(全体音響信号が不要な場合)、全体映像生成部203と入力受付部213、フィードバック記憶部331、個人最適化部332とを含めばよく、合成パラメータはエージェント位置と視点位置を含めばよい。エージェント位置や視点位置を利用者が編集できるようにする場合には、俯瞰映像提示部212を含めばよい。
なお、本実施形態と第一実施形態、第二実施形態、または、それらの変形例とを組合せてもよい。
<第一変形例>
第三実施形態と異なる部分を中心に説明する。
映像生成装置300は、さらに、選択提示部221と課金部223と課金情報記憶部222とを含む(図14中、破線で示す)。
<課金情報記憶部222>
課金情報記憶部222には、複数の合成パラメータの識別子と、各合成パラメータに対応する課金情報が記憶されている。
<選択提示部221>
図4の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置300に送信される。映像生成装置300の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
選択提示部221は、「Select」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、利用者画面にエージェントデザイン選択画面、背景デザイン選択画面を提示するように全体映像生成部203に指示し、全体映像生成部203は合成パラメータ選択画面を生成し、出力する。選択提示部221は、全体映像生成部203を介して合成パラメータ選択画面を利用者に提示する。図16は合成パラメータ選択画面の例を示す。なお、図16中、○はエージェント位置を、●は受聴位置を、□は視点位置を示す。
例えば、合成パラメータ選択画面では以下のような操作が可能である。
合成パラメータ選択画面には、合成パラメータに含まれるエージェント位置、受聴位置及び視点位置と、その合成パラメータの値段(課金情報)とを提示する。
利用者は、複数の合成パラメータの中から一つの合成パラメータを選択することができる。例えば、入力部または入力装置を使って、デザインをタップ(クリック)することで選択することができる。
このようにして、入力受付部213は、利用者の選択結果を受け付ける。
なお、入力受付前には、合成パラメータの初期値が設定されているものとする。なお、二回目以降に映像生成装置を利用した場合は、前回の利用終了時の各エージェントデザイン、背景をそれぞれ利用してもよい。
入力受付部213は、選択結果を課金部223に出力する。
<課金部223>
課金部223は、選択結果に対応する合成パラメータに対応して課金情報記憶部222に記憶された課金情報に基づいて課金を行う。
課金部223は、選択結果に対応する合成パラメータに含まれるエージェント位置と視点位置で時系列全体映像を得るように全体映像生成部203に指示する。
課金部223は、選択結果に対応する合成パラメータに含まれるエージェント位置と受聴位置で、全体音響信号を生成するように音響信号生成部204に指示する。
図16の合成パラメータ選択画面の中に「Return」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置300に送信される。映像生成装置300の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
選択提示部221は、「Return」とのボタンアイコンが押下されたことを伝える制御信号を受け取ると、時系列全体映像を提示するように全体映像生成部203に指示し、全体映像生成部203は、入力受付部213で受け付けられた入力に基づく合成パラメータに含まれるエージェント位置と視点位置で時系列全体映像を生成し、出力する。
なお、選択提示部221は、利用者画面上に、課金情報記憶部222に記憶された複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、提示された複数の点のうちの何れか1つを利用者が選択可能なスライドバーを提示するものとしてもよい(図4参照)。
入力受付部213は、選択提示部221が提示したスライドバーによる、提示された複数の点のうちの何れか1つの利用者の選択結果の入力を受け付ける。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (30)

  1. Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、時系列音響信号と演奏または歌唱するもののモーションである行動のパターンとの関係を表す行動生成モデルを用いて、該時系列音響信号の該時間区間に対応する情報からモーションである行動のパターンを推定し、全ての行動のパターンに対応するエージェントの演奏映像または歌唱映像が事前に記憶されている記憶部から、推定した行動のパターンに対応するエージェントの演奏映像または歌唱映像を取り出すことで、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含む、
    映像生成装置。
  2. 請求項1の映像生成装置であって、
    前記N個の時系列音響信号を含む楽曲信号から前記N個の時系列音響信号をそれぞれ強調する音源強調部を更に含む、
    映像生成装置。
  3. 請求項1〜の何れかの映像生成装置であって、
    前記行動生成モデルは、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを用いて、事前に学習により得られる、
    映像生成装置。
  4. 請求項1〜の何れかの映像生成装置において用いられる行動生成モデルを学習する映像生成モデル学習装置であって、
    N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、前記行動生成モデルを学習する事前学習部を含む、
    映像生成モデル学習装置。
  5. 請求項の映像生成モデル学習装置であって、
    前記行動生成モデルは、時間遷移を考慮したモデルである、
    映像生成モデル学習装置。
  6. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部とを更に含み、
    前記全体映像生成部は、前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
    映像生成装置。
  7. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
    前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部とを更に含み、
    前記全体映像生成部は、前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
    映像生成装置。
  8. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付部とを更に含み、
    前記全体映像生成部は、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付部で受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
    映像生成装置。
  9. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
    前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付部とを更に含み、
    前記全体映像生成部は、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付部で受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
    映像生成装置。
  10. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部と、
    前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む
    映像生成装置。
  11. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
    前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部と、
    前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む
    映像生成装置。
  12. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付部と、
    前記時系列音響信号を用いて、前記受聴位置入力受付部で受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む、
    映像生成装置。
  13. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
    前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
    利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
    利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付部と、
    前記時系列音響信号を用いて、前記受聴位置入力受付部で受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む、
    映像生成装置。
  14. Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、
    (i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶された記憶部と、
    利用者画面上に、(i)前記記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか1つと、(ii)前記記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか1つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示部と、
    前記選択提示部で提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
    (i)前記利用者選択入力受付部で選択された1つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して前記記憶部に記憶された課金情報と、(ii)前記利用者選択入力受付部で選択された1つの被選択物に対応する仮想空間の背景映像に対応して前記記憶部に記憶された課金情報との少なくとも何れかに基づいて、前記利用者に課金を行う課金部とを含む、
    映像生成装置。
  15. Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
    前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、
    Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶された記憶部と、
    利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する選択提示部と、
    前記選択提示部で提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
    前記利用者選択入力受付部で選択された1つの被選択物に対応する第一配置に対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金部とを含む、
    映像生成装置。
  16. 請求項1の映像生成装置であって、
    前記記憶部には、複数の第一配置が記憶され、
    前記選択提示部は、
    利用者画面上に、前記記憶部に記憶された複数の第一配置のそれぞれに対応する複数の点を1軸上に並べて提示するとともに、前記提示された複数の点のうちの何れか1つを前記利用者が選択可能なスライドバーを提示するものであり、
    前記利用者選択入力受付部は、
    前記選択提示部が提示したスライドバーによる、前記提示された複数の点のうちの何れか1つの前記利用者の選択結果の入力を受け付けるものである、
    映像生成装置。
  17. Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、時系列音響信号と演奏または歌唱するもののモーションである行動のパターンとの関係を表す行動生成モデルを用いて、該時系列音響信号の該時間区間に対応する情報からモーションである行動のパターンを推定し、全ての行動のパターンに対応するエージェントの演奏映像または歌唱映像が事前に記憶されている記憶部から、推定した行動のパターンに対応するエージェントの演奏映像または歌唱映像を取り出すことで、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含む、
    映像生成方法。
  18. 請求項1の映像生成方法において用いられる行動生成モデルを学習する映像生成モデル学習方法であって、
    事前学習部が、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、前記行動生成モデルを学習する事前学習ステップを含む、
    映像生成モデル学習方法。
  19. 請求項18の映像生成モデル学習方法であって、
    前記行動生成モデルは、時間遷移を考慮したモデルである、
    映像生成モデル学習方法。
  20. Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、
    (i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶部に記憶されるものとし、
    選択提示部が、利用者画面上に、(i)前記記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか1つと、(ii)前記記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか1つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示ステップと、
    利用者選択入力受付部が、前記選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
    課金部が、(i)前記利用者選択入力受付ステップで選択された1つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して前記記憶部に記憶された課金情報と、(ii)前記利用者選択入力受付部で選択された1つの被選択物に対応する仮想空間の背景映像に対応して前記記憶部に記憶された課金情報との少なくとも何れかに基づいて、前記利用者に課金を行う課金ステップとを含む、
    映像生成方法。
  21. Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、
    Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶部に記憶されるものとし、
    選択提示部が、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する選択提示ステップと、
    利用者選択入力受付部が、前記選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
    課金部が、前記利用者選択入力受付ステップで選択された1つの被選択物に対応する第一配置に対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金ステップとを含む、
    映像生成方法。
  22. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
    エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップとを更に含み、
    前記全体映像生成部は、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
    映像生成方法。
  23. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
    エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップとを更に含み、
    前記全体映像生成部は、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
    映像生成方法。
  24. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
    視点位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付ステップとを更に含み、
    前記全体映像生成部は、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
    映像生成方法。
  25. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
    視点位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付ステップとを更に含み、
    前記全体映像生成部は、
    前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
    映像生成方法。
  26. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
    エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップと、
    音響信号生成部が、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む
    映像生成方法。
  27. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
    エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップと、
    音響信号生成部が、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む
    映像生成方法。
  28. Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
    受聴位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付ステップと、
    音響信号生成部が、前記時系列音響信号を用いて、前記受聴位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む、
    映像生成方法。
  29. Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
    部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
    時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
    全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
    俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
    受聴位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付ステップと、
    音響信号生成部が、前記時系列音響信号を用いて、前記受聴位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む、
    映像生成方法。
  30. 請求項1から請求項及び請求項から請求項1の何れかの映像生成装置、または、請求項若しくは請求項の映像生成モデル学習装置として、コンピュータを機能させるためのプログラム。
JP2016165787A 2016-08-26 2016-08-26 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム Active JP6701478B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016165787A JP6701478B2 (ja) 2016-08-26 2016-08-26 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016165787A JP6701478B2 (ja) 2016-08-26 2016-08-26 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018032316A JP2018032316A (ja) 2018-03-01
JP6701478B2 true JP6701478B2 (ja) 2020-05-27

Family

ID=61305099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016165787A Active JP6701478B2 (ja) 2016-08-26 2016-08-26 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6701478B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022025686A1 (ko) * 2020-07-29 2022-02-03 (주) 마로스튜디오 사운드 또는 텍스트 인식 기반의 동영상 캐릭터 자동 생성 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203140B (zh) * 2020-09-10 2022-04-01 北京达佳互联信息技术有限公司 一种视频剪辑方法、装置、电子设备及存储介质
JP2024136470A (ja) * 2023-03-24 2024-10-04 ヤマハ株式会社 パフォーマンス情報生成方法、パフォーマンス情報生成装置、およびプログラム
CN117880444B (zh) * 2024-03-12 2024-05-24 之江实验室 一种长短时特征引导的人体康复运动视频数据生成方法
CN118172452B (zh) * 2024-05-15 2024-08-27 广东工业大学 一种基于时间相关性的头部动画生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5706718B2 (ja) * 2011-03-02 2015-04-22 Kddi株式会社 動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022025686A1 (ko) * 2020-07-29 2022-02-03 (주) 마로스튜디오 사운드 또는 텍스트 인식 기반의 동영상 캐릭터 자동 생성 시스템

Also Published As

Publication number Publication date
JP2018032316A (ja) 2018-03-01

Similar Documents

Publication Publication Date Title
Gan et al. Foley music: Learning to generate music from videos
Ofli et al. Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis
JP6701478B2 (ja) 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム
KR20210041567A (ko) 신경망을 이용한 하이브리드 오디오 합성
EP3824461A1 (en) Method and system for creating object-based audio content
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
KR102192210B1 (ko) Lstm 기반 댄스 모션 생성 방법 및 장치
Bryan et al. ISSE: An interactive source separation editor
CN110211556A (zh) 音乐文件的处理方法、装置、终端及存储介质
Lee et al. Sound-guided semantic video generation
Camurri et al. The MEGA project: Analysis and synthesis of multisensory expressive gesture in performing art applications
Jin et al. MetaMGC: a music generation framework for concerts in metaverse
Seetharaman et al. Audealize: Crowdsourced audio production tools
Choi et al. A proposal for foley sound synthesis challenge
Jeong et al. Träumerai: Dreaming music with stylegan
CN113691909A (zh) 具有音频处理推荐的数字音频工作站
Nistal et al. Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models
JP6504614B2 (ja) 合成パラメータ最適化装置、その方法、及びプログラム
Tachibana et al. A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques
Kamath et al. Example-Based Framework for Perceptually Guided Audio Texture Generation
Cherep et al. Creative Text-to-Audio Generation via Synthesizer Programming
Mayor et al. Kaleivoicecope: voice transformation from interactive installations to video games
CN114120943A (zh) 虚拟演唱会的处理方法、装置、设备、介质及程序产品
Wang Multimodal robotic music performance art based on GRU-GoogLeNet model fusing audiovisual perception
Serrano A neural analysis-synthesis approach to learning procedural audio models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6701478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250