JP6701478B2 - 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム - Google Patents
映像生成装置、映像生成モデル学習装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6701478B2 JP6701478B2 JP2016165787A JP2016165787A JP6701478B2 JP 6701478 B2 JP6701478 B2 JP 6701478B2 JP 2016165787 A JP2016165787 A JP 2016165787A JP 2016165787 A JP2016165787 A JP 2016165787A JP 6701478 B2 JP6701478 B2 JP 6701478B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- series
- video
- image
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 61
- 230000005236 sound signal Effects 0.000 claims description 241
- 238000003860 storage Methods 0.000 claims description 61
- 230000009471 action Effects 0.000 claims description 58
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 56
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 54
- 230000006399 behavior Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 22
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 22
- 230000033001 locomotion Effects 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 153
- 238000003786 synthesis reaction Methods 0.000 description 55
- 238000013461 design Methods 0.000 description 54
- 230000015572 biosynthetic process Effects 0.000 description 52
- 230000001629 suppression Effects 0.000 description 38
- 238000013528 artificial neural network Methods 0.000 description 29
- 238000012545 processing Methods 0.000 description 29
- 239000011159 matrix material Substances 0.000 description 12
- 230000001755 vocal effect Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
- Auxiliary Devices For Music (AREA)
Description
図1は第一実施形態に係る映像生成装置の機能ブロック図を、図2はその処理フローを示す。
本実施形態では、深層学習を用いて、音と行動の関係をあらかじめニューラルネットワークを用いて記述することで、音を入力するだけで行動パターンを推定する。
(参考文献1)岡谷貴之, ”深層学習(第一版)”, 講談社サイエンティフィク, 2015, p.7-54.
このようにして、学習用時系列音響信号sL2,n(t)を特徴量子化したベクトル群(e.g.フィルタバンク出力パワー)と教師となる学習用行動ラベルLL2,n(t)との組から成るデータセットをあらかじめ用意する。学習用行動ラベルLL2,n(t)は、例えば、10パターンの行動があらかじめ用意されているとし、3番目の行動インデックスがマニュアルで与えたラベルとすると「0,0,1,0,0,0,0,0,0,0」のような系列をラベルベクトルとする。
事前学習部291は、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号sL2,n(t)と、N個の各学習用時系列音響信号sL2,n(t)に含まれる各時間区間の演奏または歌唱するものの行動を示す学習用行動ラベルLL2,n(t)とを入力とし、時系列音響信号sn(t)と演奏または歌唱するものの行動との関係を表す行動生成モデルを学習し、学習結果を部分映像取得部201に出力する。なお、演奏または歌唱するものの行動の遷移には傾向があり、現在の行動から次の行動を推定することができる。そのため、行動生成モデルは、時間遷移を考慮したモデルであることが望ましい。
部分映像取得部201は、学習結果(本実施形態ではニューラルネットワークで用いるネットワークパラメータ)を入力とし、事前にニューラルネットワークに与えておく。
時系列映像取得部202は、時系列音響信号sn(t)の時間区間に対応する時間区間映像を入力とし、N個の各時系列音響信号sn(t)(n=1,2,…,N)について、時系列音響信号sn(t)について部分映像取得部201で得た1個以上の時間区間映像を時系列順に組み合わせることにより、時系列音響信号sn(t)全体に対応するエージェントの演奏または歌唱に係る時系列映像を得(S202)、出力する。
時系列映像は、時系列音響信号sn(t)毎に得られるものであり、1種類の楽器または歌唱に係るエージェントの演奏または歌唱の映像である。
入力受付部213は、利用者からの入力(以下、利用者入力ともいう)を受け付ける。なお、利用者入力は、利用者端末の入力部(タッチパネル等)や利用者端末に接続された入力装置(タッチパネルディスプレイやマウス、キーボード等)を介して利用者の操作により入力される。図4の時系列全体映像の中に「edit」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、俯瞰映像提示部212に制御信号を出力する。
音響信号生成部204は、N個の時系列音響信号sn(t)とN個のエージェント位置と受聴位置とを入力とし、エージェント位置に対応する時系列音響信号sn(t)に対する定位操作をし、それらを加算することで、受聴位置から受聴した際の全体音響信号を得(S204)、出力する。
以上の構成により、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができ、音楽に含まれる楽器/ボーカル信号群と演奏/ダンスといった行動を自動で記述することができる。これは、CDやインターネット経由で配信された音楽からライブのような映像へ自動で可視化することに役立つ。
映像生成装置200は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。事前学習部291をサーバ上に実装し、それ以外の構成を利用者端末上に実装し、学習結果(パラメータ、さらには、パラメータにより特定される映像生成モデル)を部分映像取得部201で利用してもよい。事前学習部291は、映像生成モデルを学習する装置として、別途設けてもよい。この観点から事前学習部291を映像生成モデル学習装置ともいう。例えば、利用者端末としてはスマホ、タブレット、PC等が考えられる。
第一実施形態と異なる部分を中心に説明する。
課金情報記憶部222には、(i)少なくとも1つのエージェントの識別子と、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する、少なくとも1つの仮想空間の背景の識別子と、各背景に対応する課金情報とが記憶されている。図6は、課金情報記憶部222に記憶されるデータの例を示す。なお、課金情報は0以上であればよい。
図4の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置200に送信される。映像生成装置200の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
課金部223は、選択結果に対応するエージェントに対応して課金情報記憶部222に記憶された課金情報と、選択結果に対応する背景に対応して課金情報記憶部222に記憶された課金情報との少なくとも何れかに基づいて課金を行う。例えば、初めて映像生成装置200を利用する際に、利用者に利用者登録処理を促し、その際に、利用者IDの登録と請求情報(例えば、クレジットカード番号等)の登録を求める。課金が行われた際には、その利用者IDと請求情報とから課金処理を実行する。
本実施形態では、エージェント位置、受聴位置、視点位置をそれぞれ変更可能としたが、必ずしも変更可能としなくともよい。例えば、エージェント位置、受聴位置、視点位置の何れか、または、全てを固定(変更不可能)としてもよい。そのような場合であっても、音響信号から、その音響信号を演奏または歌唱するエージェントの映像を生成することができるという効果を奏する。
第一実施形態と異なる部分を中心に説明する。
X(τ,ω) = S(τ,ω) + N(τ,ω)
なお、混合信号X(τ,ω)の時間領域表現は、x(t)である。
周波数領域変換部102は、時間領域の混合信号x(t)を入力とし、時間領域の混合信号x(t)を周波数領域の混合信号X(τ,ω)に変換し(S102)、出力する。時間領域の信号を周波数領域の信号に変換する方法として、例えば、短時間フーリエ変換等を用いる。
データベース部190には、学習用の混合信号XL(τ,ω)と、それを構成する強調したい学習用の音響信号SL,n(τ,ω)と、学習用の雑音信号NL,n(τ,ω)とが格納されている。なお、例えば、ギターの音を強調するような雑音抑圧量を推定する場合、学習用の音響信号SL,n(τ,ω)がギターの音のみが入った音響信号であり、学習用の雑音信号NL,n(τ,ω)はその他楽器/ボーカルの音響信号を加算した信号である。n=1,2,…,Nであり、N種類全ての、楽器の演奏または歌唱それぞれに係る音源に対して、学習用の音響信号SL,n(τ,ω)と学習用の雑音信号NL,n(τ,ω)とが用意され、格納されている。なお、XL(τ,ω)=SL,n(τ,ω)+NL,n(τ,ω)であり、データベース部190には、XL(τ,ω),SL,n(τ,ω),NL,n(τ,ω)のうちの何れか二つを記憶しておき、残りの1つをデータベース部190または特徴量−ラベル生成部191で計算により求めてもよい。
特徴量−ラベル生成部191は、従来方式(参考文献2参照)と以下の2点において異なる。
(参考文献2)Y. Wang, A. Narayanan and D.L.Wang, "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 1849-1858, 2014.
従来方式では、周波数ごとに特徴量-ラベルを用意していた。本実施形態では、複数の周波数を集約化した周波数バンドごとに特徴量-ラベルを用意するような実装を行う。なお、ΩO個のバンドで構成されるとし、そのインデックス集合をΩ={1,…,ΩO}と表す。従来方式ではラベルを2値化しているため、周波数ごとにラベルを用意している。一方、本実施形態では、ラベルを2値以上のパターン(例えば4段階[1,0.5,0.3,0.1])となるように実装している。ラベルの値は、どの程度雑音を抑圧したらよいかを表している。2値以上のパターンでラベルの値を表すことになるので、以後、この値のことをマスクではなく雑音抑圧量と表現することにする。なお、ラベルの値を雑音抑圧量参照値ともいう。雑音抑圧量参照値のパターン数は、実験では4程度で利用しているが、これはパターン数が多くし過ぎると、どのパターンに属するかについての推定精度が悪くなる、または、学習データの量が膨大になることが想定されるためである。
分離後の強調信号群(ギター、ベース、ドラム等)を再合成した際に、元の混合信号との歪を計算し、できるだけその歪を小さくなるようにしたい。よって、特徴量-ラベルのセットは、全ての音源分計算する必要がある。例えば、ボーカル、ギター、ベース、ドラム、キーボードの5つの音源に分類する場合には、音源数N=5であり、N=5組の特徴量-ラベルを用意する。
事前学習部192は、特徴量(例えば、パワースペクトル|SL,n(τ,ω)|2、|NL,n(τ,ω)|2やそれを平滑化した値)とラベル(学習用雑音抑圧量WL,n(τ,ω))とを入力とし、雑音抑圧量推定部103で雑音抑圧量を推定するために必要となるパラメータpを求め、出力する。(i)2値以上の値を利用して連続的な雑音抑圧量を表す点と、(ii)N個の強調信号群を再合成した際に、元の混合信号との歪が小さくなるように雑音抑圧量の最適設定できるという2点において、従来方式との差分がある。
Wn(τ,ω)=qTon(τ,ω) (5)
よって、雑音抑圧量の推定値Wn(τ,ω)は、出力確率on(τ,ω)を重みとする2個以上の離散値(雑音抑圧量参照値(q=[q1,q2,…,qC]T))の重み付け加算により連続値で表現される。なお、出力確率on(τ,ω)は、雑音抑圧量推定部103を構成するニューラルネットワークの出力値であり、以下の関係が成立するように正規化されて出力される。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)=qTon(τ,ω)X(τ,ω) (7)
となる。
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
ここで、各変数の次元は、u(ψ)∈RJ_ψ×1、q(ψ)∈RJ_ψ×1、P(ψ)∈RJ_ψ×J_(ψ-1)、b(ψ)∈RJ_ψ×1である。なお、上付き添え字X_YはXYを意味する。また、f(ψ)(・)はψ層目の活性化関数である。例えばΨ-1層目までの計算では、ランプ関数(ReLU)を用いることが多い。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。周波数バンドΩに対応するノード(C種類の雑音抑圧量参照値に対する出現確率値)のインデックスをVi,1,…,Vi,Cとする。そして、u(ψ)の対応する要素をuV_i,1,…,uV_i,Cとする。ただし、下付き添え字X_YはXYを意味する。その場合、最終層の出力値はソフトマックス関数で表すことができる。
on(τ,ω)=q(Ψ) (15)
である。また、JΨ=C×ΩOである。
U(ψ)=P(ψ)Q(ψ-1)+b(ψ)1T D (16)
Q(ψ)=f(ψ)(U(ψ)) (17)
ここで、U(ψ)∈RJ_ψ×D、Q(ψ)∈RJ_ψ×Dである。ネットワークパラメータの勾配は、出力層から入力層の順に計算される。正解値に最も近いC種類の雑音抑圧量参照値にのみ1を立てたベクトルをΞとするとき、ψ層目の勾配Δ(ψ)は以下で計算される。
P(ψ)←P(ψ)+ΔP(ψ) (21)
b(ψ)←b(ψ)+Δb(ψ) (22)
ここで、
ΔP(ψ)=μΔP(ψ)*-γ(∂P(ψ)+λP(ψ)) (23)
Δb(ψ)=μΔb(ψ)*-γ∂b(ψ) (24)
であり、ΔP(ψ)*とΔb(ψ)*は前回の更新における摂動であり、γは学習係数、μはモメンタム、λは重み減衰である。
雑音抑圧量推定部103は、混合信号X(τ,ω)とパラメータpとを入力とし、混合信号X(τ,ω)と、N種類の音響信号Sn(τ,ω)の総和と、の差分が小さくなるように、各音響信号Sn(τ,ω)に対する雑音抑圧量を推定し(S103)、推定値Wn(τ,ω)を出力する。なお、式(10)-(15)の計算と、式(5)を行うことで、推定値Wn(τ,ω)を得る。つまり、混合信号X(τ,ω)を用いて、
q(1)=[|X(τ,1)|2,…,|X(τ,ΩO)|2]T (10)
を求める。パラメータpに含まれる重み行列{P(2),…,P(Ψ)}とバイアス{b(2),…,b(Ψ)}とを用いて、
u(ψ)=P(ψ)q(ψ-1)+b(ψ) (11)
q(ψ)=f(ψ)(u(ψ)) (12)
を計算する。前述の通り、f(ψ)(・)はψ層目の活性化関数であり、例えば、Ψ-1層目までの計算では、ランプ関数(ReLU)を用いる。
f(ψ)(u(ψ))=max(0,u(ψ)) (ψ=2,…,Ψ-1) (13)
このようにして、q(2),q(3),…,q(Ψ-1)を求める。最終層では、各周波数バンドごとに確率値(C種類の雑音抑圧量参照値に対する出現確率値)を算出する必要がある。その場合、最終層の出力値はソフトマックス関数で表すことができる。よって、
on(τ,ω)=q(Ψ) (15)
である。以上の処理により、on(τ,ω)を求め、次式により、雑音抑圧量の推定値Wψ(τ,ω)を求め、音源強調部104に出力する。
q=[q1,q2,…,qC]T
on(τ,ω)=[on,1(τ,ω),on,2(τ,ω),…,on,C(τ,ω)]T
なお、この演算はN個の音源nそれぞれに対して行う。
音源強調部104は、混合信号X(τ,ω)とN個の推定値Wn(τ,ω)とを入力とし、次式により、混合信号X(τ,ω)に含まれる音響信号Sn(τ,ω)を強調した強調信号^Sn(τ,ω)を求め(S104)、出力する。
^Sn(τ,ω)=Wn(τ,ω)X(τ,ω)
なお、この演算はN個の音源nそれぞれに対して行う。
時間領域変換部105は、強調信号^Sn(τ,ω)を入力とし、周波数領域の強調信号^Sn(τ,ω)を時間領域の強調信号^sn(t)に変換し(S105)、出力する。周波数領域の信号を時間領域の信号に変換する方法として、周波数領域変換部102に対応する方法を用いればよい。例えば、逆短時間フーリエ変換等を用いる。
音源強調装置100は、楽器(ドラム、ギター、ベース、鍵盤)/ボーカル(男性、女性)ごとに強調するための統計モデル(e.g.ニューラルネットワークのパラメータも含む)を用意されており、ドラム強調音、ギター強調音…といった具合に、それぞれの指定したオーディオオブジェクト毎に強調された強調信号群を出力する。この場合、ドラムを強調した信号に対して、ドラムの演奏行動モデルを適応し、行動パターンを生成するといったことが可能となるので、演奏モデルの対応関係が取りやすいというメリットがある。
前述の通り、音源強調装置100を、映像生成装置200の前段に配置してもよいし、映像生成装置200に含まれる構成としてもよい。また、音源強調装置100は、利用者端末上に実装してもよいし、サーバ上に実装してもよい。
第一実施形態と異なる部分を中心に説明する。
(参考文献3)K. Ohtani, K. Niwa, K. Takeda, "Single Dimensional Control of Spatial Audio Object Arrangement", Proc. of 12th Western Pacific Acoustics Conference 2015 (WESPAC2015), pp. 456-461, Dec. 2015.
図12は、従来技術の簡略化した構成図を示す。
k(i,j)=ri・rj (35)
ただし、・は内積演算を表す。J種類の合成パラメータの相互的な類似度は次のような行列で表すことが出来る。
ステップ1.存在するM種類の合成パラメータのうちの2種類を選択する全組み合わせに対し、2×2行列Kの対角度cを計算する。
ステップ2.MC2組の中からcを最大化する2種類の合成パラメータの組み合わせを取得する。
ステップ3.前ステップの2種類の合成パラメータに別の合成パラメータを加え、3×3行列Kに対して対角度cを計算する。
ステップ4.J種類の合成パラメータを得るまでステップ3を繰り返す。つまり、それまでに加えたj種類の合成パラメータに別の合成パラメータを1つ加え、(j+1)×(j+1)行列Kに対して対角度cを計算する。M-j種類の合成パラメータについて対角度の計算を繰り返し、対角度cを最大化する合成パラメータを新たに一つ加え、j=Jになるまで繰り返す。
参考文献3では、受聴信号の聴感上の印象ができる限り異なるようなJ個の音源配置群(J個の合成パラメータrjを含むR)を出力していた。しかし、個々の利用者にとって好ましい印象の音源配置群が提示されているとは限らなかった。そのため、参考文献3では、合成パラメータrjが、各利用者に対して最適化されていないことが課題である。
本実施形態では、参考文献3に含まれる一次元の操作系(ツマミ、スライダー)を用いた楽曲印象操作の機能を保持しつつ、各利用者がクライアント上にあるGUI(Graphical User Interface)で簡易的なフィードバック(e.g.「いいね」ボタンが画面上にあり、それを押すことで利用者の意志を送信する)を送信し、サーバでフィードバックデータを収集し、それを用いてデータ解析することで、各利用者に対して最適化されたと考えられる(各利用者が好ましいと思うような)合成パラメータrを返す機構を追加した。よって、本実施形態の映像生成装置300は、サーバ上に実装される。
入力受付部213は、複数の合成パラメータのそれぞれについて、音響信号生成部204で得た全体音響信号を利用者に提示した際の利用者の評価(フィードバック情報fu)の入力を受け付ける。フィードバック情報fuを得るために、利用者画面のGUI上にボタンやスライダー等が配置されているインタフェースが用意されていることを想定する。評価(フィードバック情報fu)の入力を受け付ける例を二つ提示する。
映像生成装置200の入力受付部213は、そのフィードバック情報fuを受け付け、フィードバック記憶部331に記憶する。このようにして、フィードバック記憶部331は、全利用者u(u=1,…,U)からのフィードバック情報fuを収集し、集約する。ユーザ情報(個人ID、楽曲ID)や利用者のフィードバック情報fuをマージした情報をfと記載する。
個人最適化部332は、フィードバック情報fを入力とし、フィードバック情報fに少なくとも基づいて、利用者uに適した1つ以上の合成パラメータruを得(S332)、音響信号生成部204及び全体映像生成部203に出力する。
音響信号生成部204は、N個の時系列音響信号を合成パラメータに含まれるエージェント位置と受聴位置とを用いて合成して全体音響信号を得、出力する。
選択提示部221は、利用者画面上に、複数の合成パラメータのそれぞれに対応する複数の点を1軸上に並べて提示するとともに、提示された複数の点のうちの何れか1つを利用者が選択可能なスライドバーを提示する(図4参照)。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、楽曲のオブジェクトを自在に操作できる楽曲定位操作系において、各利用者の好ましいと感じるように、合成パラメータが最適化されていく。それにより、利用者の利用頻度が高まるような楽曲定位操作系が構築される。
第三実施形態と異なる部分を中心に説明する。
課金情報記憶部222には、複数の合成パラメータの識別子と、各合成パラメータに対応する課金情報が記憶されている。
図4の時系列全体映像の中に「Select」とのボタンアイコンを表示し、利用者がそのボタンアイコンを押下すると、その旨を伝える制御信号が映像生成装置300に送信される。映像生成装置300の入力受付部213は、その制御信号を受け付け、選択提示部221に制御信号を出力する。
課金部223は、選択結果に対応する合成パラメータに対応して課金情報記憶部222に記憶された課金情報に基づいて課金を行う。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (30)
- Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、時系列音響信号と演奏または歌唱するもののモーションである行動のパターンとの関係を表す行動生成モデルを用いて、該時系列音響信号の該時間区間に対応する情報からモーションである行動のパターンを推定し、全ての行動のパターンに対応するエージェントの演奏映像または歌唱映像が事前に記憶されている記憶部から、推定した行動のパターンに対応するエージェントの演奏映像または歌唱映像を取り出すことで、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含む、
映像生成装置。 - 請求項1の映像生成装置であって、
前記N個の時系列音響信号を含む楽曲信号から前記N個の時系列音響信号をそれぞれ強調する音源強調部を更に含む、
映像生成装置。 - 請求項1〜2の何れかの映像生成装置であって、
前記行動生成モデルは、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを用いて、事前に学習により得られる、
映像生成装置。 - 請求項1〜3の何れかの映像生成装置において用いられる行動生成モデルを学習する映像生成モデル学習装置であって、
N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、前記行動生成モデルを学習する事前学習部を含む、
映像生成モデル学習装置。 - 請求項4の映像生成モデル学習装置であって、
前記行動生成モデルは、時間遷移を考慮したモデルである、
映像生成モデル学習装置。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部とを更に含み、
前記全体映像生成部は、前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
映像生成装置。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部とを更に含み、
前記全体映像生成部は、前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
映像生成装置。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付部とを更に含み、
前記全体映像生成部は、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付部で受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
映像生成装置。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付部とを更に含み、
前記全体映像生成部は、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付部で受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
映像生成装置。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部と、
前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む
映像生成装置。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付部と、
前記エージェント位置入力受付部で受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む
映像生成装置。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付部と、
前記時系列音響信号を用いて、前記受聴位置入力受付部で受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む、
映像生成装置。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得部と、
前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成部とを含み、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成部を更に含み、
利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示部と、
利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付部と、
前記時系列音響信号を用いて、前記受聴位置入力受付部で受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成部とを更に含む、
映像生成装置。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、
(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶された記憶部と、
利用者画面上に、(i)前記記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか1つと、(ii)前記記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか1つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示部と、
前記選択提示部で提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
(i)前記利用者選択入力受付部で選択された1つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して前記記憶部に記憶された課金情報と、(ii)前記利用者選択入力受付部で選択された1つの被選択物に対応する仮想空間の背景映像に対応して前記記憶部に記憶された課金情報との少なくとも何れかに基づいて、前記利用者に課金を行う課金部とを含む、
映像生成装置。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得部と、
前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得部で得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成部と、
Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶された記憶部と、
利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する選択提示部と、
前記選択提示部で提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付部と、
前記利用者選択入力受付部で選択された1つの被選択物に対応する第一配置に対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金部とを含む、
映像生成装置。 - 請求項15の映像生成装置であって、
前記記憶部には、複数の第一配置が記憶され、
前記選択提示部は、
利用者画面上に、前記記憶部に記憶された複数の第一配置のそれぞれに対応する複数の点を1軸上に並べて提示するとともに、前記提示された複数の点のうちの何れか1つを前記利用者が選択可能なスライドバーを提示するものであり、
前記利用者選択入力受付部は、
前記選択提示部が提示したスライドバーによる、前記提示された複数の点のうちの何れか1つの前記利用者の選択結果の入力を受け付けるものである、
映像生成装置。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、時系列音響信号と演奏または歌唱するもののモーションである行動のパターンとの関係を表す行動生成モデルを用いて、該時系列音響信号の該時間区間に対応する情報からモーションである行動のパターンを推定し、全ての行動のパターンに対応するエージェントの演奏映像または歌唱映像が事前に記憶されている記憶部から、推定した行動のパターンに対応するエージェントの演奏映像または歌唱映像を取り出すことで、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含む、
映像生成方法。 - 請求項17の映像生成方法において用いられる行動生成モデルを学習する映像生成モデル学習方法であって、
事前学習部が、N種類の、楽器の演奏または歌唱それぞれに係る学習用音響信号であるN個の学習用時系列音響信号と、前記N個の各学習用時系列音響信号に含まれる各時間区間の演奏または歌唱するものの行動を示す行動ラベルとを入力とし、前記行動生成モデルを学習する事前学習ステップを含む、
映像生成モデル学習方法。 - 請求項18の映像生成モデル学習方法であって、
前記行動生成モデルは、時間遷移を考慮したモデルである、
映像生成モデル学習方法。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、
(i)少なくとも1つのエージェントと、各エージェントに対応する課金情報と、(ii)エージェントが演奏または歌唱する少なくとも1つの仮想空間の背景と、各背景に対応する課金情報と、の少なくとも何れかの課金情報が記憶部に記憶されるものとし、
選択提示部が、利用者画面上に、(i)前記記憶部に記憶された少なくとも1つのエージェントの映像に対応する少なくとも1つの被選択物のうちの何れか1つと、(ii)前記記憶部に記憶された少なくとも1つの背景の映像に対応する少なくとも1つの被選択物のうちの何れか1つとの少なくとも何れか一方を利用者が選択可能なように提示する選択提示ステップと、
利用者選択入力受付部が、前記選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
課金部が、(i)前記利用者選択入力受付ステップで選択された1つの被選択物に対応するエージェントの演奏映像または歌唱映像に対応して前記記憶部に記憶された課金情報と、(ii)前記利用者選択入力受付部で選択された1つの被選択物に対応する仮想空間の背景映像に対応して前記記憶部に記憶された課金情報との少なくとも何れかに基づいて、前記利用者に課金を行う課金ステップとを含む、
映像生成方法。 - Nを1以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップと、
Tを1以上N以下の整数の何れかとし、N体のエージェントのうちのT体のエージェントそれぞれに対するT個の配置からなる第一配置が少なくとも1つと、各第一配置に対応する課金情報とが記憶部に記憶されるものとし、
選択提示部が、利用者画面上に、少なくとも1つの第一配置に対応する少なくとも1つの被選択物のうちの何れか1つを利用者が選択可能なように提示する選択提示ステップと、
利用者選択入力受付部が、前記選択提示ステップで提示した少なくとも1つの被選択物のうちの何れか1つの前記利用者の選択結果の入力を受け付ける利用者選択入力受付ステップと、
課金部が、前記利用者選択入力受付ステップで選択された1つの被選択物に対応する第一配置に対応して前記記憶部に記憶された課金情報に基づいて、前記利用者に課金を行う課金ステップとを含む、
映像生成方法。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップとを更に含み、
前記全体映像生成部は、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
映像生成方法。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップとを更に含み、
前記全体映像生成部は、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記N種類のエージェントの時系列映像を配置した1つの時系列全体映像を得る、
映像生成方法。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
視点位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付ステップとを更に含み、
前記全体映像生成部は、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
映像生成方法。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
視点位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の視点を配置するための入力を受け付ける視点位置入力受付ステップとを更に含み、
前記全体映像生成部は、
前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記所定の仮想空間内に前記N種類のエージェントのそれぞれが配置された1つの時系列全体映像であって、前記視点位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の視点からの時系列全体映像を得る、
映像生成方法。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップと、
音響信号生成部が、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む
映像生成方法。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間を俯瞰する映像を提示する俯瞰映像提示ステップと、
エージェント位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、前記N種類のエージェントのそれぞれを配置するための入力を受け付けるエージェント位置入力受付ステップと、
音響信号生成部が、前記エージェント位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の各位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む
映像生成方法。 - Nは2以上の整数の何れかとし、N種類の、楽器の演奏または歌唱それぞれに係る音響信号であるN個の時系列音響信号のそれぞれについて、該時系列音響信号全体を演奏または歌唱するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N個の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの演奏映像または歌唱映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N個の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの演奏または歌唱に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
受聴位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付ステップと、
音響信号生成部が、前記時系列音響信号を用いて、前記受聴位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む、
映像生成方法。 - Nを2以上の整数の何れかとし、N種類の時系列音響信号のそれぞれについて、該時系列音響信号全体を表出するエージェントの映像である時系列映像を得るものとし、
部分映像取得部が、前記N種類の各時系列音響信号に含まれる各時間区間について、該時系列音響信号の該時間区間に対応するエージェントの表出映像である時間区間映像を得る部分映像取得ステップと、
時系列映像生成部が、前記N種類の各時系列音響信号について、該時系列音響信号について前記部分映像取得ステップで得た1個以上の時間区間映像を時系列順に組み合わせることにより、該時系列音響信号全体に対応するエージェントの表出に係る時系列映像を得る時系列映像生成ステップとを含み、
全体映像生成部が、前記時系列映像生成部が得たN種類のエージェントの時系列映像を用いて、前記N種類のエージェントの時系列映像を部分映像として含む1つの時系列映像である時系列全体映像を得る全体映像生成ステップを更に含み、
俯瞰映像提示部が、利用者画面に所定の仮想空間内に前記時系列映像生成部が得たN種類のエージェントのそれぞれが配置された状態を俯瞰する映像を提示する俯瞰映像提示ステップと、
受聴位置入力受付部が、利用者が、前記俯瞰映像提示部が提示した画面上の所望の位置に、利用者の受聴点を配置するための入力を受け付ける受聴位置入力受付ステップと、
音響信号生成部が、前記時系列音響信号を用いて、前記受聴位置入力受付ステップで受け付けられた入力に基づく前記仮想空間内の受聴点から受聴した際に、前記所定の仮想空間内に前記N種類のエージェントの位置に、前記各時系列音響信号を定位させた全体音響信号を得る音響信号生成ステップとを更に含む、
映像生成方法。 - 請求項1から請求項3及び請求項6から請求項16の何れかの映像生成装置、または、請求項4若しくは請求項5の映像生成モデル学習装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016165787A JP6701478B2 (ja) | 2016-08-26 | 2016-08-26 | 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016165787A JP6701478B2 (ja) | 2016-08-26 | 2016-08-26 | 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018032316A JP2018032316A (ja) | 2018-03-01 |
JP6701478B2 true JP6701478B2 (ja) | 2020-05-27 |
Family
ID=61305099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016165787A Active JP6701478B2 (ja) | 2016-08-26 | 2016-08-26 | 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6701478B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022025686A1 (ko) * | 2020-07-29 | 2022-02-03 | (주) 마로스튜디오 | 사운드 또는 텍스트 인식 기반의 동영상 캐릭터 자동 생성 시스템 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112203140B (zh) * | 2020-09-10 | 2022-04-01 | 北京达佳互联信息技术有限公司 | 一种视频剪辑方法、装置、电子设备及存储介质 |
JP2024136470A (ja) * | 2023-03-24 | 2024-10-04 | ヤマハ株式会社 | パフォーマンス情報生成方法、パフォーマンス情報生成装置、およびプログラム |
CN117880444B (zh) * | 2024-03-12 | 2024-05-24 | 之江实验室 | 一种长短时特征引导的人体康复运动视频数据生成方法 |
CN118172452B (zh) * | 2024-05-15 | 2024-08-27 | 广东工业大学 | 一种基于时间相关性的头部动画生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5706718B2 (ja) * | 2011-03-02 | 2015-04-22 | Kddi株式会社 | 動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体 |
-
2016
- 2016-08-26 JP JP2016165787A patent/JP6701478B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022025686A1 (ko) * | 2020-07-29 | 2022-02-03 | (주) 마로스튜디오 | 사운드 또는 텍스트 인식 기반의 동영상 캐릭터 자동 생성 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP2018032316A (ja) | 2018-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gan et al. | Foley music: Learning to generate music from videos | |
Ofli et al. | Learn2dance: Learning statistical music-to-dance mappings for choreography synthesis | |
JP6701478B2 (ja) | 映像生成装置、映像生成モデル学習装置、その方法、及びプログラム | |
KR20210041567A (ko) | 신경망을 이용한 하이브리드 오디오 합성 | |
EP3824461A1 (en) | Method and system for creating object-based audio content | |
JP2023552854A (ja) | ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム | |
KR102192210B1 (ko) | Lstm 기반 댄스 모션 생성 방법 및 장치 | |
Bryan et al. | ISSE: An interactive source separation editor | |
CN110211556A (zh) | 音乐文件的处理方法、装置、终端及存储介质 | |
Lee et al. | Sound-guided semantic video generation | |
Camurri et al. | The MEGA project: Analysis and synthesis of multisensory expressive gesture in performing art applications | |
Jin et al. | MetaMGC: a music generation framework for concerts in metaverse | |
Seetharaman et al. | Audealize: Crowdsourced audio production tools | |
Choi et al. | A proposal for foley sound synthesis challenge | |
Jeong et al. | Träumerai: Dreaming music with stylegan | |
CN113691909A (zh) | 具有音频处理推荐的数字音频工作站 | |
Nistal et al. | Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models | |
JP6504614B2 (ja) | 合成パラメータ最適化装置、その方法、及びプログラム | |
Tachibana et al. | A real-time audio-to-audio karaoke generation system for monaural recordings based on singing voice suppression and key conversion techniques | |
Kamath et al. | Example-Based Framework for Perceptually Guided Audio Texture Generation | |
Cherep et al. | Creative Text-to-Audio Generation via Synthesizer Programming | |
Mayor et al. | Kaleivoicecope: voice transformation from interactive installations to video games | |
CN114120943A (zh) | 虚拟演唱会的处理方法、装置、设备、介质及程序产品 | |
Wang | Multimodal robotic music performance art based on GRU-GoogLeNet model fusing audiovisual perception | |
Serrano | A neural analysis-synthesis approach to learning procedural audio models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160826 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180410 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6701478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |