[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPWO2020080268A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JPWO2020080268A1
JPWO2020080268A1 JP2020527832A JP2020527832A JPWO2020080268A1 JP WO2020080268 A1 JPWO2020080268 A1 JP WO2020080268A1 JP 2020527832 A JP2020527832 A JP 2020527832A JP 2020527832 A JP2020527832 A JP 2020527832A JP WO2020080268 A1 JPWO2020080268 A1 JP WO2020080268A1
Authority
JP
Japan
Prior art keywords
feature amount
content
information processing
partial data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020527832A
Other languages
English (en)
Other versions
JP7439755B2 (ja
Inventor
健人 赤間
健人 赤間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020080268A1 publication Critical patent/JPWO2020080268A1/ja
Application granted granted Critical
Publication of JP7439755B2 publication Critical patent/JP7439755B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/131Morphing, i.e. transformation of a musical piece into a new different one, e.g. remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本開示に係る情報処理装置(100)は、学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部(132)と、取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部(133)と、第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部(134)とを備える。

Description

本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、機械学習を経て生成される学習済みモデルの生成処理に関する。
様々な技術分野において、機械学習を利用した情報処理が活用されている。例えば、脳神経系の仕組みを模したニューラルネットワークを利用してコンテンツ(画像や音楽等)の特徴を学習することで、新たなコンテンツを自動的に生成すること等が行われている。
例えば、既存の曲の特徴を学習することにより、ユーザが歌詞以外のパラメータを入力せずとも、歌詞に合った適切な曲を自動的に作曲することを可能とする技術が提案されている。
特開2011−175006号公報
従来技術によれば、各曲の歌詞を表す歌詞データから算出される言語特徴量と当該曲の属性を表す属性データとを学習することにより、新たな歌詞データが与えられれば、新たな歌詞データに合わせた曲を自動的に生成することができる。
しかしながら、従来技術は、歌詞に沿ったメロディやコードが生成されるに過ぎず、曲全体の構成(ストラクチャー)に関して、人間が作曲したような自然な曲が生成されるとは限らない。すなわち、従来技術では、コンテンツの全体的な構成の特徴を学習したり、全体的な構成を保ったまま新たなコンテンツを生成したりすることは困難である。
そこで、本開示では、コンテンツの全体的な構成としての特徴を学習することのできる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
上記の課題を解決するために、本開示に係る一形態の情報処理装置は、学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部とを備える。
本開示の実施形態に係る情報処理の一例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示す図である。 本開示の実施形態に係る曲データ記憶部の一例を示す図である。 本開示の実施形態に係る情報処理の手順を示すフローチャート(1)である。 本開示の実施形態に係る情報処理の手順を示すフローチャート(2)である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1.実施形態
1−1.本開示の実施形態に係る情報処理の概要
1−2.実施形態に係る情報処理装置の構成
1−3.実施形態に係る情報処理の手順
2.その他の実施形態
3.ハードウェア構成
(1.実施形態)
[1−1.本開示の実施形態に係る情報処理の概要]
図1は、本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理は、図1に示す情報処理装置100によって実現される。
情報処理装置100は、本開示に係る情報処理を実行する装置であり、例えば、情報処理端末やサーバ装置である。
実施形態において、情報処理装置100は、コンテンツの特徴を抽出するための学習済みモデルを有する。実施形態では、コンテンツは、例えば音楽(曲)や、画像や、動画等、所定の形式のデジタルデータで構成される。図1の例では、情報処理装置100は、コンテンツの一例として曲を処理に用いる。
実施形態に係る学習済みモデルは、コンテンツを構成するデータから特徴量を抽出するエンコーダ(encoder)と、抽出された特徴量からコンテンツを再構成するデコーダ(decoder)とを有する。例えば、情報処理装置100は、VAE(Variational Auto Encoder)やGAN(Generative Adversarial Networks)等、教師なし学習によってエンコーダを学習する。具体的には、情報処理装置100は、コンテンツをエンコーダに入力し、抽出された特徴量からコンテンツを再構成し、元のコンテンツと再構成後のコンテンツとを比較して、エンコーダ及びデコーダのパラメータを調整する。情報処理装置100は、かかる処理を繰り返し、エンコーダ及びデコーダのパラメータを最適化することで、学習済みモデルを生成する。これにより、情報処理装置100は、コンテンツを構成するデータから適切な特徴量を得ることのできる学習済みモデルを生成することができる。なお、特徴量とは、例えば、入力されるコンテンツのデータよりも次元数の低いベクトル等で表現される。
なお、学習済みモデルは、上記の例に限らず、特徴量を抽出し、抽出した特徴量からコンテンツを再構成することができれば、どのような形式のモデルであってもよい。
図1の例では、情報処理装置100は、曲(言い換えれば、曲を構成する音を示すデジタルデータ)をエンコーダに入力することで、その曲の特徴量として、メロディラインや構成音、リズム(音楽における時間的な構造、例えば、音符や休符がどれくらい含まれるか、どのような順序で音が再生されるか等)、テンポ、拍子など、その曲の特徴を示す要素を抽出する。なお、実施形態では、曲のデータは、音高(発音される音の高さを示したデータ)や音長(発音された音符がどのくらいの長さ維持されるかを示したデータ)休符のタイミング等を示したデータ(例えば、ベクトル形式)で表されるものとする。
ここで、上記のような既存曲の特徴量を利用して新たな曲を自動生成する場合には、人為的に作成された既存の曲のような、自然な構成を有した曲を生成することが一つの課題となりうる。しかしながら、任意の曲の特徴量をそのまま抽出すると、その曲の特徴を再現することは可能であるものの、全体として自然な構成を有した曲を生成することは難しい。具体的には、自動生成された曲において、曲の一部の特徴的なメロディラインや音の構成(モチーフ等とも称される)は類似したものが再現されたとしても、曲全体の中でモチーフの特徴がどのように変化しているかといった曲の構成自体を再現することが難しい。すなわち、従来では、人為的に作成された既存の曲のような自然な構成を有し、かつ、既存曲のようなある程度の長さを有する曲を自動生成することが困難であった。
そこで、本開示に係る情報処理装置100は、以下に説明する情報処理により、曲全体の構成を示す特徴量を算出することを可能にするとともに、当該特徴量を用いて、自然な曲を自動生成することを可能にする。具体的には、情報処理装置100は、上記した学習済みエンコーダを用いて、曲を構成する部分データごと(例えば、1小節ごと)の特徴量を取得する。さらに、情報処理装置100は、部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、曲の構成の特徴を示した相対的特徴量系列を算出する。このように、情報処理装置100は、ある長さの曲を部分データが並べられた系列とみなし、それらの相対的な特徴量を算出することで、曲全体において遷移する特徴量を求めることで、曲全体の構造を表現する。言い換えれば、情報処理装置100は、相対的特徴量系列によって、曲全体の構造をモデル化する。そして、情報処理装置100は、曲全体の構成の特徴を示した相対的特徴量系列を用いて、新たな曲を生成する。これにより、情報処理装置100は、既存曲の構成の特徴を保持した、自然な構成を有する新たな曲を自動生成することができる。なお、特徴量の系列とは、曲を構成する部分データごとの特徴量を順に並べて系列化したものである。
以下、図1を用いて、本開示の情報処理の概要を流れに沿って説明する。なお、以下の説明では、特徴量が算出される対象となるコンテンツを「第1コンテンツ」と称し、第1コンテンツの相対的特徴量系列に基づいて生成される新たなコンテンツを「第2コンテンツ」と称する場合がある。また、図1等で提示する学習済みエンコーダは、単に「エンコーダ」と称する。また、学習済みデコーダは、単に「デコーダ」と称する。
図1に示すように、まず、情報処理装置100は、第1コンテンツとして曲30を取得し、曲30を部分データに分割する(ステップS1)。例えば、情報処理装置100は、曲30を小節ごとに分割する。なお、図1の例では、曲30が6つの小節を有する例を示しているが、曲30は、より多くの小節を有していてもよい。
曲30は、例えば、音高や音長、休符を示す記号列(デジタルデータ)により構成される。一例として、音高は、音の高さを示す周波数を所定の段階(例えば128段階等)で表現したものである。また、音長は、再生された音がどのくらいの長さを維持するかを表現したものである。また、休符は、音の再生が休止するタイミングを表現したものである。また、曲30を示すデータには、曲30の拍子やテンポ、小節の区切りを示す記号、あるタイミングにおけるコードや、コードを構成する構成音等の情報が含まれてもよい。
例えば、情報処理装置100は、上記の記号列をモデルで取り扱うことができるよう変換する。一例として、情報処理装置100は、上記の記号列をベクトルで表現したもの(例えば、各次元に音高や音長等が割り当てられた、音情報を示す埋め込み(embedding)ベクトル)を処理に用いる。埋め込みベクトルは、例えばd次元(dは任意の整数)であり、対応する音(例えば、音の高さを示す「C4」等の情報)に対応する次元に「1」が入力され、その他の次元に「0」が入力されたベクトルである。なお、このような音を示すデータは、例えばMIDI(Musical Instrument Digital Interface)(登録商標)形式で表現されてもよいし、汎用のシーケンサーで再生可能な既知の形式のデジタルデータであってもよいし、WAV形式等の波形データとして表現されてもよい。
情報処理装置100は、種々の既知の手法を用いて曲30を部分データに分割してもよい。例えば、情報処理装置100は、予め設定された小節の区切りを検出し、曲30を部分データ(小節)に分割する。あるいは、情報処理装置100は、拍子と音符の関係に基づいて曲30を部分データに分割してもよい。例えば、情報処理装置100は、曲30が4分の4拍子であれば、四分音符に該当する長さの音が4つ再生された時点を一つの区切りと検出し、曲30を小節に分割する。
また、情報処理装置100は、部分データとして、小節以外の区切りを用いてもよい。例えば、情報処理装置100は、曲30のメロディラインの区切り(例えば、所定の閾値を超える長さの休符が登場した箇所等)を検出して、部分データに分割してもよい。この場合、部分データは、必ずしも小節とは一致しなくてもよい。
情報処理装置100は、曲30をステップS1において小節に区切り、各部分データを抽出する(ステップS2)。図1の例では、各部分データを「x(nは任意の自然数)」と示す。例えば、「x」は、曲30の1番目の小節に含まれるデータを示す。
続けて、情報処理装置100は、抽出した各部分データを順にエンコーダ50に入力する(ステップS3)。これにより、情報処理装置100は、各部分データの特徴量を得る(ステップS4)。
図1の例では、各部分データの特徴量を「z」と示す。例えば、「z」は、曲30の1番目の小節の特徴量を示す。
ここで、情報処理装置100は、取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出する(ステップS5)。一例として、情報処理装置100は、部分データ同士の相対的な特徴量として、各部分データの特徴量から、ある共通する部分データの特徴量を減算し、相対的特徴量を算出する。
図1の例では、情報処理装置100は、各部分データの特徴量から、1番目の小節の特徴量である「z」を減算することで相対的特徴量を算出するものとする。なお、この算出は一例であり、情報処理装置100は、相対的特徴量の算出として、特徴量を加算したり、乗算したり、除算したりしてもよい。また、情報処理装置100は、各部分データから「z」を減算するのではなく、他の小節の部分データを減算してもよい。
情報処理装置100は、算出した相対的特徴量に基づいて、曲30の構造を示す特徴量の系列である相対的特徴量系列を算出する(ステップS6)。相対的特徴量系列は、例えば、曲30の構造に対応するよう、相対的特徴量を順に並べて系列化したものである。なお、図1の例では、「zn+1−z」に対応する相対的特徴量を「r」として示す。すなわち、図1の例では、曲30に対応する相対的特徴量系列は、「(r1,r2,r3,r4,r5)」と表現される。
以上、ステップS6までの処理により、情報処理装置100は、曲30の構造を示す相対的特徴量系列を算出する。その後、情報処理装置100は、新たに生成する曲(第2コンテンツ)のモチーフとなる任意の情報を取得する。
例えば、情報処理装置100は、新たに生成する曲のモチーフとなる情報として、所定の曲35の1番目の小節に含まれるデータを取得する(ステップS7)。なお、情報処理装置100は、新たに生成する曲のモチーフとなる情報として、必ずしも1つの小節に含まれるデータを取得することを要せず、例えば、任意の曲全体のデータを取得してもよい。
図1の例では、取得した任意のデータ(具体的には、曲35の1番目の小節に含まれるデータ)を「x」と示す。
続けて、情報処理装置100は、「x」をエンコーダ50に入力する(ステップS8)。これにより、情報処理装置100は、「x」に対応する特徴量を得る。図1の例では、「x」に対応する特徴量を「z」と示す。
そして、情報処理装置100は、取得した特徴量「z」と、曲30の構造を示す相対的特徴量とに基づいて、新規に生成する第2コンテンツに対応する特徴量系列を生成する(ステップS9)。一例として、情報処理装置100は、「z」を先頭とするとともに、曲30の相対的特徴量の各々に「z」を付与した特徴量系列を生成する。具体的には、情報処理装置100は、「(z,z+r1,z+r2,z+r3,z+r4,z+r5)」といった情報を有する特徴量系列を生成する。すなわち、情報処理装置100は、曲30が有する構造の特徴に、さらに「z」が付された特徴量系列を生成する。
情報処理装置100は、ステップS9において生成した特徴量系列をデコーダ60に入力する(ステップS10)。デコーダ60は、エンコーダ50が抽出した特徴量に基づいてコンテンツを再構成するよう学習されたデコーダである。図1の例では、デコーダ60は、エンコーダ50が抽出した特徴量に基づいて、曲(正確には、音を再生するためのデジタルデータ)を再構成する。
情報処理装置100は、デコーダ60の出力から、特徴量系列に対応した各小節の音データを取得する。情報処理装置100は、取得したデータを系列の順に並べることにより、曲40を生成する(ステップS11)。曲40は、曲35の1番目の小節をモチーフとしつつ、曲30の構造の特徴を保持する曲である。
このように、本開示に係る情報処理装置100は、エンコーダ50を用いて、第1コンテンツ(図1の例では曲30)を構成する部分データごとの特徴量を取得する。そして、情報処理装置100は、取得した部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する。すなわち、情報処理装置100は、第1コンテンツそのものの特徴量を算出するのではなく、第1コンテンツを構成する部分データの特徴量を順に並べた系列を取得する。これにより、情報処理装置100は、第1コンテンツの構造(第1コンテンツが曲であれば、時間方向に対応した曲全体の流れや盛り上がり等)を特徴として抽出することができる。
さらに、本開示に係る情報処理装置100は、第1コンテンツの相対的特徴量系列と、任意のデータの特徴量(図1の例では、曲35の1番目の小節の特徴量である「z」)とに基づいて、第2コンテンツ(図1の例では曲40)を生成する。すなわち、情報処理装置100は、第1コンテンツの構造を示す特徴量系列と、新たなデータの特徴量とに基づいて新規な特徴量系列を生成し、新規な特徴量系列に基づいてコンテンツを再構成する。これにより、情報処理装置100は、第1コンテンツの構造を保持しつつ、新たなモチーフや構成音を取り入れた新規な曲を第2コンテンツとして生成することができる。なお、図1では、情報処理装置100は、各部分データの特徴量から特徴量「z」を減算することで相対的特徴量を算出する例を示した。しかし、この例に限らず、情報処理装置100は、加減乗除や相関に類する特徴量を抜き出す特徴量抽出器により、相対的特徴量を算出してもよい。また、情報処理装置100は、各部分データの特徴量の類似性や因果関係によりグラフ構造を抽出し、グラフデータに対する機械学習手法等によって相対特徴量系列を計算してもよい。
[1−2.実施形態に係る情報処理装置の構成]
次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図2は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。
図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100を管理する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、他の装置等との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、モデル記憶部121と、曲データ記憶部122とを有する。
モデル記憶部121は、予め学習された学習済みモデルを記憶する。具体的には、モデル記憶部121は、コンテンツの特徴量を抽出するエンコーダ50と、コンテンツを再構成するデコーダ60とを有する。なお、モデル記憶部121は、学習に用いたコンテンツ等の学習データを記憶してもよい。
曲データ記憶部122は、モデルに入力されるコンテンツ(曲)に関するデータを記憶する。図3に、実施形態に係る曲データ記憶部122の一例を示す。図3は、本開示の実施形態に係る曲データ記憶部122の一例を示す図である。図3に示した例では、曲データ記憶部122は、「曲ID」、「部分データID」、「音高情報」、「音長休符情報」、「コード情報」、「リズム情報」といった項目を有する。
「曲ID」は、曲を識別する識別情報である。「部分データID」は、部分データを識別する識別情報である。部分データは、例えば、曲を構成する1つ又は複数の小節等に対応する。
「音高情報」は、部分データに含まれる音の音高(音階)の情報を示す。「音長休符情報」は、部分データに含まれる音の長さ(再生時間や、再生される拍数)や、休符の長さやタイミングを示す。「コード情報」は、部分データに含まれるコードの種類や、コードの構成音、小節内のコードの切り替わり等を示す。「リズム情報」は、小節の拍子やテンポ、強拍、弱拍の位置等を示す。
なお、図3では、音高情報等の項目を「C01」のように概念的に記載しているが、実際には、各項目には、上記で説明したような音を示す具体的なデータが記憶される。また、図3では、説明のため、「音高情報」や「音長休符情報」等が異なる項目として記憶される例を示しているが、これらの情報は、小節に含まれる音符を示す情報として、一つの項目等にまとめて記憶されてもよい。すなわち、曲を示すデータの形式は、図3に図示したものに限られず、モデルで取り扱うことのできる形式であれば、いずれであってもよい。
例えば、図3に示した例では、曲IDが「A01」で識別される曲は、部分データIDが「B01」や「B02」で識別される部分データを有することを示している。また、部分データIDが「B01」である部分データは、音高情報が「C01」、音長休符情報が「D01」、コード情報が「E01」、リズム情報が「F01」で示される音データを含むことを示している。
図2に戻り、説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部130は、学習部131と、取得部132と、算出部133と、生成部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
学習部131は、コンテンツを学習データとして所定の学習処理を行い、学習済みモデルを生成する。
例えば、学習部131は、曲等の音データを学習する場合、音データをエンコーダ50に入力し、音データの特徴量を抽出する。続けて、学習部131は、音データの特徴量をデコーダ60に入力し、エンコーダ50に入力された音データを再構成する。そして、学習部131は、前後の音データの相違が小さくなるよう、エンコーダ50及びデコーダ60のパラメータを調整する。学習部131は、かかる処理を繰り返し、エンコーダ50及びデコーダ60が最適化された学習済みモデルを生成する。上述のように、学習部131は、VAEやGAN等、種々の既知の手法を用いてモデルを生成してもよい。
取得部132は、各種情報を取得する。例えば、取得部132は、学習部131によって学習されたモデルに入力する第1コンテンツを取得する。
また、取得部132は、取得した第1コンテンツを分割し、第1コンテンツを構成する部分データを取得する。例えば、取得部132は、第1コンテンツが曲である場合、上述した手法により曲の小節の区切りを検出し、検出した小節を部分データとする。
あるいは、取得部132は、第1コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて曲を部分データに分割してもよい。この場合、所定閾値の長さとは、時間的な長さであってもよいし、小節内に占める休符の割合等であってもよい。
また、取得部132は、学習部131によって学習されたエンコーダ50を用いて、第1コンテンツを構成する部分データごとの特徴量を取得する。
具体的には、取得部132は、部分データに含まれる音を示すデータとして、音高、音長及び休符を示す記号列をエンコーダ50に入力することにより、当該部分データに対応する特徴量を取得する。かかる特徴量は、例えば、元の部分データを表現するベクトルよりも低次元のベクトルとして表現される。
算出部133は、取得部132によって取得された部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する。
例えば、算出部133は、第1コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して相対的特徴量を算出することにより、相対的特徴量系列を算出する。第1コンテンツの一部の部分データとは、第1コンテンツを構成する部分データのうち特定の部分データを示し、図1の例では、曲30の1番目の小節の特徴量「z」が該当する。このように、算出部133は、複数の部分データに対して、ある特定の部分データとの加減乗除等の演算を行うことで、相対的な関係を有する相対的特徴量を算出する。
なお、図1の例では、曲30の部分データの各特徴量から、曲30の1番目の小節の特徴量「z」を減算する例を示したが、演算は、この例に限られない。例えば、算出部133は、第1コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、相対的特徴量系列を算出してもよい。
ここで、一部の部分データと因果関係を有する部分データとは、一部の部分データと何らかの対応関係を有する部分データを示す。例えば、コンテンツが曲である場合、曲中には、ある小節に対応する小節(例えば、コールアンドレスポンスの関係にある等と称される)が存在する場合がある。この場合、算出部133は、上記のように、何らかの因果関係を有する小節同士の特徴量を加算する(もしくは減算する)演算を優先的に行うなど、曲としての構造を強調したり、逆に弱めたりするような処理を行ってもよい。なお、コンテンツの部分データ同士の因果関係については、例えば因果推論等の既知の機械学習手法を用いて曲を分析することにより、ある小節と因子となる小節との関係性を数値化するなどの手法で求めることができる。
また、算出部133は、コンテンツ内の部分データを所定の関係性に基づいてグラフ化し、グラフにおいて近しい関係にある部分データ同士を加算もしくは減算するなど、種々の既知の手法を用いて、相対的特徴量を算出してもよい。
算出部133は、上記のように、種々の手法で部分データ同士の相対的な特徴量である相対的特徴量を算出し、算出した相対的特徴量を順に並べることで、第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する。算出部133は、算出した相対的特徴量を生成部134に送る。
生成部134は、第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する。
例えば、生成部134は、算出部133によって算出された第1コンテンツの相対的特徴量系列と任意のデータの特徴量とから、新規な特徴量系列を算出する。そして、生成部134は、新規な特徴量系列に含まれる、各々の特徴量をデコーダ60に入力し、各々の特徴量に対応する部分データを再構成する。さらに、生成部134は、再構成された部分データを系列順に組み合わせることで、新規なコンテンツである第2コンテンツを生成する。
生成部134は、曲である第1コンテンツの相対的特徴量系列が得られた場合には、第2コンテンツとして任意の曲を新たに生成することができる。この場合、取得部132は、部分データ及び任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列をエンコーダ50に入力することにより、部分データ及び任意のデータに対応する特徴量を取得する。そして、取得部132によって取得された特徴量に基づいて、算出部133は、各部分データに対応する相対的特徴量系列を算出する。生成部134は、算出部133によって算出された相対的特徴量系列と、任意のデータ(例えば、新たなコンテンツのモチーフとする音データ)に対応する特徴量とに基づいて、新規な特徴量系列を生成し、生成した新規な特徴量系列から、曲である第2コンテンツを生成する。
[1−3.実施形態に係る情報処理の手順]
次に、図4及び図5を用いて、実施形態に係る情報処理の手順について説明する。まず、図4を用いて、本開示の実施形態に係る学習処理の流れについて説明する。図4は、本開示の実施形態に係る情報処理の手順を示すフローチャート(1)である。
図4に示すように、情報処理装置100は、学習データ(コンテンツ)を取得したか否かを判定する(ステップS101)。学習データを取得していない場合(ステップS101;No)、情報処理装置100は、学習データを取得するまで待機する。
一方、学習データを取得した場合(ステップS101;Yes)、情報処理装置100は、学習データを用いてモデルを生成する(ステップS102)。そして、情報処理装置100は、学習済みモデル(エンコーダ及びデコーダ)を記憶部120内に格納する(ステップS103)。
次に、図5を用いて、本開示の実施形態に係る生成処理の流れについて説明する。図5は、本開示の実施形態に係る情報処理の手順を示すフローチャート(2)である。
図5に示すように、情報処理装置100は、第1コンテンツを取得したか否かを判定する(ステップS201)。第1コンテンツを取得していない場合(ステップS201;No)、情報処理装置100は、第1コンテンツを取得するまで待機する。
一方、第1コンテンツを取得した場合(ステップS201;Yes)、情報処理装置100は、第1コンテンツを部分データに分割する(ステップS202)。例えば、情報処理装置100は、第1コンテンツが曲である場合、曲を小節ごとの部分データに分割する。
続けて、情報処理装置100は、各部分データをエンコーダ50に入力して、部分データごとの特徴量を算出する(ステップS203)。さらに、情報処理装置100は、部分データ同士の特徴量に所定の演算を行い、相対的特徴量を算出する(ステップS204)。
相対的特徴量に基づいて、情報処理装置100は、第1コンテンツの構造の特徴を示す相対的特徴量系列を算出する(ステップS205)。
その後、情報処理装置100は、生成する第2コンテンツのモチーフ等となる任意のデータ(ある曲の1小節など)を取得したか否かを判定する(ステップS206)。任意のデータを取得していない場合(ステップS206;No)、情報処理装置100は、任意のデータを取得するまで待機する。
一方、任意のデータを取得した場合(ステップS206;Yes)、情報処理装置100は、任意のデータをエンコーダ50に入力し、任意のデータの特徴量を算出する(ステップS207)。
続けて、情報処理装置100は、第1コンテンツの相対的特徴量系列と任意のデータの特徴量とに基づいて、第2コンテンツの元となる、新規な特徴量系列を算出する(ステップS208)。
そして、情報処理装置100は、新規な特徴量系列をデコーダ60に入力して、新規な特徴量系列から第2コンテンツを生成する(ステップS209)。
(2.その他の実施形態)
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
上記実施形態では、コンテンツの例として曲(音楽)を挙げた。しかし、情報処理装置100は、コンテンツとしてテキストデータや動画等を用いて本開示に係る情報処理を行ってもよい。
例えば、情報処理装置100は、テキストデータである第1コンテンツを構成する部分データごとの特徴量を取得する。そして、情報処理装置100は、取得された部分データごとの特徴量に基づいて得られる第1コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第2コンテンツを生成する。この場合、情報処理装置100は、テキストデータの特徴量を出力するための学習済みモデルを生成しているものとする。
この場合、テキストデータは、例えば詩や短歌等が例に挙げられる。例えば、情報処理装置100は、複数の文(例えば、改行記号によって区切られるテキスト)から構成される詩を取得する。そして、情報処理装置100は、詩に含まれる改行記号を検出して、詩を部分データ(各行の文)に分割する。続けて、情報処理装置100は、部分データの相対的特徴量を算出して、当該詩に対応する相対的特徴量系列を得る。
情報処理装置100は、新たに任意のデータ(例えば、ユーザが詩に組み込みたいと所望する語句や文など)を取得した場合、当該任意のデータの特徴量を算出し、算出した特徴量と、詩に対応する相対的特徴量系列とに基づいて、新規な特徴量系列を算出する。そして、情報処理装置100は、新規な特徴量系列から、第2コンテンツとして、新たな詩を生成する。
これにより、情報処理装置100は、既存の詩の構成(例えば、改行の文字数(リズム)や音韻、次の行に登場する語句の表現など)が類似する、新たな詩を生成することができる。
また、情報処理装置100は、テキストデータではなく、動画コンテンツを元にして、新たな動画コンテンツを生成してもよい。この場合、情報処理装置100は、動画コンテンツを構成する画像の特徴量を出力する学習済みモデルを生成しているものとする。
例えば、情報処理装置100は、動画コンテンツである第1コンテンツを構成する部分データごとの特徴量を取得する。この場合、部分データとは、例えば、動画コンテンツを構成する各フレームに対応する画像である。なお、部分データは、1枚の静止画に限らず、数フレームをまとめて平均化した画像データ等であってもよい。そして、情報処理装置100は、取得された部分データごとの特徴量に基づいて得られる第1コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第2コンテンツを生成する。
これにより、情報処理装置100は、既存の動画コンテンツの構成が類似する、新たな動画コンテンツを生成することができる。一例として、情報処理装置100は、花が開く一連の動きを捉えた動画コンテンツや、人間の歩く動画を捉えた動画コンテンツ等に基づいて、他の物体が類似した動作を行うような新規な動画コンテンツを生成する。このように、情報処理装置100は、本開示に係る情報処理によって、曲に限らず、コンテンツ全体の構造が類似する様々な新規なコンテンツを自動生成することができる。
また、情報処理装置100は、本開示に係る情報処理を応用して、人間の味覚情報に基づき、類似する味覚を発する物質等を検出する処理を行ってもよい。例えば、人間の味覚において、第1要素、第2要素、第3要素の順に人間が要素を検知した場合に、特定の味覚(例えば甘味など)を感じる傾向があると仮定する。この場合、情報処理装置100は、第1要素、第2要素、第3要素の順に人間が要素を検知するといった構造を有する物質の相対的特徴量を算出することにより、同様の構造を有する新たな物質を生成する可能性がある。
また、上記実施形態では、曲30を小節に分割して特徴量系列を算出する例を示したが、情報処理装置100は、例えば、複数の曲を第1コンテンツとし、各々の曲を一つの部分データとして、複数の曲を示す特徴量系列を算出してもよい。この場合、情報処理装置100は、複数の曲の並びがどのような構造を有しているか、といった特徴を表現することができる。具体的には、情報処理装置100は、複数の曲の並び順として、明るめ(例えばアップテンポの曲)が1番目にあり、その後に比較的暗めの曲が登場するといった構造の特徴を表現する。上記実施形態で説明したように、情報処理装置100は、構造としての特徴を他のコンテンツに遷移することできる。このため、情報処理装置100は、例えば、他の複数の曲を並び替える場合に、第1コンテンツと同じような構造を有するリストの生成(いわゆる、曲順を自動的に並べ替えたプレイリスト)を行うことができる。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(3.ハードウェア構成)
上述してきた各実施形態に係る情報処理装置100等の情報機器は、例えば図6に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る情報処理装置100を例に挙げて説明する。図6は、情報処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
を備える情報処理装置。
(2)
前記算出部は、
前記第1コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して前記相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
前記(1)に記載の情報処理装置。
(3)
前記算出部は、
前記第1コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
前記(1)又は(2)に記載の情報処理装置。
(4)
前記生成部は、
第1コンテンツの相対的特徴量系列と任意のデータの特徴量とから算出した特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
前記(1)〜(3)のいずれかに記載の情報処理装置。
(5)
前記生成部は、
曲である前記第1コンテンツの相対的特徴量系列に基づいて、前記第2コンテンツとして任意の曲を生成する
前記(1)〜(4)のいずれかに記載の情報処理装置。
(6)
前記取得部は、
前記部分データ及び前記任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列を前記学習済みエンコーダに入力することにより、当該部分データ及び前記任意のデータに対応する特徴量を取得し、
前記生成部は、
取得された任意のデータ及び部分データの特徴量に基づいて得られた前記相対的特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
前記(5)に記載の情報処理装置。
(7)
前記取得部は、
テキストデータである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
前記生成部は、
取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第2コンテンツを生成する
前記(1)〜(4)のいずれかに記載の情報処理装置。
(8)
前記取得部は、
動画コンテンツである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
前記生成部は、
取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第2コンテンツを生成する
前記(1)〜(4)のいずれかに記載の情報処理装置。
(9)
前記取得部は、
曲である前記第1コンテンツの小節の区切りを検出し、検出した小節ごとの特徴量を取得する
前記(1)〜(6)のいずれかに記載の情報処理装置。
(10)
前記取得部は、
曲である前記第1コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて当該曲を部分データに分割し、分割した部分データごとの特徴量を取得する
前記(1)〜(6)のいずれかに記載の情報処理装置。
(11)
コンピュータが、
学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得し、
取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出し、
前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する
情報処理方法。
(12)
コンピュータを、
学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
として機能させるための情報処理プログラム。
100 情報処理装置
110 通信部
120 記憶部
121 モデル記憶部
122 曲データ記憶部
130 制御部
131 学習部
132 取得部
133 算出部
134 生成部

Claims (12)

  1. 学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
    取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
    前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
    を備える情報処理装置。
  2. 前記算出部は、
    前記第1コンテンツの一部の部分データの特徴量を、当該一部の部分データを除く各部分データの特徴量から加算、減算、乗算もしくは除算して前記相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
    請求項1に記載の情報処理装置。
  3. 前記算出部は、
    前記第1コンテンツの一部の部分データの特徴量と、当該一部の部分データを除く各部分データであって、当該一部の部分データと因果関係を有する部分データの特徴量との相対的特徴量を算出することにより、前記相対的特徴量系列を算出する
    請求項1に記載の情報処理装置。
  4. 前記生成部は、
    第1コンテンツの相対的特徴量系列と任意のデータの特徴量とから算出した特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
    請求項1に記載の情報処理装置。
  5. 前記生成部は、
    曲である前記第1コンテンツの相対的特徴量系列に基づいて、前記第2コンテンツとして任意の曲を生成する
    請求項1に記載の情報処理装置。
  6. 前記取得部は、
    前記部分データ及び前記任意のデータに含まれる音を示すデータとして、音高、音長及び休符を示す記号列を前記学習済みエンコーダに入力することにより、当該部分データ及び前記任意のデータに対応する特徴量を取得し、
    前記生成部は、
    取得された任意のデータ及び部分データの特徴量に基づいて得られた前記相対的特徴量系列を学習済みデコーダに入力することにより、前記第2コンテンツを生成する
    請求項5に記載の情報処理装置。
  7. 前記取得部は、
    テキストデータである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
    前記生成部は、
    取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、テキストデータである任意のデータの特徴量とに基づいて、テキストデータである第2コンテンツを生成する
    請求項1に記載の情報処理装置。
  8. 前記取得部は、
    動画コンテンツである前記第1コンテンツを構成する部分データごとの特徴量を取得し、
    前記生成部は、
    取得された部分データごとの特徴量に基づいて得られる前記第1コンテンツの相対的特徴量系列と、動画もしくは画像コンテンツである任意のデータの特徴量とに基づいて、動画コンテンツである第2コンテンツを生成する
    請求項1に記載の情報処理装置。
  9. 前記取得部は、
    曲である前記第1コンテンツの小節の区切りを検出し、検出した小節ごとの特徴量を取得する
    請求項1に記載の情報処理装置。
  10. 前記取得部は、
    曲である前記第1コンテンツにおける所定閾値の長さを超える休符を検出し、検出した休符に基づいて当該曲を部分データに分割し、分割した部分データごとの特徴量を取得する
    請求項1に記載の情報処理装置。
  11. コンピュータが、
    学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得し、
    取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出し、
    前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する
    情報処理方法。
  12. コンピュータを、
    学習済みエンコーダを用いて、第1コンテンツを構成する部分データごとの特徴量を取得する取得部と、
    取得された前記部分データごとの特徴量から、部分データ同士の相対的な特徴量である相対的特徴量を算出することにより、前記第1コンテンツの構成の特徴を示した相対的特徴量系列を算出する算出部と、
    前記第1コンテンツの相対的特徴量系列と、任意のデータの特徴量とに基づいて、第2コンテンツを生成する生成部と
    として機能させるための情報処理プログラム。
JP2020527832A 2018-10-19 2019-10-10 情報処理装置、情報処理方法及び情報処理プログラム Active JP7439755B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018197971 2018-10-19
JP2018197971 2018-10-19
PCT/JP2019/040130 WO2020080268A1 (ja) 2018-10-19 2019-10-10 情報処理装置、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2020080268A1 true JPWO2020080268A1 (ja) 2021-09-09
JP7439755B2 JP7439755B2 (ja) 2024-02-28

Family

ID=70284581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020527832A Active JP7439755B2 (ja) 2018-10-19 2019-10-10 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (6)

Country Link
US (1) US11880748B2 (ja)
EP (1) EP3716262A4 (ja)
JP (1) JP7439755B2 (ja)
CN (1) CN111492424A (ja)
DE (1) DE112019005201T5 (ja)
WO (1) WO2020080268A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115461766A (zh) 2020-05-04 2022-12-09 索尼集团公司 信息处理方法、信息处理装置和信息处理程序
CN112489606B (zh) * 2020-11-26 2022-09-27 北京有竹居网络技术有限公司 旋律生成方法、装置、可读介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4982643A (en) * 1987-12-24 1991-01-08 Casio Computer Co., Ltd. Automatic composer
JP3178463B2 (ja) * 1999-08-31 2001-06-18 ヤマハ株式会社 電子情報処理方法及びシステム並びに記録媒体
US7212972B2 (en) * 1999-12-08 2007-05-01 Ddi Corporation Audio features description method and audio video features description collection construction method
JP4014390B2 (ja) * 2001-10-29 2007-11-28 オリンパス株式会社 マルチメディアオブジェクト検索システム
JP3760897B2 (ja) * 2002-07-16 2006-03-29 ヤマハ株式会社 操作情報記録再生装置およびタイムコード発生装置
US7363230B2 (en) * 2002-08-01 2008-04-22 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
AU2003275618A1 (en) * 2002-10-24 2004-05-13 Japan Science And Technology Agency Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
US6784354B1 (en) * 2003-03-13 2004-08-31 Microsoft Corporation Generating a music snippet
JP4221308B2 (ja) * 2004-01-15 2009-02-12 パナソニック株式会社 静止画再生装置、静止画再生方法及びプログラム
US7774705B2 (en) * 2004-09-28 2010-08-10 Ricoh Company, Ltd. Interactive design process for creating stand-alone visual representations for media objects
US8549400B2 (en) * 2004-09-28 2013-10-01 Ricoh Company, Ltd. Techniques for encoding media objects to a static visual representation
JP3933160B2 (ja) 2004-11-05 2007-06-20 ヤマハ株式会社 リズムパターン生成装置及びその記録媒体
JP2008145448A (ja) * 2005-03-31 2008-06-26 Pioneer Electronic Corp 情報類似性判別装置及び情報類似性判別方法等
US7450752B2 (en) * 2005-04-07 2008-11-11 Hewlett-Packard Development Company, L.P. System and method for automatic detection of the end of a video stream
JP2009510509A (ja) * 2005-09-29 2009-03-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ セグメント別特徴比較によりプレイリストを自動生成する方法及び装置
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
KR100725018B1 (ko) * 2005-11-24 2007-06-07 삼성전자주식회사 음악 내용 자동 요약 방법 및 그 장치
JP5145939B2 (ja) * 2005-12-08 2013-02-20 日本電気株式会社 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
KR100832360B1 (ko) * 2006-09-25 2008-05-26 삼성전자주식회사 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템
JP5259075B2 (ja) * 2006-11-28 2013-08-07 ソニー株式会社 マッシュアップ装置およびコンテンツの作成方法
JP2009092977A (ja) * 2007-10-10 2009-04-30 Xanavi Informatics Corp 車載装置および楽曲検索システム
JP5046211B2 (ja) * 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
JP5326555B2 (ja) * 2008-12-25 2013-10-30 ソニー株式会社 情報処理装置、動画像切り出し方法および動画像切り出しプログラム
US8831762B2 (en) * 2009-02-17 2014-09-09 Kyoto University Music audio signal generating system
JP2011175006A (ja) 2010-02-23 2011-09-08 Sony Corp 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム
JP2011221133A (ja) * 2010-04-06 2011-11-04 Sony Corp 情報処理装置、クライアント装置、サーバ装置、リスト生成方法、リスト取得方法、リスト提供方法、及びプログラム
JP2011223357A (ja) * 2010-04-09 2011-11-04 Sony Corp 画像処理装置および方法
US9286877B1 (en) * 2010-07-27 2016-03-15 Diana Dabby Method and apparatus for computer-aided variation of music and other sequences, including variation by chaotic mapping
JP5594052B2 (ja) * 2010-10-22 2014-09-24 ソニー株式会社 情報処理装置、楽曲再構成方法及びプログラム
JP5799977B2 (ja) * 2012-07-18 2015-10-28 ヤマハ株式会社 音符列解析装置
US8927846B2 (en) * 2013-03-15 2015-01-06 Exomens System and method for analysis and creation of music
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
US9542118B1 (en) * 2014-09-09 2017-01-10 Radian Memory Systems, Inc. Expositive flash memory control
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US10380983B2 (en) * 2016-12-30 2019-08-13 Google Llc Machine learning to generate music from text
JP6791780B2 (ja) * 2017-02-16 2020-11-25 株式会社日立製作所 文章作成装置
US10791420B2 (en) * 2017-02-22 2020-09-29 Sony Corporation Information processing device and information processing method
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
US11361763B1 (en) * 2017-09-01 2022-06-14 Amazon Technologies, Inc. Detecting system-directed speech
JP7222274B2 (ja) * 2019-03-06 2023-02-15 日本電信電話株式会社 モデル学習装置、ラベル推定装置、それらの方法、およびプログラム
US11961167B2 (en) * 2020-12-11 2024-04-16 Jay Alan Zimmerman Methods and systems for visualizing sound and hearing ability

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ADAM ROBERTS AT AL: "A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music", ARXIV.ORG, JPN6023044820, 30 July 2018 (2018-07-30), ISSN: 0005185909 *

Also Published As

Publication number Publication date
CN111492424A (zh) 2020-08-04
EP3716262A4 (en) 2021-11-10
EP3716262A1 (en) 2020-09-30
US20210232965A1 (en) 2021-07-29
US11880748B2 (en) 2024-01-23
WO2020080268A1 (ja) 2020-04-23
JP7439755B2 (ja) 2024-02-28
DE112019005201T5 (de) 2021-07-22

Similar Documents

Publication Publication Date Title
US10657934B1 (en) Enhancements for musical composition applications
JP7415922B2 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
CN107123415B (zh) 一种自动编曲方法及系统
CN106652997B (zh) 一种音频合成的方法及终端
US20190043239A1 (en) Methods, systems, articles of manufacture and apparatus for generating a response for an avatar
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2023513586A (ja) 音楽コンテンツの生成
US20120031257A1 (en) Tone synthesizing data generation apparatus and method
JP2011028230A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6669883B2 (ja) 音声データ処理方法及び装置
JP7439755B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP4548495B2 (ja) 情報処理置および方法、並びにプログラム
JP2008139426A (ja) 評価用データのデータ構造、カラオケ装置及び記録媒体
Jeong et al. Träumerai: Dreaming music with stylegan
JP3716725B2 (ja) 音声処理装置、音声処理方法および情報記録媒体
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US20190197415A1 (en) User state modeling
Tomczak et al. Drum translation for timbral and rhythmic transformation
CN117529737A (zh) 信息处理系统和信息处理方法
WO2021220797A1 (ja) 情報処理方法、情報処理装置及びプログラム
CN117956247B (zh) 一种音乐驱动的视频自动生成方法、系统、设备及介质
KR20190111360A (ko) 복선율 음악 생성 방법, 장치, 및 시스템
CN113851098B (zh) 一种旋律的风格转换方法、装置、终端设备及存储介质
US20230419932A1 (en) Information processing device and control method thereof
McAllister Generating Remixed Music via Style Transfer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240129

R151 Written notification of patent or utility model registration

Ref document number: 7439755

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151