CN111492424A - 信息处理设备、信息处理方法以及信息处理程序 - Google Patents
信息处理设备、信息处理方法以及信息处理程序 Download PDFInfo
- Publication number
- CN111492424A CN111492424A CN201980006383.4A CN201980006383A CN111492424A CN 111492424 A CN111492424 A CN 111492424A CN 201980006383 A CN201980006383 A CN 201980006383A CN 111492424 A CN111492424 A CN 111492424A
- Authority
- CN
- China
- Prior art keywords
- feature value
- content
- information processing
- partial data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 178
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 230000001364 causal effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 description 30
- 238000000034 method Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000013500 data storage Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 235000019613 sensory perceptions of taste Nutrition 0.000 description 2
- 230000035923 taste sensation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/131—Morphing, i.e. transformation of a musical piece into a new different one, e.g. remix
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
根据本公开的信息处理设备(100)包括:获取单元(132),使用经训练的编码器来获取构成第一内容的每条部分数据的特征值;计算单元(133),通过从每条获取到的部分数据的特征值来计算作为部分数据之间的特征值的相对特征值,以计算指示第一内容的构造的特征的相对特征值序列;以及生成单元(134),基于第一内容的相对特征值序列和任选数据的特征值生成第二内容。
Description
技术领域
本公开涉及一种信息处理设备、信息处理方法以及信息处理程序。具体地,涉及通过机器学习而生成的训练模型的生成过程。
背景技术
使用机器学习的信息处理已用于各种技术领域。例如,通过使用表示脑神经系统的机制的神经网络来学习内容(图像、音乐等)的特征,使得例如自动生成新内容。
例如,公开了一种技术,在该技术中,通过学习现有歌曲的特征,可以自动地创作适合于歌词的适当歌曲,而无需用户输入歌词以外的参数。
现有技术文献
专利文献
专利文献1:日本专利申请公开号2011-175006
发明内容
技术问题
根据传统技术,学习从指示每首歌曲的歌词的歌词数据和指示歌曲的属性的属性数据计算出的语言特征值,并且因此,当提供新的歌词数据时,可以自动生成适合于新的歌词数据的歌曲。
然而,根据传统技术,根据歌词简单地生成旋律或代码,并且就整个歌曲的结构(结构)而言,并不总是生成像由人创作的歌曲那样的自然歌曲。即,根据传统技术,难以学习内容的整体结构的特征或在保持整体结构的同时生成新内容。
因此,本公开提供了一种信息处理设备、信息处理方法以及信息处理程序,利用该信息处理设备、信息处理方法以及信息处理程序可以学习内容的整体结构的特征。
问题的解决方案
为了解决上述问题,一种信息处理设备包括:获取单元,使用经训练的编码器来获取形成第一内容的每个部分数据的特征值;计算单元,从获取到的每个部分数据的特征值来计算作为部分数据之间的相对特征值的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列;以及生成单元,基于第一内容的相对特征值序列和任选数据的特征值生成第二内容。
附图说明
图1是示出根据本公开的实施例的信息处理的示例的图。
图2是示出根据本公开的实施例的信息处理设备的配置的示例的图。
图3是示出根据本公开的实施例的歌曲数据存储单元的示例的图。
图4是示出根据本公开的实施例的信息处理的步骤的流程图(1)。
图5是示出根据本公开的实施例的信息处理的步骤的流程图(2)。
图6是示出执行信息处理设备的功能的计算机的示例的硬件配置图。
具体实施方式
下面参照附图详细描述了本公开的实施例。此外,在下面的每个实施例中,相同的部件由相同的附图标记表示,并且省略重复的描述。
根据下面描述的部分的顺序来描述本公开。
1.实施例
1-1.根据本公开的实施例的信息处理的概要
1-2.根据本实施例的信息处理设备的配置
1-3.根据本实施例的信息处理的步骤
2.其它实施例
3.硬件配置
(1.实施例)
[1-1.根据本公开实施例的信息处理的概要]
图1是示出根据本公开的实施例的信息处理的示例的图。根据本公开的实施例的信息处理由图1所示的信息处理设备100执行。
信息处理设备100是执行根据本公开的信息处理的设备,并且例如是信息处理终端或服务器设备。
根据本实施例,信息处理设备100包括用于提取内容的特征的训练模型。根据本实施例,内容包括预定格式的数字数据,例如音乐(歌曲)、图像或运动图像。在图1所示的示例中,信息处理设备100使用歌曲作为用于处理的内容的示例。
根据本实施例的训练模型包括:编码器(encoder),从形成内容的数据中提取特征值;以及解码器(decoder),从提取的特征值重构内容。例如,信息处理设备100通过诸如VAE(变分自动编码器)或GAN(生成对抗网络)的无监督学习来训练编码器。具体地,信息处理设备100将内容输入到编码器,从提取的特征值重构内容,将原始内容与重构内容进行比较,并且调整编码器和解码器的参数。信息处理设备100重复该过程以优化编码器和解码器的参数,从而生成训练模型。这允许信息处理设备100生成可从形成内容的数据来获得适当特征值的训练模型。此外,通过使用例如与输入内容的数据相比较具有较低维数的向量来表示特征值。
此外,训练模型不限于上面的示例,而是只要可以提取特征值并且可以从提取的特征值重构内容,该训练模型就可以是任何类型的模型。
在图1的示例中,信息处理设备100将歌曲(换句话说,表示形成歌曲的声音的数字数据)输入到编码器,以提取表示歌曲的特征(诸如旋律线、构成声音、节奏(音乐的时间结构,例如包括的音符和休止符的数量,或声音再现的顺序)、节奏(tempo)或节拍)的元素作为歌曲的特征值。此外,根据本实施例,关于歌曲的数据通过使用指示音高的数据(指示声音产生的级别的数据)、音长的数据(指示所产生的音符要保留多长时间的数据)以及休止符的定时的数据(例如,向量格式)来表示。
在此,对于如上所述的使用现有歌曲的特征值的新歌曲的自动生成,挑战之一可能是生成像人造的现有歌曲那样具有自然结构的歌曲。然而,在不改变的情况下提取任选歌曲的特征值尽管可以再现歌曲的特征,但会导致难以生成整体上具有自然结构的歌曲。具体地,即使在自动生成的歌曲中再现作为歌曲的部分的类似特性旋律线或声音结构(也称作主题(motif)),也很难以再现歌曲本身的结构,诸如主题的特征在整个歌曲中如何变化。即,传统上难以自动生成具有像人造的现有歌曲那样的自然结构并且具有像现有歌曲那样的特定长度的歌曲。
因此,通过下面描述的信息处理,根据本公开的信息处理设备100可以计算指示整个歌曲的结构的特征值,并且通过使用该特征值自动生成自然歌曲。具体地,信息处理设备100使用上述经训练的编码器来获取形成歌曲的每个部分数据(例如,每个小节)的特征值。此外,信息处理设备100从每个部分数据的特征值计算相对特征值,该相对特征值是部分数据之间的相对特征值,以便计算指示歌曲的结构的特征的相对特征值序列。如上所述,信息处理设备100将具有特定长度的歌曲视为经排列的部分数据的序列,计算它们的相对特征值以获得在整个歌曲中转变的特征值,并且然后表达整个歌曲的结构。换句话说,信息处理设备100通过使用相对特征值序列来对整个歌曲的结构进行建模。然后,信息处理设备100使用指示整个歌曲的结构的特征的相对特征值序列来生成新歌曲。因此,信息处理设备100可以自动生成保持现有歌曲的结构的特征并且具有自然结构的新歌曲。此外,特征值的序列是形成歌曲的各个部分数据的按顺序排列的特征值的序列。
参考图1,下面按顺序描述根据本公开的信息处理的概要。此外,在以下描述中,从其计算特征值的目标内容称作“第一内容”,并且基于第一内容的相对特征值序列生成的新内容有时称作“第二内容”。此外,图1所示的经训练的编码器等简单地称作“编码器”。而且,经训练的解码器简单地称作“解码器”。
如图1所示,信息处理设备100首先获取歌曲30作为第一内容,并将歌曲30划分为部分数据(步骤S1)。例如,信息处理设备100以每小节为基础划分歌曲30。虽然图1中的例子示出歌曲30具有六个小节,但歌曲30可以具有更多小节。
歌曲30包括指示例如音高、音长或休止符的符号串(数字数据)。例如,音高通过使用预定级别(例如,128个级别)来表示指示音级的频率。此外,音长表示再现的声音被保留的长度。此外,休止符表示停止声音再现的定时。此外,表示歌曲30的数据可以包括信息,这些信息诸如是指示歌曲30的节拍或节奏或者小节的中断的符号、在特定定时的代码、或形成代码的构成声音。
例如,信息处理设备100转换上述符号串以便在模型中操纵。例如,信息处理设备100使用上述符号串的向量表示(例如,具有分配给每个维度并表示声音信息的音高、音长等的嵌入(embedding)向量)以进行处理。嵌入向量例如是d维(d是任选整数)向量,其中“1”输入到与对应声音相对应的维度(例如,诸如“C4”的指示音级的信息),并且“0”输入到其它维度。此外,表示声音的数据可以以MIDI(乐器数字接口)(注册商标)格式表示、可以是具有已知格式并可由通用定序器再现的数字数据、或者可以表示为诸如WAV格式的波形数据。
信息处理设备100可以使用各种已知技术来将歌曲30划分为部分数据。例如,信息处理设备100检测预设的小节的中断,以将歌曲30划分为部分数据(小节)。可替换地,信息处理设备100可以基于节拍与音符之间的关系将歌曲30划分为部分数据。例如,在具有4/4拍子记号的歌曲30的情况下,信息处理设备100检测具有与四分音符相对应的长度的四个声音被再现的时间作为中断,以便将歌曲30划分为小节。
此外,信息处理设备100可以对部分数据使用小节以外的中断。例如,信息处理设备100可以检测歌曲30的旋律线的中断(例如,具有大于预定阈值的长度的休止符出现的位置),以将它划分为部分数据。在这种情况下,部分数据不一定需要与小节匹配。
信息处理设备100在步骤S1将歌曲30划分为小节,并提取每个部分数据(步骤S2)。在图1的示例中,每个部分数据被示为“xn(n为任选自然数)”。例如,“x1”指示包括在歌曲30的第一小节中的数据。
随后,信息处理设备100将提取出的部分数据按顺序地输入到编码器50(步骤S3)。因此,信息处理设备100获取每个部分数据的特征值(步骤S4)。
在图1的示例中,每个部分数据的特征值用“zn”表示。例如,“z1”指示歌曲30的第一小节的特征值。
这里,信息处理设备100从获取到的每个部分数据的特征值计算作为部分数据之间的相对特征值的相对特征值(步骤S5)。例如,作为部分数据之间的相对特征值,信息处理设备100从每个部分数据的特征值中减去特定的公共的部分数据的特征值以计算相对特征值。
在图1的示例中,信息处理设备100从每个部分数据的特征值中减去作为第一小节的特征值的“z1”,以计算相对特征值。此外,该计算是示例,并且信息处理设备100可以对特征值执行加法、乘法或除法以计算相对特征值。此外,信息处理设备100可以从每个部分数据中减去一不同的小节的部分数据而不是“z1”。
信息处理设备100基于计算出的相对特征值来计算相对特征值序列,该相对特征值序列是指示歌曲30的结构的特征值的序列(步骤S6)。相对特征值序列例如是按顺序排列的相对特征值的序列,使得它们与歌曲30的结构相对应。此外,在图1的示例中,与“zn+1-z1”相对应的相对特征值用“rn”表示。即,在图1的示例中,与歌曲30相对应的相对特征值序列表示为“(r1,r2,r3,r4,r5)”。
如上所述,在步骤S6的处理期间,信息处理设备100计算指示歌曲30的结构的相对特征值序列。然后,信息处理设备100获取作为要生成的新歌曲(第二内容)的主题的任选信息。
例如,信息处理设备100获取包括在预定歌曲35的第一小节中的数据,作为要生成的新歌曲的主题的信息(步骤S7)。此外,作为要生成的新歌曲的主题的信息,信息处理设备100不总是需要获取包括在一个小节中的数据,而是可以获取例如关于整个任选歌曲的数据。
在图1的示例中,获取到的任选数据(即,包括在歌曲35的第一小节中的数据)由“xa”表示。
随后,信息处理设备100将“xa”输入到编码器50(步骤S8)。因此,信息处理设备100获取与“xa”相对应的特征值。在图1的示例中,与“xa”相对应的特征值由“za”表示。
然后,信息处理设备100基于获取到的特征值“za”和指示歌曲30的结构的相对特征值,来生成与新生成的第二内容相对应的特征值序列(步骤S9)。例如,信息处理设备100生成其中“za”位于开头处并且“za”被附加到歌曲30的每个相对特征值的特征值序列。具体地,信息处理设备100生成具有诸如“(za,za+r1,za+r2,za+r3,za+r4,za+r5)”的信息的特征值序列。即,信息处理设备100生成特征值序列,其中“za”还附加到歌曲30的结构的特征。
信息处理设备100将在步骤S9处生成的特征值序列输入到解码器60(步骤S10)。解码器60是被训练成基于由编码器50提取的特征值来重构内容的解码器。在图1的示例中,解码器60基于由编码器50提取的特征值来重构歌曲(准确地,用于再现声音的数字数据)。
信息处理设备100从解码器60的输出获取与特征值序列相对应的每个小节的声音数据。信息处理设备100按序列的顺序排列所获取的数据以生成歌曲40(步骤S11)。歌曲40是使用歌曲35的第一小节作为主题并且还保持歌曲30的结构的特征的歌曲。
因此,根据本公开的信息处理设备100使用编码器50以获取形成第一内容(图1的示例中的歌曲30)的每个部分数据的特征值。然后,信息处理设备100根据获取到的每个部分数据的特征值计算作为部分数据之间的相对特征值的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列。即,信息处理设备100获取其中形成第一内容的部分数据的特征值被按顺序排列的序列,而不是计算第一内容本身的特征值。因此,信息处理设备100可以提取第一内容的结构(如果第一内容是歌曲,则与时间方向相对应的整个歌曲的流、兴奋点等)作为特征。
此外,根据本公开的信息处理设备100基于第一内容的相对特征值序列和任选数据的特征值(“za”,在图1的示例中是歌曲35的第一小节的特征值)来生成第二内容(在图1的示例中的歌曲40)。即,信息处理设备100基于指示第一内容的结构的特征值序列和新数据的特征值来生成新的特征值序列,并基于新的特征值序列重构内容。因此,信息处理设备100可以生成新歌曲作为第二内容,该新歌曲保持第一内容的结构并采用新的主题或构成声音。此外,在图1所示的示例中,信息处理设备100从每个部分数据的特征值中减去特征值“z1”以计算相对特征值。然而,该示例不是限制,并且信息处理设备100可以通过使用提取特征值的特征值提取器(像加法、减法、乘法、除法或相干性)来计算相对特征值。此外,信息处理设备100可以基于每个部分数据的特征值的相似性或因果关系来提取图形结构,并且通过使用机器学习技术等来针对图形数据计算相对特征值序列。
[1-2.根据本实施例的信息处理设备的配置]
接下来,描述作为执行根据本实施例的信息处理的信息处理设备的示例的信息处理设备100的配置。图2是示出根据本公开的实施例的信息处理设备100的配置的示例的图。
如图2所示,信息处理设备100包括通信单元110、存储单元120以及控制单元130。此外,信息处理设备100可以包括从管理信息处理设备100的管理员等接收各种操作的输入单元(例如,键盘或鼠标)和显示各种信息的显示单元(例如,液晶显示器)。
通信单元110通过使用例如NIC(网络接口卡)来实现。通信单元110经由有线或无线通信连接到网络N(诸如互联网),以经由网络N向其它装置等发送信息/从其它装置等接收。
存储单元120通过使用诸如RAM(随机存取存储器)或闪存(flash memory)的半导体存储器装置、或诸如硬盘或光盘的存储装置来实现。存储单元120包括模型存储单元121和歌曲数据存储单元122。
模型存储单元121存储经预先训练的训练模型。具体地,模型存储单元121包括提取内容的特征值的编码器50和重构内容的解码器60。此外,模型存储单元121可以存储诸如用于训练的内容的训练数据。
歌曲数据存储单元122存储关于输入到模型的内容(歌曲)的数据。图3示出根据本实施例的歌曲数据存储单元122的示例。图3是示出根据本公开的实施例的歌曲数据存储单元122的示例的图。在图3所示的示例中,歌曲数据存储单元122具有诸如“歌曲ID”、“部分数据ID”、“音高信息”、“音长休止符信息”、“代码信息”以及“节奏信息”的项目。
“歌曲ID”是用于识别歌曲的识别信息。“部分数据ID”是用于识别部分数据的识别信息。部分数据与例如形成歌曲的一个或多个小节相对应。
“音高信息”指示包括在部分数据中的关于声音的音高(音阶)的信息。“音长休止符信息”指示包括在部分数据中的声音的长度(再现时间段或要再现的节拍数)、以及休止符的长度和定时。“代码信息”指示包括在部分数据中的代码的类型、代码的构成声音、代码在小节内的切换等。“节奏信息”指示小节中的节拍或节奏、强拍和弱拍的位置等。
尽管图3具有其中诸如音高信息的项目是“C01”的概念描述,每个项目实际上存储如上所述的指示声音的具体数据。虽然,为了描述的目的,图3示出其中“音高信息”、“音长休止符信息”等被存储为不同项目的示例,但这些信息也可以被集中存储在一个项目等中作为指示包括在小节中的音符的信息。即,表示歌曲的数据格式不限于图3所示的数据格式,并且可以是可以在模型中操纵的任何格式。
例如,图3所示的示例指示了利用歌曲ID“A01”识别出的歌曲包括利用部分数据ID“B01”和“B02”识别的部分数据。此外,指示了具有部分数据ID“B01”的部分D数据包括利用音高信息“C01”、音长休止符信息“D01”、代码信息“E01”以及节奏信息“F01”表示的声音数据。
返回参考图2,继续描述。当例如CPU(中央处理单元)或MPU(微处理单元)使用RAM(随机存取存储器)等作为工作区域并执行存储在信息处理设备100中的程序(例如,根据本公开的信息处理程序)时,实现控制单元130。此外,控制单元130是控制器(controller),并且可以通过使用诸如ASIC(专用集成电路)或FPGA(现场可编程门阵列)的集成电路来实现。
如图2所示,控制单元130包括训练单元131、获取单元132、计算单元133以及生成单元134,以实现或执行用于下述信息处理的功能和操作。此外,控制单元130的内部配置不限于图2所示的配置,并且只要该配置允许后面描述的信息处理,该内部配置就可以是不同的配置。
训练单元131使用内容作为训练数据来执行预定的训练处理,以便生成训练模型。
例如,为了学习关于歌曲等的声音数据,训练单元131将声音数据输入到编码器50以提取声音数据的特征值。随后,训练单元131将声音数据的特征值输入到解码器60,以重构已输入到编码器50的声音数据。然后,训练单元131调整编码器50和解码器60的参数,以便减小连续的声音数据之间的差异。训练单元131重复该处理,以利用已优化的编码器50和解码器60生成训练模型。如上所述,训练单元131可以通过使用诸如VAE或GAN的各种已知技术来生成模型。
获取单元132获取各种类型的信息。例如,获取单元132获取要输入到由训练单元131训练的模型的第一内容。
此外,获取单元132划分获取到的第一内容,以获取形成第一内容的部分数据。例如,当第一内容是歌曲时,获取单元132通过使用上述技术检测歌曲的小节的中断,并将检测到的小节设置为部分数据。
可替代地,获取单元132可以检测第一内容中的大于预定阈值的长度的休止符,并且基于检测到的休止符将歌曲划分为部分数据。在这种情况下,预定阈值的长度可以是时间长度、休止符在小节中所占的百分比等。
此外,获取单元132使用由训练单元131训练的编码器50来获取形成第一内容的每个部分数据的特征值。
具体地,获取单元132将指示音高、音长以及休止符的符号串作为指示包括在部分数据中的声音的数据输入到编码器50,以获取与部分数据相对应的特征值。特征值表示为例如与表示原始的部分数据的向量相比具有较低维数的向量。
计算单元133从获取单元132获取的每个部分数据的特征值来计算作为部分数据之间的相对特征值的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列。
例如,计算单元133对第一内容的特定部分数据的特征值和该特定部分数据之外的每个部分数据的特征值执行加法、减法、乘法或除法,以计算相对特征值,以便计算相对特征值序列。第一内容的特定部分数据指示形成第一内容的部分数据中的具体部分数据,并且在图1的示例中,与歌曲30的第一小节的特征值“z1”相对应。因此,计算单元133对具有具体部分数据的多个部分数据执行诸如加法、减法、乘法或除法的操作,以计算具有关系的相对特征值。
此外,图1示出从歌曲30的每个部分数据的特征值中减去歌曲30的第一小节的特征值“z1”的示例;然而,操作并不限于此示例。例如,计算单元133可以计算第一内容的特定部分数据的特征值与除该特定部分数据之外的并与该特定部分数据具有因果关系的每个部分数据的特征值之间的相对特征值,以便计算相对特征值序列。
这里,与特定部分数据具有因果关系的部分数据是指与该特定部分数据具有某种对应关系的部分数据。例如,如果内容是歌曲,则歌曲中可能存在与特定小节相对应的小节(例如称作呼叫-响应关系)。在这种情况下,如上所述,计算单元133可以优选地对具有某种因果关系的小节的特征值执行加法(或减法)操作,以便强调或淡化歌曲的结构。此外,内容的部分数据之间的因果关系可以通过使用一种技术来获得,在该技术中,通过使用诸如因果推断的已知机器学习技术来分析歌曲,并且量化特定小节和因子小节之间的关系。
此外,计算单元133可以通过使用各种已知技术来计算相对特征值,该技术诸如是基于预定关系生成内容中的部分数据作为图形,并且加上或减去图形中的具有紧密关系的部分数据。
如上所述,计算单元133通过使用各种技术来计算作为部分数据之间的相对特征值的相对特征值、并按顺序排列计算出的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列。计算单元133将计算出的相对特征值发送到生成单元134。
生成单元134基于第一内容的相对特征值序列和任选数据的特征值生成第二内容。
例如,生成单元134基于由计算单元133计算出的第一内容的相对特征值序列和任选数据的特征值来计算新的特征值序列。然后,生成单元134将包括在新的特征值序列中的每个特征值输入到解码器60,并且重构与每个特征值相对应的部分数据。此外,生成单元134按序列的顺序组合重构的部分数据,以生成作为新内容的第二内容。
当已获取了作为歌曲的第一内容的相对特征值序列时,生成单元134可以生成任选的新歌曲作为第二内容。在这种情况下,获取单元132将指示音高、音长以及休止符的符号串作为指示包括在部分数据和任选数据中的声音的数据输入到编码器50,以获取与部分数据和任选数据相对应的特征值。然后,基于由获取单元132获取的特征值,计算单元133计算与每个部分数据相对应的相对特征值序列。生成单元134基于由计算单元133计算的相对特征值序列和与任选数据(例如,作为新内容的主题的声音数据)相对应的特征值来生成新的特征值序列,并根据生成的新的特征值序列生成作为歌曲的第二内容。
[1-3.根据本实施例的信息处理的步骤]
接下来,参照图4和图5描述根据本实施例的信息处理的步骤。首先,参照图4描述了根据本公开的实施例的训练处理的流程。图4是示出根据本公开的实施例的信息处理的步骤的流程图(1)。
如图4所示,信息处理设备100确定是否已获取训练数据(内容)(步骤S101)。当尚未获取训练数据时(步骤S101;否),信息处理设备100待机直到获取到训练数据。
相反,当已获取训练数据时(步骤S101;是),信息处理设备100使用训练数据生成模型(步骤S102)。然后,信息处理设备100将经训练的模型(编码器和解码器)存储在存储单元120中(步骤S103)。
接下来,参照图5描述了根据本公开的实施例的生成处理的流程。图5是示出根据本公开的实施例的信息处理的步骤的流程图(2)。
如图5所示,信息处理设备100确定是否已获取第一内容(步骤S201)。当尚未获取第一内容时(步骤S201;否),信息处理设备100待机直到获取到第一内容。
相反,当已获取第一内容时(步骤S201;是),信息处理设备100将第一内容划分为部分数据(步骤S202)。例如,当第一内容是歌曲时,信息处理设备100将歌曲划分为关于每个小节的部分数据。
随后,信息处理设备100将每个部分数据输入到编码器50,以计算每个部分数据的特征值(步骤S203)。此外,信息处理设备100对部分数据的特征值执行预定操作以计算相对特征值(步骤S204)。
基于相对特征值,信息处理设备100计算指示第一内容的结构的特征的相对特征值序列(步骤S205)。
然后,信息处理设备100确定是否已获取任选数据,任选数据是要生成的第二内容的主题等(例如,某一歌曲的一小节)(步骤S206)。当未获取到任选数据时(步骤S206;否),信息处理设备100待机直到获取到任选数据。
相反,当已获取任选数据时(步骤S206;是),信息处理设备100将任选数据输入到编码器50以计算任选数据的特征值(步骤S207)。
随后,信息处理设备100基于第一内容的相对特征值序列和任选数据的特征值计算作为第二内容的源的新的特征值序列(步骤S208)。
然后,信息处理设备100将新的特征值序列输入到解码器60,以从新的特征值序列生成第二内容(步骤S209)。
(2.其它实施例)
根据上述每个实施例的处理可以以上述实施例之外的各种不同的实施例来实现。
根据上述实施例,内容的示例包括歌曲(音乐)。然而,信息处理设备100可以使用文本数据、运动图像等作为内容来执行根据本公开的信息处理。
例如,信息处理设备100获取形成第一内容(其是文本数据)的每个部分数据的特征值。然后,信息处理设备100基于第一内容的相对特征值序列和任选数据(其是文本数据)的特征值,来生成作为文本数据的第二内容,该第一内容的相对特征值序列基于获取到的每个部分数据的特征值而获得。在这种情况下,假设信息处理设备100生成训练模型以用于输出文本数据的特征值。
在这种情况下,文本数据的示例包括诗歌或短歌(thirty-one-syllable poem)。例如,信息处理设备100获取包括多个句子(例如,由换行符号划分的文本)的诗歌。然后,信息处理设备100检测包括在诗歌中的换行符号,以将诗歌划分为部分数据(每行的句子)。随后,信息处理设备100计算部分数据的相对特征值,以获得与诗歌相对应的相对特征值序列。
当获取新的任选数据(例如,用户要包括在诗歌中的期望的短语、句子等)时,信息处理设备100计算任选数据的特征值,并基于计算出的特征值和与诗歌相对应的相对特征值序列来计算新的特征值序列。然后,信息处理设备100从新的特征值序列生成作为第二内容的新的诗歌。
这允许信息处理设备100生成结构与现有诗歌的结构类似(例如,在中断处的字符数(节奏)、因素(phoneme)、或出现在下一句中的短语的表达)的新诗。
此外,信息处理设备100可以基于运动图像内容而不是文本数据来生成新的运动图像内容。在这种情况下,假设信息处理设备100生成经训练的模型,该经训练的模型输出形成运动图像内容的图像的特征值。
例如,信息处理设备100获取形成作为运动图像内容的第一内容的每个部分数据的特征值。在这种情况下,部分数据例如是与形成运动图像内容的每个帧相对应的图像。此外,部分数据可以是例如通过收集并平均若干帧而获得的图像数据、以及单个静止图像。然后,信息处理设备100基于第一内容的相对特征值序列和作为运动图像或运动图像内容的任选数据的特征值,来生成作为运动图像内容的第二内容,该第一内容的相对特征值序列基于获取到的每个部分数据的特征值而获得。
这允许信息处理设备100生成结构与现有运动图像内容的结构类似的新的运动图像内容。例如,基于捕获盛开的花的一系列动作的运动图像内容、捕获行走的人的运动图像的运动图像内容等,信息处理设备100生成执行类似行动的不同的对象的新运动图像内容。因此,信息处理设备100可以通过根据本公开的信息处理来自动生成在整体上具有类似内容结构的各种类型的新内容,不限于歌曲。
此外,信息处理设备100可以应用根据本公开的信息处理,以便执行基于人的味觉信息来检测例如引起类似味觉的物质的处理。例如,就人类的味觉而言,假定如果人类按第一元素、第二元素、并然后第三元素的顺序感知元素,则他倾向于感觉到具体的味道(例如甜味)。在这种情况下,信息处理设备100可以计算具有这样结构的物质的相对特征值:该结构使人类按第一元素、第二元素、并且然后第三元素的顺序感知元素,从而生成具有类似结构的新物质。
此外,在根据上面的实施例描述的示例中,歌曲30被划分为小节以计算特征值序列;然而,例如,信息处理设备100可以将多首歌曲视为第一内容,并且将每一首歌曲视为一个部分数据,以计算指示歌曲的特征值序列。在这种情况下,信息处理设备100可以表达特征,诸如歌曲的序列的结构。具体地,作为歌曲的序列的顺序,信息处理设备100以使得积极的歌曲(例如,快节奏的歌曲)在前并且相对消极的歌曲在后的方式表达结构的特征。如上面的实施例所述,信息处理设备100可以将结构的特征转变为不同的内容。因此,例如,当重新排列其他歌曲时,信息处理设备100可以生成具有与第一内容的结构类似的结构的列表(即,歌曲的顺序被自动重新排列的播放列表)。
此外,在上面的每个实施例中描述的处理当中,可以手动执行如上所述自动执行的处理中的全部或一些,或者可以通过使用公知的方法自动执行如上所述手动执行的处理中的全部或部分。此外,除另有说明外,可以任选地改变如上面的描述和附图中描述的处理步骤、具体名称以及包括各种类型的数据和参数的信息。例如,在每个图中示出的各种类型的信息不限于所示出的信息。
此外,示出的每个装置的部件在功能上是概念性的,并且不一定需要如附图所示的那样进行物理上地配置。具体地,装置的分离和组合的具体形式不限于附图中所描绘的那些,并且配置可以是根据各种类型的负载或使用,使得它们中的所有或一些在任何单元中被功能上或物理上分离或组合。
此外,只要在处理细节中确保一致性,就可以适当地组合上述实施例和修改。
此外,由于在本说明书中描述的优点仅仅是示例,因此没有限制,并且可以产生其它优点。
(3.硬件配置)
通过使用具有例如图6所示的配置的计算机1000来实现诸如根据上述实施例的信息处理设备100的信息设备。下面作为示例描述了根据本实施例的信息处理设备100。图6是示出执行信息处理设备100的功能的计算机1000的示例的硬件配置图。计算机1000包括CPU1100、RAM 1200、ROM(只读存储器)1300、HDD(硬盘驱动器)1400、通信接口1500以及输入/输出接口1600。计算机1000的单元经由总线1050连接。
CPU 1100基于存储在ROM 1300或HDD 1400中的程序进行操作以控制每个单元。例如,CPU 1100将存储在ROM 1300或HDD 1400中的程序加载到RAM 1200中,以执行与各种程序相对应的处理。
ROM 1300存储例如诸如在计算机1000的启动时由CPU 1100执行的BIOS(基本输入输出系统)的引导程序和取决于计算机1000的硬件的程序。
HDD 1400是计算机可读记录介质,该介质以非暂时性的方式记录要由CPU 1100执行的程序、要由程序使用的数据等。具体地,HDD 1400是记录根据本公开的信息处理程序的记录介质,该信息处理程序是程序数据1450的示例。
通信接口1500是计算机1000连接到外部网络1550(例如,互联网)的接口。例如,CPU 1100从不同装置接收数据,或者经由通信接口1500将由该CPU 1100生成的数据发送到不同装置。
输入/输出接口1600是用于连接输入/输出装置1650与计算机1000的接口。例如,CPU 1100经由输入/输出接口1600从诸如键盘或鼠标的输入装置接收数据。此外,CPU 1100经由输入/输出接口1600将数据发送到诸如显示器、扬声器或打印机的输出装置。此外,输入/输出接口1600可以用作用于读取记录在预定记录介质(媒介)中的程序等的介质接口。介质的示例包括诸如DVD(数字通用盘)和PD(相变可重写盘)的光记录介质、诸如MO(磁光盘)的磁光记录介质、磁带介质、磁记录介质或半导体存储器。
例如,当计算机1000用作根据本实施例的信息处理设备100时,计算机1000的CPU1100执行加载到RAM 1200中的信息处理程序以执行控制单元130等的功能。此外,HDD 1400将根据本公开的信息处理程序和数据存储在存储单元120中。此外,尽管CPU 1100从HDD1400读取并执行程序数据1450,但是它可以根据另一示例经由外部网络1550从不同装置获取程序。
此外,该技术也可以包括下述配置。
(1)
一种信息处理设备,包括:
获取单元,使用经训练的编码器来获取形成第一内容的每个部分数据的特征值;
计算单元,从获取的每个部分数据的特征值计算相对特征值,该相对特征值是部分数据之间的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列;以及
生成单元,基于第一内容的相对特征值序列和任选数据的特征值来生成第二内容。
(2)
根据(1)所述的信息处理设备,其中,计算单元对第一内容的特定部分数据的特征值和除该特定部分数据以外的每个部分数据的特征值执行加法、减法、乘法或除法来计算相对特征值,以便计算相对特征值序列。
(3)
根据(1)或(2)所述的信息处理设备,其中,计算单元计算第一内容的特定部分数据的特征值与除该特定部分数据以外的且与该特定部分数据具有因果关系的每个部分数据的特征值之间的相对特征值,以便计算相对特征值序列。
(4)
根据(1)至(3)中任一项所述的信息处理设备,其中,生成单元将根据第一内容的相对特征值序列和任选数据的特征值计算出的特征值序列输入到经训练的解码器中,以生成第二内容。
(5)
根据(1)至(4)中任一项所述的信息处理设备,其中,生成单元基于作为歌曲的第一内容的相对特征值序列来生成作为第二内容的任选歌曲。
(6)
根据(5)所述的信息处理设备,其中,
获取单元将指示音高、音长以及休止符的符号串作为指示包括在部分数据中和在任选数据中的声音的数据输入到经训练的编码器,以获取与部分数据和任选数据相对应的特征值,并且
生成单元将基于获取到的任选数据和部分数据的特征值而获得的相对特征值序列输入到经训练的解码器以生成第二内容。
(7)
根据(1)至(4)中任一项所述的信息处理设备,其中,
获取单元获取形成作为文本数据的第一内容的每个部分数据的特征值,并且
生成单元基于第一内容的相对特征值序列和作为文本数据的任选数据的特征值来生成作为文本数据的第二内容,第一内容的相对特征值序列基于获取到的每个部分数据的特征值而获得。
(8)
根据(1)至(4)中任一项所述的信息处理设备,其中
获取单元获取形成作为运动图像内容的第一内容的每个部分数据的特征值,并且
生成单元基于第一内容的相对特征值序列和作为运动图像或图像内容的任选数据的特征值来生成作为运动图像内容的第二内容,第一内容的相对特征值序列基于获取到的每个部分数据的特征值而获得。
(9)
根据(1)至(6)中任一项所述的信息处理设备,其中,获取单元检测作为歌曲的第一内容的小节的中断,并获取每个检测到的小节的特征值。
(10)
根据(1)至(6)中任一项所述的信息处理设备,其中,获取单元检测作为歌曲的第一内容中的大于预定阈值的长度的休止符,基于检测到的休止符将歌曲划分为部分数据,并获取每个经划分的部分数据的特征值。
(11)
一种信息处理方法,使计算机:
使用经训练的编码器获取形成第一内容的每个部分数据的特征值;
从获取到的每个部分数据的特征值计算相对特征值,该相对特征值是部分数据之间的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列;并且
基于第一内容的相对特征值序列和任选数据的特征值生成第二内容。
(12)
一种信息处理程序,使计算机起以下作用:
获取单元,使用经训练的编码器来获取形成第一内容的每个部分数据的特征值;
计算单元,根据获取到的部分数据的特征值计算作为部分数据之间的相对特征值的相对特征值,以计算指示第一内容的结构的特征的相对特征值序列;和
生成单元,基于第一内容的相对特征值序列和任选数据的特征值生成第二内容。
参考符号列表
100 信息处理设备
110 通信单元
120 存储单元
121 模型存储单元
122 歌曲数据存储单元
130 控制单元
131 训练单元
132 获取单元
133 计算单元
134 生成单元。
Claims (12)
1.一种信息处理设备,包括:
获取单元,使用经训练的编码器来获取形成第一内容的每个部分数据的特征值;
计算单元,从获取到的每个所述部分数据的所述特征值来计算作为所述部分数据之间的相对特征值的相对特征值,以计算指示所述第一内容的结构的特征的相对特征值序列;以及
生成单元,基于所述第一内容的所述相对特征值序列和任选数据的特征值生成第二内容。
2.根据权利要求1所述的信息处理设备,其中,所述计算单元对所述第一内容的特定部分数据的特征值和除所述特定部分数据以外的每个部分数据的特征值执行加法、减法、乘法或除法来计算所述相对特征值,以便计算所述相对特征值序列。
3.根据权利要求1所述的信息处理设备,其中,所述计算单元计算所述第一内容的特定部分数据的特征值与除所述特定部分数据以外的且与所述特定部分数据具有因果关系的每个部分数据的特征值之间的相对特征值,以便计算所述相对特征值序列。
4.根据权利要求1所述的信息处理设备,其中,所述生成单元将从所述第一内容的所述相对特征值序列和所述任选数据的特征值计算出的特征值序列输入到经训练的解码器中,以生成所述第二内容。
5.根据权利要求1所述的信息处理设备,其中,所述生成单元基于作为歌曲的所述第一内容的所述相对特征值序列来生成作为所述第二内容的任选歌曲。
6.根据权利要求5所述的信息处理设备,其中,
所述获取单元将指示音高、音长以及休止符的符号串作为指示包括在所述部分数据和所述任选数据中的声音的数据输入到所述经训练的编码器,以获取与所述部分数据和所述任选数据相对应的特征值,并且
所述生成单元将基于获取到的所述任选数据和所述部分数据的特征值而获得的相对特征值序列输入到经训练的解码器,以生成所述第二内容。
7.根据权利要求1所述的信息处理设备,其中,
所述获取单元获取形成作为文本数据的所述第一内容的每个部分数据的特征值,并且
所述生成单元基于所述第一内容的所述相对特征值序列和作为文本数据的所述任选数据的所述特征值来生成作为文本数据的所述第二内容,所述第一内容的所述相对特征值序列基于获取到的每个所述部分数据的特征值而获得。
8.根据权利要求1所述的信息处理设备,其中,
所述获取单元获取形成作为运动图像内容的所述第一内容的每个部分数据的特征值,并且
所述生成单元基于所述第一内容的所述相对特征值序列和作为运动图像或图像内容的所述任选数据的所述特征值来生成作为运动图像内容的所述第二内容,所述第一内容的所述相对特征值序列基于获取到的每个所述部分数据的特征值而获得。
9.根据权利要求1所述的信息处理设备,其中,所述获取单元检测作为歌曲的所述第一内容的小节的中断,并获取每个检测到的小节的特征值。
10.根据权利要求1所述的信息处理设备,其中,所述获取单元检测作为歌曲的所述第一内容中的大于预定阈值的长度的休止符、基于检测到的休止符将所述歌曲划分为部分数据、并获取每个经划分的部分数据的特征值。
11.一种信息处理方法,使计算机:
使用经训练的编码器获取形成第一内容的每个部分数据的特征值;
从获取到的每个所述部分数据的所述特征值计算作为所述部分数据之间的相对特征值的相对特征值,以计算指示所述第一内容的结构的特征的相对特征值序列;并且
基于所述第一内容的所述相对特征值序列和任选数据的特征值生成第二内容。
12.一种信息处理程序,使计算机起以下作用:
获取单元,使用经训练的编码器来获取形成第一内容的每个部分数据的特征值;
计算单元,从获取到的所述部分数据的所述特征值计算作为所述部分数据之间的相对特征值的相对特征值,以计算指示所述第一内容的结构的特征的相对特征值序列;以及
生成单元,基于所述第一内容的所述相对特征值序列和任选数据的特征值生成第二内容。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197971 | 2018-10-19 | ||
JP2018-197971 | 2018-10-19 | ||
PCT/JP2019/040130 WO2020080268A1 (ja) | 2018-10-19 | 2019-10-10 | 情報処理装置、情報処理方法及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111492424A true CN111492424A (zh) | 2020-08-04 |
Family
ID=70284581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980006383.4A Pending CN111492424A (zh) | 2018-10-19 | 2019-10-10 | 信息处理设备、信息处理方法以及信息处理程序 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11880748B2 (zh) |
EP (1) | EP3716262A4 (zh) |
JP (1) | JP7439755B2 (zh) |
CN (1) | CN111492424A (zh) |
DE (1) | DE112019005201T5 (zh) |
WO (1) | WO2020080268A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022111242A1 (zh) * | 2020-11-26 | 2022-06-02 | 北京有竹居网络技术有限公司 | 旋律生成方法、装置、可读介质及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115461766A (zh) | 2020-05-04 | 2022-12-09 | 索尼集团公司 | 信息处理方法、信息处理装置和信息处理程序 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006109488A1 (ja) * | 2005-03-31 | 2006-10-19 | Pioneer Corporation | 情報類似性判別装置及び情報類似性判別方法 |
JP2009092977A (ja) * | 2007-10-10 | 2009-04-30 | Xanavi Informatics Corp | 車載装置および楽曲検索システム |
CN102257813A (zh) * | 2008-12-25 | 2011-11-23 | 索尼公司 | 信息处理装置、运动图像切割方法和运动图像切割程序 |
CN102568526A (zh) * | 2010-10-22 | 2012-07-11 | 索尼公司 | 信息处理设备、内容数据再配置方法及程序 |
US20130195372A1 (en) * | 2010-04-09 | 2013-08-01 | Kazuya Ogawa | Image processing apparatus and method |
US20180046618A1 (en) * | 2016-08-10 | 2018-02-15 | Samsung Electronics Co., Ltd. | Parallel processing-based translation method and apparatus |
US20180190249A1 (en) * | 2016-12-30 | 2018-07-05 | Google Inc. | Machine Learning to Generate Music from Text |
US20180232342A1 (en) * | 2017-02-16 | 2018-08-16 | Hitachi, Ltd. | Text preparation apparatus |
WO2018154900A1 (ja) * | 2017-02-22 | 2018-08-30 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
CN108573693A (zh) * | 2017-03-14 | 2018-09-25 | 谷歌有限责任公司 | 使用自动编码器的文本到语音合成 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4982643A (en) * | 1987-12-24 | 1991-01-08 | Casio Computer Co., Ltd. | Automatic composer |
JP3178463B2 (ja) * | 1999-08-31 | 2001-06-18 | ヤマハ株式会社 | 電子情報処理方法及びシステム並びに記録媒体 |
US7212972B2 (en) * | 1999-12-08 | 2007-05-01 | Ddi Corporation | Audio features description method and audio video features description collection construction method |
JP4014390B2 (ja) * | 2001-10-29 | 2007-11-28 | オリンパス株式会社 | マルチメディアオブジェクト検索システム |
JP3760897B2 (ja) * | 2002-07-16 | 2006-03-29 | ヤマハ株式会社 | 操作情報記録再生装置およびタイムコード発生装置 |
US7363230B2 (en) * | 2002-08-01 | 2008-04-22 | Yamaha Corporation | Audio data processing apparatus and audio data distributing apparatus |
AU2003275618A1 (en) * | 2002-10-24 | 2004-05-13 | Japan Science And Technology Agency | Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data |
US6784354B1 (en) * | 2003-03-13 | 2004-08-31 | Microsoft Corporation | Generating a music snippet |
JP4221308B2 (ja) * | 2004-01-15 | 2009-02-12 | パナソニック株式会社 | 静止画再生装置、静止画再生方法及びプログラム |
US7774705B2 (en) * | 2004-09-28 | 2010-08-10 | Ricoh Company, Ltd. | Interactive design process for creating stand-alone visual representations for media objects |
US8549400B2 (en) * | 2004-09-28 | 2013-10-01 | Ricoh Company, Ltd. | Techniques for encoding media objects to a static visual representation |
JP3933160B2 (ja) | 2004-11-05 | 2007-06-20 | ヤマハ株式会社 | リズムパターン生成装置及びその記録媒体 |
US7450752B2 (en) * | 2005-04-07 | 2008-11-11 | Hewlett-Packard Development Company, L.P. | System and method for automatic detection of the end of a video stream |
JP2009510509A (ja) * | 2005-09-29 | 2009-03-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | セグメント別特徴比較によりプレイリストを自動生成する方法及び装置 |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
KR100725018B1 (ko) * | 2005-11-24 | 2007-06-07 | 삼성전자주식회사 | 음악 내용 자동 요약 방법 및 그 장치 |
JP5145939B2 (ja) * | 2005-12-08 | 2013-02-20 | 日本電気株式会社 | 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム |
KR100832360B1 (ko) * | 2006-09-25 | 2008-05-26 | 삼성전자주식회사 | 음원 재생기에서의 이퀄라이저 조정 방법 및 그 시스템 |
JP5259075B2 (ja) * | 2006-11-28 | 2013-08-07 | ソニー株式会社 | マッシュアップ装置およびコンテンツの作成方法 |
JP5046211B2 (ja) * | 2008-02-05 | 2012-10-10 | 独立行政法人産業技術総合研究所 | 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法 |
US8831762B2 (en) * | 2009-02-17 | 2014-09-09 | Kyoto University | Music audio signal generating system |
JP2011175006A (ja) | 2010-02-23 | 2011-09-08 | Sony Corp | 情報処理装置、自動作曲方法、学習装置、学習方法、及びプログラム |
JP2011221133A (ja) * | 2010-04-06 | 2011-11-04 | Sony Corp | 情報処理装置、クライアント装置、サーバ装置、リスト生成方法、リスト取得方法、リスト提供方法、及びプログラム |
US9286877B1 (en) * | 2010-07-27 | 2016-03-15 | Diana Dabby | Method and apparatus for computer-aided variation of music and other sequences, including variation by chaotic mapping |
JP5799977B2 (ja) * | 2012-07-18 | 2015-10-28 | ヤマハ株式会社 | 音符列解析装置 |
US8927846B2 (en) * | 2013-03-15 | 2015-01-06 | Exomens | System and method for analysis and creation of music |
US9788777B1 (en) * | 2013-08-12 | 2017-10-17 | The Neilsen Company (US), LLC | Methods and apparatus to identify a mood of media |
US9542118B1 (en) * | 2014-09-09 | 2017-01-10 | Radian Memory Systems, Inc. | Expositive flash memory control |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
US11361763B1 (en) * | 2017-09-01 | 2022-06-14 | Amazon Technologies, Inc. | Detecting system-directed speech |
JP7222274B2 (ja) * | 2019-03-06 | 2023-02-15 | 日本電信電話株式会社 | モデル学習装置、ラベル推定装置、それらの方法、およびプログラム |
US11961167B2 (en) * | 2020-12-11 | 2024-04-16 | Jay Alan Zimmerman | Methods and systems for visualizing sound and hearing ability |
-
2019
- 2019-10-10 CN CN201980006383.4A patent/CN111492424A/zh active Pending
- 2019-10-10 US US16/772,168 patent/US11880748B2/en active Active
- 2019-10-10 DE DE112019005201.2T patent/DE112019005201T5/de active Pending
- 2019-10-10 JP JP2020527832A patent/JP7439755B2/ja active Active
- 2019-10-10 EP EP19874236.3A patent/EP3716262A4/en active Pending
- 2019-10-10 WO PCT/JP2019/040130 patent/WO2020080268A1/ja unknown
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006109488A1 (ja) * | 2005-03-31 | 2006-10-19 | Pioneer Corporation | 情報類似性判別装置及び情報類似性判別方法 |
JP2009092977A (ja) * | 2007-10-10 | 2009-04-30 | Xanavi Informatics Corp | 車載装置および楽曲検索システム |
CN102257813A (zh) * | 2008-12-25 | 2011-11-23 | 索尼公司 | 信息处理装置、运动图像切割方法和运动图像切割程序 |
US20130195372A1 (en) * | 2010-04-09 | 2013-08-01 | Kazuya Ogawa | Image processing apparatus and method |
CN102568526A (zh) * | 2010-10-22 | 2012-07-11 | 索尼公司 | 信息处理设备、内容数据再配置方法及程序 |
US20180046618A1 (en) * | 2016-08-10 | 2018-02-15 | Samsung Electronics Co., Ltd. | Parallel processing-based translation method and apparatus |
US20180190249A1 (en) * | 2016-12-30 | 2018-07-05 | Google Inc. | Machine Learning to Generate Music from Text |
US20180232342A1 (en) * | 2017-02-16 | 2018-08-16 | Hitachi, Ltd. | Text preparation apparatus |
WO2018154900A1 (ja) * | 2017-02-22 | 2018-08-30 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN108573693A (zh) * | 2017-03-14 | 2018-09-25 | 谷歌有限责任公司 | 使用自动编码器的文本到语音合成 |
US10068557B1 (en) * | 2017-08-23 | 2018-09-04 | Google Llc | Generating music with deep neural networks |
Non-Patent Citations (2)
Title |
---|
ADAM ROBERTS ET, AL.: "《A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music》", 《35TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML)》, vol. 80, pages 1 - 10 * |
IAN SIMON, ET, AL.: "《Learning a Latent Space of Multitrack Measures》", 《ARXIV.ORG,CORNELL UNIVERSITY LIBRARY》, pages 1 - 8 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022111242A1 (zh) * | 2020-11-26 | 2022-06-02 | 北京有竹居网络技术有限公司 | 旋律生成方法、装置、可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3716262A4 (en) | 2021-11-10 |
EP3716262A1 (en) | 2020-09-30 |
US20210232965A1 (en) | 2021-07-29 |
JPWO2020080268A1 (ja) | 2021-09-09 |
US11880748B2 (en) | 2024-01-23 |
WO2020080268A1 (ja) | 2020-04-23 |
JP7439755B2 (ja) | 2024-02-28 |
DE112019005201T5 (de) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Noise2music: Text-conditioned music generation with diffusion models | |
US10657934B1 (en) | Enhancements for musical composition applications | |
JP7415922B2 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
CN107123415B (zh) | 一种自动编曲方法及系统 | |
KR101982345B1 (ko) | 인공지능을 이용한 음악 생성 장치 및 방법 | |
CN109326270B (zh) | 音频文件的生成方法、终端设备及介质 | |
Holzapfel et al. | Tracking the “odd”: Meter inference in a culturally diverse music corpus | |
US11880748B2 (en) | Information processing apparatus, information processing method, and information processing program | |
Jeong et al. | Träumerai: Dreaming music with stylegan | |
CN113903347A (zh) | 一种基于机器学习的语音处理方法、装置、设备及介质 | |
Chan et al. | Informed group-sparse representation for singing voice separation | |
Garoufis et al. | Multi-Source Contrastive Learning from Musical Audio | |
CN108922505B (zh) | 信息处理方法及装置 | |
Manilow et al. | Source separation by steering pretrained music models | |
JP3716725B2 (ja) | 音声処理装置、音声処理方法および情報記録媒体 | |
CN112669811A (zh) | 一种歌曲处理方法、装置、电子设备及可读存储介质 | |
KR102227415B1 (ko) | 복선율 음악 생성 방법, 장치, 및 시스템 | |
Tomczak et al. | Drum translation for timbral and rhythmic transformation | |
Jadhav et al. | Transfer Learning for Audio Waveform to Guitar Chord Spectrograms Using the Convolution Neural Network | |
JP2012039524A (ja) | 動画像処理装置、動画像処理方法およびプログラム | |
Xie et al. | Intelligent Text-Conditioned Music Generation | |
CN113379875B (zh) | 卡通角色动画的生成方法、装置、设备及存储介质 | |
CN114783402B (zh) | 一种合成语音的变奏方法、装置、电子设备及存储介质 | |
Alinoori | Music-STAR: a Style Translation system for Audio-based Rearrangement | |
Newman | The effects of familiar melody presentation versus spoken presentation on novel word learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |