-
TECHNISCHES GEBIET
-
Die
vorliegende Erfindung bezieht sich auf ein automatisches Musikkompositionsverfahren
zum automatischen Erzeugen von Hintergrundmusik für ein Eingabebild.
Insbesondere bezieht sich die Erfindung auf ein automatisches Musikkompositionsverfahren und
-system zum Analysieren eines Eingabebildes und zum automatischen
Komponieren von Musik, die der Atmosphäre des Eingabebildes entspricht
und die während
des Zeitraums andauert, während
dessen das Bild angezeigt wird.
-
STAND DER TECHNIK
-
Aus
der bisherigen Technik ist das
US-Patent 4.658.427 bekannt,
das eine Vorrichtung zur Umwandlung eines Videosignals in ein Tonsignal
durch Extrahieren einer Anzahl P von Parametern aus dem Video beschreibt.
Die P Parameter werden dann einer Verknüpfungsmatrix zugeführt, die
die P Parameter zu Q Signalen kombiniert, die einen Tongenerator ansteuern.
-
Eine
herkömmliche
Technik im Hinblick auf ein Verfahren zur Erzeugung von Hintergrundmusik für ein Bild
ist zum Beispiel unter „Automatic
Background Music Generation based an Actors' Mood und Motion" im Journal of Visualization and Computer Animation,
Vol. 5, Seiten 247 bis 264 (1994), beschrieben. Nach dieser herkömmlichen
Technik gibt ein Benutzer für
jede Szene eines Bewegtbildes einer Computeranimation einen für die Atmosphäre der jeweiligen
Szene repräsentativen
Stimmungstyp und eine Reproduktionszeit für jede Szene ein, und entsprechend
der eingegebenen Atmosphäre
und Zeit wird Hintergrundmusik erzeugt und dem Bewegtbild zugeordnet.
In vielen Fällen
unterlegen Produzenten ihre Anima tionen, Filme und dergleichen selbst
mit Hintergrundmusik. In diesem Fall werden die für die jeweilige
Szene geeignete Atmosphäre
und die Zeit für
jede Szene im Allgemeinen während
des Produktionsprozesses festgelegt. Es ist daher leicht, die Bedingungen
zu kennen, die in ein Hintergrundmusik-Erzeugungssystem eingegeben
werden müssen.
-
Im
Falle eines allgemeinen Bewegtbildes wie etwa einem von einem normalen
Benutzer aufgenommenen Videobild ist nicht festgelegt, welche Szene
in wie vielen Sekunden aufgenommen wird. Bei der Unterlegung von
von einem normalen Benutzer aufgenommenen Videobildern (Bewegtbildern)
mit der vorstehend beschriebenen herkömmlichen Technik muss der Benutzer
die Aufteilungspositionen für die
Szenen finden, nachdem die Videobilder aufgenommen sind, und die
Hintergrundmusik-Erzeugungsbedingungen bezüglich der Reproduktionszeit und
Atmosphäre
für jede
Szene bestimmen, um diese Bedingungen in das System einzugeben.
Dies dauert daher lange und erfordert viel Arbeit.
-
Ein
Ziel der Erfindung ist die Lösung
des vorstehend genannten Problems und die Bereitstellung eines automatischen
Musikkompositionssystems, das in der Lage ist, automatisch für die Atmosphäre und Reproduktionszeit
eines extern zugeführten
Bewegtbildes geeignete Hintergrundmusik zu komponieren, eines Videobearbeitungssystems
mit einem solchen automatischen Musikkompositionssystem und eines
Multimediaproduktions-Erzeugungshilfssystems.
-
BESCHREIBUNG DER ERFINDUNG
-
Das
vorstehend genannte Ziel kann mit einem automatischen Musikkompositionsverfahren und
einer automatischen Musikkompositionsvorrichtung nach den Ansprüchen 1 und
7 erreicht werden. Darüber
hinaus kann das vorstehend genannte Ziel mit einem automatisches
Musikkompositionsverfahren erreicht werden, bei dem ein gegebenes
Bewegtbild in Szenen aufgeteilt wird, ein Merkmal jeder Szene extrahiert
wird, das Merkmal in einen Parameter umgewandelt wird und Hinter grundmusik
automatisch unter Verwendung des Parameters und der Szenenreproduktionszeit
komponiert wird.
-
Bei
einem Hintergrundmusik-Zuordnungsverfahren nach dieser Erfindung
wird ein gegebenes Bewegtbild in Szenen aufgeteilt, ein Merkmal
jeder Szene extrahiert, das Merkmal in einen Parameter zur Verwendung
für die
automatische musikalische Darbietung umgewandelt und Hintergrundmusik
automatisch unter Verwendung des Parameters und der Szenenreproduktionszeit
komponiert und die Hintergrundmusik entsprechend einer Atmosphäre und Reproduktionszeit
des Bewegtbildes zusammen mit dem Bewegtbild ausgegeben.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
1 zeigt
ein Ablaufdiagramm mit einem Beispiel für den Prozessablauf eines Verfahrens
zum Zuordnen von Hintergrundmusik zu einem Bewegtbild nach der Erfindung, 2 zeigt
ein Blockdiagramm mit dem Aufbau eines Systems zum Zuordnen von
Hintergrundmusik zu einem Bild nach einer Ausführungsform, 3 zeigt
ein Diagramm mit einem bestimmten Beispiel für Bewegtbilddaten, 4 zeigt
ein Diagramm mit bestimmten Beispielen für die in den Bewegtbilddaten
enthaltenen Bilddaten und Standbilddaten, 5 zeigt
ein Diagramm mit einem bestimmten Beispiel für Szeneninformationsgruppendaten, 6 zeigt
ein Diagramm mit einem Beispiel für einen Bildmerkmal-Extraktionsprozess, 7 zeigt
ein Diagramm mit einem bestimmten Beispiel für die in einer Empfindlichkeitsdatenbank
gespeicherten Empfindlichkeitsdaten, 8 zeigt
ein Diagramm mit einem bestimmten Beispiel für die in den Empfindlichkeitsdaten
enthaltenen musikalischen Wertegruppensammlungsdaten, 9 zeigt ein
Diagramm mit einem Beispiel für
einen Empfindlichkeits-Medienumwandlungs-Abrufprozess, 10 zeigt
ein Ablaufdiagramm mit einem Beispiel für einen automatischen Empfindlichkeits-Musikkompositionsprozess, 11 zeigt
ein Ablaufdiagramm mit einem Beispiel für einen musikalischen Melodie-Wertegruppen-Abrufprozess, 12 zeigt
ein Ab laufdiagramm mit einem Beispiel für einen Höhenzuordnungsprozess für jeden
musikalische Wert, 13 zeigt ein Diagramm mit einem
bestimmten Beispiel für
nach der Erfindung erzeugte Hintergrundmusikdaten und 14 zeigt
ein Diagramm mit einem Beispiel für einen mit dem Verfahren nach
der vorliegenden Erfindung realisierten Produkttyp.
-
BESTE AUSFÜHRUNGSFORM DER ERFINDUNG
-
Eine
Ausführungsform
der Erfindung wird nachstehend anhand der anliegenden Zeichnungen ausführlich beschrieben.
-
Zuerst
wird der Systemaufbau nach der vorliegenden Erfindung anhand von 2 ausführlich beschrieben.
Das in 2 gezeigte System besteht aus wenigstens einem
Prozessor (205) zur Steuerung des gesamten Systems, einem
Speicher (206) zur Speicherung eines Systemsteuerungsprogramms
(nicht gezeigt) und verschiedener Programme zur Ausführung der
Erfindung sowie einem Speicherbereich (nicht gezeigt), der bei der
Ausführung
der Erfindung benutzt wird, Ein-/Ausgabegeräten (201 bis 204)
zum Eingeben bzw. Ausgeben von Bildern, Musik, Tönen und Sprache und verschiedenen
sekundären
Speichergeräten
(210 bis 213), die bei der Ausführung der
Erfindung benutzt werden.
-
Ein
Bildeingabegerät
(201) gibt Bewegtbilder oder Standbilder in spezielle Dateien
(210 und 211) ein. In der Praxis ist das Bildeingabegerät (201)
eine Videokamera oder eine Videowiedergabevorrichtung (zur Eingabe
von Bewegtbildern) oder ein Scanner oder eine Digitalkamera (zur
Eingabe von Standbildern). Ein Bildausgabegerät (202) dient zur
Ausgabe von Bildern und kann ein Flüssigkristall- oder Röhrenbildschirm,
ein Fernseher oder dergleichen sein. Ein Musikausgabegerät (203)
komponiert Musik aus in einer Musikdatei (212) enthaltenen
Noteninformationen und kann ein Musiksynthesizer oder dergleichen
sein. Ein Benutzereingabegerät
(204) wird von einem Benutzer verwendet, um Systemsteuerungsinformationen
wie etwa einen Systemeinrichtungsbefehl einzugeben, und kann eine
Tastatur, eine Maus, ein Touchpanel, eine spezielle Befehlstaste,
ein Spracheingabegerät
oder dergleichen sein.
-
Der
Speicher (206) enthält
die folgenden Programme: ein Bewegtbild-Szenenaufteilungsprogramm
(220) zum Aufteilen eines Eingabebewegtbildes in Szenen,
ein Bildmerkmal-Extraktionsprogramm (221) zum Extrahieren
eines Merkmals eines Bildes, ein Empfindlichkeits-Medienumwandlungs-Abrufprogramm
(222) zum Abrufen von musikalischen Wertegruppen, die zu
der Atmosphäre
eines Bildes passende Musik darstellen, durch Bezugnahme auf die
extrahierten Merkmale sowie ein automatisches Empfindlichkeits-Musikkompositionsprogramm
(223) zum Komponieren von Musik aus den abgerufenen musikalischen
Wertegruppen. Der Speicher (206) enthält auch das Systemsteuerungsprogramm
und weist einen Speicherbereich zum Speichern von vorläufigen Daten
auf, die während der
Ausführung
der vorstehend beschriebenen Programme erhalten werden.
-
Die
verschiedenen Prozesse nach der Erfindung werden unter Bezugnahme
auf 1 beschrieben. Nach dem Einrichten des Systems
wird mit einem Bewegtbild-Eingabeprogramm über das Bildeingabegerät (201)
ein Bewegtbild eingegeben. Die Eingabebewegtbilddaten werden in
der Bewegtbilddatei (210) gespeichert (Schritt 101).
Danach wird das in der Bewegtbilddatei (210) gespeicherte
Bewegtbild mit dem Bewegtbild-Szenenaufteilungsprogramm (220)
in Szenen (Bewegtbildabschnitte ohne Unterbrechung) aufgeteilt.
Die Szenenaufteilungs-Positionsinformationen und die durch die Szenenaufteilungs-Positionsinformationen
angegebenen Bildszenen werden in der Standbilddatei (211)
als repräsentative
Bildinformationen gespeichert (Schritt 102). Ein repräsentatives
Bild ist ein Bild zu einem bestimmten Zeitpunkt, so dass das repräsentative
Bild als ein Standbild verarbeitet und in der Standbilddatei gespeichert
wird. Als Nächstes
wird mit dem Bildmerkmal-Extraktionsprogramm (221) ein
Merkmalsbetrag des repräsentativen
Bildes für
jede Szene extrahiert und im Speicher (206) gespeichert
(Schritt 103).
-
Danach
werden mit dem Empfindlichkeits-Medienumwandlungs-Abrufprogramm (222)
die in der Empfindlichkeitsdatenbank (213) enthaltenen Empfindlichkeitsinformationen
unter Verwendung des extrahierten Merkmalsbetrags als Schlüssel abgerufen,
und die in den abgerufenen Empfindlichkeitsinformationen enthaltene
musikalische Wertegruppensammlung wird im Speicher (206)
gespeichert (Schritt 104). Danach wird mit dem automatischen Empfindlichkeits-Musikkompositionsprogramm
(223) Hintergrundmusik entsprechend der erhaltenen musikalischen
Wertegruppensammlung und den aus den im Speicher (206)
enthaltenen Aufteilungs-Positionsinformationen erhaltenen Szenen-Zeitinformationen
komponiert, und die komponierte Hintergrundmusik wird in der Musikdatei
(212) gespeichert (Schritt 105). Zuletzt werden
die komponierte Hintergrundmusik und das Eingabebewegtbild gleichzeitig mit
dem Musikausgabegerät
(203) und dem Bildausgabegerät (202) ausgegeben
(Schritt 106).
-
Nachstehend
werden die Systemstruktur und die Prozesse ausführlich beschrieben. Zuerst werden
die Datenstrukturen der sekundären
Speichergeräte
(210 bis 213) und des Speichers 206,
die das System bilden, beschrieben.
-
3 zeigt
die Struktur der in der in 2 gezeigten
Bewegtbilddatei (210) enthaltenen Bewegtbilddaten. Die
Bewegtbilddaten bestehen aus einer Bilddatengruppe (300)
mehrerer zeitsequenziell angeordneter [Einzel-]Bilder. Die Bilddaten
bestehen jeweils aus einer Nummer (301) zur Angabe des
jeweiligen [Einzel-]Bildes, einer Zeit (302), wann das Bild
angezeigt wird, und den anzuzeigenden Bilddaten (303).
Ein Bewegtbild ist eine Sammlung von mehreren Standbildern. Dabei
entsprechen die Bilddaten (303) jeweils den Bilddaten eines
Standbildes. Das Bewegtbild wird durch sequenzielles Anzeigen der
Bilddaten beginnend mit den Bilddaten für die Bildnummer „1" zusammengestellt.
Die Anzeigezeit der Bilddaten für
jedes [Einzel-]Bild wird in den Zeitinformationen (302)
gespeichert, indem für
die Zeit (Zeit 1), zu der die Bilddaten für Bildnummer „1" angezeigt werden,
der Wert „0" eingestellt wird.
Das in 3 gezeigte Beispiel gibt an, dass die Eingabebewegtbilder
aus n1 [Einzel-]Bildern bestehen. Die Bewegtbilder für 30 Bilder
pro Sekunde haben zum Beispiel n1 = 300 während 10 Sekunden.
-
Die
Datenstrukturen der in 2 gezeigten Standbilddatei (211)
und der in 3 gezeigten Bilddaten (303)
werden anhand von 4 ausführlich beschrieben. Diese Daten
bestehen aus den Anzeigeinformationen (400) für alle Punkte
auf einer Bildebene, die zu einer bestimmten Zeit (zum Beispiel 302)
in den in 3 gezeigten Zeitrahmen angezeigt werden
sollen. Dabei liegen die in 4 gezeigten Anzeigeinformationen
für die
Bilddaten zu einer beliebigen Zeit n1 in 3 vor. Die
Anzeigeinformationen (400) für jeden Punkt in einem Bild
bestehen aus einer X-Koordinate (401) und einer Y-Koordinate (402)
für den
Punkt sowie einer Rot-Intensität
(403), einer Grün-Intensität (404)
und einer Blau-Intensität (405)
als Farbinformationen für
den betreffenden Punkt. Da alle Farben im Allgemeinen mit Hilfe
von Rot-, Grün-
und Blau-Intensitäten
ausgedrückt
werden können,
können
diese Daten die Bildinformationen ausdrücken, die eine Sammlung von
Punkten sind. Die Farbintensität
ist durch eine reelle Zahl von 0 bis 1 angegeben. Weiß kann zum
Beispiel durch (1, 1, 1) für
(Rot, Grün,
Blau) angegeben werden, Rot kann durch (1, 0, 0) angegeben werden
und Grau kann durch (0,5, 0,5, 0,5) angegeben werden. In dem in 4 gezeigten
Beispiel sind die Anzeigeinformationen für die Punkte n2 in Summe. Für ein Bild
mit 640 × 800
Punkten sind die Anzeigeinformationen für die Punkte n2 = 512.000 in
Summe.
-
Als
Nächstes
wird die Datenstruktur der durch den in 1 gezeigten
Bewegtbild-Szenenaufteilungsprozess (102) im Speicher (206)
gespeicherten Szeneninformationengruppe anhand von 5 ausführlich beschrieben.
Diese Daten bestehen aus Szeneninformationen (500) für eine oder mehr
zeitsequenziell angeordnete Szenen. Jedes Element der Sze neninformationen
besteht aus einer Bildnummer (501) (oft die erste Bildnummer
der Szene), einer der Bildnummer (501) zugeordneten Zeit (502)
und einer repräsentativen
Bildnummer (503) für die
Szene. Die Szene, zum Beispiel die Szeneninformationen (504),
entspricht einem Bewegtbildabschnitt von der Bildnummer i des Bewegtbildes bis
zu dem Bild ein Bild vor der Bildnummer i + 1 in den Szeneninformationen 501,
und ihre Bewegtbild-Reproduktionszeit beträgt (Zeit i + 1) – (Zeit
i). Die repräsentative
Bildnummer (503) ist eine repräsentative Angabe für die Position
der Standbilddaten in der Standbilddatei (211) in Form
einer laufenden Nummer, die den jeweiligen Standbilddaten zugeordnet
ist, einer Startadresse der Standbilddaten oder dergleichen. Das
repräsentative
Bild ist eine Kopie der Bilddaten eines Bildes der in der Standbilddatei (211)
gespeicherten Szene mit der in 4 gezeigten
Datenstruktur. Obwohl das repräsentative
Bild im Allgemeinen eines Kopie des ersten Bildes der Szene ist
(Bilddaten mit der Bildnummer i in den Szeneninformationen 500),
kann es auch eine Kopie von Bilddaten in der Mitte der Szene (Bilddaten
mit der Bildnummer ((Bildnummer i) + (Bildnummer i + 1))/2 in den
Szeneninformationen 504), eine Kopie der Bilddaten des
letzten Bildes der Szene (Bilddaten mit der Bildnummer (Bildnummer
i + 1) – 1
in den Szeneninformationen 504) oder eine Kopie anderer
Bilddaten sein. In dem in 5 gezeigten
Beispiel sind die Szeneninformationen n3 in Summe, was bedeutet,
dass die Eingabebewegtbilder in n3 Szenen aufgeteilt sind.
-
Als
Nächstes
wird die Datenstruktur der in der in 2 gezeigten
Empfindlichkeitsdatenbank (213) enthaltenen Daten anhand
von 7 ausführlich
beschrieben. Die Datenbank enthält
eine Reihe von Empfindlichkeitsdatengruppen (700). Die
Empfindlichkeitsdaten (700) bestehen aus Hintergrundfarbinformationen
(701) und Vordergrundfarbinformationen (702),
die jeweils einen Empfindlichkeits-Merkmalsbetrag eines Bildes angeben,
und einer musikalischen Wertegruppensammlung (703), die
einen Empfindlichkeits-Merkmals betrag der Musik angibt. Die Hintergrund-/Vordergrundfarbinformationen
(701 und 702) bestehen aus einer Kombination von
drei reellen Zahlen für
die Rot-, Grün-
und Blau-Intensitäten.
-
Als
Nächstes
wird die Datenstruktur der musikalischen Wertegruppensammlung (703)
anhand von 8 beschrieben. Die musikalische
Wertegruppensammlung besteht aus mehreren musikalischen Wertegruppeninformationsgruppen
(800). Die musikalischen Wertegruppeninformationen (800)
bestehen aus einer musikalischen Wertegruppe (803), Tempoinformationen
(802) für
die musikalische Wertegruppe und Zeitinformationen (801)
zur Angabe der erforderlichen Zeit zum Abspielen der musikalischen Wertegruppe
mit dem Tempo. Die Tempoinformationen (802) bestehen aus
einer Referenznote und der Anzahl, wie oft diese Noten in einer
Minute gespielt werden. Das Tempo (811) gibt zum Beispiel
an, dass eine Vierteilnote 120-mal in einer Minute gespielt wird.
Im Einzelnen wird dieses Tempo (811) in der Datenbank als
ein Paar (96, 120) gespeichert, wobei die ganze
Zahl 96 die Dauer einer Viertelnote angibt und die ganze
Zahl 120 die Anzahl der zu spielenden Noten angibt. Die
Zeitinformationen werden als ganze Zahl in Sekunden gespeichert.
Ist das Tempo (811) zum Beispiel eine Viertelnote = 120
und lautet der musikalische Wert in der musikalischen Wertegruppe
(803) 60 Viertelnoten, beträgt die Darbietungszeit eine
halbe Minute, das heißt
30 Sekunden, so dass der Wert 30 in den Zeitinformationen (810) gespeichert
wird. Die musikalische Wertegruppe (803) besteht aus Rhythmusinformationen
(820) und mehreren musikalischen Werteinformationsgruppen (821 bis 824).
Die Rhythmusinformationen (820) sind Informationen im Hinblick
auf den Rhythmus einer zu spielenden Melodie. Der Rhythmus (820)
gibt zum Beispiel einen Rhythmus im Viervierteltakt an und ist in
der Datenbank als ein Paar (4, 4) von zwei ganzen Zahlen
gespeichert. Die musikalischen Werteinformationen (821 bis 824)
bestehen aus dem musikalischen Wert einer Note (821, 822 und 824)
und dem mu sikalischen Wert einer Pause (822). Durch sequenzielles
Anordnen dieser musikalischen Werte kann der Rhythmus einer Melodie
ausgedrückt
werden. Die Datenbank speichert die Daten in der Reihenfolge der
kürzeren
Abspielzeit.
-
13 zeigt
ein Beispiel für
die mit dem in 1 gezeigten automatischen Empfindlichkeits-Musikkompositionsprozess
in der Musikdatei (212) gespeicherten Hintergrundmusikdaten.
Hintergrundmusik wird als eine Gruppe von Rhythmusinformationen
(1301) und Noten (1302 bis 1304) ausgedrückt. Die
Rhythmusinformationen (1301) werden als ein Paar von zwei
ganzen Zahlen ähnlich
den Rhythmusinformationen (820) der musikalischen Wertegruppensammlung
gespeichert (8). Die Notengruppen (1301 bis 1304)
werden als drei Paare (1314 bis 1316) von ganzen
Zahlen gespeichert. Die ganzen Zahlen geben einen Tonerzeugungstakt (1311),
eine Notendauer (1312) bzw. eine Notenhöhe (1313) an.
-
Nachstehend
wird ein Verfahren zur sequenziellen Realisierung der einzelnen
Prozesse in der in 1 gezeigten Reihenfolge beschrieben.
-
Der
in
1 gezeigte Bewegtbild-Szenenaufteilungsprozess
(
102) kann zum Beispiel nach dem in „Automatic Video Indexing
and Full-Video Search for Object Appearances", Papers Vol. 33, Nr. 4, Information
Processing Society of Japan, und in „Moving Image Change Point
Detecting Method",
JP-A-4-111181 ,
beschriebenen Verfahren realisiert werden. Alle diese Verfahren
erfassen als Szenenaufteilungspunkt einen Punkt, an dem eine festgelegte Änderungsrate
zwischen den Bilddaten eines Einzelbildes (
300) eines Bewegtbildes
(
3) und den Bilddaten des nächsten Einzelbildes (
310)
einen vorbestimmten Wert überschreitet.
Eine Szeneninformationengruppe (
5) bestehend
aus den erhaltenen Szenenaufteilungspunktinformationen und repräsentativen
Szenen-Bildinformationen
wird im Speicher (
206) gespeichert.
-
Der
in 1 gezeigte Bildmerkmal-Extraktionsprozess (103)
wird anhand von 6 beschrieben. Dieser Prozess
ruft die Bild-Merkmalsbeträge für „Hintergrundfarbe" und „Vordergrundfarbe” der jeweiligen
in der Standbilddatei (211 in 2) gespeicherten
Standbilddaten durch Ausführen
der folgenden Prozesse ab. Im Wesentlichen sind Farben in 1.000
Abschnitte von je 10 × 10 × 10 unterteilt,
und die Anzahl der Punkte in einem Bild mit einem entsprechenden
Farbabschnitt wird gezählt,
wobei eine Farbe mit einem Mittelwert in dem Abschnitt mit der höchsten Anzahl
von Punkten als „Hintergrundfarbe" und eine Mittelfarbe
in dem Abschnitt mit der zweithöchsten
Anzahl als „Vordergrundfarbe" verwendet werden.
Der Prozess wird im Einzelnen anhand von 6 beschrieben.
Zuerst wird eine Datenmatrix für ein
Histogramm von 10 × 10 × 10 erstellt,
und alle Daten werden auf 0 gesetzt (Schritt 601). Danach
wird Schritt 603 für
die Punkt-Anzeigeinformationen (400) ausgeführt, die
jeweils der X-Koordinate (401) und der Y-Koordinate (402)
der Bilddaten (4) entsprechen (Schritt 602).
Während
die ganzen Zahlen 0 bis 9 nacheinander in die ganzzahligen Variablen
i, j und k eingesetzt werden, wird Schritt 604 ausgeführt (Schritt 603).
Liegen die Rot-, Grün-
und Blau-Intensitäten der
Farbinformationen für
einen Punkt entsprechend den gegenwärtigen X- und Y-Koordinaten zwischen
i/10 und (i + 1)/10, j/10 und (j + 1)/10 bzw. k/10 und (k + 1)/10,
wird Schritt 605 ausgeführt (Schritt 604),
und der entsprechende Farbabschnitt-Histogrammwert wird um 1 erhöht. Danach werden
die Indizes i, j und k eines Histogramms mit dem höchsten Wert
in die Variablen i1, j1 und k1 eingesetzt, und die Indizes eines
Histogramms mit dem zweithöchsten
Wert werden in die Variablen i2, j2 und k2 eingesetzt (Schritt 606).
Danach wird eine Farbe mit den Rot-, Grün- und Blau-Intensitäten von
(i1 + 0,5)/10, (j1 + 0,5)/10 und (k1 + 0,5)/10 im Speicher (206)
als Hintergrundfarbe gespeichert, und eine Farbe mit den Rot-, Grün- und Blau-Intensitäten von
(i2 + 0,5)/10, (j2 + 0,5)/10 und (k2 + 0,5)/10 wird im Speicher
(206) als Vordergrundfarbe gespeichert.
-
Der
in 1 gezeigte Empfindlichkeits-Medienumwandlungs-Abrufprozess
(104) wird anhand von 9 beschrie ben.
Dieser Prozess erhält
die Empfindlichkeitsdaten, die der Hintergrund-/Vordergrundfarbe
entsprechen, die der Hintergrund-/Vordergrundfarbe am nächsten sind,
die der Empfindlichkeits-Merkmalsbetrag für das durch den Bildmerkmal-Extraktionsprozess
(6) erhaltene Bild ist, und erhält weiter die musikalische
Wertegruppensammlung (8), die der Empfindlichkeits-Merkmalsbetrag
für die
Musik entsprechend den erhaltenen Empfindlichkeitsdaten ist. Die
Einzelheiten dieses Prozesses werden nachstehend beschrieben. Zuerst
wird eine ausreichend große
reelle Zahl in eine Variable dm eingesetzt (Schritt 901).
Danach werden die Schritte 903 und 904 für alle Empfindlichkeitsdaten
(700) Di ausgeführt,
die in der Empfindlichkeitsdatenbank (213) gespeichert
sind (Schritt 902). Pythagoreische Abstände zwischen der mit dem Bildmerkmal-Extraktionsprozess
erhaltenen Hintergrundfarbe (Rb, Gb, Bb) und der Di-Hintergrundfarbe
(Rib, Gib, Bib) und zwischen der mit dem Bildmerkmal-Extraktionsprozess
erhaltenen Vordergrundfarbe (Rf, Gf, Bf) und der Di-Vordergrundfarbe (Rif,
Gif, Bif) (wobei angenommen wird, dass die jeweiligen Werte Koordinaten
in einem dreidimensionalen Raum sind) werden berechnet, und die
Gesamtsumme wird in die Variable di eingesetzt (Schritt 904).
Wenn di kleiner ist als dm, wird Schritt 905 ausgeführt (Schritt 904).
Der gegenwärtige
Empfindlichkeitsdatenindex i wird in die Variable m eingesetzt, und
di wird in dm eingesetzt (Schritt 905). Zuletzt wird die
musikalische Wertegruppensammlung, die den Empfindlichkeitsdaten
mit dem Variablen Index m entspricht, im Speicher (206)
gespeichert (Schritt 607).
-
Als
Nächstes
wird der in
1 gezeigte Empfindlichkeits-Musikkompositionsprozess
(
105) durch Anwendung des in der
japanischen Patentanmeldung 7-237082 „Automatic
Composing Method", die
von dem Erfinder der vorliegenden Erfindung am 14. September 1995
beim japanischen Patentamt eingereicht wurde, beschriebenen Verfahrens
auf jede Szene ausgeführt.
Das Verfahren wird nachstehend anhand von
10 erläutert. Zuerst
wird die entsprechende musikalische Wertegruppe aus der mit dem
Empfindlichkeits-Medienumwandlungs-Abrufprozess (
104) erhaltenen
musikalischen Wertegruppensammlung (
8) unter
Verwendung der benötigten
Zeit für
Hintergrundmusik abgerufen (Schritt
1001). Danach wird
der abgerufenen musikalischen Wertegruppe die Tonhöhe zugeordnet,
um Hintergrundmusik zu erzeugen (Schritt
1002).
-
Ein
in 10 gezeigter musikalischer Melodie-Wertegruppen-Abrufprozess
(1001) wird anhand von 11 ausführlich beschrieben.
Zuerst wird in einer Variable T eine Reproduktionszeit für den Bewegtbildabschnitt
(wenn das Eingabebild ein Bewegtbild ist), die unter Verwendung
der Zeitinformationen (502) in den Szeneninformationen
(500) erhalten und während
des Bewegtbild-Szenenextraktionsprozesses (102) ausgegeben
wird, oder eine von einem Benutzer in den Speicher (206)
eingegebene Darbietungszeit (wenn das Eingabebild ein Standbild ist)
gespeichert (Schritt 1101). Danach werden die ersten Daten
in der musikalischen Wertegruppensammlung (8) in einer
Variable S gespeichert, und eine ganze Zahl „1" wird in einer Variable K gespeichert
(Schritt 1102). Sodann werden die Zeitinformationen (801)
für eine
erforderliche Zeit zum Abspielen der Daten S mit dem Wert T verglichen.
Wenn T länger
ist, wird Schritt 1104 ausgeführt, während Schritt 1106 ausgeführt wird,
wenn die Zeit für
S länger
oder gleich ist (Schritt 1103). Ist die Variable K gleich
der Anzahl N der musikalischen Wertegruppen in der musikalischen
Wertegruppensammlung, wird Schritt 1109 ausgeführt, während Schritt 1105 ausgeführt wird,
wenn dies nicht zutrifft (Schritt 1104). Die nächsten Daten
in der musikalischen Wertegruppensammlung werden in S gespeichert,
und der Variablenwert K wird um 1 erhöht, um zu Schritt 1103 zurückzukehren
(Schritt 1105). Die musikalischen Wertegruppendaten ein
Datenelement vor den in S gespeicherten Daten werden in einer Variablen
SP gespeichert (Schritt 1106). Als Nächstes wird das Verhältnis des
Variablenwertes T zu den Zeitinformationen (801) für die Daten SP
mit dem Verhältnis
der Zeitinformationen (801) für die Daten S zu dem Variablenwert
T verglichen, und wenn sie gleich sind oder wenn ersteres größer ist,
wird Schritt 1109 ausgeführt, während Schritt 1108 ausgeführt wird,
wenn letzteres größer ist
(Schritt 1108). Der Wert des in den Daten S gespeicherten
Tempos (802) wird in einen Wert geändert, der mit dem Verhältnis der
Zeitinformationen (801) für die Daten S zu dem Variablenwert
T multipliziert wird, und die Daten S werden im Speicher (206)
als die musikalischen Wertegruppendaten gespeichert, um den Prozess
zu beenden (Schritt 1109). Durch Ausführen dieses Prozesses kann
eine Notengruppe mit einer Zeit gesucht werden, die einer bestimmten
erforderlichen Zeit für
eine musikalische Darbietung am nächsten ist. Darüber hinaus
erhält
die gesuchte musikalische Wertegruppe durch Justieren des Tempos
eine Zeit entsprechend der gegebenen Zeit.
-
Als
Nächstes
wird ein in 10 gezeigter Höhenzuordnungsprozess
(1002) anhand von 12 ausführlich beschrieben.
-
Zuerst
wird die erste musikalische Werteinformation in den im Speicher
(206) gespeicherten musikalischen Wertegruppeninformationen
S in eine Variable D eingesetzt (Schritt 1201). Danach
wird eine zufällige
ganze Zahl zwischen dem niedrigsten Höhenwert 0 und dem höchsten Höhenwert
127 erhalten und D zugeordnet (Schritt 1202). Wenn der
in D gespeicherte musikalische Wert der letzte musikalische Wert
von S ist, endet daraufhin der Prozess, während Schritt 1204 ausgeführt wird,
wenn er nicht der letzte musikalische Wert ist (Schritt 1203).
Der nächste
musikalische Wert in S wird in D eingesetzt (Schritt 1204).
Auf diese Weise wird die erzeugte und im Speicher (206)
L gespeicherte Hintergrundmusik in der Musikdatei (212)
gespeichert, woraufhin der Prozess endet.
-
Ein
Zusammenhang zwischen dem System und einer Bildquelle, die mit Hintergrundmusik
unterlegt wird, wird beschrieben. In der vorstehenden Beschreibung
wird ein Be wegtbild als Bildquelle verwendet. Die Erfindung kann
aber auch angewendet werden, wenn die Bildquelle ein Standbild ist.
-
Wenn
zum Beispiel ein mit Hintergrundmusik unterlegtes Bild aus einem
oder mehreren Standbildern besteht, wie sie zur Präsentation
verwendet werden, werden die Schritte 101 und 103 bis 106 ausgeführt, um
die Bilder mit Hintergrundmusik zu versehen. Die mit Hintergrundmusik
versehenen Bilder können
eines oder mehr Standbilder wie etwa Computergrafiken sein, die
mit dem Prozessor (205) erzeugt und in der Standbilddatei
(211) gespeichert werden. In diesem Fall erfolgt das Unterlegen
mit Hintergrundmusik durch Ausführen
der Schritte 103 bis 106. Beim Unterlegen von
Standbildern mit Hintergrundmusik gibt ein Benutzer jedoch die Darbietungs-Zeitinformationen
der Hintergrundmusik für
jedes Standbild über
das Eingabegerät
(204) ein, wobei die Zeitinformationen im Speicher (206)
gespeichert werden. Die Erfindung ist auch für den Fall geeignet, wenn eine
Zeit, zu der ein mit Hintergrundmusik unterlegtes Standbild eingegeben
wird, gemessen wird, ein Standbild als eine Szene angenommen wird
und die Zeit bis zur Eingabe des nächsten Standbildes als Zeitdauer
der Szene verwendet wird.
-
Als
eine weitere Ausführungsform
können das
Datenformat der Bilddaten in der Bewegtbilddatei (210 in 1)
und das Datenformat eines repräsentativen
Bildes für
die Standbilddaten (211 in 1) geändert werden.
Weil die Standbilddaten selbst ein Bild darstellen müssen, müssen die
Daten aller (X, Y-)Koordinaten gespeichert werden. Die Bilddaten
in der Bewegtbilddatei, mit Ausnahme der Bilddaten für das erste
Bild der Szene, sind jedoch im Wesentlichen gleich den Bilddaten
der vorherigen Bilder. Daher können
Differenzdaten zwischen ihnen als Bilddaten gespeichert werden.
-
Als
Letztes wird ein Beispiel für
einen mit dem Verfahren nach der Erfindung realisierten Produkttyp
unter Bezugnahme auf 2 und 14 beschrieben.
Dieses Produkt weist eine Videokamera (1401), einen Videorecorder
(1402) oder eine Digitalkamera (1403) als Bildeingabegerät (201),
einen Videorecorder (1404) oder einen Fernseher (1405)
als Bild- und Musikausgabegerät
(202 und 203) und einen Computer (1400)
als die übrigen
Geräte
(204 bis 206 und 210 bis 213)
auf. Bei Verwendung der Videokamera (1401) zur Eingabe
von Bildern dient die Videokamera zur Eingabe der Bewegtbilddatei
(210) mit aufgenommenen Videobildern als Bewegtbildinformationen
in den Computer (1400). Bei Verwendung des Videorecorders
(1402) reproduziert der Videorecorder die auf einem Videoband
gespeicherten Videoinformationen und gibt sie als Bewegtbildinformationen
in die Bewegtbilddatei (210) im Computer (1400)
ein. Bei Verwendung der Digitalkamera (1403) dient die
Digitalkamera zur Eingabe eines oder mehr aufgenommener Standbilder
in die Standbilddatei (211) des Computers (1400).
Bei Verwendung des Videorecorders (1404) zum Ausgeben von
Bildern und Musik dient der Videorecorder zur gleichzeitigen Aufzeichnung
und Speicherung von Videoinformationen für die in der Bewegtbilddatei
(210) gespeicherten Bewegtbilder (bei Eingabe von Bewegtbildern)
oder für
die in der Standbilddatei (211) gespeicherten Standbilder
(bei Eingabe von Standbildern) und von akustischen Informationen
für in
der Musikdatei (212) gespeicherte Musik auf einem Videoband.
Bei Verwendung des Fernsehers (1405) gibt der Fernseher gleichzeitig
Videoinformationen für
die in der Bewegtbilddatei (210) gespeicherten Bewegtbilder
(bei Eingabe von Bewegtbildern) oder für die in der Standbilddatei
(211) gespeicherten Standbilder (bei Eingabe von Standbildern)
und akustische Informationen für
die in der Musikdatei (212) gespeicherte Musik aus. Der
für die
Eingabe von Bildern verwendete Videorecorder (1402) und
ein für
die Ausgabe von Bildern und Musik verwendeter Videorecorder kann
derselbe Videorecorder sein.
-
Nach
der vorliegenden Erfindung ist es möglich, ein automatisches Musikkompositionssystem, das
in der Lage ist, automatisch für
die Atmosphäre und
Reproduktionszeit eines extern zugeführten Bewegtbildes geeignete
Hintergrundmusik zu komponieren, ein Videobearbeitungssystem mit
einem solchen automatischen Musikkompositionssystem und ein Multimediaproduktions-Erzeugungshilfssystem bereitzustellen.
-
INDUSTRIELLE ANWENDBARKEIT
-
Wie
vorstehend beschrieben, ist das automatische Musikkompositionsverfahren
nach der Erfindung zum Beispiel zur Erzeugung von Hintergrundmusik
für Präsentationen
mit mehreren Overhead-Projektionsfolien, zur Unterlegung der von
einem Benutzer aufgenommenen Videobilder mit Hintergrundmusik in
einem Videobearbeitungssystem und zum Erzeugen von Hintergrundmusik
in einem Multimediaproduktions-Erzeugungshilfssystem geeignet. Die
Erfindung ist auch für
Personalcomputer-Software geeignet, indem verschiedene Programme
und Datenbanken gespeichert werden, wodurch die Erfindung in der
Praxis reduziert wird.