DE69719825T2

DE69719825T2 - Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit

Info

Publication number: DE69719825T2
Application number: DE69719825T
Authority: DE
Inventors: Subutai Ahmad; Neal A Bhadkamkar; Michele Covell
Original assignee: Interval Research Corp
Current assignee: Interval Research Corp
Priority date: 1996-12-05
Filing date: 1997-12-03
Publication date: 2003-12-18
Anticipated expiration: 2017-12-04
Also published as: US8238722B2; US20040170385A1; US5893062A; AU5898398A; US7480446B2; US20020059074A1; EP1057331A2; US6728678B2; WO1998025405A2; US20120321276A1; US20090097823A1; US6360202B1; EP1057331B1; DE69719825D1; WO1998025405A3

Description

HINTERGRUND DER ERFINDUNG

1. Bereich der Erfindung

Die vorliegende Erfindung betrifft die Wiedergabe von Audio- und Videodaten und betrifft im Besonderen das Variieren der apparenten Wiedergaberate, bei welcher die Audio- und Videodaten wiedergegeben werden.

2. Stand der Technik

Es ist wünschenswert, die apparente Wiedergaberate (d. h. die Änderungsrate der Wiedergabe, wie sie von einem Beobachter wahrgenommen wird, im Gegensatz zu der Rate, bei der die Daten verarbeitet werden, um die Wiedergabe zu generieren) einer von Audio-, Video- oder zueinander in Beziehung stehenden Audio- und Videodaten generierten Wiedergabe variieren zu können. So kann es beispielsweise wünschenswert sein, die apparente Wiedergaberate zu erhöhen, um einen raschen Überblick über den Inhalt der Daten zu gewinnen, oder weil man die Wiedergabe mit einer schnelleren Rate als der normalen - bei der man den Inhalt der Daten aber immer noch geeignet aufnehmen oder verarbeiten kann - anhören oder anschauen will.
Alternativ mag es wünschenswert sein, die apparente Wiedergaberate zu verlangsamen, so dass man die Wiedergabe sorgfältiger prüfen kann, oder weil man den Inhalt der Wiedergabe bei einer langsameren Rate besser verarbeiten kann.
Sowohl Audio- wie auch Videodaten lassen sich in analoger Form oder in digitaler Form darstellen. Das Verfahren, welches zum Manipulieren von Audio- und/oder Videodaten verwendet wird, um eine Variation in der apparenten Wiedergaberate einer von diesen Daten generierten Wiedergabe zu bewirken, hängt von der Form ab, in der die Daten dargestellt sind. Herkömmliche Vorrichtungen ermöglich es jedoch, in der einen Form vorliegende Daten leicht in die andere Farm umzuwandeln (d. h. analoge Daten in digitale Daten oder digitale Daten in analoge Daten), so dass man große Freiheit hat bei der Verwendung von Methoden zum Durchführen der Wiedergaberatenvariation, unabhängig von der Form, in der die Daten ursprünglich vorlagen.
Die apparente Wiedergaberate einer Audiowiedergabe oder einer Videowiedergabe kann durch Löschen spezifizierter Daten oder Hinzufügen spezifizierter Daten (d. h. Wiederholen gewisser Daten) aus bzw. zu einem korrespondierenden Satz von digitalen Audiodaten oder digitalen Videodaten, die den Inhalt der Wiedergabe repräsentieren, erhöht bzw. erniedrigt werden. Zur Realisierung einer derartigen Variation der apparenten Wiedergaberate einer Audiowiedergabe oder einer Videowiedergabe sind bereits vielfältige Techniken eingesetzt worden. So hat man zum Beispiel die apparente Wiedergaberate einer durch einen Satz von digitalen Audiodaten repräsentierten Audiowiedergabe variiert durch die Verwendung der sog, Synchronized Overlap Add (SOLA-)Methode (auf die im Folgende noch näher eingegangen wird), um einen originalen Satz von digitalen Audiodaten geeignet zu modifizieren, wobei ein modifizierter Satz von digitalen Audiodaten erzeugt wird, von dem die Audiowiedergabe generiert wird.
Häufig steht ein Satz von Audiodaten in Beziehung zu einem bestimmten Satz von Videodaten, und die beiden werden gemeinsam verwendet, um eine audiovisuelle Wiedergabe zu generieren, wie dies zum Beispiel bei der Darstellung von Fernsehsendungen, Filmen oder Computer-Multimedia-Daten geschieht. Wenn die apparente Wiedergaberate einer audiovisuellen Wiedergabe variiert wird, müssen die Audiowiedergabe und die Videowiedergabe synchronisiert werden, um die zeitliche Korrespondenz zwischen dem Inhalt der Audiowiedergabe und der Videowiedergabe zu wahren. (Alternativ kann die Audiowiedergabe vollständig eliminiert und so die Notwendigkeit der Aufrechterhaltung der Synchronisation umgangen werden; allerdings geht dann der Inhalt der Audiowiedergabe verloren.)
Bislang wurde die apparente Wiedergaberate einer audiovisuellen Wiedergabe variiert durch gleichmäßiges Löschen bzw. Wiederholen von Videodaten (z. B. Video-Frames) und gleichmäßiges, der Behandlung der Videodaten entsprechendes Löschen bzw. Wiederholen von Audiodaten (wenn z. B. die apparente Wiedergaberate der Videowiedergabe auf die doppelte Geschwindigkeit der originalen Wiedergaberate beschleunigt wird, indem zum Beispiel jeder zweite Video-Frame eliminiert wird, dann wird die Audiowiedergabe ebenfalls beschleunigt durch Eliminieren jedes zweiten Audio-Abtastwertes oder -Sample oder jedes zweiten Satzes einer bestimmten Anzahl von Audio-Samples). Zwar ist dies ein wirksamer Ansatz zum Wahren der Synchronisation; er kann aber zu einer Verzerrung der Audio- und Videowiedergaben führen, insbesondere bei relativ hohen oder niedrigen apparenten Wiedergaberaten. Im Besonderen kann die Audiowiedergabe in der Weise verzerrt werden, dass mit höher werdender apparenter Wiedergaberate menschliche Stimmen zunehmend einen "Micky-Maus"-Effekt zu manifestieren beginnen, und dass mit kleiner werdender apparenter Wiedergaberate menschliche Stimmen zunehmend so zu klingen beginnen, als befände der Sprecher sich in einem Zustand der Betäubung. Eine derartige Verzerrung der Wiedergabe ist eine Folge der Tatsache, dass die Eliminierung von Audiodaten aus dem originalen Satz von Audiodaten mechanisch geschieht, ohne Rücksicht auf den Inhalt der Audiodaten, welche eliminiert oder beibehalten werden.
Es wäre wünschenswert, einen besseren Weg zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe zur Verfügung zu haben. Im Besonderen ist ein Ansatz wünschenswert, der die zur Generierung der Wiedergabe verwendeten Audio- und/oder Videodaten auf "intelligente" Weise modifiziert, basierend auf einer Wertung oder Evaluierung des Inhaltes der Audiodaten und/oder Videodaten, weil ein derartiger Ansatz eine Verzerrung der Wiedergabe, insbesondere der Audiowiedergabe, reduzieren oder eliminieren kann. Gute Synchronisation zwischen der Audio- und Videowiedergabe sollte ebenfalls erhalten bleiben. Wünschenswert ist außerdem die Fähigkeit, die apparente Wiedergaberate über einen weiten Bereich von Größen zu variieren. Ferner kann die Variation der apparenten Wiedergaberate bevorzugt automatisch in der Weise durchgeführt werden, dass eine apparente Wiedergaberate erzeugt wird, welche einer spezifizierten Zielwiedergaberate oder -raten eng folgt.
Die EP-A-0 681 398 offenbart ein Verfahren und ein System, welches zum Variieren der Wiedergaberate einer audiovisuellen Wiedergabe befähigt. Die Wiedergaberate wird vom Benutzer direkt beeinflusst. Die Audiodaten werden expandiert oder komprimiert, so dass die Tonhöhe oder der Pitch der Audiodaten unverzerrt bleibt, während Audio-zu-Video-Synchronisation gewahrt bleibt.

ZUSAMMENFASSUNG DER ERFINDUNG

Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren gemäß Anspruch 1 bereitgestellt.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein System gemäß Anspruch 31 bereitgestellt.
Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein computerlesbares Medium gemäß Anspruch 34 bereitgestellt.
Die Erfindung ermöglicht es, die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Die Erfindung kann die Modifikation eines originalen Satzes von Audiodaten gemäß einer Zielwiedergaberate (bei der es sich um eine einzige Zielwiedergaberate oder um eine Sequenz von Zielwiedergaberaten handeln kann, wie im Folgenden erläutert) auf Basis einer Evaluierung des Inhaltes des Audiodatensatzes bewirken, dann die Modifizierung eines in Beziehung stehenden originalen Satzes von Videodaten entsprechend den an dem originalen Audiodatensatz vorgenommenen Modifizierungen bewirken, so dass die modifiziertem Audio- und Videodatensätze (und damit die von ihnen erzeugten Wiedergaben) synchronisiert sind. Wenn die so erzeugten modifizierten Audio- und Videodatensätze zur Generierung einer audiovisuellen Wiedergabe verwendet werden, weist die audiovisuelle Wiedergabe eine apparente Wiedergaberate (oder -raten) auf, die der Zielwiedergaberate (oder -raten) angenähert ist bzw. sind. Durch Sicherstellen, dass die modifizierten Audio- und Videodatensätze synchronisiert sind, wird die Dissonanz (z. B. eine zeitliche Unstimmigkeit zwischen gesprochenen Warten in der Audiowiedergabe und der entsprechenden Lippenbewegung des Sprechers in der Videowiedergabe), die sich andernfalls, wenn die Audio- und Videowiedergabe nicht synchronisiert sind, ergeben würde, minimiert oder eliminiert. Ferner ist das direkte Modifizieren des originalen Audiodatensatzes auf Basis einer Evaluierung des Inhaltes der Audiodaten zur Erzeugung einer Variation der apparenten Wiedergaberate der audiovisuellen Wiedergabe vorteilhaft, weil es damit möglich werden kann, Artefakte (z. B. Pitch-Verdoppelung, Knack- und Klickgeräusche) in der Audiowiedergabe zu minimieren oder zu eliminieren. Bevorzugt wird der originale Audiodatensatz in der Weise modifiziert, dass man einen modifizierten Audiodatensatz erhält, der zum Generieren einer Audiowiedergabe mit wenig oder gar keiner Verzerrung verwendet werden kann (z. B. mit Reduzierung oder Eliminierung der Tendenz, dass menschliche Stimmen einen "Micky-Maus"-Effekt zeigen, wenn die apparente Wiedergaberate über eine normale Wiedergaberate hinaus angehoben wird, oder wie betäubt klingen, wenn die apparente Wiedergaberate unter eine normale Wiedergaberate gesenkt wird). Allgemein kann erfindungsgemäß eine Zielwiedergaberate (und damit typisch die apparente Wiedergaberate) schneller oder langsamer sein als eine normale Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine audiovisuelle Wiedergabe von den originalen Sätzen von Audio- und Videodaten generiert. Im Besonderen, wie aus der nachfolgenden Beschreibung noch besser erkennbar werden wird, erlauben die zur Erzeugung des modifizierten Audiodatensatzes verwendeten Verfahren, einen weiten Bereich von apparenten Wiedergaberaten zu erzeugen, ohne dabei ein inakzeptables Maß an Verzerrung in die audiovisuelle Wiedergabe (insbesondere in die Audiowiedergabe) einzuführen.
Bei einer Ausführungsform der Erfindung kann die apparente Wiedergaberate einer audiovisuellen Wiedergabe von einer normalen Wiedergaberate, beider ein audiovisuelles Wiedergabesystem die audiovisuelle Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generiert, variiert werden durch: i) Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten; ii) Bestimmen einer Zielwiedergaberate (welche tatsächlich eine Sequenz von Zielwiedergaberaten sein kann) für die audiovisuelle Wiedergabe; iii) Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf der Zielwiedergaberate und einer Evaluierung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und iv) Erzeugen eines modifizierten Satzes von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten.
Eine Zielwiedergaberate kann "manuell" durch eine Benutzerinstruktion (d. h. durch Spezifizieren einer Nominalzielwiedergaberate durch den Benutzer) etabliert werden. Alternativ kann eine Zielwiedergaberate automatisch etabliert werden, ohne Benutzereingabe, basierend auf einer Analyse der audiovisuellen Daten. Eine Zielwiedergaberate kann aber auch durch automatisches Modifizieren einer benutzerspezifizierten Nominalzielwiedergabe auf Basis einer Analyse der audiovisuellen Daten etabliert werden. Wie im Vorstehenden erwähnt, kann in dem Falle, dass eine Nominalzielwiedergaberate von einem Benutzer spezifiziert wird, eine einzelne Zielwiedergaberate für die gesamte audiovisuelle Wiedergabe spezifiziert werden, oder es kann eine Reihe von Zielwiedergaberaten spezifiziert werden, von denen jede zu einem Teil der audiovisuellen Wiedergabe korrespondiert. Ähnlich kann in Einklang mit der Erfindung eine einzelne Zielwiedergaberate oder eine Reihe von Zielwiedergaberaten automatisch etabliert werden (entweder "von Grund auf" oder auf Basis einer anfänglich spezifizierten Nominalwiedergaberate oder -raten). Ferner, wie aus der nachfolgenden Beschreibung erkennbar werden wird, ermöglicht es die Erfindung einem Benutzer, eine Nominalzielwiedergaberate in Echtzeit zu variieren, während die audiovisuelle Wiedergabe generiert wird.
Es kann eine beliebige geeignete Methode zum automatischen Bestimmen einer Zielwiedergaberate oder zum automatischen Modifizieren einer Nominalzielwiedergaberate verwendet werden. Eine derartige automatische Bestimmung oder Modifizierung der Zielwiedergaberate kann durchgeführt werden durch Evaluieren des originalen Satzes von Audiodaten, des originalen Satzes von Videodaten oder beider Sätze. Ferner kann die Zielwiedergaberate durch Mehrfachevaluierungen der Audio- und/oder Videodatensätze automatisch etabliert werden. Der Audiodatensatz kann beispielsweise evaluiert werden, um die Betonung zu bestimmen, mit der gesprochene Teile der Audiodaten geäußert werden (z. B. durch Berechnen eines Energieterms für die gesprochenen Teile), wobei die Zielwiedergaberate auf den relativen Betonungen der gesprochenen Teile der Audiodaten basiert. Eine andere Möglichkeit besteht darin, den Audiodatensatz zu evaluieren, um die Geschwindigkeit zu bestimmen, mit der gesprochene Teile der Audiodaten geäußert werden (zum Beispiel durch Bestimmen spektraler Änderungen in den gesprochenen Teilen), wobei die Zielwiedergabe auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten basiert. Es können aber auch sowohl Betonung und Geschwindigkeit, mit denen gesprochene Teile der Audiodaten geäußert werden, bestimmt und kombiniert werden, um Audiospannungswerte für die gesprochenen Teile zu erzeugen, wobei die Zielwiedergabe auf den Audiospannungswerten der gesprochenen Teile basiert. Der Videodatensatz kann zum Beispiel evaluiert werden, um die relative Änderungsrate der Videodaten entlang verschiedener populationsbasierter Dimensionen (im Folgenden noch näher erläutert) zu bestimmen, wobei die Zielwiedergabe auf dieser Evaluierung basiert. Eine weitere Möglichkeit besteht darin, den Videodatensatz zu evaluieren, indem Teile des korrespondieren Videobildes, die sich rasch verändern, sowie die Frequenz, mit der solche raschen Änderungen auftreten, bestimmt werden, wobei die Zielwiedergabe dann auf Auftreten und Frequenz dieser raschen Änderungen basiert wird. Eine andere Möglichkeit besteht darin, den Videodatensatz zu evaluieren durch Verfolgen der Bewegung von Objekten innerhalb des korrespondierenden Videobildes, und die Zielwiedergabe auf dem Auftauchen neuer Objekte in dem Videobild zu basieren.
Der modifizierte Satz von Audiodaten kann auf Basis der Größe der Zielwiedergaberate und einer Analyse des Inhaltes der Audiodaten erzeugt werden. Beispielsweise kann der modifizierte Satz von Audiodaten erzeugt werden durch: i) Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen; ii) Überlappen eines Endbereichs eines ersten Segmentes mit einem benachbarten Endbereich eines zweiten Segmentes, welches dem ersten Segment benachbart ist (die Überlappung kann negativ sein, wie im Folgenden noch näher beschrieben werden wird); iii) Identifizieren, als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, welche nicht Teil des überlappten Endbereichs des ersten Segmentes sind; iv) Mischen der Daten der korrespondierenden überlappten Endbereiche; und v) Bestimmen, ob zusätzliche Segmente indem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind, wobei in dem Fall, dass zusätzliche Segmente vorhanden sind, die zusätzlichen Segmente in Einklang mit der obigen Beschreibung verarbeitet werden (wobei ein neues erstes Segment von den gemischten Daten und den nicht-überlappten Daten von dem vorherigen zweiten Segmentes erzeugt wird), und in dem Fall, dass zusätzliche Segmente nicht vorhanden sind, die gemischten Daten und die nicht-überlappten Daten von dem zweiten Segment als Teil des modifizierten Audiodatensatzes aufgenommen werden.
Der modifizierte Satz von Videodaten kann erzeugt werden durch i) Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und einer Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz; ii) Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Audiodaten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden; iii) für jedes der Audiosegmente des modifizierten Audiodatensatzes: Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu Audiodaten in dem Audiosegment des modifizierten Audiodatensatzes korrespondieren, Sasierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und iv) Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz zu erzeugen, so dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt. Der modifizierte Satz von Videodaten kann erzeugt werden durch Eliminieren von Daten aus dem originalen Videodatensatz, durch Hinzufügen von Daten zu dem originalen Videodatensatz, durch Mischen von Daten von dem originalen Videodatensatz und/oder durch Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz.
Die modifizierten Sätze von Audio- und Videodaten können zur späteren Verwendung für die Generierung einer audiovisuellen Wiedergabe gespeichert werden, oder sie können unmittelbar zur Generierung einer audiovisuellen Wiedergabe verwendet werden. Insbesondere im letzteren Fall kann die Erfindung zur Generierung einer audiovisuellen Wiedergabe verwendet werden, wobei die apparente Wiedergaberate der Wiedergabe in Echtzeit variiert werden kann. Eine derartige Echtzeitvariation der apparenten Wiedergaberate ist möglich, weil das im Vorstehenden beschriebene Verfahren zum Modifizieren des Audiodatensatzes ohne Kenntnis der weit in der Zukunft liegenden Audiodaten des originalen Audiodatensatzes auskommt, um einen modifizierten Audiodatensatz erzeugen zu können, und nur die Audiodaten benötigt, welche ein nächstes Segment des originalen Audiodatensatzes umfassen. Ferner, weil die Berechnungen zum Bestimmen modifizierter Audio- und Videodaten kurz vor Generierung einer Wiedergabe von den Daten durchgeführt werden können, können die Berechnungen auf Basis einer erst vor ganz kurzer Zeit (z. B. von einem Benutzer in Echtzeit) bestimmten Zielwiedergaberate durchgeführt werden. Ferner kann die Menge an Berechnungen, die von einem erfindungsgemäßen Verfahren benötigt werden, durch derzeitige Verarbeitungseinrichtungen ausreichend schnell durchgeführt werden, um zur Generierung einer Echtzeitwiedergabe von den modifizierten Audio- und Videodaten zu befähigen.

KURZBESCHREIBUNG DER FIGUREN

Fig. 1 ist ein Ablaufdiagramm eines Verfahrens in Einklang mit der vorliegenden Erfindung.
Fig. 2 ist eine vereinfachte Darstellung eines Systems, mit dem die Erfindung implementiert werden kann.
Fig. 3A und Fig. 3B bilden zusammen ein Ablaufdiagramm eines Verfahrens in Einklang mit einer Ausführungsform der Erfindung zum Modifizieren eines Satzes von Audiodaten entsprechend einer Zielwiedergaberate.
Die Fig. 4A, 4B und 4C sind schematische Darstellungen eines Audiodatensatzes mit vier Segmenten und der Transformationen des Audiodatensatzes, welche während der Implementierung des Verfahrens nach Fig. 3A und Fig. 3B zum Modifizieren des Audiodatensatzes auf Erhalt einer Beschleunigung der korrespondierenden Audiowiedergabe auftreten können. Fig. 4A veranschaulicht das Mischen des ersten und zweiten Segmentes des Audiodatensatzes. Fig. 4B zeigt das Mischen des zweiten und dritten Segmentes des Audiodatensatzes. Fig. 4C veranschaulicht das Mischen des dritten und vierten Segmentes des Audiodatensatzes.
Die Fig. 5A, 5B und 5C zeigen Segmentüberlappungen, wobei alle Trial- Überlappungen positiv sind.
Die Fig. 6A, 6B und 6C zeigen Segmentüberlappungen, wobei alle Trial- Überlappungen negativ sind.
Fig. 7 zeigt einen Bereich von Trial-Überlappungen, einschließlich einer positiven Zielüberlappung und einiger negativer Überlappungen.
Fig. 8A zeigt einen weiteren Bereich von Trial-Überlappungen, die einer speziellen Handhabung in dem Verfahren nach Fig. 3A und Fig. 3B bedürfen. Fig. 8B zeigt einen Weg, der beschritten werden kann, um die in Fig. 8A gezeigte Situation anzusprechen.

DETAILBESCHREIBUNG DER ERFINDUNG

Die Erfindung ermöglicht es, die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Die audiovisuelle Wiedergabe kann auf Basis von zueinander in Beziehung stehenden Sätzen von Audio- und Videodaten (der "originalen" Sätzen von Audio- und Videodaten) bei einer normalen Wiedergaberate von einem audiovisuellen Wiedergabesystem generiert werden. Die Erfindung kann es ermöglichen, die originalen Sätze von Audio- und Videodaten gemäß einer Zielwiedergaberate oder -raten (welche im Normalfall von der normalen Wiedergaberate verschieden ist bzw. sind, nämlich schneller oder langsamer) zu modifizieren, so dass, wenn die modifizierten Sätze von Audio- und Videodaten zum Generieren einer audiovisuellen Wiedergabe mit demselben audiovisuellen Wiedergabesystem verwendet werden, die apparente Wiedergaberate bzw. -raten der audiovisuellen Wiedergabe annähernd gleich der Zielwiedergaberate bzw. -raten ist bzw. sind. (Es sei angemerkt, dass - insbesondere dann, wenn die Größe der Zielwiedergaberate gleich oder ähnlich der normalen Wiedergaberate ist - der Fall eintreten kann, dass ein "modifizierter" Satz von Audiodaten oder Videodaten gleich dem korrespondierenden originalen Satz von Audiodaten oder Videodaten ist.)
Fig. 1 ist ein Ablaufdiagramm eines Verfahrens 100 in Einklang mit der Erfindung. Das Verfahren 100 bewirkt eine Variation der apparenten Wiedergaberate der audiovisuellen Wiedergabe durch Modifizieren eines originalen Audiodatensatzes gemäß einer Zielwiedergaberate, um einen modifizierten Audiodatensatz zu erzeugen, gefolgt von Modifizieren eines in Beziehung stehenden originalen Videodatensatzes zum Erzeugen eines modifizierten Videodatensatzes, so dass eine Korrespondenz zwischen den Audiodaten und Videodaten der originalen Datensätze in den modifizierten Datensätzen erhalten bleibt. Bevorzugt wird der originale Audiodatensatz in der Weise modifiziert, dass ein modifizierter Audiodatensatz entsteht, der eine Audiowiedergabe mit geringer oder gar keiner Verzerrung generiert.
Die Sätze von Audiodaten und Videodaten können digital oder analog sein (in zahlreichen Anwendungen, in welchen die Erfindung Anwendung finden kann, ist typisch Letzteres der Fall). Wie für den Fachmann auf dem Gebiet der Computerprogrammierung erkennbar sein wird, kann das Verfahren 100 (und andere, nachfolgend beschriebene erfindungsgemäße Verfahren) zum Beispiel auf einem beliebigen geeignet programmierten Digitalcomputer implementiert werden. Wenn also die Audio- und/oder Videodaten anfänglich analog sind, dann können die Audio- und/oder Videodaten mit Hilfe wohlbekannter Verfahren und Vorrichtungen digitalisiert werden, um das Verfahren 100 auf einem Digitalcomputer implementieren zu können. Die digitalen Audiodaten können zum Beispiel als eine Sequenz von Audio-Abtastwerten oder -Samples repräsentiert sein, welche die Amplitude der analogen Audiosignale an gleichabständigen Punkten in der Zeit darstellen. Die digitalen Videodaten können zum Beispiel als eine Sequenz von Frames von Pixeln von Videodaten repräsentiert sein (jedes Pixel kann ferner separate Daten enthalten, die jeweils die Anwesenheit einer bestimmten Farbe in dem jeweiligen Pixel repräsentieren).
Fig. 2 ist eine vereinfachte Darstellung eines Systems 200, mit dem die Erfindung implementiert werden kann. Das System 200 enthält eine Verarbeitungseinrichtung 201 (z. B. einen konventionellen Mikroprozessor), eine Datenspeichereinrichtung 202 (z. B. einen konventionellen Speicher mit Direktzugriff und/oder einen konventionelle Plattenspeicher), eine Wiedergabeeinrichtung 203 (z. B. einen Computerwiedergabebildschirm, ein Fernsehgerät und/oder Audiolautsprecher konventioneller Art) und eine Benutzerschnittstelleneinrichtung 204 (z. B. eine Fernbedienung, Computertastatur, Maus und/oder einen Berührungsbildschirm konventioneller Art). Diese Einrichtungen sowie andere (nicht gezeigte) konventionelle Einrichtungen, wie sie Teil eines typischen Digitalcomputers bilden können, können miteinander über einen konventionellen Computerbus 205 wechselwirken. Es versteht sich, dass die Erfindung auch mit anderen Systemen, welche andere Komponenten und/oder eine andere Konfiguration als die in Fig. 2 gezeigten aufweisen, implementiert werden kann. Wenn zum Beispiel die Audiodaten und/oder Videodaten anfänglich analoge Daten sind und die Verarbeitungseinrichtung als Teil eines Digitalcomputers implementiert ist, kann ein System zum Implementieren der Erfindung einen konventionellen A/D-Wandler zum Umwandeln der analogen Daten in digitale Daten beinhalten. Wenn ein derartiges System auch eine analoge Wiedergabeeinrichtung enthält (z. B. ein Fernsehgerät), dann kann das System auch einen konventionellen D/A-Wandler beinhalten, um die verarbeiteten digitalen Daten in die analoge Form umzusetzen.
Es wird nun erneut auf Fig. 1 Bezug genommen, gemäß welcher in Schritt 101 des Verfahrens 100 eine Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz etabliert wird. Wie im Vorstehenden angegeben, können digitale Audiodaten als eine Sequenz von Audio-Samples repräsentiert sein und digitale Videodaten können als eine Sequenz von Video- Frames repräsentiert sein. Wie aus der nachfolgenden Beschreibung erkennbar, liegt eine geeignete Basis zum Etablieren einer Korrespondenz zwischen derartigen Audio- und Videodaten darin, die Zahl der Audio-Samples zu bestimmen, welche die gleiche Dauer wie ein Frame von Videodaten aufweisen, und diese Zahl von Samples als ein Audiosegment zu definieren. (Allgemeiner bedeutet im vorliegenden Text ein Audio-"Segment" jedoch einen zusammenhängenden Teil eines Satzes von Audiodaten, der während einer spezifizierten Zeitdauer auftritt.) Die Bestimmung der Anzahl von Audio-Samples, die in der Dauer zu einem Video-Frame korrespondieren, kann auf Basis der Video-Framerate und der Audio-Samplerate, bei denen die Videodaten und Audiodaten in eine Videowiedergabeeinrichtung bzw. Audiowiedergabeeinrichtung eines audiovisuellen Wiedergabesystems, mit dem die Erfindung realisiert wird, eingegeben werden, durchgeführt werden. Nach Erfolgter Etablierung der Zahl von Samples in einem Audiosegment kann eine Korrespondenz zwischen Audiosegmenten und Videoframes etabliert werden. Beispielsweise können die Audiosegmente so definiert werden, dass jedes Audiosegment zu einem einzelnen bestimmten Videoframe korrespondiert (wie es der Fall ist, wenn das modifizierte SOLA-Verfahren zur Implementierung von Schritt 103 des Verfahrens 100 verwendet wird, wie im Folgenden beschrieben). Eine andere Möglichkeit besteht darin, überlappende Audiosegmente zu definieren, so dass jedes Segment, in Teilen oder im Ganzen, zu einem oder mehreren Videoframes korrespondieren kann (wie es der Fall ist, wenn das unmodifizierte SOLA-Verfahren zur Implementierung von Schritt 103 des Verfahrens 100 verwendet wird, wie im Folgenden beschrieben). Die erstgenannte Implementierung ist rechnerisch weniger aufwändig (und kann deshalb den Vorzug verdienen), weil das Matching von Audiosegmenten mit bestimmten, einmaligen Videoframes eine direktere Lösung ist als die in der letztgenannten Implementierung angewendete Lösung, über alle Schritte des Verfahrens 100 hinweg eine Aufzeichnung der Korrespondenzen zwischen Audiosegmenten und Videoframes aufrechtzuerhalten.
In Schritt 102 wird eine Zielwiedergaberate bestimmt. Wie im Vorstehenden beschrieben, kann allgemein die Zielwiedergaberate schneller oder langsamer sein als die normale Rate, bei der die audiovisuellen Daten (d. h. die Audio- und/oder Videodaten) wiedergegeben werden. Die Zielwiedergaberate kann als eine Zahl angegeben werden, die ein Mehrfaches der normalen Wiedergaberate repräsentiert, d. h. eine Zielwiedergaberate, die kleiner ist als Eins, repräsentiert eine Wiedergaberate, die langsamer ist als die normale Wiedergaberate, während eine Zielwiedergaberate, die größer ist als Eins, eine Wiedergaberate repräsentiert, die schneller ist als die normale Wiedergaberate. Die Wahl einer bestimmten Methode zur Erzeugung modifizierter Audio- und Videodatensätze sowie der Inhalt der Audio- und Videodaten kann den möglichen Wiedergaberatenänderungen, welche erzielt werden können, Grenzen setzen.
Eine Nominalzielwiedergaberate kann von einem Benutzer eines audiovisuellen Wiedergabesystems, mit dem die Erfindung implementiert wird, manuell spezifiziert werden. Es kann eine einzige Zielwiedergaberate für die gesamte audiovisuelle Wiedergabe spezifiziert werden, oder es kann eine Reihe von Zielwiedergaberaten, von denen jede zu einem Teil der audiovisuellen Wiedergabe korrespondiert, spezifiziert werden. Der Schritt 102 kann einen von einem Benutzer spezifizierten Nominalzielwiedergaberatenwert oder -werte bestimmen. Wenn mehrfache Nominalzielwiedergaberatenwerte spezifiziert werden, kann der Schritt 102 auch eine Anfangs- und Endzeit innerhalb der audiovisuellen Wiedergabe für jede Nominalzielwiedergaberate bestimmen. Der Benutzer kann eine beliebige geeignete Benutzerschnittstelleneinrichtung verwenden (wie die beispielhaft unter Bezugnahme auf Fig. 2 nachfolgend beschriebenen Einrichtungen), um einen oder mehrere Werte für die Nominalzielwiedergaberate zu spezifizieren.
Es mag wünschenswert sein, eine spezifizierte Nominalzielwiedergaberate zu modifizieren, um die Wahrscheinlichkeit zu erhöhen, dass der Audioteil der audiovisuellen Wiedergabe auf verständliche Weise oder mit akzeptabler Treue wiedergegeben wird. Erfindungsgemäß kann dies automatisch als Teil des Schrittes 102 geschehen. Erfindungsgemäß ist es auch möglich, die Zielwiedergaberate "von Grund auf" automatisch zu bestimmen, d. h. ohne Vorgabe oder Spezifizierung einer Nominalzielwiedergaberate. In einem solchen Fall müssen jedoch andere Kriterien zum Regieren der Bestimmung der Zielwiedergaberate etabliert werden. Mehrere Methoden zum automatischen Bestimmen einer Zielwiedergaberate oder zum Modifizieren einer Nominalzielwiedergaberate werden im Folgenden ausführlicher erläutert. Es kann jedoch auch eine beliebige andere geeignete Methode verwendet werden.
In Schritt 103 wird der originale Audiodatensatz auf Basis der Zielwiedergaberate manipuliert, um einen modifizierten Audiodatensatz zu erzeugen. Der modifizierte Audiodatensatz wird so erzeugt, dass allgemein bei Verwendung des modifizierten Audiodatensatzes zum Generieren einer Audiowiedergabe die Audiowiedergabe um einen Betrag beschleunigt oder verlangsamt erscheint, der annähernd gleich der Zielwiedergaberate ist. Es kann ein beliebiges geeignetes Verfahren zum Modifizieren des originalen Audiodatensatzes verwendet werden. Einige besondere, beispielhafte Methoden werden im Folgenden ausführlicher erörtert.
In Schritt 104 wird der originale Videodatensatz manipuliert, um einen modifizierten Videodatensatz zu erzeugen. Die Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz (Schritt 103) und die Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz (Schritt 101) werden verwendet, um eine Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz zu erzeugen. Unter Verwendung der neu entwickelten Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz können Videodaten aus dem originalen Videodatensatz gelöscht bzw. diesem hinzugefügt werden, um den modifizierten Videodatensatz zu erzeugen. Es kann eine beliebige geeignete Methode zum Erzeugen des modifizierten Videodatensatzes von dem modifizierten Audiodatensatz verwendet werden. Einige besondere, beispielhafte Methoden werden im Folgenden näher erörtert.
Eine audiovisuelle Wiedergabe kann von den modifizierten Datensätzen mit Hilfe eines audiovisuellen Wiedergabesystems erzeugt werden. Ein bestimmtes audiovisuelles Wiedergabesystem kann Audio- und Videodaten mit einer bestimmten Rate verarbeiten, um eine audiovisuelle Wiedergabe bei einer normalen Wiedergaberate zu erzeugen. Die Audio- und Videodaten der modifizierten Audio- und Videodatensätze werden von dem audiovisuellen Wiedergabesystem mit der gleichen Rate verarbeitet. Weil aber die modifizierten Audio- und Videodatensätze (im Normalfall) eine unterschiedliche Menge (entweder mehr oder weniger) an Daten aufweisen als die originalen Audio- und Videodatensätze, ist die apparente Wiedergaberate der audiovisuellen Wiedergabe, welche von den modifizierten Audio- und Videodatensätzen erzeugt wird, von der normalen Wiedergaberate verschieden. Weil ferner in Schritt 104 der modifizierte Videodatensatz auf Basis des Inhaltes des modifizierten Audiodatensatzes und einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz erzeugt wird, ist der modifizierte Videodatensatz mit dem modifizierten Audiodatensatz (wenigstens annähernd, möglicherweise sogar genau) synchronisiert und erzeugt eine Wiedergabe von gleicher oder annähernd gleicher Dauer.
Wie aus der nachfolgenden Beschreibung erkennbar, kann die Erfindung ein Verfahren zum Modifizieren des Audiodatensatzes verwenden, welches ohne Kenntnis der weit in der Zukunft liegenden Audiodaten des originalen Audiodatensatzes auskommt, um einen modifizierten Audiodatensatz erzeugen zu können, und nur die Audiodaten verlangt, welche ein nächstes Segment des originalen Audiodatensatzes umfassen. So kann es die Erfindung möglich machen, die audiovisuelle Wiedergabe zu generieren, während die modifizierten Audio- und Videodatensätze erzeugt werden. Im Besonderen erlaubt es die Erfindung vorteilhaft, die apparente Wiedergaberate (via Variation der bestimmten Zielwiedergaberate) in Echtzeit zu variieren. Es ist aber auch möglich, die modifizierten Audio- und Videodatensätze in einer konventionellen Datenspeichereinrichtung zu speichern, zum Beispiel in einem konventionellen Computerplattenspeicher, um sie nach Wunsch zu einem späteren Zeitpunkt wiederzugeben.
Ein Beispiel soll die Arbeitsweise des Verfahrens 100 veranschaulichen, ebenso einige kleinere Anpassungen, die im Rahmen einer praktischen Implementierung des Verfahrens 100 möglicherweise notwendig werden. Beispielhaft kann in einer typischen Implementierung die Erfindung implementiert werden mit einer Videowiedergabeeinrichtung, welche die Videowiedergabe mit neuen digitalen Videodaten mit einer Rate von 30 Frames pro Sekunde auffrischt (Refreshing), und einem oder mehreren Audiolautsprechern, welche digitale Audiodaten mit einer Rate von 8000 Samples pro Sekunde akzeptieren. In einer derartigen Implementierung korrespondiert also jeder Rahmen von Videodaten in der Dauer zu 266,67 Audiosamples (Schritt 101 des Verfahrens 100), d. h. 8000 Samples pro Sekunde dividiert durch 30 Frames pro Sekunde. Ein Audiosegment kann also als 266,67 Audiosamples definiert werden. Weil in praxi ein Audiosample nicht unterteilt werden kann, kann die Zahl der Audiosamples in jedem Audiosegment auf die nächsthöhere ganze Zahl aufgerundet oder auf die nächstniedrige ganze Zahl beschnitten werden, so dass im Mittei jedes Audiosegment die berechnete Zahl von Audiosamples pro Videoframe enthält. In diesem Beispiel enthält also jeder Satz von drei Audiosegmenten ein Segment mit 266 Audiosamples und zwei Segmente mit 267 Audiosamples, angeordnet in beliebiger Reihenfolge.
Ferner sei in diesem Beispiel angenommen, dass die Zielwiedergaberate das 2,5fache der normalen Wiedergaberate beträgt (Schritt 102 des Verfahrens 100). Der originale Audiodatensatz wird entsprechend der Zielwiedergaberate modifiziert, um den modifizierten Audiodatensatz zu erzeugen (Schritt 103 des Verfahrens 100). Hier bedeutet dies die Erzeugung eines modifizierten Audiodatensatzes, der etwa 60% weniger Audiosamples enthält als der originale Audiodatensatz, so dass die gewünschte Geschwindigkeitserhöhung von 2,5 erzielt wird. Der modifizierte Audiodatensatz enthält Teilsätze (Subsets) von Audiodaten, die jeweils zu einem der Audiosegmente des originalen Audiodatensatzes korrespondieren. Jeder dieser Teilsätze enthält im Mittel ca. 60% weniger Audiosamples, als in dem korrespondierenden Audiosegment des originalen Audiodatensatzes vorhanden waren, wenngleich bestimmte Teilsätze erheblich von diesem Mittel abweichen können, wie aus der nachfolgenden Beschreibung der Fig. 3A, 3B, 4A, 4B und 4C erkennbar wird.
Die Audiolautsprecher und die Videowiedergabeeinrichtung erwarten den Empfang von 8000 Audiosamples pro Sekunde bzw. 30 Videoframes pro Sekunde. Nun korrespondieren aber jeweils 266,67 Audiosamples (in praxi 266 oder 267 Samples) des modifizierten Audiodatensatzes im Mittel zu 2,5 Videoframes des originalen Videodatensatzes. (Dies kann verifiziert werden anhand dessen, dass im Mittel 2,5 Audiosamples in dem originalen Audiodatensatz für jedes Audiosample des modifizierten Audiodatensatzes vorhanden sind, und dass jedes Audiosegment - 266,67 Audiosamples - des originalen Audiodatensatzes zu einem Videoframe des originalen Videodatensatzes korrespondiert.) Damit also Korrespondenz zwischen der Audio- und Videowiedergabe nach Modifizierung der Audiodaten entsprechend der Zielwiedergaberate erhalten bleibt, muss die Zahl der Videoframes vermindert werden, so dass jedes Audiosegment (d. h. 266,67 Audiosamples) des modifizierter Audiodatensatzes zu einem einzigen Videoframe korrespondieren. Im vorliegenden Beispiel muss ein modifizierter Videodatensatz erzeugt werden, der 1 Videoframe für jeweils 2,5 Videoframes in dem originalen Videodatensatz enthält. Weil Videoframes nicht zeitlich auseinander gesplittet werden können, wird zwecks Erleichterung der Erfindung angenommen, dass jedes Audiosegment des modifizierten Audiodatensatzes zu einer ganzen Zahl von Videoframes des originalen Videodatensatzes korrespondiert, so dass im Mittei jedes Audiosegment des modifizierten Audiodatensatzes zu 2,5 Videoframes korrespondiert. Anders ausgedrückt: das erste Audiosegment mag zu den ersten drei Frames von Videodaten des originalen Videodatensatzes korrespondieren, während das zweite Audiosegment zum vierten und fünften (d. h. den nächsten zwei) Frames von Videodaten korrespondiert. Der originale Videodatensatz wird dann modifiziert durch Beibehalten von nur einem Videoframe von jedem Satz von Videoframes, der zu einem Audiosegment des modifizierten Audiodatensatzes korrespondiert. Bewirkt werden kann dies, wie im Vorstehenden beschrieben, durch Eliminieren oder Mischen von Videoframes.
Wie im Vorstehenden unter Bezugnahme auf Schritt 102 des Verfahrens 100 (Fig. 1) erwähnt, ist es erfindungsgemäß möglich, auf automatischem Wege eine Zielwiedergaberate zu bestimmen oder eine spezifizierte Nominalzielwiedergaberate zu modifizieren. Allgemein kann eine Zielwiedergaberate automatisch bestimmt oder modifiziert werden durch Analysieren des originalen Satzes von Audiodaten, des originalen Satzes von Videodaten oder beider Sätze. Mehrere Methoden, welche Verwendung finden können, um eine solche automatische Bestimmung oder Modifizierung der Zielwiedergaberate durchzuführen, sind im Folgenden erläutert. Es versteht sich jedoch, dass auch eine beliebige andere geeignete Methode zum Bestimmen oder Modifizieren einer Zielwiedergaberate für die Erfindung verwendet werden kann.
Ein Verfahren zum Bestimmen einer Zielwiedergaberate ist im Detail in der auf gemeinsame Inhaberschaft zurückgehenden, parallel anhängigen US-Patentschrift Nr. 5 828 994 mit dem Titel "Non-Uniform Time Scale Modification of Recorded Audio" von Michele Covell und M. Margaret Withgott, mit Erteilungsdatum vom 27. Oktober 1998 (im Folgenden "Covell und Withgott" genannt) offenbart. Bei diesem Verfahren werden die Audiodaten eines Satzes von audiovisuellen Daten analysiert, und auf dieser Basis wird eine Sequenz von Zielwiedergaberaten etabliert. Kurz gefasst wird bei diesem Verfahren der Audiodatensatz nach einer bestimmten Sprecherstimme bzw. -stimmen abgesucht (typisch, obschon nicht zwingend, eine Stimme oder Stimmen, bei der bzw. denen die Wahrscheinlichkeit besteht, dass sie Teil des Audiodatensatzes ist bzw. sind). Der Audiodatensatz wird in Abschnitte unterteilt, und jeder Abschnitt wird evaluiert, um eine Wahrscheinlichkeit, dass der Abschnitt die bestimmte Sprecherstimme bzw. -stimmen enthält, zu bestimmen. Die Wahrscheinlichkeiten können normalisiert werden. Die Zielwiedergaberate für jeden Abschnitt kann auf Basis der normalisierten Wahrscheinlichkeit für den Abschnitt etabliert werden. Beispielsweise kann für Abschnitte mit einer sehr hohen Wahrscheinlichkeit, dass der bestimmte Sprecher spricht, die Zielwiedergaberate als normale Wiedergaberate oder sogar als zu der normalen Wiedergaberate verlangsamte Wiedergaberate etabliert werden. Mit sinkender Wahrscheinlichkeit, dass ein bestimmter Abschnitt die bestimmte Sprecherstimme oder -stimmen enthält, kann die Zielwiedergaberate progressiv höher gewählt werden. Zusammenfassend kann dieses Verfahren also eine Sequenz von Zielwiedergaberaten erzeugen, basierend darauf, ob ein oder mehrere bestimmte Sprecher sprechen. Dieses Verfahren ist zwar im Vorstehenden so beschrieben, dass es verwendet wird, um eine Sequenz von Zielwiedergaberaten von Grund auf zu bestimmen; selbstverständlich könnte das Verfahren aber auch zum Modifizieren einer Nominalzielwiedergaberate (oder einer Sequenz von Raten) durch Erhöhen oder Erniedrigen der Nominalzielwiedergaberate auf Basis der bestimmten Wahrscheinlichkeit, dass der Abschnitt von Audiodaten, die zu der Nominalzielwiedergaberate korrespondieren, die bestimmte Sprecherstimme oder -stimmen enthält, verwendet werden.
Covell und Withgott beschreiben im Detail andere Verfahren zur Verwendung der Analyse eines Audiodatensatzes von einem Satz von audiovisuellen Daten, um die Zielwiedergaberate zu beeinflussen (d. h. um eine Zielwiedergaberate zu bestimmen oder eine Nominalzielwiedergaberate zu modifizieren). Diese Verfahren können auch in Verbindung mit der vorliegenden Erfindung verwendet werden. Bei einem derartigen Verfahren wird die Größe der Betonung, mit der die gesprochenen Teile eines Audiodatensatzes geäußert werden, bestimmt. (Die Größe der Betonung nicht-gesprochener Teile des Audiodatensatzes wird zu Null angenommen.) Eine solche Betonung kann beispielsweise bestimmt werden durch Berechnen eines Energieterms für die gesprochenen Teile. Die Zielwiedergaberate von verschiedenen Teilen des Audiodatensätzes kann dann etabliert werden (oder die Nominalzielwiedergaberate/n kann/können modifiziert werden) entsprechend den relativen Größen der Betonung, wie sie für diese Teile bestimmt wurden. Beispielsweise kann die Größe der Zielwiedergaberate umgekehrt zu dem Maß an Betonung, mit dem ein gesprochener Teil des Audiodatensatzes geäußert wird, variiert werden. Bei einem weiteren derartigen Verfahren nach Covell und Withgott wird die Größe der Geschwindigkeit, mit der die gesprochenen Teile eines Audiodatensatzes geäußert werden, bestimmt (nicht-gesprochene Teile haben eine Geschwindigkeit von Null). Die Sprechgeschwindigkeit kann zum Beispiel aufgrund von Messungen spektraler Veränderungen in der Sprache bestimmt werden. Die relativen Größen der Sprechgeschwindigkeit können dazu verwendet werden, die Zielwiedergaberate verschiedener Teile des Audiodatensatzes zu etablieren (oder die Nominalzielwiedergaberate oder -raten zu modifizieren). Beispielsweise wird die Zielwiedergaberate von gesprochenen Teilen, welche ursprünglich schnell gesprochen wurden, relativ langsamer gemacht als die Zielwiedergaberate von anderen gesprochenen Teilen. Wie weiter von Covell und Withgott für ein weiteres Verfahren beschrieben, können die ermittelten Größen der Sprechbetonung und der Sprechgeschwindigkeit kombiniert werden, um einen "Audiospannungs"-Wert zu erzeugen, wobei der Audiospannungswert dann dazu verwendet wird, eine Zielwiedergaberate oder -raten (oder eine Nominalzielwiedergaberate oder -räten) in beliebiger gewünschter Weise zu etablieren (bzw. zu modifizieren).
Wie im Vorstehenden erwähnt, können die Videodaten eines Satzes von audiovisuellen Daten ebenfalls analysiert und auf Basis dieser Analyse eine Zielwiedergaberate (oder eine Sequenz von Raten) etabliert werden (d. h. von Grund auf bestimmt oder durch Modifizieren einer Nominalzielwiedergaberate erhalten werden). In der auf gemeinsame Inhaberschaft zurückgehenden, parallel anhängigen US-Patentanmeldung mit dem Titel "A Method of Compressing a Plurality of Video Images for Efficiently Storing, Displaying and Searching the Plurality of Video Images" von Subutai Ahmad, Serial No. 08/528 891, mit Einreichungsdatum vom 15. September 1995 (im Folgenden mit "Ahmad" bezeichnet) und veröffentlicht unter WO-A-97/10564, sind mehrere derartige Verfahren zum Bestimmen einer Zielwiedergaberate im Detail beschrieben. Bei einem solchen Verfahren werden die Videodaten analysiert, um die relative Änderungsrate der Videodaten entlang verschiedener populationsbasierter Dimensionen zu bestimmen (d. h. Dimensionen, welche auf Basis einer Analyse einer spezifizierten Population der Daten selektiert sind). Lineare (oder affine) Vielfache sind ein Beispiel für die Implementierung einer derartigen Analyse. Bei einem linearen Vielfachen werden in Beziehung stehende n-dimensionale Sätze von Daten (z. B. die Pixel eines Satzes von Frames von Videodaten) überwacht, um die Variation entlang jeder Dimension (z. B. Pixel) zwischen "benachbarten" Sätzen (z. B. aufeinanderfolgenden Videoframes) von Daten zu bestimmen. Es kann eine bestimmte Zahl von Dimensionen (z. B. bestimmte Pixel) mit der größten Variation als die populationsbasierten Dimensionen selektiert werden. Die Änderung der Werte der Daten (z. B. Änderung in Pixelwerten) entlang der populationsbasierten Dimensionen wird überwacht. Die Zielwiedergaberate kann auf Basis dieser Veränderungen etabliert werden. So kann die Zielwiedergaberate zum Beispiel relativ langsamer gemacht werden, wenn die Videodaten (entlang den populationsbasierten Dimensionen) sich rasch verändern, und umgekehrt. Bei einem anderen Verfahren nach Ahmad werden die Videodaten analysiert, um Teile des Videobildes zu bestimmen, welche sich rasch verändern, sowie die Frequenzen, mit der solche raschen Änderungen in Erscheinung treten. Während Perioden, in denen zahlreiche solcher rascher Änderungen auftreten, kann die Zielwiedergaberate relativ langsamer gemacht werden; während Perioden, in denen das Videobild relativ stabil bleibt, kann die Zielwiedergaberate relativ schneller gemacht werden.
Andere Verfahren zum Etablieren einer Zielwiedergaberate auf Basis der Analyse des Videodatensatzes sind z. B. in "A Real-Time System for Automatically Annotating Unstructured Image Sequences" von Zabih, Woodfill und Withgott, IEEE International Conference an Systems, Man, and Cybernetics, 1993, und "Tracking Non-Rigid Objects in Complex Scenes" von Huttenlocher, Noh und Rucklidge, International Conference an Computer Vision, 1993, beschrieben. Bei diesen Verfahren wird die Bewegung von Objekten in dem Videobild verfolgt. Die Zielwiedergaberate kann zum Beispiel während Zeitabschnitten, in denen neue Objekte in dem Videobild in Erscheinung treten, relativ langsamer gemacht werden.
Eine Zielwiedergaberate kann auch durch Kombinieren der Ergebnisse von Mehrfachanalysen der audiovisuellen Daten etabliert werden. Allgemein kann die Mehrfachanalyse eine Analyse der Audiodaten allein, der Videodaten allein oder der Audio- und Videodaten umfassen. Die Resultate der Analysen können auf beliebige geeignete Weise kombiniert werden. So kann zum Beispiel die durch Mehrfachanalyse etablierte Zielwiedergaberate (oder Sequenz von Raten) gemittelt werden, um eine Zielwiedergaberate zu etablieren. Eine andere Möglichkeit besteht darin, die mittels Mehrfachanalyse etablierte schnellere oder langsamere der Zielwiedergaberaten als Zielwiedergaberate zu wählen. Es können auch andere nicht-lineare Filtermethoden (z. B. Stack-Filter) oder zeitvariante Methoden (z. B. Funktionen, welche eine zeitliche Hysterese beinhalten) verwendet werden, wie für den Fachmann auf dem Gebiet der Datenanalyse erkennbar, um eine Zielwiedergaberate aufgrund von mehrfachen Zielwiedergaberaten, etabliert mittels Mehrfachanalyse der audiovisuellen Daten, zu etablieren.
In Schritt 103 des Verfahrens 100 (Fig. 1), wie im Vorstehenden beschrieben, wird ein modifizierter Satz von Audiodaten auf Basis der Zielwiedergaberate erzeugt. Der modifizierte Audiodatensatz wird erzeugt, so dass bei Verwendung zum Generieren einer Audiowiedergabe die apparente Wiedergaberate der Wiedergabe der Zielwiedergaberate angenähert oder gleich ist. Im Folgenden wird ein besonderes Verfahren zum Erzeugen eines derartigen modifizierten Audiodatensatzes im Detail und unter Bezugnahme auf die Fig. 3A, 3B, 4A, 4B und 4C beschrieben. Das beschriebene Verfahren ist eine Modifikation der bereits bekannt gewordenen Synchronized Overlap Add (SOLA)-Methode. Die SOLA-Methode, welche ebenfalls zur Erzeugung eines modifizierten Audiodatensatzes verwendet werden kann, ist in einem Paper mit dem Titel "High quality time scale modification for speech" von S. Roucos und A. M. Wilgus, veröffentlicht in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, pp. 493-496, IEEE, 1985, näher erläutert.
Es können sowohl die modifizierte SOLA-Methode als auch die SOLA-Methode verwendet werden, um einen modifizierten Audiodatensatz zu erzeugen, der zu einer Wiedergabe führt, welche eine apparente Wiedergaberate aufweist, die gegenüber der normalen Wiedergaberate entweder beschleunigt oder verlangsamt ist. Ferner können sowohl die modifizierte SOLA-Methode als auch die SOLA-Methode einen modifizierten Audiodatensatz erzeugen, der eine Audiowiedergabe mit wenig oder gar keiner Verzerrung des durch den originalen Audiodatensatzes repräsentierten Lautes generiert. Beispielsweise ermöglichen es diese Methoden, die Audiowiedergabe zu beschleunigen, ohne im Falle der Wiedergabe menschlicher Stimmen einen "Micky-Maus"-Effekt zu erzeugen, oder die Audiowiedergabe zu verlangsamen, ohne die Sprecher wie betäubt klingen zu lassen. Die im Folgenden beschriebene modifizierte SOLA- Methode unterscheidet sich von der in dem obenerwähnten Paper beschriebenen SOLA-Methode im Wesentlichen dadurch, dass die SOLA-Methode ein anfängliches Überlappen von Segmenten zulässt, während die modifizierte SOLA- Methode dies nicht erlaubt; abgesehen von diesem Unterschied sind die beiden Verfahren im Wesentlichen gleich. Die Verwendung der modifizierten SOLA-Methode kann im Vergleich zur Verwendung der SOLA-Methode vorteilhaft sein, weil die modifizierte SOLA-Methode zu einem geringeren rechnerischen Aufwand führt (zum Beispiel verlangt die SOLA-Methode einen größeren "Buchführungsaufwand" zum Verfolgen der anfänglich überlappenden Segmente). Ferner kann die modifizierte SOLA-Methode weniger Verzerrung erzeugen als die SOLA-Methode, weil die modifizierte SOLA-Methode einen größeren Teil der originalen Audiodaten in unmodifizierter Form beibehält. Für den Fachmann auf dem Gebiet der Datenanalyse wird anhand der nachfolgenden Beschreibung der modifizierten SOLA-Methode ohne weiteres erkennbar sein, wie die SOLA-Methode für die Erfindung Verwendung finden kann; in der Hauptsache erfordert die Verwendung der SOLA-Methode, dass die Schritte der modifizierten SOLA-Methode, wie sie im Folgenden beschrieben werden, so modifiziert werden, dass die anfängliche Überlappung der Segmente Berücksichtigung findet.
Die Fig. 3A und 3B bilden zusammen ein Ablaufdiagramm eines Verfahrens 300 (bei dem es sich um eine modifizierte SOLA-Methode handelt) gemäß einer Ausführungsform der Erfindung zum Modifizieren eines Satzes von Audiodaten entsprechend einer Zielwiedergaberate. Das Verfahren 300 kann mit einer beliebigen Zielwiedergaberate verwendet werden, d. h. entweder mit einer Zielwiedergaberate, welche dazu gedacht ist, die apparente Wiedergaberate zu beschleunigen (d. h. bei Angabe der Zielwiedergaberate als Zahl, welche ein Mehrfaches der normalen Wiedergaberate repräsentiert, mit einer Zielwiedergaberate größer als Eins) oder mit einer Zielwiedergaberate, welche dazu gedacht ist, die apparente Wiedergaberate zu verlangsamen (d. h. einer Zielwiedergaberate kleiner als Eins). Die Fig. 4A, 4B und 4C sind schematische Darstellungen eines Audiodatensatzes 400 und der Transformationen des Audiodatensatzes 400, welche bei der Implementierung des Verfahrens 300 zum Modifizieren des Audiodatensatzes 400 auf Erhalt einer Beschleunigung der korrespondierenden Audiowiedergabe (Zielwiedergaberate größer als Eins) auftreten können.
Allgemein bewirkt die modifizierte SOLA-Methode nach Fig. 3A und Fig. 3B, dass sich Anfang und Ende jedes Segmentes mit dem Ende bzw. Anfang von benachbarten Segmenten überlappen. Wie aus der nachfolgenden Beschreibung erkennbar wird, kann das Überlappen von Segmenten in der Hinzufügung von Daten zu dem Audiodatensatz, der Eliminierung von Daten aus demselben und/oder dem Mischen von Daten in demselben resultieren. (Es sei angemerkt, dass, wie im Folgenden näher erläutert und beispielhaft dargestellt, die "Überlappung" negativ sein kann.) Zum Beschleunigen der Wiedergabe wird der Audiodatensatz in der Länge um die Summe aller Überlapplängen (die typisch vorwiegend oder ausschließlich positiv sind) gekürzt. Dementsprechend wird für eine Verlangsamung der Wiedergabe der Audiodatensatz in der Länge um die Summe der Überlapplängen (die typisch vorwiegend oder ausschließlich negativ sind) vergrößert.
Sprachlaute können in zwei Hauptklassen eingeteilt werden: stimmhaft und stimmlos. Stimmhafte Sprachlaute werden erzeugt als Antwort des Vokaltraktes auf periodische Erregung von den Stimmbändern, welche Pitch-Pulse erzeugen. Stimmhafte Sprachlaute umfassen die Mehrzahl der Sprachlaute, z. B. die Vokale, Nasenlaute, Halbvokale und stimmhafte Übergänge. Stimmlose Laute, welche die Frikativlaute und stimmlosen Verschlusslaute umfassen, entstehen als Folge von Turbulenz, erzeugt durch eine Verengung an irgendeiner Stelle entlang des Vokaltraktes. Während das hier beschriebene Verfahren bestgeeignet ist zum Modifizieren von Audiodaten, welche stimmhafte Laute repräsentieren, zeigt es auch gutes Verhalten bei der Modifizierung von Audiodaten, welche sowohl stimmhafte wie auch stimmlose Laute repräsentieren, insbesondere mit Hinblick auf die Art und Weise und das relative Verhältnis, in der bzw. in dem derartige Laute in der menschlichen Sprache in Erscheinung treten.
Die möglichen Längen jeder Überlappung sind entsprechend des gewünschten Umfangs der Wiedergaberatenvariation begrenzt. Innerhalb dieser Begrenzung jedoch wird die Länge jeder besonderen Überlappung so gewählt, dass die Pitch-Pulse der überlappten Bereiche einander eng angenähert sind (d. h. übereinanderliegen) (siehe Fig. 5A, 5B und 5C und Fig. 6A, 6B und 5C, die im Folgenden erörtert werden). Somit wird durch das Hinzufügen, Eliminieren und/oder Mischen der Audiodaten der überlappten Bereiche der zu den überlappten Teilen der Audiodaten korrespondierende Laut nicht stark verzerrt. Es resultiert daraus, dass der Audiodatensatz wie gewünscht modifiziert werden kann (d. h. die apparente Wiedergaberate eines Audiodatensatzes kann wie gewünscht variiert werden) und zugleich das mit der Modifikation des Audiodatensatzes verbundene Ausmaß an Verzerrung reduziert werden kann (d. h. die modifizierte Wiedergabe klingt "normal"). In der Praxis wurde gefunden, dass das Verfahren 300 gut funktioniert (d. h. eine Audiowiedergabe mit relativ wenig oder gar keiner Verzerrung erzeugt) beim Variieren der apparenten Wiedergaberate einer Audiowiedergabe, welche gesprochenes und/oder nicht-gesprochenes Audio enthält.
In Schritt 301 wird ein Audiodatensatz in Segmente von Audiodaten (in der nachfolgenden Erörterung als Audiosamples bezeichnet) von gleicher Zeitdauer unterteilt. Jedes Audiosegment korrespondiert bevorzugt zu einer spezifizierten Einheit von Videodaten gleicher Dauer. So kann beispielsweise jedes Audiosegment Audiosamples umfassen, welche sich über eine Zeitdauer erstrecken, die zu einem einzelnen Videoframe von Videodaten korrespondiert, d. h. jedes Audiosegment der Audiodaten korrespondiert zu einem bestimmten Videoframe der Videodaten. Die Segmente überlappen nicht, und es sind keine Lücken zwischen Segmenten vorhanden, d. h. der Anfang jedes Segmentes (ausgenommen das Anfangssegment eines Audiodatensatzes) ist dem Ende des vorhergehenden Segmentes unmittelbar benachbart, und das Ende jedes Segmentes (ausgenommen das Schlusssegment des Audiodatensatzes) ist dem Anfang des nachfolgenden Segmentes unmittelbar benachbart. In den Fig. 4A, 4B und 4C ist der Audiodatensatz 400 in Segmente 401 bis 404 unterteilt. Dies ist jeweils in der obersten Reihe der Fig. 4A, 4B und 4C veranschaulicht.
In Schritt 302 wird ein erstes Segment selektiert. Typisch, wenngleich nicht zwingend, ist das in Schritt 302 selektierte erste Segment ein Segment, welches entweder am Anfang oder am Ende des Audiodatensatzes angeordnet ist, z. B. das Segment 401 bzw. das Segment 404 des Audiodatensatzes 400 der Fig. 4A, 4B und 4C. (Es wird erkennbar sein, dass, wenn die Erfindung implementiert wird, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe in Echtzeit zu variieren, das erste Segment allgemein - unter Berücksichtigung des Verarbeitungsgeschwindigkeitsvermögens derzeitiger Einrichtungen zum Verarbeiten von audiovisuellen Daten - das erste zeitlich auftretende Segment sein muss, um die Echtzeitwiedergabe zu wahren.) Bei der nachfolgenden Beschreibung des Verfahrens 300 ist das in Schritt 302 selektierte erste Segment das Segment am Anfang (d. h. zeitlich das erste auftretende Segment) des Audiodatensatzes (d. h. das Segment 401 des Audiodatensatzes 400 in den Fig. 4A, 4B und 4C), und die Segmente werden sukzessive gemäß dem Verfahren 300 unter Vorwärtsbewegen in der Zeit (d. h. von links nach rechts in den Fig. 4A, 4B und 4C) verarbeitet. Aus der nachfolgenden Beschreibung ergibt sich jedoch, dass in Schritt 302 auch das letzte Segment selektiert werden könnte und das Verfahren 300 unter Rückwärtsbewegen in der Zeit (d. h. von rechts nach links in den Fig. 4A, 4B und 4C) in Analogie zu der im Folgenden beschriebenen Weise implementiert werden könnte.
In Schritt 303 wird ein zweites Segment selektiert (Segment 402 in Fig. 4A). Das zweite Segment ist zeitlich dem ersten Segment benachbart, jedoch ohne es zu überlappen. Das erste und das zweite Segment sind jeweils in der zweiten Reihe der Fig. 4A, 4B und 4C gezeigt.
Wie in dem oben erörterten Beispiel angegeben, kann die Unterteilung eines Audiodatensatzes in exakt gleiche Audiosegmente zu Audiosegmenten mit einem gebrochenen Audiosample führen (in dem obigen Beispiel z. B. 266,67 Audiosamples). Diese Problematik kann, wie im Vorstehenden erörtert, dadurch angesprochen werden, dass die Zahl der Audiosamples in jedem Segment so angepasst wird, dass sie ein ganzzahliger Wert ist, so dass im Mittel jedes Audiosegment die exakt berechnete Zahl von Audiosamples beinhaltet. In den Schritten 302 und 303 sind die ganzen Zahlen von Audiosamples mit den Segmenten als die "Längen" der Segmente assoziiert.
In Schritt 304 wird eine Zielüberlappung des ersten und des zweiten Segmentes bestimmt. Die Zielüberlappung repräsentiert eine Approximation der tatsächlichen Überlappung zwischen benachbarten Teilen des ersten und zweiten Segments, welche in späteren Schritten des Verfahrens 300 bestimmt wird. Die Größe der Zielüberlappung steht in direkter Beziehung zu der Zielwiedergaberate; demnach - wie aus der nachfolgenden Beschreibung erkennbar wird - ist die nach dem Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate eng angenähert. Die Zielwiedergaberate kann gemäß der Gleichung (1)
t = [(s - 1)/s]·d (1)
bestimmt werden, wobei t die Zielüberlappung bedeutet (ausgedrückt in der Zeit oder der Zahl von Audiosamples, wobei s für die Zielwiedergaberate steht (eine dimensionslose Größe, die üblicherweise nicht gleich Eins ist), und wobei d die Dauer jedes Segmentes bedeutet (wieder ausgedrückt in der Zeit oder der Zahl der Audiosamples). (Es sei angemerkt, dass d, wenn in Audiosamples ausgedrückt, ein nicht-ganzzahliger Wert sein kann.) Wie aus der Betrachtung der Gleichung (1) erkennbar, ist in dem Falle, dass die Zielwiedergaberate größer ist als Eins (d. h., wenn eine Beschleunigung der Wiedergabe gewünscht ist), die Zielüberlappung größer als Null. Umgekehrt ist in dem Falle, dass die Zielwiedergaberate kleiner ist als Eins (d. h. wenn eine Verlangsamung der Wiedergabe gewünscht ist), die Zielüberlappung kleiner als Null.
In Schritt 305 wird ein Satz von Trial-Überlappungen auf Basis der Zielüberlappung bestimmt. Wie im Folgenden noch ausführlicher erläutert, wird jede der Trial-Überlappungen evaluiert, um zu bestimmen, welche Trial-Überlappung am besten funktioniert, z. B. welche Trial-Überlappung in einer Modifikation des originalen Audiodatensatzes mit der geringsten Verzerrung des durch den modifizierten Audiodatensatz erzeugten Lautes resultiert. Es wird erkennbar sein, dass die Granularität der Trial-Überlappungen (d. h. das Maß, um den jede Trial-Überlappung von der/den Trial-Überlappungen mit der nächstbenachbarten Größe differiert, und der Bereich der Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung beeinflussen kann. Allgemein nimmt mit feiner werdender Granularität der Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung zu, weil mehr Trial-Überlappungen für einen gegebenen Bereich von Trial-Überlappungen evaluiert werden. Allgemein nimmt mit größer werdendem Bereich von Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung zu, weil mehr Trial-Überlappungen für eine gegebene Granularität evaluiert werden. Bevorzugt ist der Bereich der Trial-Überlappungen mindestens groß genug, um einen Pitch-Puls des Pitch mit der niedrigsten, in den Audiodaten zu erwartenden Frequenz zu enthalten (wenn z. B. der Pitch mit der niedrigsten Frequenz eine Frequenz von 80 Hz hat, so dass der Pitch-Puls 12,5 Millisekunden beträgt, und die Samplingrate 8000 Samples pro Sekunde beträgt, ist der Bereich der Trial- Überlappungen bevorzugt mindestens 100 Audiosamples lang), weil im Allgemeinen sich überlagernde Pitch-Pulse von überlappenden Teilen der Segmente innerhalb dieses Bereichs gefunden werden können. Mit zunehmender Zahl an evaluierten Trial-Überlappungen nimmt aber der erforderliche Zeitaufwand zum Evaluieren aller Trial-Überlappungen zu. Ferner vergrößert im Allgemeinen ein breiterer Bereich von Trial-Überlappungen die Wahrscheinlichkeit, eine beste Überlappung zu bestimmen, die sich wesentlich von der Trial-Überlappung unterscheidet; wenn dies häufig genug auftritt, kann die apparente Wiedergaberate erheblich von der Zielwiedergaberate abweichen (wie jedoch im Folgenden erläutert, kann dieses Problem dadurch überwunden werden, dass die tatsächliche apparente Wiedergaberate kontinuierlich überwacht und die Zielwiedergaberate nach Bedarf modifiziert wird, um zu bewirken, dass die apparente Wiedergaberate mit der Zielwiedergaberate konvergiert). Die Granularität und der Bereich der Trial-Überlappungen werden als Kompromiss zwischen der erforderlichen Rechenzeit und der erwarteten Qualität der erzeugten besten Überlappung gewählt. Als Beispiel sei angeführt, dass für eine Audio-Samplingrate von 8000 Samples pro Sekunde der Bereich von Trial- Überlappungen 100 Audiosamples lang sein kann und die Granularität ein Audiosample sein kann, d. h. es werden 101 Trial-Überlappungen evaluiert.
Bevorzugt ist der Bereich von Trial-Überlappungen um die Zielüberlappung herum zentriert, so dass, ungeachtet der Tatsache, dass die tatsächliche Überlappung zweier Segmente von der Zielüberlappung abweichen kann, die mittlere tatsächliche Überlappung dazu tendieren wird, mit groß werdender Zahl der Segmente der Zielüberlappung zu gleichen. Je näher die mittlere tatsächliche Überlappung der Zielüberlappung ist, desto näher ist die mit dem Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate. (Die erzeugte apparente Wiedergaberate kann aber auch überwacht werden, um ein Variieren der Zielwiedergaberate zu ermöglichen und zu bewirken, dass die erzeugte apparente Wiedergaberate annähernd gleich der Zielwiedergaberate bleibt, wie im Vorstehenden bereits erwähnt und im Folgenden ausführlich beschrieben.)
In Schritt 306 wird eine Trial-Überlappung selektiert, welche bislang noch nicht berücksichtigt wurde. Die Trial-Überlappungen können in beliebiger Reihenfolge evaluiert werden.
In Schritt 307 werden die Audiodaten am Ende des ersten Segmentes, welches in die Überlappung fällt, als erste Segmentüberlappungsdaten identifiziert. Dies ist zum Beispiel jeweils in der dritten Reihe der Fig. 4A, 4B und 4C dargestellt, d. h. Fig. 4A zeigt einen Satz von ersten Segmentüberlappungsdaten 406.
In Schritt 308 werden die Audiodaten am Anfang des zweiten Segmentes, welches in die Überlappung fällt, als zweite Segmentüberlappungsdaten identifiziert. Dies ist zum Beispiel ebenfalls jeweils in der dritten Reihe der Fig. 4A, 4B und 4C dargestellt, d. h. Fig. 4A zeigt einen Satz von zweiten Segmentüberlappungsdaten 407.
Wenn zwei Segmente überlappt sind, dann liegen nicht nur Segmentüberlappungsdaten vor (wie im Vorhergehenden beschrieben), sondern auch nicht- überlappte Daten. Nicht-überlappte Daten sind ebenfalls jeweils in der dritten Reihe der Fig. 4A, 4B und 4C gezeigt. Gemäß Fig. 4A enthält zum Beispiel ein erstes Segment 401 nicht-überlappte Daten 405, während ein zweites Segment 402 nicht-überlappte Daten 408 enthält.
In Schritt 309 wird die Korrelation zwischen den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten berechnet. Es kann ein beliebiges geeignetes Verfahren zum Berechnen einer Korrelation zwischen den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten zur Verwendung kommen. Bei einer Ausführungsform wird die Korrelation als das mittlere Kreuzprodukt korrespondierender Audiodaten von den ersten Segmentüberlappungsdaten (nachdem der Mittelwert der ersten Segmentüberlappungsdaten jeweils von den ersten Segmentüberlappungsdaten subtrahiert wurde) und den zweiten Segmentüberlappungsdaten (nachdem der Mittelwert der zweiten Segmentüberlappungsdaten jeweils von den zweiten Segmentüberlappungsdaten subtrahiert wurde) bestimmt. N&sub1; und N&sub2; sei die Datenmenge im ersten bzw. zweiten Segment. M bedeute die Datenmenge, welche dem ersten Segment von dem zweiten Segment hinzugefügt wird, um sich negativen Überlappungen anzupassen, falls notwendig, wie im Vorstehenden beschrieben. (Es sei angemerkt, dass es auch notwendig sein mag, zusätzliche Daten zu dem zweiten Segment hinzuzufügen, wenn zum Beispiel der Bereich von Überlappungen größer ist als die Länge des zweiten Segmentes; wie aber im Folgenden erörtert, wird angenommen, dass diese Eventualität in typischen Anwendungen der Erfindung unwahrscheinlich ist.)
Die Amplitude der Audiodaten im ersten Segment sei repräsentiert durch a[1], a[2], ..., a[N&sub1; + M] (worin M Null ist, wenn keine Daten zu dem ersten Segment hinzugefügt wurden), und die Amplitude der Audiodaten im zweiten Segment sei repräsentiert durch b[1], b[2], ..., b[N&sub2;]. k bedeute die Menge an Audiodaten in einer Trial-Überlappung, (2r + 1) stehe für die Länge des Bereichs von Trial-Überlappungen (so dass r Audiodaten zu beiden Seiten der Trial-Überlappung vorhanden sind), und d sei die Zielüberlappung. Die Mittelwerte der ersten und zweiten Segmentüberlappungsdaten für eine Trial-Überlappung sind gegeben durch die Gleichungen (2) bzw. (3):
a' = (a[N&sub1; - k + 1] + a[N&sub1; - k + 2] + ... + a[N&sub1; + M])/(k + M) (2)
b' = (b[1] + b[2] + ... + b[k + M])/(k + M) (3)
Das Korrelationsmaß C ist dann gegeben durch Gleichung (4):
C = {(a[N&sub1; - k + i] - a')·(b[1] - b') + (a[N&sub1; - k + 2] - a')· (b[2] - b') + ... + (a[N&sub1; + M] - a')·(b[k + M] - b')}/(k + M) (4)
Es mag wünschenswert sein, die Korrelationsberechnung zu modifizieren, um die berechnete Korrelation für jede Trial-Überlappung entsprechend der Nähe der Trial-Überlappung zu der Zielüberlappung zu gewichten. Das Korrelationsmaß C ist dann gegeben durch die Gleichung (5):
C = W(d, k, r)·{(a[N&sub1; - k + 1] - a')·(b[1] - b') + (a[N&sub1; - k + 2] - a')·(b[2] - b') + ... + (a[N&sub1; + M] - a')· (b[k + M] - b')}/(k + M) (5)
worin W(d, k, r) einen Gewichtungsfaktor bedeutet, der eine Funktion der jeweiligen Trial-Überlappung k, der Zielüberlappung d und der halben Länge des Bereichs von Trial-Überlappungen r ist. Es kann eine beliebige geeignete Gewichtungsfunktion verwendet werden. Beispielsweise könnte die Gewichtungsfunktion wie in Gleichung (6) gegeben sein:
W(d, k, r) = 1 - k - d /r (6)
Wie aus der Betrachtung von Gleichung (6) erkennbar, ist eine solche Gewichtungsfunktion gleich Null an beiden Enden des Bereichs von Trial-Überlappungen (weil k - d gleich r für diese Überlappungen ist) und ist gleich Eins für die Zielüberlappung (weil k - d gleich Null für diese Überlappung ist). Die Gewichtungsfunktion nimmt linear zwischen dem jeweiligen Ende des Bereichs von Überlappungen und der Zielüberlappung zu.
In Schritt 310 wird eine Bestimmung dahingehend durchgeführt, ob jede Trial- Überlappung evaluiert worden ist. Der Schritt 310 wird verwendet, um zu bestimmen, wann der Vergleich von überlappenden Teilen von einander benachbarten Segmenten enden soll. Wenn immer noch eine oder mehrere Trial- Überlappungen zu evaluieren ist bzw. sind, kehrt das Verfahren 300 zu Schritt 306 zum Selektieren einer anderen zu evaluierenden Trial-Überlappung zurück, und die Schritte 307 bis 309 werden erneut durchgeführt. Das Verfahren 300 wiederholt die Schritte 306 bis 309, bis alle Trial-Überlappungen evaluiert worden sind. Sobald alle Trial-Überlappungen evaluiert worden sind, wird das Verfahren 300 mit Schritt 311 fortgesetzt.
In Schritt 311 wird die beste Überlappung selektiert. Die beste Überlappung ist diejenige Überlappung, die das höchste Korrelationsmaß zwischen den Audiodaten der ersten Segmentüberlappungsdaten und den Audiodaten der zweiten Segmentüberlappungsdaten aufweist, z. B. das höchste mittlere Kreuzprodukt (im Vorstehenden beschrieben). Wenn mehr als eine Trial-Überlappung das höchste Korrelationsmaß aufweist, dann wird diejenige Trial-Überlappung selektiert, die der Zielüberlappung am nächsten kommt. Wenn es zwei solcher Trial-Überlappungen gibt, die am nächsten kommen, kann eine beliebige der beiden gewählt werden, oder - gemäß einem erfindungsgemäßen Verfahren, bei dem die tatsächliche apparente Wiedergaberate überwacht wird (im Folgenden beschrieben) - es wird diejenige Trial-Überlappung gewählt, die bewirkt, dass die tatsächliche apparente Wiedergaberate näher an die Zielwiedergaberate herankommt. Es möge beachtet werden, dass die beste Überlappung positiv oder negativ sein kann. Ferner gilt dies sowohl für eine Zielwiedergaberate größer als Eins (Beschleunigung der Wiedergabe) als auch kleiner als Eins (Verlangsamung der Wiedergabe). Jedoch wird für eine Beschleunigung der Wiedergabe die beste Überlappung typisch positiv sein, während für eine Verlangsamung der Wiedergabe die beste Überlappung typisch negativ sein wird; in beiden Fällen liegt idealerweise die beste Überlappung größenmäßig nahe der Zielüberlappung. Aus Gründen der leichteren Beschreibung und beispielhaften Darstellung der Erfindung sei davon ausgegangen, dass die dritte Zeile der Fig. 4A, 4B und 4C die beste Überlappung für das erste und zweite Segment dieser Figuren zeigt. Beispielsweise ist in Fig. 4A die beste Überlappung im ersten Segment durch die Ziffer 409 und im zweiten Segment durch die Ziffer 410 bezeichnet.
In Schritt 312 werden die nicht-überlappten Daten, auf Basis der besten Überlappung, von dem ersten Segment gespeichert. Die gespeicherten nicht- überlappten Daten von dem ersten Segment sind jeweils in der vierten Reihe der Fig. 4A, 4B und 4C gezeigt. So werden zum Beispiel in Fig. 4A die nicht-überlappten Daten 405 gespeichert. Man beachte, dass, wenn die beste Überlappung negativ ist (wie dies typisch für eine Verlangsamung der Wiedergabe der Fall ist), dann enthalten die nicht-überlappten Daten mehr als die Audiodaten von dem ersten Segment; die nicht-überlappten Daten enthalten auch einige Audiodaten, die ursprünglich Teil des zweiten Segmentes waren (und, möglicherweise, in einem extremen Verlangsamungsfall, nachfolgender Segmente).
In Schritt 313 werden die ersten Segmentüberlappungsdaten, welche zu der besten Überlappung korrespondieren, mit den zweiten Segmentüberlappungsdaten, welche zu der besten Überlappung korrespondieren, gemischt. Wie in der jeweils fünften Reihe der Fig. 4A, 4B und 4C zu sehen, ersetzen die gemischten Audiodaten die zweiten Segmentüberlappungsdaten in dem zweiten Segment. Beispielsweise enthält in Fig. 4A nach dem Mischen das zweite Segment 402 gemischte Daten 411 und nicht-überlappte Daten 408. Die ersten Segmentüberlappungsdaten und die zweiten Segmentüberlappungsdaten werden verworfen. Gemäß Fig. 4A ersetzen die gemischten Daten also die ersten und die zweiten Segmentüberlappungsdaten, wodurch die Größe des Audiodatensatzes 400 um die Menge der überlappten Daten vermindert wird (d. h. die Größe der ersten Segmentüberlappungsdaten oder, äquivalent, der zweiten Segmentüberlappungsdaten).
Das Mischen kann durchgeführt werden unter Verwendung einer beliebigen geeigneten Technik, welche eine glatte Transition zwischen dem Ende der ersten Segmentüberlappungsdaten und dem Anfang der zweiten Segmentüberlappungsdaten erzeugt. So kann das Mischen zum Beispiel durchgeführt werden, indem eine lineare Überblendung der ersten Segmentüberlappungsdaten mit den zweiten Segmentüberlappungsdaten durchgeführt wird, welche eine gewichtete Kombination der Daten in dem ersten und zweiten Überlappungssegment erzeugt. Die Gewichtung der ersten Segmentüberlappungsdaten ist linear ansteigend von Eins am Anfang der ersten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den nicht-überlappten Daten des ersten Segmentes) zu Null am Ende der ersten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den zweiten Segmentüberlappungsdaten). Dementsprechend ist die Gewichtung der zweiten Segmentüberlappungsdaten linear ansteigend von Null am Anfang der zweiten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den ersten Segmentüberlappungsdaten) zu Eins am Ende der zweiten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den nicht-überlappten Daten des zweiten Segmentes). Die lineare Überblendung der ersten und zweiten Segmentüberlappungsdaten ist gegeben durch Gleichung (7):
g[i] = (i/(k + M))·b[i] + (1 - (i/(k + M)))·a[N&sub1; - k + i]
für i = 1, 2, ..., (k + M) (7)
wobei N&sub1; die ursprüngliche Zahl von Samples in dem ersten Segment ist; wobei M die Zahl der Samples bedeutet, welche gegebenenfalls zur Erweiterung der Länge des ersten Segmentes zwecks Anpassung an negative Überlappungen hinzugefügt wurden; wobei k (hier) die beste Überlappung ist; wobei (k + M) die Zahl der Samples für die beste Überlappung ist, welche zwischen dem erweiterten ersten Segment und dem zweiten Segment überlappen; wobei a[N&sub1; - k + 1], a[N&sub1; - k + 2], ..., a[N&sub1; + M] die letzten [k + M]-Samples des erweiterten ersten Segmentes a sind; wobei b[1], b[2], ..., b[k + M] die ersten (k + M)-Samples des zweiten Segmentes b sind; und wobei g[1], g[2], ..., g[k + M] die (k + M)-Samples der gemischten Daten g sind.
In Schritt 314 wird eine Bestimmung dahingehend durchgeführt, ob das zweite Segment das letzte Segment in dem Audiodatensatz ist. Der Schritt 314 wird verwendet, um zu bestimmen, wenn das Verfahren 300 enden soll (d. h. wenn der ganze Audiodatensatz modifiziert worden ist) und wird im Folgenden näher erläutert.
In Schritt 315 werden die gemischten Daten mit den nicht-überlappten Daten des zweiten Segmentes kombiniert, um ein modifiziertes zweites Segment zu bilden. Diese Kombination ist jeweils in der fünften Reihe der Fig. 4A, 4B und 4C veranschaulicht. So enthält beispielsweise, wie im Vorstehenden bereits erwähnt, gemäß Fig. 4A nach erfolgtem Mischen das zweite Segment 402 gemischte Daten 411 und nicht-überlappte Daten 408. An diesem Punkt ist die Überlappung der ersten zwei Segmente des Audiodatensatzes komplett, und es kann ein neuer Satz von Segmenten überlappt werden.
Typisch werden bei positiver Zielüberlappung (d. h., wenn die apparente Wiedergaberate beschleunigt werden soll, so dass die Zielwiedergaberate größer als Eins ist) das erste und das zweite Segment entsprechend jeder der Trial- Überlappungen überlappt, indem einfach das zweite Segment in der Zeit in Richtung des ersten Segmente bewegt wird, und zwar um einen Betrag, der gleich der Trial-Überlappung ist (d. h. von rechts nach links in den Fig. 4A, 4B und 4C). Jede Trial-Überlappung bewegt das zweite Segment um einen anderen Betrag in bezug auf das erste Segment.
Die Fig. 5A, 5B und 5C zeigen eine Überlappung von Segmenten, wobei alle Trial-Überlappungen positiv sind. In Fig. 5A sind benachbarte Segmente 501 und 502 gezeigt. Segment 501 enthält Pitch-Pulse 501a, 501b und 501c, während Segment 502 Pitch-Pulse 502a, 502b und 503c enthält.
In Fig. 5B ist die Überlappung der Segmente 501 und 502 veranschaulicht. Segment 502 ist in zwei Positionen gezeigt: die obere Position korrespondiert zu der Zielüberlappung 503, während die untere Position zu der besten Überlappung 505 korrespondiert. Der Bereich 504 von Überlappungen ist ebenfalls gezeigt. Fig. 58 zeigt, wie die beste Überlappung 505 aus dem "Matching" von Pitch-Pulsen in benachbarten Segmenten resultieren kann: in der unteren Position des Segmentes 502 liegt der Pitch-Puls 502a des Segmentes 502 über dem Pitch-Puls 501c des Segmentes 501. (Es sei angemerkt, dass, konzeptionsmäßig, wenn die Segmente 501 und 502 überlappen, die überlappenden Bereiche übereinanderliegen; aus Gründen der Übersichtlichkeit der Darstellung sind in Fig. 58 die Segmente 501 und 502 in vertikaler Richtung zueinander versetzt.)
In Fig. 5C ist der Teil des Segmentes 501, der in dem modifizierten Audiodatensatz behalten wird, als Segment 511 gezeigt. Das Segment 512 repräsentiert ein modifiziertes zweites Segment 502: der Abschnitt 512a repräsentiert das Mischen der überlappenden Bereiche der Segmente 501 und 502, während der Abschnitt 512b den nicht-überlappenden Bereich des Segmentes 502 repräsentiert, einschließlich der Pitch-Pulse 502b und 502c. (Der Abschnitt 512a ist wie in Fig. 5C gezeigt repräsentiert, um zu zeigen, dass der Abschnitt 512a durch Mischen von Daten erzeugt wird; die Darstellung soll nicht den Audiodateninhalt des Abschnittes 512a widerspiegeln.)
Wenn z. B. der Pitch eines gesprochenen Lautes 90 Hz beträgt, jedes Audiosegment zu einem Videoframe korrespondiert und die Videoframerate 30 Hz beträgt, dann wird jedes Audiosegment 3 Pitch-Pulse beinhalten, wie in den Fig. 5A, 5B und 5C gezeigt. Ein gesprochener Vokallaut kann z. B. ca. 1/3 Sekunde dauern. Für die obengenannte Pitch-Frequenz und Audiosegmentlänge wird ein derartiger gesprochener Vokallaut 30 Pitch-Pulse enthalten und sich über 10 Audiosegmente erstrecken. Weil jeder zu einem solchen Vokallaut korrespondierende Pitch-Puls sehr ähnlich den anderen Pitch-Pulsen dieses Vokallautes sein wird, ist leicht zu erkennen, dass die zu diesem Vokallaut korrespondierenden 10 Audiosegmente überlappt sein können, wie in den Fig. 5A, 5B und 5C gezeigt (das heißt, so dass Pitch-Pulse von einander benachbarten Segmenten übereinander liegen), und zwar sogar um einen sehr großen Betrag, ohne eine wesentliche (oder möglicherweise überhaupt keine) Verzerrung dieses Lautes zu erzeugen. Eine solche Verzerrung, wie sie durch die Verwendung einer solchen Überlappungsmethode erzeugt wird, entsteht häufig aus der Überlappung von Segmenten, welche Pitch-Pulse von verschiedenen Lauten beinhalten (das heißt, aufeinanderfolgende verschiedene Vokallaute, aufeinanderfolgende verschiedene Konsonantlaute oder aufeinanderfolgende Vokal- und Konsonantlaute).
Eine oder mehrere Trial-Überlappungen können negativ sein. Negative Überlappungen können in verschiedenen Situationen auftreten. Wenn z. B. eine Verlangsamung der Wiedergabe (Zielwiedergaberate kleiner als Eins) gewünscht wird, ist die Zielüberlappung negativ (ausgenommen vielleicht manche Fälle, in denen eine Echtzeitanpassung der Zielüberlappung, wie an anderer Stelle hierin beschrieben, eine positive Zielüberlappung erzeugt, um zu bewirken, dass die tatsächliche apparente Wiedergaberate der Zielwiedergaberate noch näher kommt). Wenn die Zielüberlappung negativ ist, sind in der Regel die meisten, häufig alle Trial-Überlappungen ebenfalls negativ.
Die Fig. 6A, 6B und 6C zeigen die Überlappung von Segmenten, wobei alle Trial-Überlappungen negativ sind. Fig. 6A zeigt einander benachbarte Segmente 601 und 602. Segment 601 enthält Pitch-Pulse 601a, 601b und 601c, während Segment 602 Pitch-Pulse 602a, 602b und 602c enthält.
In Fig. 6B ist die Überlappung der Segmente 601 und 602 veranschaulicht. Segment 602 ist in zwei Positionen gezeigt: die obere Position korrespondiert zu der Ziel-Überlappung 603, während die untere Position zu der besten Überlappung 605 korrespondiert. Der Bereich 604 von Überlappungen ist ebenfalls gezeigt. Wie aus Fig. 6B ersichtlich, bewirkt die negative Überlappung, dass das zweite Segment 602 von dem ersten Segment 601 wegbewegt wird (das heißt bezogen auf Fig. 6B nach rechts), wodurch eine Lücke zwischen dem Ende des ersten Segmentes und dem Anfang des zweiten Segmentes 602 entsteht. Um die Segmente 601 und 602 zu überlappen, müssen Audiodaten zu dem Ende des Segmentes 601 hinzugefügt werden. Dies wird herbeigeführt, indem Daten vom Anfang des zweiten Segmentes 602 zum Ende des ersten Segmentes 601 hinzugefügt werden, um ein erweitertes erstes Segment 606 zu bilden. Die dem ersten Segment 601 hinzugefügte Menge an Daten ist eine Menge gleich mindestens einem Audiosample mehr als die Menge, um die sich die negativste Überlappung vom Ende des ersten Segmentes 601 in das zweite Segment 602 hinein erstreckt (um sicherzustellen, dass mindestens ein gewisser Grad an Überlappung zwischen dem erweiterten ersten Segment 606 und dem zweiten Segment 602 für alle Überlappungen vorhanden ist). Wie die im Vorstehenden beschriebene Fig. 5B zeigt Fig. 6B, wie die beste Überlappung 605 aus dem "Matching" von Pitch-Pulsen in den Segmenten resultieren kann: in der unteren Position 602 liegt der Pitch-Puls 602a des Segmentes 602 über dem Pitch-Puls 602b des erweiterten Segmentes 606.
In Fig. 6C ist der Teil des erweiterten Segmentes 606, der in dem modifizierten Audiodatensatz beibehalten wird, als Segment 611 gezeigt. Das Segment 612 repräsentiert ein modifiziertes zweites Segment 602: der Abschnitt 612a repräsentiert das Mischen der überlappenden Bereiche des erweiterten Segmentes 606 und des Segmentes 602, während der Abschnitt 612b den nicht-überlappenden Teil des Segmentes 602 repräsentiert, einschließlich der Pitch-Pulse 602b und 602c.
Wie im Vorstehenden bereits erwähnt, kann eine negative Überlappung auch in anderen Situationen auftreten. So erzeugen z. B. bei Zielüberlappungen größer als Null die Größe der Zielüberlappung, die Größe des Bereichs der Überlappungen und die Position des Bereichs bezogen auf die Zielüberlappung in Kombination eine oder mehrere negative Trial-Überlappungen. In Fig. 7 ist diese Situation veranschaulicht. Eine Zielüberlappung 704, gemessen von einem Punkt 703, bei dem das erste Segment 701 an das zweite Segment 702 angrenzt, erstreckt sich zu einem Punkt 701a in einem ersten Segment 701 und einem Punkt 702a in einem zweiten Segment 702. Ein Bereich von Trial- Überlappungen ist um die Zielüberlappung 704 zentriert. Der Bereich hat eine Länge 705 und erstreckt sich zu beiden Seiten der Trial-Überlappung 704 zu Punkten 701b und 701c "in" dem ersten Segment 701 und zu Punkten 702b und 702c "in" dem zweiten Segment 702. Die Größe der Zielüberlappung 704, die Länge 705 des Bereichs und die Position des Bereichs bezogen auf die Zielüberlappung 704 sind so, dass einige Überlappungen (negative Überlappungen) innerhalb des Bereichs von Trial-Überlappungen bewirken, dass das erste Segment 701 und das zweite Segment 702 so positioniert sind, dass die Segmente 701 und 702 einander tatsächlich nicht überlappen. (Dies ist aus der Betrachtung von Fig. 7 ersichtlich, welche zeigt, dass die Punkte 701c und 702c, welche "in" dem ersten Segment 701 bzw. zweiten Segment 702 sind, tatsächlich außerhalb der Segmente 701 bzw. 702 liegen.) In einer Situation, wie sie in Fig. 7 gezeigt ist, können die positiven Überlappungen auf eine Weise evaluiert werden, wie in den Fig. 5A, 5B und 5C gezeigt, während die negativen Überlappungen auf eine Weise evaluiert werden können, wie sie in den Fig. 6A, 6B und 6C gezeigt ist.
Wenn der Absolutwert einer oder mehrerer negativer Überlappungen größer ist als die Länge des zweiten Segmentes (was z. B. geschehen kann, wenn die Zielwiedergaberate kleiner als 0,5 ist), dann können zusätzliche Audiodaten von dem Audiodatensatz, der hinter dem zweiten Segment ist, nach Bedarf zu dem ersten Segment hinzugefügt werden. (Es sei angemerkt, dass in der Praxis Zielwiedergaberaten unter 0,5 unüblich sind, weil bei derart niedrigen Wiedergaberaten die Qualität der Audiowiedergabe eine nicht hinnehmbare Verschlechterung erfährt.)
In Abhängigkeit von dem Wert der Zielüberlappung, der Größe des Bereichs von Überlappungen und der Anordnung des Bereichs von Überlappungen bezogen auf die Zielüberlappung können Spezialfälle entstehen, die einer Modifikation des im Vorstehenden beschriebenen allgemeinen Ansatzes bedürfen. Einige solcher spezieller Situationen und Wege zu ihrer Handhabung sind im nachfolgenden erörtert.
So können z. B. im Falte von Zielüberlappungen größer als Null die Größe der Zielüberlappung, die Größe des Bereichs von Überlappungen und die Position des Bereichs bezogen auf die Zielüberlappung in Kombination eine oder mehrere Trial-Überlappungen erzeugen, die bewirkt bzw. bewirken, dass der Anfang des zweiten Segmentes so verschoben wird, dass er sich vordem Anfang des ersten Segmentes erstreckt (das heißt, eine Überlappung größer als die Länge des ersten Segmentes). Fig. 8A zeigt diese Situation, während Fig. 8B einen Weg aufzeigt, mit dem diese Situation angesprochen werden kann. Wie in Fig. 8A gezeigt, erstreckt sich eine Zielüberlappung 804 zu einem Punkt 801a in einem ersten Segment 801 und zu einem Punkt 802a in zweiten Segment 802. Ein Bereich von Trial-Überlappungen ist um die Zielüberlappung 804 zentriert. Der Bereich hat eine Länge 805 und erstreckt sich in gleichen Abständen 805a und 805b zu beiden Seiten der Trial-Überlappung 804 zu Punkten 801b und 801c "in" dem ersten Segment 801 und zu Punkten 802b und 802c "in" dem zweiten Segment 802. Die Größe der Zielüberlappung 804 und die Distanz 805a sind so, dass der Punkt 801b sich um eine Distanz 806 über das erste Segment 801 hinaus erstreckt, so dass einige Überlappungen innerhalb des Bereichs von Trial-Überlappungen bewirken, dass das zweite Segment 802 vor dem Anfang des ersten Segmentes 802 positioniert ist. Daraus ergibt sich ein Problem, weil in dem ersten Segment 801 keine Daten sind, die zu dem Teil des zweiten Segmentes 802 korrespondieren können, der sich vor dem ersten Segment 801 erstreckt.
Wie in Fig. 8B gezeigt, kann diese Problematik überwunden werden durch Verschieben des Bereichs von Überlappungen um eine Distanz 806, so dass der Bereich von Überlappungen sich zwischen Punkten 801d und 801e in dem ersten Segment 801 und zwischen Punkten 802d und 802e in dem zweiten Segment 802 erstreckt. Nun wird damit zwar das in Fig. 8A veranschaulichte Problem überwunden, und es wird immer noch die gleiche Zahl von Überlappungen berücksichtigt (was wünschenswert ist, um die Qualität der Bestimmung der besten Überlappung zu verbessern), jedoch ist der Bereich von Überlappungen nicht mehr um die Zielüberlappung 804 zentriert: die Abstände 805a und 805b z. B. wurden um einen Betrag gleich der Distanz 806 verkürzt bzw. verlängert. Dieses "Aus-dem-Gleichgewicht-Bringen" der Trial-Überlappungen kann die Wahrscheinlichkeit, dass die mittlere tatsächliche Überlappung von der Zielüberlappung abweicht, und das Ausmaß, in dem dies geschieht, erhöhen und damit verbunden dazu führen, dass die erzeugte apparente Wiedergaberate von der Zielwiedergaberate abweicht.
Alternativ können einige der Trial-Überlappungen aus der Betrachtung herausgenommen werden. So kann z. B. eine Zahl von Überlappungen, welche betragsmäßig der Länge 806 entsprechen, von beiden Enden des Bereichs von Trial-Überlappungen eliminiert werden. Dieser Ansatz hat den Vorteil, dass der Bereich von Überlappungen um die Zielüberlappung zentriert bleibt, wodurch die Wahrscheinlichkeit, dass die durch das Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate angepasst ist, erhöht wird.
Ferner ist es möglich, dass der Bereich von Trial-Überlappungen größer ist als die Länge jedes Segmentes. (Es wird jedoch davon ausgegangen, dass es zu bevorzugen - und auch typisch - ist, dass die Größe des Bereichs von Trial- Überlappungen so spezifiziert wird, dass dies nicht geschieht: typisch weißt ein Segment eine Länge von mehreren Pitch-Pulsen auf und, wie im Vorstehenden beschrieben, wird der Bereich von Trial-Überlappungen ein wenig länger als ein Pitch-Puls sein.) In diesem Fall können dem ersten Segment Daten hinzugefügt werden, wie im Vorstehenden beschrieben, und dem zweiten Segment können zusätzliche Daten von den Audiodaten, die nach dem Ende des zweiten Segmentes auftreten, hinzugefügt werden. Es mag auch notwendig sein, den Bereich von Überlappungen zu verschieben, so dass der Bereich nicht um die Zielüberlappung zentriert ist, wie ebenfalls im Vorstehenden beschrieben, oder einige Überlappungen von dem Bereich von Überlappungen zu entfernen, wie ebenfalls im Vorstehenden beschrieben.
Es wird nun erneut auf die Fig. 3A und 3B Bezug genommen, gemäß welchen in Schritt 316 das modifizierte zweite Segment als ein neues erstes Segment für die nächste Überlappung selektiert wird. Es sei hier ein Punkt wiederholt, der bereits im Vorstehenden auf etwas andere Weise ausgedrückt wurde, nämlich, dass die Bedeutung der Verwendung des modifizierten zweiten Segmentes von der vorherigen Überlappung als das erste Segment der aktuellen Überlappung an Stelle des unmodifizierten zweiten Segmentes darin liegt, dass die gemischten Daten den Bereich glätten, in dem Audiodaten entfernt werden, so dass aus der Entfernung von Audiodaten resultierende Lautverzerrungen auf ein Minimum reduziert werden.
Nach Selektion des neuen ersten Segmentes geht das Verfahren 300 sodann zu Schritt 303 zurück, um ein neues zweites Segment zu selektieren, welches zeitlich benachbart zu dem neuen ersten Segment liegt, ohne dieses jedoch zu überlappen. Wie im Vorstehenden erwähnt, sind das erste und das zweite Segment jeweils in der zweiten Reihe der Fig. 4A, 4B und 4C gezeigt. Im Einzelnen ist in Fig. 4B nach erfolgter Überlappung des Segmentes 401 und des Segmentes 402 das erste Segment das modifizierte Segment 402 von Fig. 4A (einschließlich der gemischten Daten 411 und der nicht-überlappten Daten 408) und das zweite Segment ist das Segment 403 (unmodifiziert) des Audiodatensatzes 400.
Die Schritte 304 bis 316 werden erneut durchgeführt, um das Ende des modifizierten Segmentes 402 mit dem Anfang des Segmentes 403 zu mischen. In der dritten Reihe von Fig. 4B ist die beste Überlappung des modifizierten Segmentes 402 und des Segmentes 403 gezeigt. Die beste Überlappung ist mit der Bezugsziffer 416 in dem modifizierten Segment 402 und mit der Bezugsziffer 417 in dem Segment 403 bezeichnet. Für die beste Überlappung enthält das modifizierte Segment 402 nicht-überlappte Daten 412 und erste Segmentüberlappungsdaten 413, während das Segment 403 nicht-überlappte Daten 415 und zweite Segmentüberlappungsdaten 414 enthält. Die nicht- überlappten Daten 412 des modifizierten Segmentes 402 werden mit den zuvor gespeicherten nicht-überlappten Daten 405 von dem ersten Segment 401 gespeichert, wie in der vierten Reihe von Fig. 4B gezeigt. (Es möge beachtet werden, dass die nicht-überlappten Daten 412 des modifizierten Segmentes 402 die gemischten Daten 411 enthalten.) Die ersten Segmentüberlappungsdaten 413 werden mit den zweiten Segmentüberlappungsdaten 414 gemischt, um die gemischten Daten 418 zu erzeugen. Auf diese Weise wird die Größe des Audiodatensatzes 400 um den Betrag der Überlappung des modifizierten Segments 402 und des Segmentes 403 (das heißt, Überlappung 416 in dem modifizierten Segment 402 oder, äquivalent, Überlappung 417 in dem Segment 403) weiter reduziert. Wie in der fünften Reihe von Fig. 4B gezeigt, werden die gemischten Daten 418 mit den nicht-überlappten Daten 415 von dem Segment 403 kombiniert, um ein modifiziertes Segment 403 zu erzeugen.
Wie in der zweiten Reihe von Fig. 4C gezeigt, beginnt die Überlappung der Segmente 403 und 404 des Audiodatensatzes 400 mit der Selektion des modifizierten Segmentes 403 als das erste Segment und des Segmentes 404 als das zweite Segment (dies ist auch in der fünften Reihe von Fig. 4B gezeigt). Wieder werden die Schritte 304 bis 316 durchgeführt, um das Ende des modifizierten Segmentes 403 mit dem Anfang des Segmentes 404 zu mischen. In der dritten Reihe von Fig. 4C ist die beste Überlappung (bezeichnet mit Ziffer 423 in dem modifizierten Segment 403 und mit der Ziffer 424 in dem Segment 404) des modifizierten Segmentes 403 und des Segmentes 404 gezeigt. Für die beste Überlappung enthält das modifizierte Segment 403 nicht-überlappte Daten 419 und erste Segmentüberlappungsdaten 420, während das Segment 404 nicht-überlappte Daten 422 und zweite Segmentüberlappungsdaten 421 enthält. Die nicht-überlappten Daten 419 des modifizierten Segmentes 403 werden mit den zuvor gespeicherten nicht-überlappten Daten 405 von denn ersten Segment 401 und den nicht-überlappten Daten 412 von dem modifizierten Segment 402 gespeichert, wie in der vierten Reihe von Fig. 4C dargestellt. (Es möge beachtet werden, dass auch hier die nicht-überlappten Daten 419 des modifizierten Segmentes 403 die gemischten Daten 418 enthalten.) Die ersten Segmentüberlappungsdaten 420 werden mit den zweiten Segmentüberlappungsdaten 421 gemischt, um die gemischten Daten 425 zu erzeugen, wodurch die Größe des Audiodatensatzes 400 um den Betrag der Überlappung des modifizierten Segmentes 403 und des Segmentes 404 (das heißt, Überlappung 423 in dem modifizierten Segment 403 oder, äquivalent, Überlappung 424 in dem Segment 404) weiter reduziert wird.
Es wird nun erneut auf die Fig. 3A und 3B Bezug genommen, gemäß welchen in Schritt 314 eine Bestimmung durchgeführt wird, dahingehend, ob das zweite Segment der beiden überlappten Segmente das letzte Segment in dem Audiodatensatz ist. Wenn ja, dann werden in Schritt 317 die von den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten erzeugten gemischten Daten zusammen mit den nicht-überlappten Daten von dem zweiten Segment gespeichert. Dies ist in der fünften Reihe von Fig. 4C gezeigt: die gemischten Daten 425 und die nicht-überlappten Daten 422 werden mit den nicht-überlappten Daten 405, 412 und 419 gespeichert, um den modifizierten Audiodatensatz 400 zu bilden. Der modifizierte Audiodatensatz 400 ist um den kumulativen Betrag der besten Überlappungen, wie im Vorstehenden bestimmt, kürzer als der originale Audiodatensatz 400.
In der obigen Beschreibung des Verfahrens 300 wird gesagt, dass die Daten des modifizierten Audiodatensatzes 400 "gespeichert" werden, wenn diese Daten identifiziert werden. In diesem Zusammenhang muss der Ausdruck "gespeichert" nicht unbedingt permanentes Speichern in einer nichtflüchtigen Datenspeichereinrichtung bedeuten, bei der es z. B. um einen Plattenspeicher handeln kann, vielmehr kann der Ausdruck auch nur bedeuten, dass die Daten vorübergehend gespeichert werden (z. B. in einem Direktzugriffsspeicher), bevor sie zur Generierung einer Wiedergabe verwendet werden. Allgemein können, sobald ein korrespondierender Videoframe des modifizierten Videodatensatzes als Begleitung eines Audiosegmentes des modifizierten Audiodatensatzes bestimmt wurde, wie im nachfolgenden beschrieben, dieses Audiosegment und dieser Videoframe den geeigneten Wiedergabeeinrichtungen zur Generierung einer Wiedergabe dargeboten werden. Dies ist so, weil die Bestimmung der "gespeicherten" Daten des modifizierten Audio- und Videodatensatzes nicht durch Daten von dem originalen Audio- und Videodatensatz beeinflusst wird, die relativ weit in der Zukunft liegen. Weiter: weil die Berechnungen zum Bestimmen modifizierter Audio- und Videodaten kurz vor dem Generieren einer Wiedergabe von diesen Daten erfolgen kann, können die Berechnungen auf Basis einer erst vor sehr kurzer Zeit bestimmten (z. B. von einem Benutzer in Echtzeit bestimmten) Zielwiedergaberate durchgeführt werden. Ferner kann die für das Verfahren 300 erforderliche Menge an Berechnungen für typische Mengen an Audio- und Videodaten (siehe die im Vorstehenden erörterten beispielhaften Zahlen) mit Hilfe derzeitiger Verarbeitungseinrichtungen ausreichend schnell durchgeführt werden, um die Generierung einer Echtzeitwiedergabe von den modifizierten Audio- und Videodaten zu ermöglichen. Aus dem Vorstehenden wird somit erkennbar, dass die Erfindung es ermöglichen kann, die apparente Wiedergaberate einer audiovisuellen Wiedergabe in Echtzeit zu variieren.
Im Vorstehenden wurde ein bestimmtes Verfahren zum Modifizieren eines Satzes von Audiodaten zum Variieren der apparenten Wiedergaberate einer Audiowiedergabe beschrieben. Es versteht sich, dass allgemein auch andere Verfahren für ein derartiges Modifizieren eines Audiodatensatzes für die Erfindung Verwendung finden können. So können z. B. auch Verfahren auf Basis schneller Fourier-Transformationen (FFT) oder Analyse-/Synthese-Systeme verwendet werden. Eine Erörterung solcher anderer Methoden ist in einem Paper mit dem Titel "Non-parametric techniques for pitch-scale and time scale modification of speech" von E. Moulines und J. Laroche, veröffentlicht in Speech Communication, Volume 16, pp. 175-205, 1995, enthalten.
Wie im Vorstehenden erwähnt, mag es sein, dass das Verfahren 300 keine exakt an die Zielwiedergaberate angepasste apparente Wiedergaberate erzeugt, insbesondere über kurze Wiedergabezeitdauern. Das gleiche gilt möglicherweise für andere Methoden, welche in Verbindung mit der Erfindung verwendet können, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Typisch wird eine Abweichung der tatsächlichen apparenten Wiedergaberate von der Zielwiedergaberate über eine ausreichend lange Zeitspanne gesehen verschwinden oder wirkungslos werden. Wenn z. B. das Verfahren 300 zur Erzeugung eines modifizierten Audiodatensatzes verwendet wird, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren, wird die tatsächliche apparente Wiedergaberate typisch eine enge Annäherung an die Zielwiedergaberate zeigen für Perioden von einer halben Sekunde oder mehr, aber möglicherweise erhebliche Abweichungen liefern für Perioden von 30 Millisekunden oder dergleichen. Derartige kurzeitige Schwankungen sind für einen Benutzer typisch nicht wahrnehmbar. Daher kommt im Allgemeinen einem solchen "Tracking"-Fehler keine wesentliche Bedeutung zu.
Falls gewünscht, kann die nach einem Verfahren in Einklang mit der Erfindung erzeugte apparente Wiedegaberate aber auch überwacht werden, wobei, wenn die apparente Wiedergaberate von der Zielwiedergaberate um mehr als einen vorbestimmten Betrag abweicht, die Zielwiedergaberate geeignet modifiziert werden kann, um die Wahrscheinlichkeit, dass die erzeugte apparente Wiedergaberate der spezifizierten Zielwiedergaberate enger angenähert ist, zu erhöhen. Wenn z. B. die nach einem Verfahren in Einklang mit der Erfindung erzeugte apparente Wiedergaberate kleiner ist die spezifizierte Zielwiedergaberate, kann die Zielwiedergaberate erhöht werden. Obschon die Größe der nachfolgend erzeugten apparenten Wiedergaberate gleich bleiben (oder sogar zurückgehen) kann, ist es wahrscheinlicher, dass die apparente Wiedergaberate anzusteigen beginnt. Die Zielwiedergaberate kann um einen beliebigen gewünschten Betrag modifiziert werden. Eine relativ große Modifikation der Zielwiedergaberate wird typisch die apparente Wiedergaberate relativ rasch mit der spezifizierten Zielwiedergaberate in Einklang bringen. Mit einer relativ kleinen Modifikation jedoch wird die apparente Wiedergaberate wahrscheinlich glatter angepasst als mit einer relativ großen Anpassung, wodurch die Anpassung für einen Beobachter der Wiedergabe transparenter wird. Die Modifikation der Zielwiedergaberate kann durchgeführt werden für eine Zeitdauer gemäß einem beliebigen geeigneten Kriterium, z. B. für eine spezifizierte Zeitdauer, bis die Abweichung der apparenten Wiedergaberate von der anfänglich spezifizierten Zielwiedergaberate kleiner ist als der vorbestimmte Betrag, bis die Abweichung der apparenten Wiedergaberate von der anfänglich spezifizierten Zielwiedergaberate kleiner ist als ein zweiter vorbestimmter Betrag, welcher kleiner ist als der erste vorbestimmte Betrag, oder bis die apparente Wiedergaberate gleich der anfänglich spezifizierten Zielwiedergaberate ist. Ferner kann die Zeitdauer, für die die Zielwiedergaberate modifiziert wird, von der Größe der auf die Zielwiedergaberate angewendeten Modifikation abhängen. Es können zahlreiche Wege beschritten werden zum Modifizieren der Zielwiedergaberate, um die Abweichung der apparenten Wiedergaberate von einer anfänglich spezifizierten Zielwiedergaberate zu minimieren oder zu eliminieren, wie für den Fachmann erkennbar, wobei diese Wege in den Bereich dieses Aspektes der Erfindung fallen.
Wie im Vorstehenden unter Bezugnahme auf Schritt 104 des Verfahrens 100 (Fig. 1) angegeben, kann eine beliebige geeignete Methode zum Erzeugen eines modifizierten Videodatensatzes von einem modifizierten Audiodatensatz verwendet werden. So kann z. B., wie ebenfalls im Vorstehenden angemerkt, der Audiodatensatz in Audiosegmente unterteilt werden, welche die gleiche Dauer aufweisen wie ein Videoframe des Videodatensatzes. In Schritt 101 kann eine Korrespondenz zwischen Audiosegmenten und Videoframes etabliert werden, wobei z. B. jedes Audiosegment zu einem einzigen bestimmten Videoframe korrespondiert. Eine Korrespondenz zwischen den Audiodaten des modifizierten Audiodatensatzes und der Videoframes des originalen Videodatensatzes kann etabliert werden unter Verwendung der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz und der Korrespondenz zwischen dem originalen und dem modifizierten Audiodatensatz. In Schritt 104 können die Audiodaten des modifizierten Audiodatensatzes zu Audiosegmenten gruppiert werden, welche die gleiche Dauer (das heißt Menge an Audiodaten) aufweisen, wie sie in den Audiosegmenten des originalen Audiodatensatzes gefunden wird. Basierend auf der Korrespondenz zwischen den Audiodaten des modifizierten Audiodatensatzes und den Videoframes des originalen Videodatensatzes korrespondieren demnach die Audiosegmente des modifizierte Audiodatensatzes - in Abhängigkeit von der Zielwiedergaberate - zu einem oder mehreren partiellen und oder kompletten Videoframes von dem originalen Videodatensatz. In Schritt 104 kann bzw. können für jedes Audiosegment in dem modifizierten Audiodatensatz der Eine oder die mehreren partiellen oder kompletten Videoframes von dem originalen Videodatensatz, welcher zu diesem Audiosegment korrespondiert bzw. korrespondieren, modifiziert werden, um einen einzelnen modifizierten Videoframe zu erzeugen, der zu diesem Audiosegment korrespondiert; die Sammlung dieser modifizierten Videoframes ist der modifizierte Videodatensatz.
Die modifizierten Videoframes können in beliebiger geeigneter Weise erzeugt werden. Beispielsweise können Videoframes aus jeder der Gruppen von einem oder mehreren partiellen oder kompletten Videoframes, welche zu bestimmten Audiosegmenten des modifizierten Audiodatensatzes korrespondieren, eliminiert werden (Beschleunigung der Wiedergabe) bzw. diesen hinzugefügt werden (Verlangsamung der Wiedergabe). Oder, wenn die Größe des originalen Videodatensatzes reduziert werden soll, können Videoframes, welche zu einem Audiosegment des modifizierten Audiodatensatzes korrespondieren, gemischt werden, um einen einzelnen gemischten Videoframe zu erzeugen, der als Teil des modifizierten Videodatensatzes beibehalten wird. In ähnlicher Weise kann bzw. können in dem Fall, dass die Größe des originalen Videodatensatzes erhöht werden soll, ein oder mehrere Videoframes auf Basis von existierenden Videoframes synthetisiert und zu dem modifizierten Videodatensatz hinzugefügt werden. Eine Hybridversion dieser Ansätze (Hinzufügen oder Eliminieren von Videoframes und Mischen von Videoframes) kann ebenfalls Verwendung finden.
Wenn Videoframes aus dem originalen Videodatensatz eliminiert oder diesem hinzugefügt werden sollen, kann es nützlich sein, die Korrespondenz zwischen Videoframes des originalen Videodatensatzes und Segmenten des modifizierten Audiodatensatzes zu modifizieren, so dass nur ganze Videoframes mit jedem Audiosegment assoziiert sind. Für eine Beschleunigung der Wiedergabe bedeut dies allgemein, dass ein oder mehrere Videoframes mit jedem Audiosegment des modifizierten Audiodatensatzes assoziiert ist bzw. sind, während für eine Verlangsamung der Wiedergabe dies allgemein bedeutet, dass null oder ein Videoframe mit jedem Audiosegment des modifizierten Audiodatensatzes assoziiert ist. Eine Implementierung dieses Ansatzes zur Beschleunigung der Wiedergabe ist im Vorstehenden in dem Beispiel dargestellt, welches der Erörterung der Methode 100 von Fig. 1 folgt. Das Eliminieren oder Hinzufügen von Videoframes kann auf Basis eines beliebigen gewünschten Kriteriums durchgeführt werden. Wenn beispielsweise Videoframes aus dem originalen Videodatensatz eliminiert werden, kann konsistent der erste oder der letzte Videoframe in jeder Gruppe als derjenige selektiert werden, der in dem modifizierten Videodatensatz beibehalten werden soll. Wenn Videoframes zu dem originalen Videodatensatz hinzugefügt werden, können Audiosegmente des modifizierten Audiodatensatzes, mit denen kein Videoframe assoziiert ist, mit dem Videoframe assoziiert werden, der mit dem unmittelbar vorhergehenden oder dem unmittelbar nachfolgenden Audiosegment assoziiert ist. Unabhängig davon, welcher Ansatz verwendet wird, wird die Selektion eines Videoframes aus jeder Gruppe von Videoframes bevorzugt konsistent gehandhabt, um die Qualität der audiovisuellen Wiedergabe, welche von den modifizierten Audio- und Videodatensätzen erzeugt wird, zu verbessern.
Das Mischen oder Synthetisieren von Videoframes kann ebenfalls in beliebiger geeigneter Weise durchgeführt werden. Wenn z. B. mehr als ein Videoframe (insgesamt) mit einem Segment von dem modifizierten Audiodatensatz assoziiert ist, kann ein gemischter Videoframe erzeugt werden durch Gewichtung des Beitrags jedes Videoframes entsprechend dem Anteil der Dauer dieses Videoframes, der mit dem jeweiligen Audiosegment assoziiert ist. Wenn z. B. 3/4 der Dauer eines ersten Videoframes und 1/2 der Dauer eines zweiten Videoframes mit einem bestimmten Segment assoziiert sind, dann können der erste und der zweite Videoframe so kombiniert werden, dass der Inhalt des ersten Videoframes 60%, das heißt 0,75/(0,75 + 0,5) des Inhalts des gemischten Frames beiträgt, und dass der Inhalt des zweiten Videoframes 40%, das heißt 0,5/(0,75 + 0,5) des Inhalts des gemischten Frames beträgt. Oder, wenn die Korrespondenz zwischen Videoframes des originalen Videodatensatzes und Segmenten des modifizierten Audiodatensatzes so modifiziert wurde, dass nur ganze Videoframes mit jedem Audiosegment assoziiert sind, dann können die Videoframes, die zu dem Audiosegment korrespondieren, gemischt werden, um einen gemischten Videoframe zu erzeugen, der dann Teil des modifizierten Videodatensatzes wird. Videoframes können analog zu den oben geschriebenen Verfahren des Mischens synthetisiert werden.
Es ist möglich, das Verfahren 300 (Fig. 3) zu modifizieren, so dass ferner ein modifizierter Videodatensatz auf Basis des mittels des oben beschriebenen Verfahrens erzeugten modifizierten Audiodatensatzes erzeugt wird. Wenn die nicht-überlappten Daten jedes Audiosegmentes des originalen Audiodatensatzes in Schritt 312 gespeichert werden (das heißt, wenn der modifizierte Audiodatensatz erzeugt wird), können diese Daten als neu für den modifizierten Audiodatensatz markiert werden. Wenn die als neu markierte Datenmenge die Länge eines Audiosegmentes überschreitet, wird eine Menge von Daten (die zeitlich früheren) gleich der Länge eines Audiosegmentes als alt markiert (diese als alt markierten Audiodaten repräsentieren ein Audiosegment in dem modifizierten Audiodatensatz). Der Rest der Audiodaten bleibt als neu markiert und wird im Folgenden mit anderen Audiodaten assoziiert, welche in Schritt 312 gespeichert werden. Sodann wird ein Videoframe von dem originalen Videodatensatz selektiert zwecks Korrespondenz mit dem neu bestimmten Audiosegment des modifizierten Audiodatensatzes. Bei einer Ausführungform, wenn die Zielwiedergaberate größer ist als Eins (Beschleunigung der Wiedergabe), kann derjenige Videoframe selektiert werden, welcher mit dem zweiten Segment des jüngst überlappten Paares von Segmenten assoziiert ist. Bei einer arideren Ausführungsform, wenn die Zielwiedergaberate kleiner ist als Eins (Verlangsamung der Wiedergabe), kann derjenige Videoframe selektiert werden, der mit dem ersten Segment des jüngst überlappten Paares von Segmenten assoziiert ist. Es können auch andere Wege beschritten werden, um den mit einem Segment des modifizierten Audiodatensatzes zu assoziierenden Videoframe zu selektieren. Allgemein ist das verwendete Verfahren von dem Wunsch diktiert, die bestmögliche Synchronisation zwischen der Audio- und Videowiedergabe nach Variation der apparenten Wiedergaberate zu erzielen.
Es versteht sich, dass die Erfindung sich auch auf Verfahren zum Erzeugen eines modifizierten Videodatensatzes erstreckt, welche von den im Vorstehenden beschriebenen verschieden sind; die oben beschriebenen Verfahren stehen rein beispielhaft für die Möglichkeiten.
Es wurden verschiedene Ausführungsformen der Erfindung beschrieben. Die Beschreibungen sind rein beispielhaft und sollen die Erfindung nicht begrenzen. Für den Fachmann wird daher ohne weiteres erkennbar sein, dass gewisse Modifikationen auf die im Vorstehenden beschriebene Erfindung angewendet werden können, ohne den Bereich der Ansprüche, wie im Nachfolgenden dargelegt, zu verlassen.

Claims

1. Verfahren zur Verwendung mit einem audiovisuellen Wiedergabesystem (200), worin ein originaler Satz von Audiodaten und ein in Beziehung stehender originaler Satz von Videodaten zum Generieren einer audiovisuellen Wiedergabe bei einer normalen Wiedergaberate verwendet werden kann, wobei das Verfahren zum Variieren der apparenten Wiedergaberate der audiovisuellen Wiedergabe gegenüber der normalen Wiedergaberate befähigt, wobei das Verfahren die Schritte umfasst:

Definieren (101) einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;

Bestimmen (102) einer Zielwiedergaberate oder -raten für die audiovisuelle Wiedergabe;

Erzeugen (103) eines modifizierten Satzes von Audiodaten, basierend auf der oder den Zielwiedergaberate/n und einer Wertung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und

Erzeugen (104) eines modifizierten Satzes von Videodaten von dem originalen Satz von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;

wobei der Schritt des Erzeugens eines modifizierten Satzes von Audiodaten ferner die Schritte umfasst:

(i) Teilen (301) des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen;

(ii) Selektieren (302) eines ersten Segmentes;

(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite Segment dem ersten Segment temporär benachbart ist;

(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines Endbereichs des ersten Segmentes mit einem Endbereich des zweiten Segmentes, welches dem ersten Segment benachbart ist, wobei der Endbereich des ersten Segmentes erste Segmentüberlappungsdaten aufweist und der Endbereich des zweiten Segmentes zweite Segmentüberlappungsdaten aufweist;

(v) Identifizieren (312), als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, welche nicht Teil der ersten Segmentüberlappungsdaten sind;

(vi) Mischen (313) korrespondierender erster Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten; und

(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind, wobei:

in dem Fall, dass zusätzliche Segmente vorhanden sind, das Verfahren ferner die Schritte umfasst:

Kombinieren (315) der gemischten Überlappungsdaten mit den Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind;

Selektieren (316) der kombinierten Daten als ein neues erstes Segment; und

Selektieren (303) eines neuen zweiten Segmentes, welches dem neuen ersten Segment temporär benachbart ist und nicht zuvor als ein Segment selektiert worden ist;

Wiederholen der Schritte (i) bis (vii); und

in dem Fall, dass zusätzliche Segmente nicht vorhanden sind, das Verfahren ferner den Schritt des Identifizierens (317), als Teil des modifizierten Satzes von Audiodaten, der gemischten Daten und der Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind, umfasst.

2. Verfahren nach Anspruch 1, wobei der Schritt des Definierens einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten ferner die Schritte umfasst:

Teilen des originalen Satzes von Videodaten in eine Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede andere Untereinheit von Videodaten repräsentiert ist;

Teilen des originalen Satzes von Audiodaten in Eine Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist; und

Identifizieren korrespondierender Untereinheiten von Videodaten und Segmente von Audiodaten.

3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei wenigstens eine Zielwiedergaberate schneller ist als eine normale Wiedergaberate.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei wenigstens eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.

5. Verfahren nach einem der voranstehenden Ansprüche, wobei die Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.

6. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Bestimmens einer Zielwiedergaberate ferner den Schritt des Bestimmens des Wertes einer Nominalzielwiedergaberate umfasst, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird.

7. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Bestimmens einer Zielwiedergaberate ferner den Schritt des Wertens der Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes der Zielwiedergaberate umfasst.

8. Verfahren nach Anspruch 7, wobei der Schritt des Wertens ferner die Schritte umfasst:

Analysieren des originalen Satzes von Audiodaten; und

Berechnen der Zielwiedergaberate, basierend auf der Analyse des originalen Satzes von Audiodaten.

9. Verfahren nach Anspruch 8, wobei:

der Schritt des Analysierens des originalen Satzes von Audiodaten ferner den Schritt des Bestimmens der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden, umfasst; und

der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen Teile der Audiodaten, umfasst.

10. Verfahren nach Anspruch 9, wobei der Schritt des Bestimmens von Betonung ferner den Schritt des Berechnens von Energietermen für die gesprochenen Teile der Audiodaten umfasst.

11. Verfahren nach Anspruch 8, wobei:

der Schritt des Analysierens des originalen Satzes von Audiodaten ferner den Schritt des Bestimmens der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden, umfasst; und

der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten, umfasst.

12. Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens von Sprechraten ferner den Schritt des Bestimmens spektraler Änderungen in den gesprochenen Teilen der Audiodaten umfasst.

13. Verfahren nach einem der Ansprüche 8, 10 oder 12, wobei:

der Schritt des Analysierens des originalen Satzes von Audiodaten ferner die Schritte umfasst:

Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden;

Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden; und

Kombinieren korrespondierender Betonungen und Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen Teile; und

der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen Teile der Audiodaten, umfasst.

14. Verfahren nach Anspruch 13, ferner umfassend den Schritt des Bestimmens des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei der Schritt des Berechnens ferner den Schritt des Kombinierens der Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate umfasst.

15. Verfahren nach Anspruch 7, wobei der Schritt des Wertens ferner den Schritt umfasst:

Analysieren des originalen Satzes von Videodaten; und

Berechnen der Zielwiedergaberate, basierend auf der Analyse der Videodaten.

16. Verfahren nach Anspruch 15, wobei:

der Schritt des Analysierens des originalen Satzes von Videodaten ferner das Bestimmen der relativen Änderungsrate der Videodaten entlang verschiedener Populations-basierter Dimensionen umfasst; und

der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der Populations-basierten Dimensionen, umfasst.

17. Verfahren nach Anspruch 15 oder Anspruch 16, wobei:

der Schritt des Analysierens des originalen Satzes von Videodaten ferner umfasst:

Bestimmen von Teilen eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, welche sich rasch ändern; und

Bestimmen der Frequenz, mit welcher derartige rasche Änderungen auftreten; und

der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen Änderungen in dem Videobild, umfasst.

18. Verfahren nach Anspruch 17, wobei der Schritt des Berechnens ferner das Etablieren einer Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem Videobild auftreten, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfasst.

19. Verfahren nach einem der Ansprüche 15 bis 18, wobei:

der Schritt des Analysierens des originalen Satzes von Videodaten ferner das Verfolgen der Bewegung von Objekten innerhalb eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, umfasst; und

der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem Videobild, umfasst.

20. Verfahren nach Anspruch 19, wobei der Schritt des Berechnens ferner das Etablieren einer Zielwiedergaberate für Zeitdauern, während derer neue Objekte in dem Videobild erscheinen, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfasst.

21. Verfahren nach einem der Ansprüche 7 bis 14, wobei der Schritt des Wertens ferner die Schritte umfasst:

Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;

Durchführen einer zweiten Analyse des originalen Satzes von Audiodaten; und

Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Audiodaten.

22. Verfahren nach einem der Ansprüche 7 oder 15 bis 20, wobei der Schritt des Wertens ferner die Schritte umfasst:

Durchführen einer ersten Analyse des originalen Satzes von Videodaten;

Durchführen einer zweiten Analyse des originalen Satzes von Videodaten;

Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Videodaten.

23. Verfahren nach einem der Ansprüche 7 bis 22, wobei der Schritt des Wertens ferner die Schritte umfasst:

Analysieren des originalen Satzes von Audiodaten; und

Analysieren des originalen Satzes von Videodaten; und

Berechnen der Zielwiedergaberate, basierend auf den Analysen der Audio- und Videodaten.

24. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Audiodaten ferner den Schritt des Analysierens des Inhalts der Audiodaten umfasst, wobei der modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt wird.

25. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner die Schritte umfasst:

Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz;

Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden;

Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes korrespondieren, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und

Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt.

26. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Eliminierens von Daten aus dem originalen Videodatensatz umfasst.

27. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Hinzufügens von Daten zu dem originalen Videodatensatz umfasst.

28. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Mischens von Daten von dem originalen Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten aufweist als der originale Videodatensatz, umfasst.

29. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Synthetisierens von Daten, basierend auf den Daten in dem originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten aufweist als der originale Videodatensatz, umfasst.

30. Verfahren nach einem der voranstehenden Ansprüche, ferner umfassend die Schritte:

Generieren einer Audiowiedergabe von dem modifizierten Satz von Audiodaten; und

Generieren einer Videowiedergabe von dem modifizierten Satz von Videodaten.

31. System, welches zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe gegenüber einer normalen Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generieren kann, befähigt, umfassend:

Mittel (201) zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;

Mittel (201) zum Bestimmen einer Zielwiedergaberate für eine audiovisuelle Wiedergabe;

Mittel (201) zum Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf einer Zielwiedergaberate und einer Wertung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und

Mittel (201) zum Erzeugen eines modifizierten Satzes von Videodaten von dem originalen Satz von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;

wobei die Mittel (201) zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Mittel umfassen zum:

(i) Teilen (301) des originalen Satzes vor Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen;

(ii) Selektieren (302) eines ersten Segmentes;

(v) Identifizieren (312), als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, weiche nicht Teil der ersten Segmentüberlappungsdaten sind;

(vi) Mischen (313) korrespondierender erster Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten;

(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind,

(viii) Durchführen - in dem Fall, dass zusätzliche Segmente vorhanden sind - der folgenden Funktionen:

Selektieren (316) der kombinierten Daten als ein neues erstes Segment;

Selektieren (303) eines neuen zweiten Segmentes, welches dem neuen ersten Segment temporär benachbart ist und nicht zuvor als ein Segment selektiert worden ist; und

Wiederholen der mit den Mitteln nach (i) bis (vii) durchgeführten Funktionen; und

(ix) Durchführen - in dem Fall, dass zusätzliche Segmente nicht vorhanden sind - der Funktion des Identifizierens (317), als Teil des modifizierten Satzes von Audiodaten, der gemischten Daten und der Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind.

32. System nach Anspruch 31, wobei die Mittel zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten ferner umfassen:

Mittel zum Teilen des originalen Satzes von Videodaten in eine Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede andere Untereinheit von Videodaten repräsentiert ist;

Mittel zum Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist; und

Mittel zum Identifizieren korrespondierender Untereinheiten von Videodaten und Segmente von Audiodaten.

33. System nach Anspruch 31 oder Anspruch 32, wobei wenigstens eine Zielwiedergaberate schneller ist als eine normale Wiedergaberate.

34. System nach einem der Ansprüche 31, 32 oder 33, wobei wenigstens eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.

35. System nach einem der Ansprüche 31 bis 34, wobei die Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.

36. System nach einem der Ansprüche 31 bis 35, ferner umfassend:

Mittel (203) zum Generieren einer Audiowiedergabe von dem modifizierten Satz von Audiodaten; und

Mittel (203) zum Generieren einer Videowiedergabe von dem modifizierten Satz von Videodaten.

37. System nach einem der Ansprüche 31 bis 36, wobei die Mittel zum Bestimmen einer Zielwiedergaberate ferner Mittel zum Werten der Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes der Zielwiedergaberate umfassen.

38. System nach Anspruch 37, wobei die Mittel zum Werten ferner umfassen:

Mittel zum Analysieren des originalen Satzes von Audiodaten; und

Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Analyse des originalen Satzes von Audiodaten.

39. System nach Anspruch 38, wobei:

die Mittel zum Analysieren des originalen Satzes von Audiodaten ferner Mittel zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und

die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen Teile der Audiodaten, umfassen.

40. System nach Anspruch 39, wobei die Mittel zum Bestimmen von Betonung ferner Mittel zum Berechnen von Energietermen für die gesprochenen Teile der Audiodaten umfassen.

41. System nach Anspruch 38, wobei:

die Mittei zum Analysieren des originalen Satzes von Audiodaten ferner Mittel zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und

die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten, umfassen.

42. System nach Anspruch 41, wobei die Mittel zum Bestimmen von Sprechraten ferner Mittel zum Bestimmen spektraler Änderungen in den gesprochenen Teilen der Audiodaten umfassen.

43. System nach einem der Ansprüche 38, 40 oder 42, wobei:

die Mittel zum Analysieren des originalen Satzes von Audiodaten ferner umfassen:

Mittel zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden;

Mittel zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden; und

Mittel zum Kombinieren korrespondierender Betonungen und Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen Teile; und

die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen Teile der Audiodaten, umfassen.

44. System nach Anspruch 43, ferner umfassend Mittel (201, 204) zum Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei die Mittel zum Berechnen ferner Mittel zum Kombinieren der Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate umfassen.

45. System nach Anspruch 37, wobei die Mittel zum Werten ferner umfassen:

Mittel zum Analysieren des originalen Satzes von Videodaten; und

Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Analyse der Videodaten.

46. System nach Anspruch 45, wobei:

die Mittel zum Analysieren des originalen Satzes von Videodaten ferner Mittel zum Bestimmen der relativen Änderungsrate der Videodaten entlang verschiedener Populations-basierter Dimensionen umfassen; und

die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der Populations-basierten Dimensionen, umfassen.

47. System nach Anspruch 45 oder Anspruch 46, wobei:

die Mittel zum Analysieren des originalen Satzes von Videodaten ferner umfassen:

Mittel zum Bestimmen von Teilen eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, welche sich rasch ändern; und

Mittel zum Bestimmen der Frequenz, mit welcher derartige rasche Änderungen auftreten; und

die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen Änderungen in dem Videobild umfassen.

48. System nach Anspruch 47, wobei die Mittel zum Berechnen ferner Mittei zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem Videobild auftreten, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.

49. System nach einem der Ansprüche 45 bis 48, wobei:

die Mittel zum Analysieren des originalen Satzes von Videodaten ferner Mittel zum Verfolgen der Bewegung von Objekten innerhalb eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, umfassen; und

die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem Videobild, umfassen.

50. System nach Anspruch 49, wobei die Mittel zum Berechnen ferner Mittel zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer neue Objekte in dem Videobild erscheinen, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.

51. System nach einem der Ansprüche 37 bis 44, wobei die Mittel zum Werten ferner umfassen:

Mittel zum Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;

Mittel zum Durchführen einer zweiten Analyse des originalen Satzes von Audiodaten; und

Mittel zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Audiodaten.

52. System nach einem der Ansprüche 37 oder 45 bis 50, wobei die Mittel zum Werten ferner umfassen:

Mittel zum Durchführen einer ersten Analyse des originalen Satzes von Videodaten;

Mittel zum Durchführen einer zweiten Analyse des originalen Satzes von Videodaten;

Mittel zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Videodaten.

53. System nach einem der Ansprüche 37 bis 52, wobei die Mittel zum Werten ferner umfassen:

Mittel zum Analysieren des originalen Satzes von Audiodaten;

Mittel zum Analysieren des originalen Satzes von Videodaten; und

Mittel zum Berechnen der Zielwiedergaberate, basierend auf den Analysen der Audio- und Videodaten.

54. System nach einem der Ansprüche 31 bis 53, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Mittel zum Analysieren des Inhalts der Audiodaten umfassen, wobei der modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt wird.

55. System nach einem der Ansprüche 31 bis 54, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner umfassen:

Mittel zum Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz;

Mittel zum Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden;

Mittel zum Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes korrespondieren, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und

Mittel zum Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt.

56. System nach einem der Ansprüche 31 bis 55, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Eliminieren von Daten aus dem originalen Videodatensatz umfassen.

57. System nach einem der Ansprüche 31 bis 56, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Hinzufügen von Daten zu dem originalen Videodatensatz umfassen.

58. System nach einem der Ansprüche 31 bis 57, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Mischen von Daten von dem originalen Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten aufweist als der originale Videodatensatz, umfassen.

59. System nach einem der Ansprüche 31 bis 58, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten aufweist als der originale Videodatensatz, umfassen.

60. System nach einem der Ansprüche 31 bis 59, ferner umfassend:

Mittel (204), welche einen Benutzer zum Spezifizieren einer Nominalzielwiedergaberate befähigen; und

Mittel (201 oder 204) zum Bestimmen des Wertes der Nominalzielwiedergaberate.

61. Computerlesbares Medium, codiert mit einem oder mehreren Computerprogrammen, welche zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe gegenüber einer normalen Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generieren kann, befähigen, umfassend:

Instruktionen (101) zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;

Instruktionen (102) zum Bestimmen einer Zielwiedergaberate für die audiovisuelle Wiedergabe;

Instruktionen (103) zum Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf der Zielwiedergaberate und einer Wertung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und

Instruktionen (104) zum Erzeugen eines modifizierten Satzes von Videodaten von dem originalen Satz von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;

wobei die Instruktionen (102) zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Instruktionen umfassen zum:

(ii) Selektieren (302) eines ersten Segmentes;

Selektieren (316) der kombinierten Daten als ein neues erstes Segment;

Wiederholen der Instruktionen (i) bis (vii); und

62. Computerlesbares Medium nach Anspruch 61, wobei die Instruktionen zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten ferner umfassen:

Instruktionen zum Teilen des originalen Satzes von Videodaten in eine Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede andere Untereinheit von Videodaten repräsentiert ist;

Instruktionen zum Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist; und

Instruktionen zum Identifizieren korrespondierender Untereinheiten von Videodaten und Segmente von Audiodaten.

63. Computerlesbares Medium nach Anspruch 61 oder Anspruch 62, wobei wenigstens eine Zielwiedergaberate schneller ist als eine normale Wiedergaberate.

64. Computerlesbares Medium nach einem der Ansprüche 61 bis 63, wobei wenigstens eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.

65. Computerlesbares Medium nach einem der Ansprüche 61 bis 64, wobei die Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.

66. Computerlesbares Medium nach einem der Ansprüche 61 bis 65, wobei die Instruktionen zum Bestimmen einer Zielwiedergaberate ferner Instruktionen zum Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, umfassen.

67. Computerlesbares Medium nach einem der Ansprüche 61 bis 66, wobei die Instruktionen zum Bestimmen einer Zielwiedergaberate ferner Instruktionen zum Werten der Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes der Zielwiedergaberate umfassen.

68. Computerlesbares Medium nach Anspruch 67, wobei die Instruktionen zum Werten ferner umfassen:

Instruktionen zum Analysieren des originalen Satzes von Audiodaten; und

Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der Analyse des originalen Satzes von Audiodaten.

69. Computerlesbares Medium nach Anspruch 68, wobei:

die Instruktionen zum Analysieren des originalen Satzes von Audiodaten ferner Instruktionen zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und

die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen Teile der Audiodaten, umfassen.

70. Computerlesbares Medium nach Anspruch 69, wobei die Instruktionen zum Bestimmen von Betonung ferner Instruktionen zum Berechnen von Energietermen für die gesprochenen Teile der Audiodaten umfassen.

71. Computerlesbares Medium nach Anspruch 68, wobei:

die Instruktionen zum Analysieren des originalen Satzes von Audiodaten ferner Instruktionen zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und

die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten, umfassen.

72. Computerlesbares Medium nach Anspruch 71, wobei die Instruktionen zum Bestimmen von Sprechraten ferner Instruktionen zum Bestimmen spektraler Änderungen in den gesprochenen Teilen der Audiodaten umfassen.

73. Computerlesbares Medium nach einem der Ansprüche 68, 70 oder 72, wobei:

die Instruktionen zum Analysieren des originalen Satzes von Audiodaten ferner umfassen:

Instruktionen zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden;

Instruktionen zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden; und

Instruktionen zum Kombinieren korrespondierender Betonungen und Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen Teile; und

die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen Teile der Audiodaten, umfassen.

74. Computerlesbares Medium nach Anspruch 73, ferner umfassend Instruktionen zum Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei die Instruktionen zum Berechnen ferner Instruktionen zum Kombinieren der Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate umfassen.

75. Computerlesbares Medium nach Anspruch 67, wobei die Instruktionen zum Werten ferner umfassen:

Instruktionen zum Analysieren des originalen Satzes von Videodaten; und

Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der Analyse der Videodaten.

76. Computerlesbares Medium nach Anspruch 75, wobei:

die Instruktionen zum Analysieren des originalen Satzes von Videodaten ferner Instruktionen zum Bestimmen der relativen Änderungsrate der Videodaten entlang verschiedener Populations-basierter Dimensionen umfassen; und

die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der Populations-basierten Dimensionen, umfassen.

77. Computerlesbares Medium nach Anspruch 75 oder Anspruch 76, wobei:

die Instruktionen zum Analysieren des originalen Satzes von Videodaten ferner umfassen:

Instruktionen zum Bestimmen von Teilen eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, welche sich rasch ändern; und

Instruktionen zum Bestimmen der Frequenz, mit welcher derartige rasche Änderungen auftreten; und

die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen Änderungen in dem Videobild, umfassen.

78. Computerlesbares Medium nach Anspruch 77, wobei die Instruktionen zum Berechnen ferner Instruktionen zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem Videobild auftreten, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.

79. Computerlesbares Medium nach einem der Ansprüche 75 bis 78, wobei:

die Instruktionen zum Analysieren des originalen Satzes von Videodaten ferner Instruktionen zum Verfolgen der Bewegung von Objekten innerhalb eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, umfassen; und

die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem Videobild, umfassen.

80. Computerlesbares Medium nach Anspruch 79, wobei die Instruktionen zum Berechnen ferner Instruktionen zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer neue Objekte in dem Videobild erscheinen, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.

81. Computerlesbares Medium nach einem der Ansprüche 67 bis 74, wobei die Instruktionen zum Werten ferner umfassen:

Instruktionen zum Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;

Instruktionen zum Durchführen einer zweiten Analyse des originalen Satzes von Audiodaten; und

Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Audiodaten.

82. Computerlesbares Medium nach einem der Ansprüche 67 oder 75 bis 80, wobei die Instruktionen zum Werten ferner umfassen:

Instruktionen zum Durchführen einer ersten Analyse des originaler Satzes von Videodaten;

Instruktionen zum Durchführen einer zweiten Analyse des originalen Satzes von Videodaten;

Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Videodaten.

83. Computerlesbares Medium nach einem der Ansprüche 67 bis 82, wobei die Instruktionen zum Werten ferner umfassen:

Instruktionen zum Analysieren des originalen Satzes von Audiodaten; und

Instruktionen zum Analysieren des originalen Satzes von Videodaten; und

Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den Analysen der Audio- und Videodaten.

84. Computerlesbares Medium nach einem der Ansprüche 61 bis 83, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Instruktionen zum Analysieren des Inhalts der Audiodaten umfassen, wobei der modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt wird.

85. Computerlesbares Medium nach einem der Ansprüche 61 bis 84, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner umfassen:

Instruktionen zum Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz;

Instruktionen zum Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden;

Instruktionen zum Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes korrespondieren, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und

Instruktionen zum Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt.

86. Computerlesbares Medium nach einem der Ansprüche 61 bis 85, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Eliminieren von Daten aus dem originalen Videodatensatz umfassen.

87. Computerlesbares Medium nach einem der Ansprüche 61 bis 86, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Hinzufügen von Daten zu dem originalen Videodatensatz umfassen.

88. Computerlesbares Medium nach einem der Ansprüche 61 bis 87, wobei Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Mischen von Daten von dem originalen Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten aufweist als der originale Videodatensatz, umfassen.

89. Computerlesbares Medium nach einem der Ansprüche 61 bis 88, wobei Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten aufweist als der originale Videodatensatz, umfassen.

90. Computerlesbares Medium nach einem der Ansprüche 61 bis 89, ferner umfassend:

Instruktionen zum Generieren einer Audiowiedergabe von dem modifizierten Satz von Audiodaten; und

Instruktionen zum Generieren einer Videowiedergabe von dem modifizierten Satz von Videodaten.