[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE69719825T2 - Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit - Google Patents

Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit

Info

Publication number
DE69719825T2
DE69719825T2 DE69719825T DE69719825T DE69719825T2 DE 69719825 T2 DE69719825 T2 DE 69719825T2 DE 69719825 T DE69719825 T DE 69719825T DE 69719825 T DE69719825 T DE 69719825T DE 69719825 T2 DE69719825 T2 DE 69719825T2
Authority
DE
Germany
Prior art keywords
data
audio
audio data
segment
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69719825T
Other languages
English (en)
Other versions
DE69719825D1 (de
Inventor
Subutai Ahmad
Neal A Bhadkamkar
Michele Covell
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Interval Research Corp
Original Assignee
Interval Research Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interval Research Corp filed Critical Interval Research Corp
Application granted granted Critical
Publication of DE69719825D1 publication Critical patent/DE69719825D1/de
Publication of DE69719825T2 publication Critical patent/DE69719825T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B33/00Constructional parts, details or accessories not provided for in the other groups of this subclass
    • G11B33/10Indicating arrangements; Warning arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Television Signal Processing For Recording (AREA)
  • Television Systems (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

    HINTERGRUND DER ERFINDUNG 1. Bereich der Erfindung
  • Die vorliegende Erfindung betrifft die Wiedergabe von Audio- und Videodaten und betrifft im Besonderen das Variieren der apparenten Wiedergaberate, bei welcher die Audio- und Videodaten wiedergegeben werden.
  • 2. Stand der Technik
  • Es ist wünschenswert, die apparente Wiedergaberate (d. h. die Änderungsrate der Wiedergabe, wie sie von einem Beobachter wahrgenommen wird, im Gegensatz zu der Rate, bei der die Daten verarbeitet werden, um die Wiedergabe zu generieren) einer von Audio-, Video- oder zueinander in Beziehung stehenden Audio- und Videodaten generierten Wiedergabe variieren zu können. So kann es beispielsweise wünschenswert sein, die apparente Wiedergaberate zu erhöhen, um einen raschen Überblick über den Inhalt der Daten zu gewinnen, oder weil man die Wiedergabe mit einer schnelleren Rate als der normalen - bei der man den Inhalt der Daten aber immer noch geeignet aufnehmen oder verarbeiten kann - anhören oder anschauen will.
  • Alternativ mag es wünschenswert sein, die apparente Wiedergaberate zu verlangsamen, so dass man die Wiedergabe sorgfältiger prüfen kann, oder weil man den Inhalt der Wiedergabe bei einer langsameren Rate besser verarbeiten kann.
  • Sowohl Audio- wie auch Videodaten lassen sich in analoger Form oder in digitaler Form darstellen. Das Verfahren, welches zum Manipulieren von Audio- und/oder Videodaten verwendet wird, um eine Variation in der apparenten Wiedergaberate einer von diesen Daten generierten Wiedergabe zu bewirken, hängt von der Form ab, in der die Daten dargestellt sind. Herkömmliche Vorrichtungen ermöglich es jedoch, in der einen Form vorliegende Daten leicht in die andere Farm umzuwandeln (d. h. analoge Daten in digitale Daten oder digitale Daten in analoge Daten), so dass man große Freiheit hat bei der Verwendung von Methoden zum Durchführen der Wiedergaberatenvariation, unabhängig von der Form, in der die Daten ursprünglich vorlagen.
  • Die apparente Wiedergaberate einer Audiowiedergabe oder einer Videowiedergabe kann durch Löschen spezifizierter Daten oder Hinzufügen spezifizierter Daten (d. h. Wiederholen gewisser Daten) aus bzw. zu einem korrespondierenden Satz von digitalen Audiodaten oder digitalen Videodaten, die den Inhalt der Wiedergabe repräsentieren, erhöht bzw. erniedrigt werden. Zur Realisierung einer derartigen Variation der apparenten Wiedergaberate einer Audiowiedergabe oder einer Videowiedergabe sind bereits vielfältige Techniken eingesetzt worden. So hat man zum Beispiel die apparente Wiedergaberate einer durch einen Satz von digitalen Audiodaten repräsentierten Audiowiedergabe variiert durch die Verwendung der sog, Synchronized Overlap Add (SOLA-)Methode (auf die im Folgende noch näher eingegangen wird), um einen originalen Satz von digitalen Audiodaten geeignet zu modifizieren, wobei ein modifizierter Satz von digitalen Audiodaten erzeugt wird, von dem die Audiowiedergabe generiert wird.
  • Häufig steht ein Satz von Audiodaten in Beziehung zu einem bestimmten Satz von Videodaten, und die beiden werden gemeinsam verwendet, um eine audiovisuelle Wiedergabe zu generieren, wie dies zum Beispiel bei der Darstellung von Fernsehsendungen, Filmen oder Computer-Multimedia-Daten geschieht. Wenn die apparente Wiedergaberate einer audiovisuellen Wiedergabe variiert wird, müssen die Audiowiedergabe und die Videowiedergabe synchronisiert werden, um die zeitliche Korrespondenz zwischen dem Inhalt der Audiowiedergabe und der Videowiedergabe zu wahren. (Alternativ kann die Audiowiedergabe vollständig eliminiert und so die Notwendigkeit der Aufrechterhaltung der Synchronisation umgangen werden; allerdings geht dann der Inhalt der Audiowiedergabe verloren.)
  • Bislang wurde die apparente Wiedergaberate einer audiovisuellen Wiedergabe variiert durch gleichmäßiges Löschen bzw. Wiederholen von Videodaten (z. B. Video-Frames) und gleichmäßiges, der Behandlung der Videodaten entsprechendes Löschen bzw. Wiederholen von Audiodaten (wenn z. B. die apparente Wiedergaberate der Videowiedergabe auf die doppelte Geschwindigkeit der originalen Wiedergaberate beschleunigt wird, indem zum Beispiel jeder zweite Video-Frame eliminiert wird, dann wird die Audiowiedergabe ebenfalls beschleunigt durch Eliminieren jedes zweiten Audio-Abtastwertes oder -Sample oder jedes zweiten Satzes einer bestimmten Anzahl von Audio-Samples). Zwar ist dies ein wirksamer Ansatz zum Wahren der Synchronisation; er kann aber zu einer Verzerrung der Audio- und Videowiedergaben führen, insbesondere bei relativ hohen oder niedrigen apparenten Wiedergaberaten. Im Besonderen kann die Audiowiedergabe in der Weise verzerrt werden, dass mit höher werdender apparenter Wiedergaberate menschliche Stimmen zunehmend einen "Micky-Maus"-Effekt zu manifestieren beginnen, und dass mit kleiner werdender apparenter Wiedergaberate menschliche Stimmen zunehmend so zu klingen beginnen, als befände der Sprecher sich in einem Zustand der Betäubung. Eine derartige Verzerrung der Wiedergabe ist eine Folge der Tatsache, dass die Eliminierung von Audiodaten aus dem originalen Satz von Audiodaten mechanisch geschieht, ohne Rücksicht auf den Inhalt der Audiodaten, welche eliminiert oder beibehalten werden.
  • Es wäre wünschenswert, einen besseren Weg zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe zur Verfügung zu haben. Im Besonderen ist ein Ansatz wünschenswert, der die zur Generierung der Wiedergabe verwendeten Audio- und/oder Videodaten auf "intelligente" Weise modifiziert, basierend auf einer Wertung oder Evaluierung des Inhaltes der Audiodaten und/oder Videodaten, weil ein derartiger Ansatz eine Verzerrung der Wiedergabe, insbesondere der Audiowiedergabe, reduzieren oder eliminieren kann. Gute Synchronisation zwischen der Audio- und Videowiedergabe sollte ebenfalls erhalten bleiben. Wünschenswert ist außerdem die Fähigkeit, die apparente Wiedergaberate über einen weiten Bereich von Größen zu variieren. Ferner kann die Variation der apparenten Wiedergaberate bevorzugt automatisch in der Weise durchgeführt werden, dass eine apparente Wiedergaberate erzeugt wird, welche einer spezifizierten Zielwiedergaberate oder -raten eng folgt.
  • Die EP-A-0 681 398 offenbart ein Verfahren und ein System, welches zum Variieren der Wiedergaberate einer audiovisuellen Wiedergabe befähigt. Die Wiedergaberate wird vom Benutzer direkt beeinflusst. Die Audiodaten werden expandiert oder komprimiert, so dass die Tonhöhe oder der Pitch der Audiodaten unverzerrt bleibt, während Audio-zu-Video-Synchronisation gewahrt bleibt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren gemäß Anspruch 1 bereitgestellt.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein System gemäß Anspruch 31 bereitgestellt.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein computerlesbares Medium gemäß Anspruch 34 bereitgestellt.
  • Die Erfindung ermöglicht es, die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Die Erfindung kann die Modifikation eines originalen Satzes von Audiodaten gemäß einer Zielwiedergaberate (bei der es sich um eine einzige Zielwiedergaberate oder um eine Sequenz von Zielwiedergaberaten handeln kann, wie im Folgenden erläutert) auf Basis einer Evaluierung des Inhaltes des Audiodatensatzes bewirken, dann die Modifizierung eines in Beziehung stehenden originalen Satzes von Videodaten entsprechend den an dem originalen Audiodatensatz vorgenommenen Modifizierungen bewirken, so dass die modifiziertem Audio- und Videodatensätze (und damit die von ihnen erzeugten Wiedergaben) synchronisiert sind. Wenn die so erzeugten modifizierten Audio- und Videodatensätze zur Generierung einer audiovisuellen Wiedergabe verwendet werden, weist die audiovisuelle Wiedergabe eine apparente Wiedergaberate (oder -raten) auf, die der Zielwiedergaberate (oder -raten) angenähert ist bzw. sind. Durch Sicherstellen, dass die modifizierten Audio- und Videodatensätze synchronisiert sind, wird die Dissonanz (z. B. eine zeitliche Unstimmigkeit zwischen gesprochenen Warten in der Audiowiedergabe und der entsprechenden Lippenbewegung des Sprechers in der Videowiedergabe), die sich andernfalls, wenn die Audio- und Videowiedergabe nicht synchronisiert sind, ergeben würde, minimiert oder eliminiert. Ferner ist das direkte Modifizieren des originalen Audiodatensatzes auf Basis einer Evaluierung des Inhaltes der Audiodaten zur Erzeugung einer Variation der apparenten Wiedergaberate der audiovisuellen Wiedergabe vorteilhaft, weil es damit möglich werden kann, Artefakte (z. B. Pitch-Verdoppelung, Knack- und Klickgeräusche) in der Audiowiedergabe zu minimieren oder zu eliminieren. Bevorzugt wird der originale Audiodatensatz in der Weise modifiziert, dass man einen modifizierten Audiodatensatz erhält, der zum Generieren einer Audiowiedergabe mit wenig oder gar keiner Verzerrung verwendet werden kann (z. B. mit Reduzierung oder Eliminierung der Tendenz, dass menschliche Stimmen einen "Micky-Maus"-Effekt zeigen, wenn die apparente Wiedergaberate über eine normale Wiedergaberate hinaus angehoben wird, oder wie betäubt klingen, wenn die apparente Wiedergaberate unter eine normale Wiedergaberate gesenkt wird). Allgemein kann erfindungsgemäß eine Zielwiedergaberate (und damit typisch die apparente Wiedergaberate) schneller oder langsamer sein als eine normale Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine audiovisuelle Wiedergabe von den originalen Sätzen von Audio- und Videodaten generiert. Im Besonderen, wie aus der nachfolgenden Beschreibung noch besser erkennbar werden wird, erlauben die zur Erzeugung des modifizierten Audiodatensatzes verwendeten Verfahren, einen weiten Bereich von apparenten Wiedergaberaten zu erzeugen, ohne dabei ein inakzeptables Maß an Verzerrung in die audiovisuelle Wiedergabe (insbesondere in die Audiowiedergabe) einzuführen.
  • Bei einer Ausführungsform der Erfindung kann die apparente Wiedergaberate einer audiovisuellen Wiedergabe von einer normalen Wiedergaberate, beider ein audiovisuelles Wiedergabesystem die audiovisuelle Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generiert, variiert werden durch: i) Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten; ii) Bestimmen einer Zielwiedergaberate (welche tatsächlich eine Sequenz von Zielwiedergaberaten sein kann) für die audiovisuelle Wiedergabe; iii) Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf der Zielwiedergaberate und einer Evaluierung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und iv) Erzeugen eines modifizierten Satzes von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten.
  • Eine Zielwiedergaberate kann "manuell" durch eine Benutzerinstruktion (d. h. durch Spezifizieren einer Nominalzielwiedergaberate durch den Benutzer) etabliert werden. Alternativ kann eine Zielwiedergaberate automatisch etabliert werden, ohne Benutzereingabe, basierend auf einer Analyse der audiovisuellen Daten. Eine Zielwiedergaberate kann aber auch durch automatisches Modifizieren einer benutzerspezifizierten Nominalzielwiedergabe auf Basis einer Analyse der audiovisuellen Daten etabliert werden. Wie im Vorstehenden erwähnt, kann in dem Falle, dass eine Nominalzielwiedergaberate von einem Benutzer spezifiziert wird, eine einzelne Zielwiedergaberate für die gesamte audiovisuelle Wiedergabe spezifiziert werden, oder es kann eine Reihe von Zielwiedergaberaten spezifiziert werden, von denen jede zu einem Teil der audiovisuellen Wiedergabe korrespondiert. Ähnlich kann in Einklang mit der Erfindung eine einzelne Zielwiedergaberate oder eine Reihe von Zielwiedergaberaten automatisch etabliert werden (entweder "von Grund auf" oder auf Basis einer anfänglich spezifizierten Nominalwiedergaberate oder -raten). Ferner, wie aus der nachfolgenden Beschreibung erkennbar werden wird, ermöglicht es die Erfindung einem Benutzer, eine Nominalzielwiedergaberate in Echtzeit zu variieren, während die audiovisuelle Wiedergabe generiert wird.
  • Es kann eine beliebige geeignete Methode zum automatischen Bestimmen einer Zielwiedergaberate oder zum automatischen Modifizieren einer Nominalzielwiedergaberate verwendet werden. Eine derartige automatische Bestimmung oder Modifizierung der Zielwiedergaberate kann durchgeführt werden durch Evaluieren des originalen Satzes von Audiodaten, des originalen Satzes von Videodaten oder beider Sätze. Ferner kann die Zielwiedergaberate durch Mehrfachevaluierungen der Audio- und/oder Videodatensätze automatisch etabliert werden. Der Audiodatensatz kann beispielsweise evaluiert werden, um die Betonung zu bestimmen, mit der gesprochene Teile der Audiodaten geäußert werden (z. B. durch Berechnen eines Energieterms für die gesprochenen Teile), wobei die Zielwiedergaberate auf den relativen Betonungen der gesprochenen Teile der Audiodaten basiert. Eine andere Möglichkeit besteht darin, den Audiodatensatz zu evaluieren, um die Geschwindigkeit zu bestimmen, mit der gesprochene Teile der Audiodaten geäußert werden (zum Beispiel durch Bestimmen spektraler Änderungen in den gesprochenen Teilen), wobei die Zielwiedergabe auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten basiert. Es können aber auch sowohl Betonung und Geschwindigkeit, mit denen gesprochene Teile der Audiodaten geäußert werden, bestimmt und kombiniert werden, um Audiospannungswerte für die gesprochenen Teile zu erzeugen, wobei die Zielwiedergabe auf den Audiospannungswerten der gesprochenen Teile basiert. Der Videodatensatz kann zum Beispiel evaluiert werden, um die relative Änderungsrate der Videodaten entlang verschiedener populationsbasierter Dimensionen (im Folgenden noch näher erläutert) zu bestimmen, wobei die Zielwiedergabe auf dieser Evaluierung basiert. Eine weitere Möglichkeit besteht darin, den Videodatensatz zu evaluieren, indem Teile des korrespondieren Videobildes, die sich rasch verändern, sowie die Frequenz, mit der solche raschen Änderungen auftreten, bestimmt werden, wobei die Zielwiedergabe dann auf Auftreten und Frequenz dieser raschen Änderungen basiert wird. Eine andere Möglichkeit besteht darin, den Videodatensatz zu evaluieren durch Verfolgen der Bewegung von Objekten innerhalb des korrespondierenden Videobildes, und die Zielwiedergabe auf dem Auftauchen neuer Objekte in dem Videobild zu basieren.
  • Der modifizierte Satz von Audiodaten kann auf Basis der Größe der Zielwiedergaberate und einer Analyse des Inhaltes der Audiodaten erzeugt werden. Beispielsweise kann der modifizierte Satz von Audiodaten erzeugt werden durch: i) Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen; ii) Überlappen eines Endbereichs eines ersten Segmentes mit einem benachbarten Endbereich eines zweiten Segmentes, welches dem ersten Segment benachbart ist (die Überlappung kann negativ sein, wie im Folgenden noch näher beschrieben werden wird); iii) Identifizieren, als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, welche nicht Teil des überlappten Endbereichs des ersten Segmentes sind; iv) Mischen der Daten der korrespondierenden überlappten Endbereiche; und v) Bestimmen, ob zusätzliche Segmente indem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind, wobei in dem Fall, dass zusätzliche Segmente vorhanden sind, die zusätzlichen Segmente in Einklang mit der obigen Beschreibung verarbeitet werden (wobei ein neues erstes Segment von den gemischten Daten und den nicht-überlappten Daten von dem vorherigen zweiten Segmentes erzeugt wird), und in dem Fall, dass zusätzliche Segmente nicht vorhanden sind, die gemischten Daten und die nicht-überlappten Daten von dem zweiten Segment als Teil des modifizierten Audiodatensatzes aufgenommen werden.
  • Der modifizierte Satz von Videodaten kann erzeugt werden durch i) Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und einer Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz; ii) Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Audiodaten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden; iii) für jedes der Audiosegmente des modifizierten Audiodatensatzes: Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu Audiodaten in dem Audiosegment des modifizierten Audiodatensatzes korrespondieren, Sasierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und iv) Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz zu erzeugen, so dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt. Der modifizierte Satz von Videodaten kann erzeugt werden durch Eliminieren von Daten aus dem originalen Videodatensatz, durch Hinzufügen von Daten zu dem originalen Videodatensatz, durch Mischen von Daten von dem originalen Videodatensatz und/oder durch Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz.
  • Die modifizierten Sätze von Audio- und Videodaten können zur späteren Verwendung für die Generierung einer audiovisuellen Wiedergabe gespeichert werden, oder sie können unmittelbar zur Generierung einer audiovisuellen Wiedergabe verwendet werden. Insbesondere im letzteren Fall kann die Erfindung zur Generierung einer audiovisuellen Wiedergabe verwendet werden, wobei die apparente Wiedergaberate der Wiedergabe in Echtzeit variiert werden kann. Eine derartige Echtzeitvariation der apparenten Wiedergaberate ist möglich, weil das im Vorstehenden beschriebene Verfahren zum Modifizieren des Audiodatensatzes ohne Kenntnis der weit in der Zukunft liegenden Audiodaten des originalen Audiodatensatzes auskommt, um einen modifizierten Audiodatensatz erzeugen zu können, und nur die Audiodaten benötigt, welche ein nächstes Segment des originalen Audiodatensatzes umfassen. Ferner, weil die Berechnungen zum Bestimmen modifizierter Audio- und Videodaten kurz vor Generierung einer Wiedergabe von den Daten durchgeführt werden können, können die Berechnungen auf Basis einer erst vor ganz kurzer Zeit (z. B. von einem Benutzer in Echtzeit) bestimmten Zielwiedergaberate durchgeführt werden. Ferner kann die Menge an Berechnungen, die von einem erfindungsgemäßen Verfahren benötigt werden, durch derzeitige Verarbeitungseinrichtungen ausreichend schnell durchgeführt werden, um zur Generierung einer Echtzeitwiedergabe von den modifizierten Audio- und Videodaten zu befähigen.
  • KURZBESCHREIBUNG DER FIGUREN
  • Fig. 1 ist ein Ablaufdiagramm eines Verfahrens in Einklang mit der vorliegenden Erfindung.
  • Fig. 2 ist eine vereinfachte Darstellung eines Systems, mit dem die Erfindung implementiert werden kann.
  • Fig. 3A und Fig. 3B bilden zusammen ein Ablaufdiagramm eines Verfahrens in Einklang mit einer Ausführungsform der Erfindung zum Modifizieren eines Satzes von Audiodaten entsprechend einer Zielwiedergaberate.
  • Die Fig. 4A, 4B und 4C sind schematische Darstellungen eines Audiodatensatzes mit vier Segmenten und der Transformationen des Audiodatensatzes, welche während der Implementierung des Verfahrens nach Fig. 3A und Fig. 3B zum Modifizieren des Audiodatensatzes auf Erhalt einer Beschleunigung der korrespondierenden Audiowiedergabe auftreten können. Fig. 4A veranschaulicht das Mischen des ersten und zweiten Segmentes des Audiodatensatzes. Fig. 4B zeigt das Mischen des zweiten und dritten Segmentes des Audiodatensatzes. Fig. 4C veranschaulicht das Mischen des dritten und vierten Segmentes des Audiodatensatzes.
  • Die Fig. 5A, 5B und 5C zeigen Segmentüberlappungen, wobei alle Trial- Überlappungen positiv sind.
  • Die Fig. 6A, 6B und 6C zeigen Segmentüberlappungen, wobei alle Trial- Überlappungen negativ sind.
  • Fig. 7 zeigt einen Bereich von Trial-Überlappungen, einschließlich einer positiven Zielüberlappung und einiger negativer Überlappungen.
  • Fig. 8A zeigt einen weiteren Bereich von Trial-Überlappungen, die einer speziellen Handhabung in dem Verfahren nach Fig. 3A und Fig. 3B bedürfen. Fig. 8B zeigt einen Weg, der beschritten werden kann, um die in Fig. 8A gezeigte Situation anzusprechen.
  • DETAILBESCHREIBUNG DER ERFINDUNG
  • Die Erfindung ermöglicht es, die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Die audiovisuelle Wiedergabe kann auf Basis von zueinander in Beziehung stehenden Sätzen von Audio- und Videodaten (der "originalen" Sätzen von Audio- und Videodaten) bei einer normalen Wiedergaberate von einem audiovisuellen Wiedergabesystem generiert werden. Die Erfindung kann es ermöglichen, die originalen Sätze von Audio- und Videodaten gemäß einer Zielwiedergaberate oder -raten (welche im Normalfall von der normalen Wiedergaberate verschieden ist bzw. sind, nämlich schneller oder langsamer) zu modifizieren, so dass, wenn die modifizierten Sätze von Audio- und Videodaten zum Generieren einer audiovisuellen Wiedergabe mit demselben audiovisuellen Wiedergabesystem verwendet werden, die apparente Wiedergaberate bzw. -raten der audiovisuellen Wiedergabe annähernd gleich der Zielwiedergaberate bzw. -raten ist bzw. sind. (Es sei angemerkt, dass - insbesondere dann, wenn die Größe der Zielwiedergaberate gleich oder ähnlich der normalen Wiedergaberate ist - der Fall eintreten kann, dass ein "modifizierter" Satz von Audiodaten oder Videodaten gleich dem korrespondierenden originalen Satz von Audiodaten oder Videodaten ist.)
  • Fig. 1 ist ein Ablaufdiagramm eines Verfahrens 100 in Einklang mit der Erfindung. Das Verfahren 100 bewirkt eine Variation der apparenten Wiedergaberate der audiovisuellen Wiedergabe durch Modifizieren eines originalen Audiodatensatzes gemäß einer Zielwiedergaberate, um einen modifizierten Audiodatensatz zu erzeugen, gefolgt von Modifizieren eines in Beziehung stehenden originalen Videodatensatzes zum Erzeugen eines modifizierten Videodatensatzes, so dass eine Korrespondenz zwischen den Audiodaten und Videodaten der originalen Datensätze in den modifizierten Datensätzen erhalten bleibt. Bevorzugt wird der originale Audiodatensatz in der Weise modifiziert, dass ein modifizierter Audiodatensatz entsteht, der eine Audiowiedergabe mit geringer oder gar keiner Verzerrung generiert.
  • Die Sätze von Audiodaten und Videodaten können digital oder analog sein (in zahlreichen Anwendungen, in welchen die Erfindung Anwendung finden kann, ist typisch Letzteres der Fall). Wie für den Fachmann auf dem Gebiet der Computerprogrammierung erkennbar sein wird, kann das Verfahren 100 (und andere, nachfolgend beschriebene erfindungsgemäße Verfahren) zum Beispiel auf einem beliebigen geeignet programmierten Digitalcomputer implementiert werden. Wenn also die Audio- und/oder Videodaten anfänglich analog sind, dann können die Audio- und/oder Videodaten mit Hilfe wohlbekannter Verfahren und Vorrichtungen digitalisiert werden, um das Verfahren 100 auf einem Digitalcomputer implementieren zu können. Die digitalen Audiodaten können zum Beispiel als eine Sequenz von Audio-Abtastwerten oder -Samples repräsentiert sein, welche die Amplitude der analogen Audiosignale an gleichabständigen Punkten in der Zeit darstellen. Die digitalen Videodaten können zum Beispiel als eine Sequenz von Frames von Pixeln von Videodaten repräsentiert sein (jedes Pixel kann ferner separate Daten enthalten, die jeweils die Anwesenheit einer bestimmten Farbe in dem jeweiligen Pixel repräsentieren).
  • Fig. 2 ist eine vereinfachte Darstellung eines Systems 200, mit dem die Erfindung implementiert werden kann. Das System 200 enthält eine Verarbeitungseinrichtung 201 (z. B. einen konventionellen Mikroprozessor), eine Datenspeichereinrichtung 202 (z. B. einen konventionellen Speicher mit Direktzugriff und/oder einen konventionelle Plattenspeicher), eine Wiedergabeeinrichtung 203 (z. B. einen Computerwiedergabebildschirm, ein Fernsehgerät und/oder Audiolautsprecher konventioneller Art) und eine Benutzerschnittstelleneinrichtung 204 (z. B. eine Fernbedienung, Computertastatur, Maus und/oder einen Berührungsbildschirm konventioneller Art). Diese Einrichtungen sowie andere (nicht gezeigte) konventionelle Einrichtungen, wie sie Teil eines typischen Digitalcomputers bilden können, können miteinander über einen konventionellen Computerbus 205 wechselwirken. Es versteht sich, dass die Erfindung auch mit anderen Systemen, welche andere Komponenten und/oder eine andere Konfiguration als die in Fig. 2 gezeigten aufweisen, implementiert werden kann. Wenn zum Beispiel die Audiodaten und/oder Videodaten anfänglich analoge Daten sind und die Verarbeitungseinrichtung als Teil eines Digitalcomputers implementiert ist, kann ein System zum Implementieren der Erfindung einen konventionellen A/D-Wandler zum Umwandeln der analogen Daten in digitale Daten beinhalten. Wenn ein derartiges System auch eine analoge Wiedergabeeinrichtung enthält (z. B. ein Fernsehgerät), dann kann das System auch einen konventionellen D/A-Wandler beinhalten, um die verarbeiteten digitalen Daten in die analoge Form umzusetzen.
  • Es wird nun erneut auf Fig. 1 Bezug genommen, gemäß welcher in Schritt 101 des Verfahrens 100 eine Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz etabliert wird. Wie im Vorstehenden angegeben, können digitale Audiodaten als eine Sequenz von Audio-Samples repräsentiert sein und digitale Videodaten können als eine Sequenz von Video- Frames repräsentiert sein. Wie aus der nachfolgenden Beschreibung erkennbar, liegt eine geeignete Basis zum Etablieren einer Korrespondenz zwischen derartigen Audio- und Videodaten darin, die Zahl der Audio-Samples zu bestimmen, welche die gleiche Dauer wie ein Frame von Videodaten aufweisen, und diese Zahl von Samples als ein Audiosegment zu definieren. (Allgemeiner bedeutet im vorliegenden Text ein Audio-"Segment" jedoch einen zusammenhängenden Teil eines Satzes von Audiodaten, der während einer spezifizierten Zeitdauer auftritt.) Die Bestimmung der Anzahl von Audio-Samples, die in der Dauer zu einem Video-Frame korrespondieren, kann auf Basis der Video-Framerate und der Audio-Samplerate, bei denen die Videodaten und Audiodaten in eine Videowiedergabeeinrichtung bzw. Audiowiedergabeeinrichtung eines audiovisuellen Wiedergabesystems, mit dem die Erfindung realisiert wird, eingegeben werden, durchgeführt werden. Nach Erfolgter Etablierung der Zahl von Samples in einem Audiosegment kann eine Korrespondenz zwischen Audiosegmenten und Videoframes etabliert werden. Beispielsweise können die Audiosegmente so definiert werden, dass jedes Audiosegment zu einem einzelnen bestimmten Videoframe korrespondiert (wie es der Fall ist, wenn das modifizierte SOLA-Verfahren zur Implementierung von Schritt 103 des Verfahrens 100 verwendet wird, wie im Folgenden beschrieben). Eine andere Möglichkeit besteht darin, überlappende Audiosegmente zu definieren, so dass jedes Segment, in Teilen oder im Ganzen, zu einem oder mehreren Videoframes korrespondieren kann (wie es der Fall ist, wenn das unmodifizierte SOLA-Verfahren zur Implementierung von Schritt 103 des Verfahrens 100 verwendet wird, wie im Folgenden beschrieben). Die erstgenannte Implementierung ist rechnerisch weniger aufwändig (und kann deshalb den Vorzug verdienen), weil das Matching von Audiosegmenten mit bestimmten, einmaligen Videoframes eine direktere Lösung ist als die in der letztgenannten Implementierung angewendete Lösung, über alle Schritte des Verfahrens 100 hinweg eine Aufzeichnung der Korrespondenzen zwischen Audiosegmenten und Videoframes aufrechtzuerhalten.
  • In Schritt 102 wird eine Zielwiedergaberate bestimmt. Wie im Vorstehenden beschrieben, kann allgemein die Zielwiedergaberate schneller oder langsamer sein als die normale Rate, bei der die audiovisuellen Daten (d. h. die Audio- und/oder Videodaten) wiedergegeben werden. Die Zielwiedergaberate kann als eine Zahl angegeben werden, die ein Mehrfaches der normalen Wiedergaberate repräsentiert, d. h. eine Zielwiedergaberate, die kleiner ist als Eins, repräsentiert eine Wiedergaberate, die langsamer ist als die normale Wiedergaberate, während eine Zielwiedergaberate, die größer ist als Eins, eine Wiedergaberate repräsentiert, die schneller ist als die normale Wiedergaberate. Die Wahl einer bestimmten Methode zur Erzeugung modifizierter Audio- und Videodatensätze sowie der Inhalt der Audio- und Videodaten kann den möglichen Wiedergaberatenänderungen, welche erzielt werden können, Grenzen setzen.
  • Eine Nominalzielwiedergaberate kann von einem Benutzer eines audiovisuellen Wiedergabesystems, mit dem die Erfindung implementiert wird, manuell spezifiziert werden. Es kann eine einzige Zielwiedergaberate für die gesamte audiovisuelle Wiedergabe spezifiziert werden, oder es kann eine Reihe von Zielwiedergaberaten, von denen jede zu einem Teil der audiovisuellen Wiedergabe korrespondiert, spezifiziert werden. Der Schritt 102 kann einen von einem Benutzer spezifizierten Nominalzielwiedergaberatenwert oder -werte bestimmen. Wenn mehrfache Nominalzielwiedergaberatenwerte spezifiziert werden, kann der Schritt 102 auch eine Anfangs- und Endzeit innerhalb der audiovisuellen Wiedergabe für jede Nominalzielwiedergaberate bestimmen. Der Benutzer kann eine beliebige geeignete Benutzerschnittstelleneinrichtung verwenden (wie die beispielhaft unter Bezugnahme auf Fig. 2 nachfolgend beschriebenen Einrichtungen), um einen oder mehrere Werte für die Nominalzielwiedergaberate zu spezifizieren.
  • Es mag wünschenswert sein, eine spezifizierte Nominalzielwiedergaberate zu modifizieren, um die Wahrscheinlichkeit zu erhöhen, dass der Audioteil der audiovisuellen Wiedergabe auf verständliche Weise oder mit akzeptabler Treue wiedergegeben wird. Erfindungsgemäß kann dies automatisch als Teil des Schrittes 102 geschehen. Erfindungsgemäß ist es auch möglich, die Zielwiedergaberate "von Grund auf" automatisch zu bestimmen, d. h. ohne Vorgabe oder Spezifizierung einer Nominalzielwiedergaberate. In einem solchen Fall müssen jedoch andere Kriterien zum Regieren der Bestimmung der Zielwiedergaberate etabliert werden. Mehrere Methoden zum automatischen Bestimmen einer Zielwiedergaberate oder zum Modifizieren einer Nominalzielwiedergaberate werden im Folgenden ausführlicher erläutert. Es kann jedoch auch eine beliebige andere geeignete Methode verwendet werden.
  • In Schritt 103 wird der originale Audiodatensatz auf Basis der Zielwiedergaberate manipuliert, um einen modifizierten Audiodatensatz zu erzeugen. Der modifizierte Audiodatensatz wird so erzeugt, dass allgemein bei Verwendung des modifizierten Audiodatensatzes zum Generieren einer Audiowiedergabe die Audiowiedergabe um einen Betrag beschleunigt oder verlangsamt erscheint, der annähernd gleich der Zielwiedergaberate ist. Es kann ein beliebiges geeignetes Verfahren zum Modifizieren des originalen Audiodatensatzes verwendet werden. Einige besondere, beispielhafte Methoden werden im Folgenden ausführlicher erörtert.
  • In Schritt 104 wird der originale Videodatensatz manipuliert, um einen modifizierten Videodatensatz zu erzeugen. Die Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz (Schritt 103) und die Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz (Schritt 101) werden verwendet, um eine Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz zu erzeugen. Unter Verwendung der neu entwickelten Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz können Videodaten aus dem originalen Videodatensatz gelöscht bzw. diesem hinzugefügt werden, um den modifizierten Videodatensatz zu erzeugen. Es kann eine beliebige geeignete Methode zum Erzeugen des modifizierten Videodatensatzes von dem modifizierten Audiodatensatz verwendet werden. Einige besondere, beispielhafte Methoden werden im Folgenden näher erörtert.
  • Eine audiovisuelle Wiedergabe kann von den modifizierten Datensätzen mit Hilfe eines audiovisuellen Wiedergabesystems erzeugt werden. Ein bestimmtes audiovisuelles Wiedergabesystem kann Audio- und Videodaten mit einer bestimmten Rate verarbeiten, um eine audiovisuelle Wiedergabe bei einer normalen Wiedergaberate zu erzeugen. Die Audio- und Videodaten der modifizierten Audio- und Videodatensätze werden von dem audiovisuellen Wiedergabesystem mit der gleichen Rate verarbeitet. Weil aber die modifizierten Audio- und Videodatensätze (im Normalfall) eine unterschiedliche Menge (entweder mehr oder weniger) an Daten aufweisen als die originalen Audio- und Videodatensätze, ist die apparente Wiedergaberate der audiovisuellen Wiedergabe, welche von den modifizierten Audio- und Videodatensätzen erzeugt wird, von der normalen Wiedergaberate verschieden. Weil ferner in Schritt 104 der modifizierte Videodatensatz auf Basis des Inhaltes des modifizierten Audiodatensatzes und einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz erzeugt wird, ist der modifizierte Videodatensatz mit dem modifizierten Audiodatensatz (wenigstens annähernd, möglicherweise sogar genau) synchronisiert und erzeugt eine Wiedergabe von gleicher oder annähernd gleicher Dauer.
  • Wie aus der nachfolgenden Beschreibung erkennbar, kann die Erfindung ein Verfahren zum Modifizieren des Audiodatensatzes verwenden, welches ohne Kenntnis der weit in der Zukunft liegenden Audiodaten des originalen Audiodatensatzes auskommt, um einen modifizierten Audiodatensatz erzeugen zu können, und nur die Audiodaten verlangt, welche ein nächstes Segment des originalen Audiodatensatzes umfassen. So kann es die Erfindung möglich machen, die audiovisuelle Wiedergabe zu generieren, während die modifizierten Audio- und Videodatensätze erzeugt werden. Im Besonderen erlaubt es die Erfindung vorteilhaft, die apparente Wiedergaberate (via Variation der bestimmten Zielwiedergaberate) in Echtzeit zu variieren. Es ist aber auch möglich, die modifizierten Audio- und Videodatensätze in einer konventionellen Datenspeichereinrichtung zu speichern, zum Beispiel in einem konventionellen Computerplattenspeicher, um sie nach Wunsch zu einem späteren Zeitpunkt wiederzugeben.
  • Ein Beispiel soll die Arbeitsweise des Verfahrens 100 veranschaulichen, ebenso einige kleinere Anpassungen, die im Rahmen einer praktischen Implementierung des Verfahrens 100 möglicherweise notwendig werden. Beispielhaft kann in einer typischen Implementierung die Erfindung implementiert werden mit einer Videowiedergabeeinrichtung, welche die Videowiedergabe mit neuen digitalen Videodaten mit einer Rate von 30 Frames pro Sekunde auffrischt (Refreshing), und einem oder mehreren Audiolautsprechern, welche digitale Audiodaten mit einer Rate von 8000 Samples pro Sekunde akzeptieren. In einer derartigen Implementierung korrespondiert also jeder Rahmen von Videodaten in der Dauer zu 266,67 Audiosamples (Schritt 101 des Verfahrens 100), d. h. 8000 Samples pro Sekunde dividiert durch 30 Frames pro Sekunde. Ein Audiosegment kann also als 266,67 Audiosamples definiert werden. Weil in praxi ein Audiosample nicht unterteilt werden kann, kann die Zahl der Audiosamples in jedem Audiosegment auf die nächsthöhere ganze Zahl aufgerundet oder auf die nächstniedrige ganze Zahl beschnitten werden, so dass im Mittei jedes Audiosegment die berechnete Zahl von Audiosamples pro Videoframe enthält. In diesem Beispiel enthält also jeder Satz von drei Audiosegmenten ein Segment mit 266 Audiosamples und zwei Segmente mit 267 Audiosamples, angeordnet in beliebiger Reihenfolge.
  • Ferner sei in diesem Beispiel angenommen, dass die Zielwiedergaberate das 2,5fache der normalen Wiedergaberate beträgt (Schritt 102 des Verfahrens 100). Der originale Audiodatensatz wird entsprechend der Zielwiedergaberate modifiziert, um den modifizierten Audiodatensatz zu erzeugen (Schritt 103 des Verfahrens 100). Hier bedeutet dies die Erzeugung eines modifizierten Audiodatensatzes, der etwa 60% weniger Audiosamples enthält als der originale Audiodatensatz, so dass die gewünschte Geschwindigkeitserhöhung von 2,5 erzielt wird. Der modifizierte Audiodatensatz enthält Teilsätze (Subsets) von Audiodaten, die jeweils zu einem der Audiosegmente des originalen Audiodatensatzes korrespondieren. Jeder dieser Teilsätze enthält im Mittel ca. 60% weniger Audiosamples, als in dem korrespondierenden Audiosegment des originalen Audiodatensatzes vorhanden waren, wenngleich bestimmte Teilsätze erheblich von diesem Mittel abweichen können, wie aus der nachfolgenden Beschreibung der Fig. 3A, 3B, 4A, 4B und 4C erkennbar wird.
  • Die Audiolautsprecher und die Videowiedergabeeinrichtung erwarten den Empfang von 8000 Audiosamples pro Sekunde bzw. 30 Videoframes pro Sekunde. Nun korrespondieren aber jeweils 266,67 Audiosamples (in praxi 266 oder 267 Samples) des modifizierten Audiodatensatzes im Mittel zu 2,5 Videoframes des originalen Videodatensatzes. (Dies kann verifiziert werden anhand dessen, dass im Mittel 2,5 Audiosamples in dem originalen Audiodatensatz für jedes Audiosample des modifizierten Audiodatensatzes vorhanden sind, und dass jedes Audiosegment - 266,67 Audiosamples - des originalen Audiodatensatzes zu einem Videoframe des originalen Videodatensatzes korrespondiert.) Damit also Korrespondenz zwischen der Audio- und Videowiedergabe nach Modifizierung der Audiodaten entsprechend der Zielwiedergaberate erhalten bleibt, muss die Zahl der Videoframes vermindert werden, so dass jedes Audiosegment (d. h. 266,67 Audiosamples) des modifizierter Audiodatensatzes zu einem einzigen Videoframe korrespondieren. Im vorliegenden Beispiel muss ein modifizierter Videodatensatz erzeugt werden, der 1 Videoframe für jeweils 2,5 Videoframes in dem originalen Videodatensatz enthält. Weil Videoframes nicht zeitlich auseinander gesplittet werden können, wird zwecks Erleichterung der Erfindung angenommen, dass jedes Audiosegment des modifizierten Audiodatensatzes zu einer ganzen Zahl von Videoframes des originalen Videodatensatzes korrespondiert, so dass im Mittei jedes Audiosegment des modifizierten Audiodatensatzes zu 2,5 Videoframes korrespondiert. Anders ausgedrückt: das erste Audiosegment mag zu den ersten drei Frames von Videodaten des originalen Videodatensatzes korrespondieren, während das zweite Audiosegment zum vierten und fünften (d. h. den nächsten zwei) Frames von Videodaten korrespondiert. Der originale Videodatensatz wird dann modifiziert durch Beibehalten von nur einem Videoframe von jedem Satz von Videoframes, der zu einem Audiosegment des modifizierten Audiodatensatzes korrespondiert. Bewirkt werden kann dies, wie im Vorstehenden beschrieben, durch Eliminieren oder Mischen von Videoframes.
  • Wie im Vorstehenden unter Bezugnahme auf Schritt 102 des Verfahrens 100 (Fig. 1) erwähnt, ist es erfindungsgemäß möglich, auf automatischem Wege eine Zielwiedergaberate zu bestimmen oder eine spezifizierte Nominalzielwiedergaberate zu modifizieren. Allgemein kann eine Zielwiedergaberate automatisch bestimmt oder modifiziert werden durch Analysieren des originalen Satzes von Audiodaten, des originalen Satzes von Videodaten oder beider Sätze. Mehrere Methoden, welche Verwendung finden können, um eine solche automatische Bestimmung oder Modifizierung der Zielwiedergaberate durchzuführen, sind im Folgenden erläutert. Es versteht sich jedoch, dass auch eine beliebige andere geeignete Methode zum Bestimmen oder Modifizieren einer Zielwiedergaberate für die Erfindung verwendet werden kann.
  • Ein Verfahren zum Bestimmen einer Zielwiedergaberate ist im Detail in der auf gemeinsame Inhaberschaft zurückgehenden, parallel anhängigen US-Patentschrift Nr. 5 828 994 mit dem Titel "Non-Uniform Time Scale Modification of Recorded Audio" von Michele Covell und M. Margaret Withgott, mit Erteilungsdatum vom 27. Oktober 1998 (im Folgenden "Covell und Withgott" genannt) offenbart. Bei diesem Verfahren werden die Audiodaten eines Satzes von audiovisuellen Daten analysiert, und auf dieser Basis wird eine Sequenz von Zielwiedergaberaten etabliert. Kurz gefasst wird bei diesem Verfahren der Audiodatensatz nach einer bestimmten Sprecherstimme bzw. -stimmen abgesucht (typisch, obschon nicht zwingend, eine Stimme oder Stimmen, bei der bzw. denen die Wahrscheinlichkeit besteht, dass sie Teil des Audiodatensatzes ist bzw. sind). Der Audiodatensatz wird in Abschnitte unterteilt, und jeder Abschnitt wird evaluiert, um eine Wahrscheinlichkeit, dass der Abschnitt die bestimmte Sprecherstimme bzw. -stimmen enthält, zu bestimmen. Die Wahrscheinlichkeiten können normalisiert werden. Die Zielwiedergaberate für jeden Abschnitt kann auf Basis der normalisierten Wahrscheinlichkeit für den Abschnitt etabliert werden. Beispielsweise kann für Abschnitte mit einer sehr hohen Wahrscheinlichkeit, dass der bestimmte Sprecher spricht, die Zielwiedergaberate als normale Wiedergaberate oder sogar als zu der normalen Wiedergaberate verlangsamte Wiedergaberate etabliert werden. Mit sinkender Wahrscheinlichkeit, dass ein bestimmter Abschnitt die bestimmte Sprecherstimme oder -stimmen enthält, kann die Zielwiedergaberate progressiv höher gewählt werden. Zusammenfassend kann dieses Verfahren also eine Sequenz von Zielwiedergaberaten erzeugen, basierend darauf, ob ein oder mehrere bestimmte Sprecher sprechen. Dieses Verfahren ist zwar im Vorstehenden so beschrieben, dass es verwendet wird, um eine Sequenz von Zielwiedergaberaten von Grund auf zu bestimmen; selbstverständlich könnte das Verfahren aber auch zum Modifizieren einer Nominalzielwiedergaberate (oder einer Sequenz von Raten) durch Erhöhen oder Erniedrigen der Nominalzielwiedergaberate auf Basis der bestimmten Wahrscheinlichkeit, dass der Abschnitt von Audiodaten, die zu der Nominalzielwiedergaberate korrespondieren, die bestimmte Sprecherstimme oder -stimmen enthält, verwendet werden.
  • Covell und Withgott beschreiben im Detail andere Verfahren zur Verwendung der Analyse eines Audiodatensatzes von einem Satz von audiovisuellen Daten, um die Zielwiedergaberate zu beeinflussen (d. h. um eine Zielwiedergaberate zu bestimmen oder eine Nominalzielwiedergaberate zu modifizieren). Diese Verfahren können auch in Verbindung mit der vorliegenden Erfindung verwendet werden. Bei einem derartigen Verfahren wird die Größe der Betonung, mit der die gesprochenen Teile eines Audiodatensatzes geäußert werden, bestimmt. (Die Größe der Betonung nicht-gesprochener Teile des Audiodatensatzes wird zu Null angenommen.) Eine solche Betonung kann beispielsweise bestimmt werden durch Berechnen eines Energieterms für die gesprochenen Teile. Die Zielwiedergaberate von verschiedenen Teilen des Audiodatensätzes kann dann etabliert werden (oder die Nominalzielwiedergaberate/n kann/können modifiziert werden) entsprechend den relativen Größen der Betonung, wie sie für diese Teile bestimmt wurden. Beispielsweise kann die Größe der Zielwiedergaberate umgekehrt zu dem Maß an Betonung, mit dem ein gesprochener Teil des Audiodatensatzes geäußert wird, variiert werden. Bei einem weiteren derartigen Verfahren nach Covell und Withgott wird die Größe der Geschwindigkeit, mit der die gesprochenen Teile eines Audiodatensatzes geäußert werden, bestimmt (nicht-gesprochene Teile haben eine Geschwindigkeit von Null). Die Sprechgeschwindigkeit kann zum Beispiel aufgrund von Messungen spektraler Veränderungen in der Sprache bestimmt werden. Die relativen Größen der Sprechgeschwindigkeit können dazu verwendet werden, die Zielwiedergaberate verschiedener Teile des Audiodatensatzes zu etablieren (oder die Nominalzielwiedergaberate oder -raten zu modifizieren). Beispielsweise wird die Zielwiedergaberate von gesprochenen Teilen, welche ursprünglich schnell gesprochen wurden, relativ langsamer gemacht als die Zielwiedergaberate von anderen gesprochenen Teilen. Wie weiter von Covell und Withgott für ein weiteres Verfahren beschrieben, können die ermittelten Größen der Sprechbetonung und der Sprechgeschwindigkeit kombiniert werden, um einen "Audiospannungs"-Wert zu erzeugen, wobei der Audiospannungswert dann dazu verwendet wird, eine Zielwiedergaberate oder -raten (oder eine Nominalzielwiedergaberate oder -räten) in beliebiger gewünschter Weise zu etablieren (bzw. zu modifizieren).
  • Wie im Vorstehenden erwähnt, können die Videodaten eines Satzes von audiovisuellen Daten ebenfalls analysiert und auf Basis dieser Analyse eine Zielwiedergaberate (oder eine Sequenz von Raten) etabliert werden (d. h. von Grund auf bestimmt oder durch Modifizieren einer Nominalzielwiedergaberate erhalten werden). In der auf gemeinsame Inhaberschaft zurückgehenden, parallel anhängigen US-Patentanmeldung mit dem Titel "A Method of Compressing a Plurality of Video Images for Efficiently Storing, Displaying and Searching the Plurality of Video Images" von Subutai Ahmad, Serial No. 08/528 891, mit Einreichungsdatum vom 15. September 1995 (im Folgenden mit "Ahmad" bezeichnet) und veröffentlicht unter WO-A-97/10564, sind mehrere derartige Verfahren zum Bestimmen einer Zielwiedergaberate im Detail beschrieben. Bei einem solchen Verfahren werden die Videodaten analysiert, um die relative Änderungsrate der Videodaten entlang verschiedener populationsbasierter Dimensionen zu bestimmen (d. h. Dimensionen, welche auf Basis einer Analyse einer spezifizierten Population der Daten selektiert sind). Lineare (oder affine) Vielfache sind ein Beispiel für die Implementierung einer derartigen Analyse. Bei einem linearen Vielfachen werden in Beziehung stehende n-dimensionale Sätze von Daten (z. B. die Pixel eines Satzes von Frames von Videodaten) überwacht, um die Variation entlang jeder Dimension (z. B. Pixel) zwischen "benachbarten" Sätzen (z. B. aufeinanderfolgenden Videoframes) von Daten zu bestimmen. Es kann eine bestimmte Zahl von Dimensionen (z. B. bestimmte Pixel) mit der größten Variation als die populationsbasierten Dimensionen selektiert werden. Die Änderung der Werte der Daten (z. B. Änderung in Pixelwerten) entlang der populationsbasierten Dimensionen wird überwacht. Die Zielwiedergaberate kann auf Basis dieser Veränderungen etabliert werden. So kann die Zielwiedergaberate zum Beispiel relativ langsamer gemacht werden, wenn die Videodaten (entlang den populationsbasierten Dimensionen) sich rasch verändern, und umgekehrt. Bei einem anderen Verfahren nach Ahmad werden die Videodaten analysiert, um Teile des Videobildes zu bestimmen, welche sich rasch verändern, sowie die Frequenzen, mit der solche raschen Änderungen in Erscheinung treten. Während Perioden, in denen zahlreiche solcher rascher Änderungen auftreten, kann die Zielwiedergaberate relativ langsamer gemacht werden; während Perioden, in denen das Videobild relativ stabil bleibt, kann die Zielwiedergaberate relativ schneller gemacht werden.
  • Andere Verfahren zum Etablieren einer Zielwiedergaberate auf Basis der Analyse des Videodatensatzes sind z. B. in "A Real-Time System for Automatically Annotating Unstructured Image Sequences" von Zabih, Woodfill und Withgott, IEEE International Conference an Systems, Man, and Cybernetics, 1993, und "Tracking Non-Rigid Objects in Complex Scenes" von Huttenlocher, Noh und Rucklidge, International Conference an Computer Vision, 1993, beschrieben. Bei diesen Verfahren wird die Bewegung von Objekten in dem Videobild verfolgt. Die Zielwiedergaberate kann zum Beispiel während Zeitabschnitten, in denen neue Objekte in dem Videobild in Erscheinung treten, relativ langsamer gemacht werden.
  • Eine Zielwiedergaberate kann auch durch Kombinieren der Ergebnisse von Mehrfachanalysen der audiovisuellen Daten etabliert werden. Allgemein kann die Mehrfachanalyse eine Analyse der Audiodaten allein, der Videodaten allein oder der Audio- und Videodaten umfassen. Die Resultate der Analysen können auf beliebige geeignete Weise kombiniert werden. So kann zum Beispiel die durch Mehrfachanalyse etablierte Zielwiedergaberate (oder Sequenz von Raten) gemittelt werden, um eine Zielwiedergaberate zu etablieren. Eine andere Möglichkeit besteht darin, die mittels Mehrfachanalyse etablierte schnellere oder langsamere der Zielwiedergaberaten als Zielwiedergaberate zu wählen. Es können auch andere nicht-lineare Filtermethoden (z. B. Stack-Filter) oder zeitvariante Methoden (z. B. Funktionen, welche eine zeitliche Hysterese beinhalten) verwendet werden, wie für den Fachmann auf dem Gebiet der Datenanalyse erkennbar, um eine Zielwiedergaberate aufgrund von mehrfachen Zielwiedergaberaten, etabliert mittels Mehrfachanalyse der audiovisuellen Daten, zu etablieren.
  • In Schritt 103 des Verfahrens 100 (Fig. 1), wie im Vorstehenden beschrieben, wird ein modifizierter Satz von Audiodaten auf Basis der Zielwiedergaberate erzeugt. Der modifizierte Audiodatensatz wird erzeugt, so dass bei Verwendung zum Generieren einer Audiowiedergabe die apparente Wiedergaberate der Wiedergabe der Zielwiedergaberate angenähert oder gleich ist. Im Folgenden wird ein besonderes Verfahren zum Erzeugen eines derartigen modifizierten Audiodatensatzes im Detail und unter Bezugnahme auf die Fig. 3A, 3B, 4A, 4B und 4C beschrieben. Das beschriebene Verfahren ist eine Modifikation der bereits bekannt gewordenen Synchronized Overlap Add (SOLA)-Methode. Die SOLA-Methode, welche ebenfalls zur Erzeugung eines modifizierten Audiodatensatzes verwendet werden kann, ist in einem Paper mit dem Titel "High quality time scale modification for speech" von S. Roucos und A. M. Wilgus, veröffentlicht in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, pp. 493-496, IEEE, 1985, näher erläutert.
  • Es können sowohl die modifizierte SOLA-Methode als auch die SOLA-Methode verwendet werden, um einen modifizierten Audiodatensatz zu erzeugen, der zu einer Wiedergabe führt, welche eine apparente Wiedergaberate aufweist, die gegenüber der normalen Wiedergaberate entweder beschleunigt oder verlangsamt ist. Ferner können sowohl die modifizierte SOLA-Methode als auch die SOLA-Methode einen modifizierten Audiodatensatz erzeugen, der eine Audiowiedergabe mit wenig oder gar keiner Verzerrung des durch den originalen Audiodatensatzes repräsentierten Lautes generiert. Beispielsweise ermöglichen es diese Methoden, die Audiowiedergabe zu beschleunigen, ohne im Falle der Wiedergabe menschlicher Stimmen einen "Micky-Maus"-Effekt zu erzeugen, oder die Audiowiedergabe zu verlangsamen, ohne die Sprecher wie betäubt klingen zu lassen. Die im Folgenden beschriebene modifizierte SOLA- Methode unterscheidet sich von der in dem obenerwähnten Paper beschriebenen SOLA-Methode im Wesentlichen dadurch, dass die SOLA-Methode ein anfängliches Überlappen von Segmenten zulässt, während die modifizierte SOLA- Methode dies nicht erlaubt; abgesehen von diesem Unterschied sind die beiden Verfahren im Wesentlichen gleich. Die Verwendung der modifizierten SOLA-Methode kann im Vergleich zur Verwendung der SOLA-Methode vorteilhaft sein, weil die modifizierte SOLA-Methode zu einem geringeren rechnerischen Aufwand führt (zum Beispiel verlangt die SOLA-Methode einen größeren "Buchführungsaufwand" zum Verfolgen der anfänglich überlappenden Segmente). Ferner kann die modifizierte SOLA-Methode weniger Verzerrung erzeugen als die SOLA-Methode, weil die modifizierte SOLA-Methode einen größeren Teil der originalen Audiodaten in unmodifizierter Form beibehält. Für den Fachmann auf dem Gebiet der Datenanalyse wird anhand der nachfolgenden Beschreibung der modifizierten SOLA-Methode ohne weiteres erkennbar sein, wie die SOLA-Methode für die Erfindung Verwendung finden kann; in der Hauptsache erfordert die Verwendung der SOLA-Methode, dass die Schritte der modifizierten SOLA-Methode, wie sie im Folgenden beschrieben werden, so modifiziert werden, dass die anfängliche Überlappung der Segmente Berücksichtigung findet.
  • Die Fig. 3A und 3B bilden zusammen ein Ablaufdiagramm eines Verfahrens 300 (bei dem es sich um eine modifizierte SOLA-Methode handelt) gemäß einer Ausführungsform der Erfindung zum Modifizieren eines Satzes von Audiodaten entsprechend einer Zielwiedergaberate. Das Verfahren 300 kann mit einer beliebigen Zielwiedergaberate verwendet werden, d. h. entweder mit einer Zielwiedergaberate, welche dazu gedacht ist, die apparente Wiedergaberate zu beschleunigen (d. h. bei Angabe der Zielwiedergaberate als Zahl, welche ein Mehrfaches der normalen Wiedergaberate repräsentiert, mit einer Zielwiedergaberate größer als Eins) oder mit einer Zielwiedergaberate, welche dazu gedacht ist, die apparente Wiedergaberate zu verlangsamen (d. h. einer Zielwiedergaberate kleiner als Eins). Die Fig. 4A, 4B und 4C sind schematische Darstellungen eines Audiodatensatzes 400 und der Transformationen des Audiodatensatzes 400, welche bei der Implementierung des Verfahrens 300 zum Modifizieren des Audiodatensatzes 400 auf Erhalt einer Beschleunigung der korrespondierenden Audiowiedergabe (Zielwiedergaberate größer als Eins) auftreten können.
  • Allgemein bewirkt die modifizierte SOLA-Methode nach Fig. 3A und Fig. 3B, dass sich Anfang und Ende jedes Segmentes mit dem Ende bzw. Anfang von benachbarten Segmenten überlappen. Wie aus der nachfolgenden Beschreibung erkennbar wird, kann das Überlappen von Segmenten in der Hinzufügung von Daten zu dem Audiodatensatz, der Eliminierung von Daten aus demselben und/oder dem Mischen von Daten in demselben resultieren. (Es sei angemerkt, dass, wie im Folgenden näher erläutert und beispielhaft dargestellt, die "Überlappung" negativ sein kann.) Zum Beschleunigen der Wiedergabe wird der Audiodatensatz in der Länge um die Summe aller Überlapplängen (die typisch vorwiegend oder ausschließlich positiv sind) gekürzt. Dementsprechend wird für eine Verlangsamung der Wiedergabe der Audiodatensatz in der Länge um die Summe der Überlapplängen (die typisch vorwiegend oder ausschließlich negativ sind) vergrößert.
  • Sprachlaute können in zwei Hauptklassen eingeteilt werden: stimmhaft und stimmlos. Stimmhafte Sprachlaute werden erzeugt als Antwort des Vokaltraktes auf periodische Erregung von den Stimmbändern, welche Pitch-Pulse erzeugen. Stimmhafte Sprachlaute umfassen die Mehrzahl der Sprachlaute, z. B. die Vokale, Nasenlaute, Halbvokale und stimmhafte Übergänge. Stimmlose Laute, welche die Frikativlaute und stimmlosen Verschlusslaute umfassen, entstehen als Folge von Turbulenz, erzeugt durch eine Verengung an irgendeiner Stelle entlang des Vokaltraktes. Während das hier beschriebene Verfahren bestgeeignet ist zum Modifizieren von Audiodaten, welche stimmhafte Laute repräsentieren, zeigt es auch gutes Verhalten bei der Modifizierung von Audiodaten, welche sowohl stimmhafte wie auch stimmlose Laute repräsentieren, insbesondere mit Hinblick auf die Art und Weise und das relative Verhältnis, in der bzw. in dem derartige Laute in der menschlichen Sprache in Erscheinung treten.
  • Die möglichen Längen jeder Überlappung sind entsprechend des gewünschten Umfangs der Wiedergaberatenvariation begrenzt. Innerhalb dieser Begrenzung jedoch wird die Länge jeder besonderen Überlappung so gewählt, dass die Pitch-Pulse der überlappten Bereiche einander eng angenähert sind (d. h. übereinanderliegen) (siehe Fig. 5A, 5B und 5C und Fig. 6A, 6B und 5C, die im Folgenden erörtert werden). Somit wird durch das Hinzufügen, Eliminieren und/oder Mischen der Audiodaten der überlappten Bereiche der zu den überlappten Teilen der Audiodaten korrespondierende Laut nicht stark verzerrt. Es resultiert daraus, dass der Audiodatensatz wie gewünscht modifiziert werden kann (d. h. die apparente Wiedergaberate eines Audiodatensatzes kann wie gewünscht variiert werden) und zugleich das mit der Modifikation des Audiodatensatzes verbundene Ausmaß an Verzerrung reduziert werden kann (d. h. die modifizierte Wiedergabe klingt "normal"). In der Praxis wurde gefunden, dass das Verfahren 300 gut funktioniert (d. h. eine Audiowiedergabe mit relativ wenig oder gar keiner Verzerrung erzeugt) beim Variieren der apparenten Wiedergaberate einer Audiowiedergabe, welche gesprochenes und/oder nicht-gesprochenes Audio enthält.
  • In Schritt 301 wird ein Audiodatensatz in Segmente von Audiodaten (in der nachfolgenden Erörterung als Audiosamples bezeichnet) von gleicher Zeitdauer unterteilt. Jedes Audiosegment korrespondiert bevorzugt zu einer spezifizierten Einheit von Videodaten gleicher Dauer. So kann beispielsweise jedes Audiosegment Audiosamples umfassen, welche sich über eine Zeitdauer erstrecken, die zu einem einzelnen Videoframe von Videodaten korrespondiert, d. h. jedes Audiosegment der Audiodaten korrespondiert zu einem bestimmten Videoframe der Videodaten. Die Segmente überlappen nicht, und es sind keine Lücken zwischen Segmenten vorhanden, d. h. der Anfang jedes Segmentes (ausgenommen das Anfangssegment eines Audiodatensatzes) ist dem Ende des vorhergehenden Segmentes unmittelbar benachbart, und das Ende jedes Segmentes (ausgenommen das Schlusssegment des Audiodatensatzes) ist dem Anfang des nachfolgenden Segmentes unmittelbar benachbart. In den Fig. 4A, 4B und 4C ist der Audiodatensatz 400 in Segmente 401 bis 404 unterteilt. Dies ist jeweils in der obersten Reihe der Fig. 4A, 4B und 4C veranschaulicht.
  • In Schritt 302 wird ein erstes Segment selektiert. Typisch, wenngleich nicht zwingend, ist das in Schritt 302 selektierte erste Segment ein Segment, welches entweder am Anfang oder am Ende des Audiodatensatzes angeordnet ist, z. B. das Segment 401 bzw. das Segment 404 des Audiodatensatzes 400 der Fig. 4A, 4B und 4C. (Es wird erkennbar sein, dass, wenn die Erfindung implementiert wird, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe in Echtzeit zu variieren, das erste Segment allgemein - unter Berücksichtigung des Verarbeitungsgeschwindigkeitsvermögens derzeitiger Einrichtungen zum Verarbeiten von audiovisuellen Daten - das erste zeitlich auftretende Segment sein muss, um die Echtzeitwiedergabe zu wahren.) Bei der nachfolgenden Beschreibung des Verfahrens 300 ist das in Schritt 302 selektierte erste Segment das Segment am Anfang (d. h. zeitlich das erste auftretende Segment) des Audiodatensatzes (d. h. das Segment 401 des Audiodatensatzes 400 in den Fig. 4A, 4B und 4C), und die Segmente werden sukzessive gemäß dem Verfahren 300 unter Vorwärtsbewegen in der Zeit (d. h. von links nach rechts in den Fig. 4A, 4B und 4C) verarbeitet. Aus der nachfolgenden Beschreibung ergibt sich jedoch, dass in Schritt 302 auch das letzte Segment selektiert werden könnte und das Verfahren 300 unter Rückwärtsbewegen in der Zeit (d. h. von rechts nach links in den Fig. 4A, 4B und 4C) in Analogie zu der im Folgenden beschriebenen Weise implementiert werden könnte.
  • In Schritt 303 wird ein zweites Segment selektiert (Segment 402 in Fig. 4A). Das zweite Segment ist zeitlich dem ersten Segment benachbart, jedoch ohne es zu überlappen. Das erste und das zweite Segment sind jeweils in der zweiten Reihe der Fig. 4A, 4B und 4C gezeigt.
  • Wie in dem oben erörterten Beispiel angegeben, kann die Unterteilung eines Audiodatensatzes in exakt gleiche Audiosegmente zu Audiosegmenten mit einem gebrochenen Audiosample führen (in dem obigen Beispiel z. B. 266,67 Audiosamples). Diese Problematik kann, wie im Vorstehenden erörtert, dadurch angesprochen werden, dass die Zahl der Audiosamples in jedem Segment so angepasst wird, dass sie ein ganzzahliger Wert ist, so dass im Mittel jedes Audiosegment die exakt berechnete Zahl von Audiosamples beinhaltet. In den Schritten 302 und 303 sind die ganzen Zahlen von Audiosamples mit den Segmenten als die "Längen" der Segmente assoziiert.
  • In Schritt 304 wird eine Zielüberlappung des ersten und des zweiten Segmentes bestimmt. Die Zielüberlappung repräsentiert eine Approximation der tatsächlichen Überlappung zwischen benachbarten Teilen des ersten und zweiten Segments, welche in späteren Schritten des Verfahrens 300 bestimmt wird. Die Größe der Zielüberlappung steht in direkter Beziehung zu der Zielwiedergaberate; demnach - wie aus der nachfolgenden Beschreibung erkennbar wird - ist die nach dem Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate eng angenähert. Die Zielwiedergaberate kann gemäß der Gleichung (1)
  • t = [(s - 1)/s]·d (1)
  • bestimmt werden, wobei t die Zielüberlappung bedeutet (ausgedrückt in der Zeit oder der Zahl von Audiosamples, wobei s für die Zielwiedergaberate steht (eine dimensionslose Größe, die üblicherweise nicht gleich Eins ist), und wobei d die Dauer jedes Segmentes bedeutet (wieder ausgedrückt in der Zeit oder der Zahl der Audiosamples). (Es sei angemerkt, dass d, wenn in Audiosamples ausgedrückt, ein nicht-ganzzahliger Wert sein kann.) Wie aus der Betrachtung der Gleichung (1) erkennbar, ist in dem Falle, dass die Zielwiedergaberate größer ist als Eins (d. h., wenn eine Beschleunigung der Wiedergabe gewünscht ist), die Zielüberlappung größer als Null. Umgekehrt ist in dem Falle, dass die Zielwiedergaberate kleiner ist als Eins (d. h. wenn eine Verlangsamung der Wiedergabe gewünscht ist), die Zielüberlappung kleiner als Null.
  • In Schritt 305 wird ein Satz von Trial-Überlappungen auf Basis der Zielüberlappung bestimmt. Wie im Folgenden noch ausführlicher erläutert, wird jede der Trial-Überlappungen evaluiert, um zu bestimmen, welche Trial-Überlappung am besten funktioniert, z. B. welche Trial-Überlappung in einer Modifikation des originalen Audiodatensatzes mit der geringsten Verzerrung des durch den modifizierten Audiodatensatz erzeugten Lautes resultiert. Es wird erkennbar sein, dass die Granularität der Trial-Überlappungen (d. h. das Maß, um den jede Trial-Überlappung von der/den Trial-Überlappungen mit der nächstbenachbarten Größe differiert, und der Bereich der Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung beeinflussen kann. Allgemein nimmt mit feiner werdender Granularität der Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung zu, weil mehr Trial-Überlappungen für einen gegebenen Bereich von Trial-Überlappungen evaluiert werden. Allgemein nimmt mit größer werdendem Bereich von Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung zu, weil mehr Trial-Überlappungen für eine gegebene Granularität evaluiert werden. Bevorzugt ist der Bereich der Trial-Überlappungen mindestens groß genug, um einen Pitch-Puls des Pitch mit der niedrigsten, in den Audiodaten zu erwartenden Frequenz zu enthalten (wenn z. B. der Pitch mit der niedrigsten Frequenz eine Frequenz von 80 Hz hat, so dass der Pitch-Puls 12,5 Millisekunden beträgt, und die Samplingrate 8000 Samples pro Sekunde beträgt, ist der Bereich der Trial- Überlappungen bevorzugt mindestens 100 Audiosamples lang), weil im Allgemeinen sich überlagernde Pitch-Pulse von überlappenden Teilen der Segmente innerhalb dieses Bereichs gefunden werden können. Mit zunehmender Zahl an evaluierten Trial-Überlappungen nimmt aber der erforderliche Zeitaufwand zum Evaluieren aller Trial-Überlappungen zu. Ferner vergrößert im Allgemeinen ein breiterer Bereich von Trial-Überlappungen die Wahrscheinlichkeit, eine beste Überlappung zu bestimmen, die sich wesentlich von der Trial-Überlappung unterscheidet; wenn dies häufig genug auftritt, kann die apparente Wiedergaberate erheblich von der Zielwiedergaberate abweichen (wie jedoch im Folgenden erläutert, kann dieses Problem dadurch überwunden werden, dass die tatsächliche apparente Wiedergaberate kontinuierlich überwacht und die Zielwiedergaberate nach Bedarf modifiziert wird, um zu bewirken, dass die apparente Wiedergaberate mit der Zielwiedergaberate konvergiert). Die Granularität und der Bereich der Trial-Überlappungen werden als Kompromiss zwischen der erforderlichen Rechenzeit und der erwarteten Qualität der erzeugten besten Überlappung gewählt. Als Beispiel sei angeführt, dass für eine Audio-Samplingrate von 8000 Samples pro Sekunde der Bereich von Trial- Überlappungen 100 Audiosamples lang sein kann und die Granularität ein Audiosample sein kann, d. h. es werden 101 Trial-Überlappungen evaluiert.
  • Bevorzugt ist der Bereich von Trial-Überlappungen um die Zielüberlappung herum zentriert, so dass, ungeachtet der Tatsache, dass die tatsächliche Überlappung zweier Segmente von der Zielüberlappung abweichen kann, die mittlere tatsächliche Überlappung dazu tendieren wird, mit groß werdender Zahl der Segmente der Zielüberlappung zu gleichen. Je näher die mittlere tatsächliche Überlappung der Zielüberlappung ist, desto näher ist die mit dem Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate. (Die erzeugte apparente Wiedergaberate kann aber auch überwacht werden, um ein Variieren der Zielwiedergaberate zu ermöglichen und zu bewirken, dass die erzeugte apparente Wiedergaberate annähernd gleich der Zielwiedergaberate bleibt, wie im Vorstehenden bereits erwähnt und im Folgenden ausführlich beschrieben.)
  • In Schritt 306 wird eine Trial-Überlappung selektiert, welche bislang noch nicht berücksichtigt wurde. Die Trial-Überlappungen können in beliebiger Reihenfolge evaluiert werden.
  • In Schritt 307 werden die Audiodaten am Ende des ersten Segmentes, welches in die Überlappung fällt, als erste Segmentüberlappungsdaten identifiziert. Dies ist zum Beispiel jeweils in der dritten Reihe der Fig. 4A, 4B und 4C dargestellt, d. h. Fig. 4A zeigt einen Satz von ersten Segmentüberlappungsdaten 406.
  • In Schritt 308 werden die Audiodaten am Anfang des zweiten Segmentes, welches in die Überlappung fällt, als zweite Segmentüberlappungsdaten identifiziert. Dies ist zum Beispiel ebenfalls jeweils in der dritten Reihe der Fig. 4A, 4B und 4C dargestellt, d. h. Fig. 4A zeigt einen Satz von zweiten Segmentüberlappungsdaten 407.
  • Wenn zwei Segmente überlappt sind, dann liegen nicht nur Segmentüberlappungsdaten vor (wie im Vorhergehenden beschrieben), sondern auch nicht- überlappte Daten. Nicht-überlappte Daten sind ebenfalls jeweils in der dritten Reihe der Fig. 4A, 4B und 4C gezeigt. Gemäß Fig. 4A enthält zum Beispiel ein erstes Segment 401 nicht-überlappte Daten 405, während ein zweites Segment 402 nicht-überlappte Daten 408 enthält.
  • In Schritt 309 wird die Korrelation zwischen den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten berechnet. Es kann ein beliebiges geeignetes Verfahren zum Berechnen einer Korrelation zwischen den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten zur Verwendung kommen. Bei einer Ausführungsform wird die Korrelation als das mittlere Kreuzprodukt korrespondierender Audiodaten von den ersten Segmentüberlappungsdaten (nachdem der Mittelwert der ersten Segmentüberlappungsdaten jeweils von den ersten Segmentüberlappungsdaten subtrahiert wurde) und den zweiten Segmentüberlappungsdaten (nachdem der Mittelwert der zweiten Segmentüberlappungsdaten jeweils von den zweiten Segmentüberlappungsdaten subtrahiert wurde) bestimmt. N&sub1; und N&sub2; sei die Datenmenge im ersten bzw. zweiten Segment. M bedeute die Datenmenge, welche dem ersten Segment von dem zweiten Segment hinzugefügt wird, um sich negativen Überlappungen anzupassen, falls notwendig, wie im Vorstehenden beschrieben. (Es sei angemerkt, dass es auch notwendig sein mag, zusätzliche Daten zu dem zweiten Segment hinzuzufügen, wenn zum Beispiel der Bereich von Überlappungen größer ist als die Länge des zweiten Segmentes; wie aber im Folgenden erörtert, wird angenommen, dass diese Eventualität in typischen Anwendungen der Erfindung unwahrscheinlich ist.)
  • Die Amplitude der Audiodaten im ersten Segment sei repräsentiert durch a[1], a[2], ..., a[N&sub1; + M] (worin M Null ist, wenn keine Daten zu dem ersten Segment hinzugefügt wurden), und die Amplitude der Audiodaten im zweiten Segment sei repräsentiert durch b[1], b[2], ..., b[N&sub2;]. k bedeute die Menge an Audiodaten in einer Trial-Überlappung, (2r + 1) stehe für die Länge des Bereichs von Trial-Überlappungen (so dass r Audiodaten zu beiden Seiten der Trial-Überlappung vorhanden sind), und d sei die Zielüberlappung. Die Mittelwerte der ersten und zweiten Segmentüberlappungsdaten für eine Trial-Überlappung sind gegeben durch die Gleichungen (2) bzw. (3):
  • a' = (a[N&sub1; - k + 1] + a[N&sub1; - k + 2] + ... + a[N&sub1; + M])/(k + M) (2)
  • b' = (b[1] + b[2] + ... + b[k + M])/(k + M) (3)
  • Das Korrelationsmaß C ist dann gegeben durch Gleichung (4):
  • C = {(a[N&sub1; - k + i] - a')·(b[1] - b') + (a[N&sub1; - k + 2] - a')· (b[2] - b') + ... + (a[N&sub1; + M] - a')·(b[k + M] - b')}/(k + M) (4)
  • Es mag wünschenswert sein, die Korrelationsberechnung zu modifizieren, um die berechnete Korrelation für jede Trial-Überlappung entsprechend der Nähe der Trial-Überlappung zu der Zielüberlappung zu gewichten. Das Korrelationsmaß C ist dann gegeben durch die Gleichung (5):
  • C = W(d, k, r)·{(a[N&sub1; - k + 1] - a')·(b[1] - b') + (a[N&sub1; - k + 2] - a')·(b[2] - b') + ... + (a[N&sub1; + M] - a')· (b[k + M] - b')}/(k + M) (5)
  • worin W(d, k, r) einen Gewichtungsfaktor bedeutet, der eine Funktion der jeweiligen Trial-Überlappung k, der Zielüberlappung d und der halben Länge des Bereichs von Trial-Überlappungen r ist. Es kann eine beliebige geeignete Gewichtungsfunktion verwendet werden. Beispielsweise könnte die Gewichtungsfunktion wie in Gleichung (6) gegeben sein:
  • W(d, k, r) = 1 - k - d /r (6)
  • Wie aus der Betrachtung von Gleichung (6) erkennbar, ist eine solche Gewichtungsfunktion gleich Null an beiden Enden des Bereichs von Trial-Überlappungen (weil k - d gleich r für diese Überlappungen ist) und ist gleich Eins für die Zielüberlappung (weil k - d gleich Null für diese Überlappung ist). Die Gewichtungsfunktion nimmt linear zwischen dem jeweiligen Ende des Bereichs von Überlappungen und der Zielüberlappung zu.
  • In Schritt 310 wird eine Bestimmung dahingehend durchgeführt, ob jede Trial- Überlappung evaluiert worden ist. Der Schritt 310 wird verwendet, um zu bestimmen, wann der Vergleich von überlappenden Teilen von einander benachbarten Segmenten enden soll. Wenn immer noch eine oder mehrere Trial- Überlappungen zu evaluieren ist bzw. sind, kehrt das Verfahren 300 zu Schritt 306 zum Selektieren einer anderen zu evaluierenden Trial-Überlappung zurück, und die Schritte 307 bis 309 werden erneut durchgeführt. Das Verfahren 300 wiederholt die Schritte 306 bis 309, bis alle Trial-Überlappungen evaluiert worden sind. Sobald alle Trial-Überlappungen evaluiert worden sind, wird das Verfahren 300 mit Schritt 311 fortgesetzt.
  • In Schritt 311 wird die beste Überlappung selektiert. Die beste Überlappung ist diejenige Überlappung, die das höchste Korrelationsmaß zwischen den Audiodaten der ersten Segmentüberlappungsdaten und den Audiodaten der zweiten Segmentüberlappungsdaten aufweist, z. B. das höchste mittlere Kreuzprodukt (im Vorstehenden beschrieben). Wenn mehr als eine Trial-Überlappung das höchste Korrelationsmaß aufweist, dann wird diejenige Trial-Überlappung selektiert, die der Zielüberlappung am nächsten kommt. Wenn es zwei solcher Trial-Überlappungen gibt, die am nächsten kommen, kann eine beliebige der beiden gewählt werden, oder - gemäß einem erfindungsgemäßen Verfahren, bei dem die tatsächliche apparente Wiedergaberate überwacht wird (im Folgenden beschrieben) - es wird diejenige Trial-Überlappung gewählt, die bewirkt, dass die tatsächliche apparente Wiedergaberate näher an die Zielwiedergaberate herankommt. Es möge beachtet werden, dass die beste Überlappung positiv oder negativ sein kann. Ferner gilt dies sowohl für eine Zielwiedergaberate größer als Eins (Beschleunigung der Wiedergabe) als auch kleiner als Eins (Verlangsamung der Wiedergabe). Jedoch wird für eine Beschleunigung der Wiedergabe die beste Überlappung typisch positiv sein, während für eine Verlangsamung der Wiedergabe die beste Überlappung typisch negativ sein wird; in beiden Fällen liegt idealerweise die beste Überlappung größenmäßig nahe der Zielüberlappung. Aus Gründen der leichteren Beschreibung und beispielhaften Darstellung der Erfindung sei davon ausgegangen, dass die dritte Zeile der Fig. 4A, 4B und 4C die beste Überlappung für das erste und zweite Segment dieser Figuren zeigt. Beispielsweise ist in Fig. 4A die beste Überlappung im ersten Segment durch die Ziffer 409 und im zweiten Segment durch die Ziffer 410 bezeichnet.
  • In Schritt 312 werden die nicht-überlappten Daten, auf Basis der besten Überlappung, von dem ersten Segment gespeichert. Die gespeicherten nicht- überlappten Daten von dem ersten Segment sind jeweils in der vierten Reihe der Fig. 4A, 4B und 4C gezeigt. So werden zum Beispiel in Fig. 4A die nicht-überlappten Daten 405 gespeichert. Man beachte, dass, wenn die beste Überlappung negativ ist (wie dies typisch für eine Verlangsamung der Wiedergabe der Fall ist), dann enthalten die nicht-überlappten Daten mehr als die Audiodaten von dem ersten Segment; die nicht-überlappten Daten enthalten auch einige Audiodaten, die ursprünglich Teil des zweiten Segmentes waren (und, möglicherweise, in einem extremen Verlangsamungsfall, nachfolgender Segmente).
  • In Schritt 313 werden die ersten Segmentüberlappungsdaten, welche zu der besten Überlappung korrespondieren, mit den zweiten Segmentüberlappungsdaten, welche zu der besten Überlappung korrespondieren, gemischt. Wie in der jeweils fünften Reihe der Fig. 4A, 4B und 4C zu sehen, ersetzen die gemischten Audiodaten die zweiten Segmentüberlappungsdaten in dem zweiten Segment. Beispielsweise enthält in Fig. 4A nach dem Mischen das zweite Segment 402 gemischte Daten 411 und nicht-überlappte Daten 408. Die ersten Segmentüberlappungsdaten und die zweiten Segmentüberlappungsdaten werden verworfen. Gemäß Fig. 4A ersetzen die gemischten Daten also die ersten und die zweiten Segmentüberlappungsdaten, wodurch die Größe des Audiodatensatzes 400 um die Menge der überlappten Daten vermindert wird (d. h. die Größe der ersten Segmentüberlappungsdaten oder, äquivalent, der zweiten Segmentüberlappungsdaten).
  • Das Mischen kann durchgeführt werden unter Verwendung einer beliebigen geeigneten Technik, welche eine glatte Transition zwischen dem Ende der ersten Segmentüberlappungsdaten und dem Anfang der zweiten Segmentüberlappungsdaten erzeugt. So kann das Mischen zum Beispiel durchgeführt werden, indem eine lineare Überblendung der ersten Segmentüberlappungsdaten mit den zweiten Segmentüberlappungsdaten durchgeführt wird, welche eine gewichtete Kombination der Daten in dem ersten und zweiten Überlappungssegment erzeugt. Die Gewichtung der ersten Segmentüberlappungsdaten ist linear ansteigend von Eins am Anfang der ersten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den nicht-überlappten Daten des ersten Segmentes) zu Null am Ende der ersten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den zweiten Segmentüberlappungsdaten). Dementsprechend ist die Gewichtung der zweiten Segmentüberlappungsdaten linear ansteigend von Null am Anfang der zweiten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den ersten Segmentüberlappungsdaten) zu Eins am Ende der zweiten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den nicht-überlappten Daten des zweiten Segmentes). Die lineare Überblendung der ersten und zweiten Segmentüberlappungsdaten ist gegeben durch Gleichung (7):
  • g[i] = (i/(k + M))·b[i] + (1 - (i/(k + M)))·a[N&sub1; - k + i]
  • für i = 1, 2, ..., (k + M) (7)
  • wobei N&sub1; die ursprüngliche Zahl von Samples in dem ersten Segment ist; wobei M die Zahl der Samples bedeutet, welche gegebenenfalls zur Erweiterung der Länge des ersten Segmentes zwecks Anpassung an negative Überlappungen hinzugefügt wurden; wobei k (hier) die beste Überlappung ist; wobei (k + M) die Zahl der Samples für die beste Überlappung ist, welche zwischen dem erweiterten ersten Segment und dem zweiten Segment überlappen; wobei a[N&sub1; - k + 1], a[N&sub1; - k + 2], ..., a[N&sub1; + M] die letzten [k + M]-Samples des erweiterten ersten Segmentes a sind; wobei b[1], b[2], ..., b[k + M] die ersten (k + M)-Samples des zweiten Segmentes b sind; und wobei g[1], g[2], ..., g[k + M] die (k + M)-Samples der gemischten Daten g sind.
  • In Schritt 314 wird eine Bestimmung dahingehend durchgeführt, ob das zweite Segment das letzte Segment in dem Audiodatensatz ist. Der Schritt 314 wird verwendet, um zu bestimmen, wenn das Verfahren 300 enden soll (d. h. wenn der ganze Audiodatensatz modifiziert worden ist) und wird im Folgenden näher erläutert.
  • In Schritt 315 werden die gemischten Daten mit den nicht-überlappten Daten des zweiten Segmentes kombiniert, um ein modifiziertes zweites Segment zu bilden. Diese Kombination ist jeweils in der fünften Reihe der Fig. 4A, 4B und 4C veranschaulicht. So enthält beispielsweise, wie im Vorstehenden bereits erwähnt, gemäß Fig. 4A nach erfolgtem Mischen das zweite Segment 402 gemischte Daten 411 und nicht-überlappte Daten 408. An diesem Punkt ist die Überlappung der ersten zwei Segmente des Audiodatensatzes komplett, und es kann ein neuer Satz von Segmenten überlappt werden.
  • Typisch werden bei positiver Zielüberlappung (d. h., wenn die apparente Wiedergaberate beschleunigt werden soll, so dass die Zielwiedergaberate größer als Eins ist) das erste und das zweite Segment entsprechend jeder der Trial- Überlappungen überlappt, indem einfach das zweite Segment in der Zeit in Richtung des ersten Segmente bewegt wird, und zwar um einen Betrag, der gleich der Trial-Überlappung ist (d. h. von rechts nach links in den Fig. 4A, 4B und 4C). Jede Trial-Überlappung bewegt das zweite Segment um einen anderen Betrag in bezug auf das erste Segment.
  • Die Fig. 5A, 5B und 5C zeigen eine Überlappung von Segmenten, wobei alle Trial-Überlappungen positiv sind. In Fig. 5A sind benachbarte Segmente 501 und 502 gezeigt. Segment 501 enthält Pitch-Pulse 501a, 501b und 501c, während Segment 502 Pitch-Pulse 502a, 502b und 503c enthält.
  • In Fig. 5B ist die Überlappung der Segmente 501 und 502 veranschaulicht. Segment 502 ist in zwei Positionen gezeigt: die obere Position korrespondiert zu der Zielüberlappung 503, während die untere Position zu der besten Überlappung 505 korrespondiert. Der Bereich 504 von Überlappungen ist ebenfalls gezeigt. Fig. 58 zeigt, wie die beste Überlappung 505 aus dem "Matching" von Pitch-Pulsen in benachbarten Segmenten resultieren kann: in der unteren Position des Segmentes 502 liegt der Pitch-Puls 502a des Segmentes 502 über dem Pitch-Puls 501c des Segmentes 501. (Es sei angemerkt, dass, konzeptionsmäßig, wenn die Segmente 501 und 502 überlappen, die überlappenden Bereiche übereinanderliegen; aus Gründen der Übersichtlichkeit der Darstellung sind in Fig. 58 die Segmente 501 und 502 in vertikaler Richtung zueinander versetzt.)
  • In Fig. 5C ist der Teil des Segmentes 501, der in dem modifizierten Audiodatensatz behalten wird, als Segment 511 gezeigt. Das Segment 512 repräsentiert ein modifiziertes zweites Segment 502: der Abschnitt 512a repräsentiert das Mischen der überlappenden Bereiche der Segmente 501 und 502, während der Abschnitt 512b den nicht-überlappenden Bereich des Segmentes 502 repräsentiert, einschließlich der Pitch-Pulse 502b und 502c. (Der Abschnitt 512a ist wie in Fig. 5C gezeigt repräsentiert, um zu zeigen, dass der Abschnitt 512a durch Mischen von Daten erzeugt wird; die Darstellung soll nicht den Audiodateninhalt des Abschnittes 512a widerspiegeln.)
  • Wenn z. B. der Pitch eines gesprochenen Lautes 90 Hz beträgt, jedes Audiosegment zu einem Videoframe korrespondiert und die Videoframerate 30 Hz beträgt, dann wird jedes Audiosegment 3 Pitch-Pulse beinhalten, wie in den Fig. 5A, 5B und 5C gezeigt. Ein gesprochener Vokallaut kann z. B. ca. 1/3 Sekunde dauern. Für die obengenannte Pitch-Frequenz und Audiosegmentlänge wird ein derartiger gesprochener Vokallaut 30 Pitch-Pulse enthalten und sich über 10 Audiosegmente erstrecken. Weil jeder zu einem solchen Vokallaut korrespondierende Pitch-Puls sehr ähnlich den anderen Pitch-Pulsen dieses Vokallautes sein wird, ist leicht zu erkennen, dass die zu diesem Vokallaut korrespondierenden 10 Audiosegmente überlappt sein können, wie in den Fig. 5A, 5B und 5C gezeigt (das heißt, so dass Pitch-Pulse von einander benachbarten Segmenten übereinander liegen), und zwar sogar um einen sehr großen Betrag, ohne eine wesentliche (oder möglicherweise überhaupt keine) Verzerrung dieses Lautes zu erzeugen. Eine solche Verzerrung, wie sie durch die Verwendung einer solchen Überlappungsmethode erzeugt wird, entsteht häufig aus der Überlappung von Segmenten, welche Pitch-Pulse von verschiedenen Lauten beinhalten (das heißt, aufeinanderfolgende verschiedene Vokallaute, aufeinanderfolgende verschiedene Konsonantlaute oder aufeinanderfolgende Vokal- und Konsonantlaute).
  • Eine oder mehrere Trial-Überlappungen können negativ sein. Negative Überlappungen können in verschiedenen Situationen auftreten. Wenn z. B. eine Verlangsamung der Wiedergabe (Zielwiedergaberate kleiner als Eins) gewünscht wird, ist die Zielüberlappung negativ (ausgenommen vielleicht manche Fälle, in denen eine Echtzeitanpassung der Zielüberlappung, wie an anderer Stelle hierin beschrieben, eine positive Zielüberlappung erzeugt, um zu bewirken, dass die tatsächliche apparente Wiedergaberate der Zielwiedergaberate noch näher kommt). Wenn die Zielüberlappung negativ ist, sind in der Regel die meisten, häufig alle Trial-Überlappungen ebenfalls negativ.
  • Die Fig. 6A, 6B und 6C zeigen die Überlappung von Segmenten, wobei alle Trial-Überlappungen negativ sind. Fig. 6A zeigt einander benachbarte Segmente 601 und 602. Segment 601 enthält Pitch-Pulse 601a, 601b und 601c, während Segment 602 Pitch-Pulse 602a, 602b und 602c enthält.
  • In Fig. 6B ist die Überlappung der Segmente 601 und 602 veranschaulicht. Segment 602 ist in zwei Positionen gezeigt: die obere Position korrespondiert zu der Ziel-Überlappung 603, während die untere Position zu der besten Überlappung 605 korrespondiert. Der Bereich 604 von Überlappungen ist ebenfalls gezeigt. Wie aus Fig. 6B ersichtlich, bewirkt die negative Überlappung, dass das zweite Segment 602 von dem ersten Segment 601 wegbewegt wird (das heißt bezogen auf Fig. 6B nach rechts), wodurch eine Lücke zwischen dem Ende des ersten Segmentes und dem Anfang des zweiten Segmentes 602 entsteht. Um die Segmente 601 und 602 zu überlappen, müssen Audiodaten zu dem Ende des Segmentes 601 hinzugefügt werden. Dies wird herbeigeführt, indem Daten vom Anfang des zweiten Segmentes 602 zum Ende des ersten Segmentes 601 hinzugefügt werden, um ein erweitertes erstes Segment 606 zu bilden. Die dem ersten Segment 601 hinzugefügte Menge an Daten ist eine Menge gleich mindestens einem Audiosample mehr als die Menge, um die sich die negativste Überlappung vom Ende des ersten Segmentes 601 in das zweite Segment 602 hinein erstreckt (um sicherzustellen, dass mindestens ein gewisser Grad an Überlappung zwischen dem erweiterten ersten Segment 606 und dem zweiten Segment 602 für alle Überlappungen vorhanden ist). Wie die im Vorstehenden beschriebene Fig. 5B zeigt Fig. 6B, wie die beste Überlappung 605 aus dem "Matching" von Pitch-Pulsen in den Segmenten resultieren kann: in der unteren Position 602 liegt der Pitch-Puls 602a des Segmentes 602 über dem Pitch-Puls 602b des erweiterten Segmentes 606.
  • In Fig. 6C ist der Teil des erweiterten Segmentes 606, der in dem modifizierten Audiodatensatz beibehalten wird, als Segment 611 gezeigt. Das Segment 612 repräsentiert ein modifiziertes zweites Segment 602: der Abschnitt 612a repräsentiert das Mischen der überlappenden Bereiche des erweiterten Segmentes 606 und des Segmentes 602, während der Abschnitt 612b den nicht-überlappenden Teil des Segmentes 602 repräsentiert, einschließlich der Pitch-Pulse 602b und 602c.
  • Wie im Vorstehenden bereits erwähnt, kann eine negative Überlappung auch in anderen Situationen auftreten. So erzeugen z. B. bei Zielüberlappungen größer als Null die Größe der Zielüberlappung, die Größe des Bereichs der Überlappungen und die Position des Bereichs bezogen auf die Zielüberlappung in Kombination eine oder mehrere negative Trial-Überlappungen. In Fig. 7 ist diese Situation veranschaulicht. Eine Zielüberlappung 704, gemessen von einem Punkt 703, bei dem das erste Segment 701 an das zweite Segment 702 angrenzt, erstreckt sich zu einem Punkt 701a in einem ersten Segment 701 und einem Punkt 702a in einem zweiten Segment 702. Ein Bereich von Trial- Überlappungen ist um die Zielüberlappung 704 zentriert. Der Bereich hat eine Länge 705 und erstreckt sich zu beiden Seiten der Trial-Überlappung 704 zu Punkten 701b und 701c "in" dem ersten Segment 701 und zu Punkten 702b und 702c "in" dem zweiten Segment 702. Die Größe der Zielüberlappung 704, die Länge 705 des Bereichs und die Position des Bereichs bezogen auf die Zielüberlappung 704 sind so, dass einige Überlappungen (negative Überlappungen) innerhalb des Bereichs von Trial-Überlappungen bewirken, dass das erste Segment 701 und das zweite Segment 702 so positioniert sind, dass die Segmente 701 und 702 einander tatsächlich nicht überlappen. (Dies ist aus der Betrachtung von Fig. 7 ersichtlich, welche zeigt, dass die Punkte 701c und 702c, welche "in" dem ersten Segment 701 bzw. zweiten Segment 702 sind, tatsächlich außerhalb der Segmente 701 bzw. 702 liegen.) In einer Situation, wie sie in Fig. 7 gezeigt ist, können die positiven Überlappungen auf eine Weise evaluiert werden, wie in den Fig. 5A, 5B und 5C gezeigt, während die negativen Überlappungen auf eine Weise evaluiert werden können, wie sie in den Fig. 6A, 6B und 6C gezeigt ist.
  • Wenn der Absolutwert einer oder mehrerer negativer Überlappungen größer ist als die Länge des zweiten Segmentes (was z. B. geschehen kann, wenn die Zielwiedergaberate kleiner als 0,5 ist), dann können zusätzliche Audiodaten von dem Audiodatensatz, der hinter dem zweiten Segment ist, nach Bedarf zu dem ersten Segment hinzugefügt werden. (Es sei angemerkt, dass in der Praxis Zielwiedergaberaten unter 0,5 unüblich sind, weil bei derart niedrigen Wiedergaberaten die Qualität der Audiowiedergabe eine nicht hinnehmbare Verschlechterung erfährt.)
  • In Abhängigkeit von dem Wert der Zielüberlappung, der Größe des Bereichs von Überlappungen und der Anordnung des Bereichs von Überlappungen bezogen auf die Zielüberlappung können Spezialfälle entstehen, die einer Modifikation des im Vorstehenden beschriebenen allgemeinen Ansatzes bedürfen. Einige solcher spezieller Situationen und Wege zu ihrer Handhabung sind im nachfolgenden erörtert.
  • So können z. B. im Falte von Zielüberlappungen größer als Null die Größe der Zielüberlappung, die Größe des Bereichs von Überlappungen und die Position des Bereichs bezogen auf die Zielüberlappung in Kombination eine oder mehrere Trial-Überlappungen erzeugen, die bewirkt bzw. bewirken, dass der Anfang des zweiten Segmentes so verschoben wird, dass er sich vordem Anfang des ersten Segmentes erstreckt (das heißt, eine Überlappung größer als die Länge des ersten Segmentes). Fig. 8A zeigt diese Situation, während Fig. 8B einen Weg aufzeigt, mit dem diese Situation angesprochen werden kann. Wie in Fig. 8A gezeigt, erstreckt sich eine Zielüberlappung 804 zu einem Punkt 801a in einem ersten Segment 801 und zu einem Punkt 802a in zweiten Segment 802. Ein Bereich von Trial-Überlappungen ist um die Zielüberlappung 804 zentriert. Der Bereich hat eine Länge 805 und erstreckt sich in gleichen Abständen 805a und 805b zu beiden Seiten der Trial-Überlappung 804 zu Punkten 801b und 801c "in" dem ersten Segment 801 und zu Punkten 802b und 802c "in" dem zweiten Segment 802. Die Größe der Zielüberlappung 804 und die Distanz 805a sind so, dass der Punkt 801b sich um eine Distanz 806 über das erste Segment 801 hinaus erstreckt, so dass einige Überlappungen innerhalb des Bereichs von Trial-Überlappungen bewirken, dass das zweite Segment 802 vor dem Anfang des ersten Segmentes 802 positioniert ist. Daraus ergibt sich ein Problem, weil in dem ersten Segment 801 keine Daten sind, die zu dem Teil des zweiten Segmentes 802 korrespondieren können, der sich vor dem ersten Segment 801 erstreckt.
  • Wie in Fig. 8B gezeigt, kann diese Problematik überwunden werden durch Verschieben des Bereichs von Überlappungen um eine Distanz 806, so dass der Bereich von Überlappungen sich zwischen Punkten 801d und 801e in dem ersten Segment 801 und zwischen Punkten 802d und 802e in dem zweiten Segment 802 erstreckt. Nun wird damit zwar das in Fig. 8A veranschaulichte Problem überwunden, und es wird immer noch die gleiche Zahl von Überlappungen berücksichtigt (was wünschenswert ist, um die Qualität der Bestimmung der besten Überlappung zu verbessern), jedoch ist der Bereich von Überlappungen nicht mehr um die Zielüberlappung 804 zentriert: die Abstände 805a und 805b z. B. wurden um einen Betrag gleich der Distanz 806 verkürzt bzw. verlängert. Dieses "Aus-dem-Gleichgewicht-Bringen" der Trial-Überlappungen kann die Wahrscheinlichkeit, dass die mittlere tatsächliche Überlappung von der Zielüberlappung abweicht, und das Ausmaß, in dem dies geschieht, erhöhen und damit verbunden dazu führen, dass die erzeugte apparente Wiedergaberate von der Zielwiedergaberate abweicht.
  • Alternativ können einige der Trial-Überlappungen aus der Betrachtung herausgenommen werden. So kann z. B. eine Zahl von Überlappungen, welche betragsmäßig der Länge 806 entsprechen, von beiden Enden des Bereichs von Trial-Überlappungen eliminiert werden. Dieser Ansatz hat den Vorteil, dass der Bereich von Überlappungen um die Zielüberlappung zentriert bleibt, wodurch die Wahrscheinlichkeit, dass die durch das Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate angepasst ist, erhöht wird.
  • Ferner ist es möglich, dass der Bereich von Trial-Überlappungen größer ist als die Länge jedes Segmentes. (Es wird jedoch davon ausgegangen, dass es zu bevorzugen - und auch typisch - ist, dass die Größe des Bereichs von Trial- Überlappungen so spezifiziert wird, dass dies nicht geschieht: typisch weißt ein Segment eine Länge von mehreren Pitch-Pulsen auf und, wie im Vorstehenden beschrieben, wird der Bereich von Trial-Überlappungen ein wenig länger als ein Pitch-Puls sein.) In diesem Fall können dem ersten Segment Daten hinzugefügt werden, wie im Vorstehenden beschrieben, und dem zweiten Segment können zusätzliche Daten von den Audiodaten, die nach dem Ende des zweiten Segmentes auftreten, hinzugefügt werden. Es mag auch notwendig sein, den Bereich von Überlappungen zu verschieben, so dass der Bereich nicht um die Zielüberlappung zentriert ist, wie ebenfalls im Vorstehenden beschrieben, oder einige Überlappungen von dem Bereich von Überlappungen zu entfernen, wie ebenfalls im Vorstehenden beschrieben.
  • Es wird nun erneut auf die Fig. 3A und 3B Bezug genommen, gemäß welchen in Schritt 316 das modifizierte zweite Segment als ein neues erstes Segment für die nächste Überlappung selektiert wird. Es sei hier ein Punkt wiederholt, der bereits im Vorstehenden auf etwas andere Weise ausgedrückt wurde, nämlich, dass die Bedeutung der Verwendung des modifizierten zweiten Segmentes von der vorherigen Überlappung als das erste Segment der aktuellen Überlappung an Stelle des unmodifizierten zweiten Segmentes darin liegt, dass die gemischten Daten den Bereich glätten, in dem Audiodaten entfernt werden, so dass aus der Entfernung von Audiodaten resultierende Lautverzerrungen auf ein Minimum reduziert werden.
  • Nach Selektion des neuen ersten Segmentes geht das Verfahren 300 sodann zu Schritt 303 zurück, um ein neues zweites Segment zu selektieren, welches zeitlich benachbart zu dem neuen ersten Segment liegt, ohne dieses jedoch zu überlappen. Wie im Vorstehenden erwähnt, sind das erste und das zweite Segment jeweils in der zweiten Reihe der Fig. 4A, 4B und 4C gezeigt. Im Einzelnen ist in Fig. 4B nach erfolgter Überlappung des Segmentes 401 und des Segmentes 402 das erste Segment das modifizierte Segment 402 von Fig. 4A (einschließlich der gemischten Daten 411 und der nicht-überlappten Daten 408) und das zweite Segment ist das Segment 403 (unmodifiziert) des Audiodatensatzes 400.
  • Die Schritte 304 bis 316 werden erneut durchgeführt, um das Ende des modifizierten Segmentes 402 mit dem Anfang des Segmentes 403 zu mischen. In der dritten Reihe von Fig. 4B ist die beste Überlappung des modifizierten Segmentes 402 und des Segmentes 403 gezeigt. Die beste Überlappung ist mit der Bezugsziffer 416 in dem modifizierten Segment 402 und mit der Bezugsziffer 417 in dem Segment 403 bezeichnet. Für die beste Überlappung enthält das modifizierte Segment 402 nicht-überlappte Daten 412 und erste Segmentüberlappungsdaten 413, während das Segment 403 nicht-überlappte Daten 415 und zweite Segmentüberlappungsdaten 414 enthält. Die nicht- überlappten Daten 412 des modifizierten Segmentes 402 werden mit den zuvor gespeicherten nicht-überlappten Daten 405 von dem ersten Segment 401 gespeichert, wie in der vierten Reihe von Fig. 4B gezeigt. (Es möge beachtet werden, dass die nicht-überlappten Daten 412 des modifizierten Segmentes 402 die gemischten Daten 411 enthalten.) Die ersten Segmentüberlappungsdaten 413 werden mit den zweiten Segmentüberlappungsdaten 414 gemischt, um die gemischten Daten 418 zu erzeugen. Auf diese Weise wird die Größe des Audiodatensatzes 400 um den Betrag der Überlappung des modifizierten Segments 402 und des Segmentes 403 (das heißt, Überlappung 416 in dem modifizierten Segment 402 oder, äquivalent, Überlappung 417 in dem Segment 403) weiter reduziert. Wie in der fünften Reihe von Fig. 4B gezeigt, werden die gemischten Daten 418 mit den nicht-überlappten Daten 415 von dem Segment 403 kombiniert, um ein modifiziertes Segment 403 zu erzeugen.
  • Wie in der zweiten Reihe von Fig. 4C gezeigt, beginnt die Überlappung der Segmente 403 und 404 des Audiodatensatzes 400 mit der Selektion des modifizierten Segmentes 403 als das erste Segment und des Segmentes 404 als das zweite Segment (dies ist auch in der fünften Reihe von Fig. 4B gezeigt). Wieder werden die Schritte 304 bis 316 durchgeführt, um das Ende des modifizierten Segmentes 403 mit dem Anfang des Segmentes 404 zu mischen. In der dritten Reihe von Fig. 4C ist die beste Überlappung (bezeichnet mit Ziffer 423 in dem modifizierten Segment 403 und mit der Ziffer 424 in dem Segment 404) des modifizierten Segmentes 403 und des Segmentes 404 gezeigt. Für die beste Überlappung enthält das modifizierte Segment 403 nicht-überlappte Daten 419 und erste Segmentüberlappungsdaten 420, während das Segment 404 nicht-überlappte Daten 422 und zweite Segmentüberlappungsdaten 421 enthält. Die nicht-überlappten Daten 419 des modifizierten Segmentes 403 werden mit den zuvor gespeicherten nicht-überlappten Daten 405 von denn ersten Segment 401 und den nicht-überlappten Daten 412 von dem modifizierten Segment 402 gespeichert, wie in der vierten Reihe von Fig. 4C dargestellt. (Es möge beachtet werden, dass auch hier die nicht-überlappten Daten 419 des modifizierten Segmentes 403 die gemischten Daten 418 enthalten.) Die ersten Segmentüberlappungsdaten 420 werden mit den zweiten Segmentüberlappungsdaten 421 gemischt, um die gemischten Daten 425 zu erzeugen, wodurch die Größe des Audiodatensatzes 400 um den Betrag der Überlappung des modifizierten Segmentes 403 und des Segmentes 404 (das heißt, Überlappung 423 in dem modifizierten Segment 403 oder, äquivalent, Überlappung 424 in dem Segment 404) weiter reduziert wird.
  • Es wird nun erneut auf die Fig. 3A und 3B Bezug genommen, gemäß welchen in Schritt 314 eine Bestimmung durchgeführt wird, dahingehend, ob das zweite Segment der beiden überlappten Segmente das letzte Segment in dem Audiodatensatz ist. Wenn ja, dann werden in Schritt 317 die von den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten erzeugten gemischten Daten zusammen mit den nicht-überlappten Daten von dem zweiten Segment gespeichert. Dies ist in der fünften Reihe von Fig. 4C gezeigt: die gemischten Daten 425 und die nicht-überlappten Daten 422 werden mit den nicht-überlappten Daten 405, 412 und 419 gespeichert, um den modifizierten Audiodatensatz 400 zu bilden. Der modifizierte Audiodatensatz 400 ist um den kumulativen Betrag der besten Überlappungen, wie im Vorstehenden bestimmt, kürzer als der originale Audiodatensatz 400.
  • In der obigen Beschreibung des Verfahrens 300 wird gesagt, dass die Daten des modifizierten Audiodatensatzes 400 "gespeichert" werden, wenn diese Daten identifiziert werden. In diesem Zusammenhang muss der Ausdruck "gespeichert" nicht unbedingt permanentes Speichern in einer nichtflüchtigen Datenspeichereinrichtung bedeuten, bei der es z. B. um einen Plattenspeicher handeln kann, vielmehr kann der Ausdruck auch nur bedeuten, dass die Daten vorübergehend gespeichert werden (z. B. in einem Direktzugriffsspeicher), bevor sie zur Generierung einer Wiedergabe verwendet werden. Allgemein können, sobald ein korrespondierender Videoframe des modifizierten Videodatensatzes als Begleitung eines Audiosegmentes des modifizierten Audiodatensatzes bestimmt wurde, wie im nachfolgenden beschrieben, dieses Audiosegment und dieser Videoframe den geeigneten Wiedergabeeinrichtungen zur Generierung einer Wiedergabe dargeboten werden. Dies ist so, weil die Bestimmung der "gespeicherten" Daten des modifizierten Audio- und Videodatensatzes nicht durch Daten von dem originalen Audio- und Videodatensatz beeinflusst wird, die relativ weit in der Zukunft liegen. Weiter: weil die Berechnungen zum Bestimmen modifizierter Audio- und Videodaten kurz vor dem Generieren einer Wiedergabe von diesen Daten erfolgen kann, können die Berechnungen auf Basis einer erst vor sehr kurzer Zeit bestimmten (z. B. von einem Benutzer in Echtzeit bestimmten) Zielwiedergaberate durchgeführt werden. Ferner kann die für das Verfahren 300 erforderliche Menge an Berechnungen für typische Mengen an Audio- und Videodaten (siehe die im Vorstehenden erörterten beispielhaften Zahlen) mit Hilfe derzeitiger Verarbeitungseinrichtungen ausreichend schnell durchgeführt werden, um die Generierung einer Echtzeitwiedergabe von den modifizierten Audio- und Videodaten zu ermöglichen. Aus dem Vorstehenden wird somit erkennbar, dass die Erfindung es ermöglichen kann, die apparente Wiedergaberate einer audiovisuellen Wiedergabe in Echtzeit zu variieren.
  • Im Vorstehenden wurde ein bestimmtes Verfahren zum Modifizieren eines Satzes von Audiodaten zum Variieren der apparenten Wiedergaberate einer Audiowiedergabe beschrieben. Es versteht sich, dass allgemein auch andere Verfahren für ein derartiges Modifizieren eines Audiodatensatzes für die Erfindung Verwendung finden können. So können z. B. auch Verfahren auf Basis schneller Fourier-Transformationen (FFT) oder Analyse-/Synthese-Systeme verwendet werden. Eine Erörterung solcher anderer Methoden ist in einem Paper mit dem Titel "Non-parametric techniques for pitch-scale and time scale modification of speech" von E. Moulines und J. Laroche, veröffentlicht in Speech Communication, Volume 16, pp. 175-205, 1995, enthalten.
  • Wie im Vorstehenden erwähnt, mag es sein, dass das Verfahren 300 keine exakt an die Zielwiedergaberate angepasste apparente Wiedergaberate erzeugt, insbesondere über kurze Wiedergabezeitdauern. Das gleiche gilt möglicherweise für andere Methoden, welche in Verbindung mit der Erfindung verwendet können, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Typisch wird eine Abweichung der tatsächlichen apparenten Wiedergaberate von der Zielwiedergaberate über eine ausreichend lange Zeitspanne gesehen verschwinden oder wirkungslos werden. Wenn z. B. das Verfahren 300 zur Erzeugung eines modifizierten Audiodatensatzes verwendet wird, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren, wird die tatsächliche apparente Wiedergaberate typisch eine enge Annäherung an die Zielwiedergaberate zeigen für Perioden von einer halben Sekunde oder mehr, aber möglicherweise erhebliche Abweichungen liefern für Perioden von 30 Millisekunden oder dergleichen. Derartige kurzeitige Schwankungen sind für einen Benutzer typisch nicht wahrnehmbar. Daher kommt im Allgemeinen einem solchen "Tracking"-Fehler keine wesentliche Bedeutung zu.
  • Falls gewünscht, kann die nach einem Verfahren in Einklang mit der Erfindung erzeugte apparente Wiedegaberate aber auch überwacht werden, wobei, wenn die apparente Wiedergaberate von der Zielwiedergaberate um mehr als einen vorbestimmten Betrag abweicht, die Zielwiedergaberate geeignet modifiziert werden kann, um die Wahrscheinlichkeit, dass die erzeugte apparente Wiedergaberate der spezifizierten Zielwiedergaberate enger angenähert ist, zu erhöhen. Wenn z. B. die nach einem Verfahren in Einklang mit der Erfindung erzeugte apparente Wiedergaberate kleiner ist die spezifizierte Zielwiedergaberate, kann die Zielwiedergaberate erhöht werden. Obschon die Größe der nachfolgend erzeugten apparenten Wiedergaberate gleich bleiben (oder sogar zurückgehen) kann, ist es wahrscheinlicher, dass die apparente Wiedergaberate anzusteigen beginnt. Die Zielwiedergaberate kann um einen beliebigen gewünschten Betrag modifiziert werden. Eine relativ große Modifikation der Zielwiedergaberate wird typisch die apparente Wiedergaberate relativ rasch mit der spezifizierten Zielwiedergaberate in Einklang bringen. Mit einer relativ kleinen Modifikation jedoch wird die apparente Wiedergaberate wahrscheinlich glatter angepasst als mit einer relativ großen Anpassung, wodurch die Anpassung für einen Beobachter der Wiedergabe transparenter wird. Die Modifikation der Zielwiedergaberate kann durchgeführt werden für eine Zeitdauer gemäß einem beliebigen geeigneten Kriterium, z. B. für eine spezifizierte Zeitdauer, bis die Abweichung der apparenten Wiedergaberate von der anfänglich spezifizierten Zielwiedergaberate kleiner ist als der vorbestimmte Betrag, bis die Abweichung der apparenten Wiedergaberate von der anfänglich spezifizierten Zielwiedergaberate kleiner ist als ein zweiter vorbestimmter Betrag, welcher kleiner ist als der erste vorbestimmte Betrag, oder bis die apparente Wiedergaberate gleich der anfänglich spezifizierten Zielwiedergaberate ist. Ferner kann die Zeitdauer, für die die Zielwiedergaberate modifiziert wird, von der Größe der auf die Zielwiedergaberate angewendeten Modifikation abhängen. Es können zahlreiche Wege beschritten werden zum Modifizieren der Zielwiedergaberate, um die Abweichung der apparenten Wiedergaberate von einer anfänglich spezifizierten Zielwiedergaberate zu minimieren oder zu eliminieren, wie für den Fachmann erkennbar, wobei diese Wege in den Bereich dieses Aspektes der Erfindung fallen.
  • Wie im Vorstehenden unter Bezugnahme auf Schritt 104 des Verfahrens 100 (Fig. 1) angegeben, kann eine beliebige geeignete Methode zum Erzeugen eines modifizierten Videodatensatzes von einem modifizierten Audiodatensatz verwendet werden. So kann z. B., wie ebenfalls im Vorstehenden angemerkt, der Audiodatensatz in Audiosegmente unterteilt werden, welche die gleiche Dauer aufweisen wie ein Videoframe des Videodatensatzes. In Schritt 101 kann eine Korrespondenz zwischen Audiosegmenten und Videoframes etabliert werden, wobei z. B. jedes Audiosegment zu einem einzigen bestimmten Videoframe korrespondiert. Eine Korrespondenz zwischen den Audiodaten des modifizierten Audiodatensatzes und der Videoframes des originalen Videodatensatzes kann etabliert werden unter Verwendung der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz und der Korrespondenz zwischen dem originalen und dem modifizierten Audiodatensatz. In Schritt 104 können die Audiodaten des modifizierten Audiodatensatzes zu Audiosegmenten gruppiert werden, welche die gleiche Dauer (das heißt Menge an Audiodaten) aufweisen, wie sie in den Audiosegmenten des originalen Audiodatensatzes gefunden wird. Basierend auf der Korrespondenz zwischen den Audiodaten des modifizierten Audiodatensatzes und den Videoframes des originalen Videodatensatzes korrespondieren demnach die Audiosegmente des modifizierte Audiodatensatzes - in Abhängigkeit von der Zielwiedergaberate - zu einem oder mehreren partiellen und oder kompletten Videoframes von dem originalen Videodatensatz. In Schritt 104 kann bzw. können für jedes Audiosegment in dem modifizierten Audiodatensatz der Eine oder die mehreren partiellen oder kompletten Videoframes von dem originalen Videodatensatz, welcher zu diesem Audiosegment korrespondiert bzw. korrespondieren, modifiziert werden, um einen einzelnen modifizierten Videoframe zu erzeugen, der zu diesem Audiosegment korrespondiert; die Sammlung dieser modifizierten Videoframes ist der modifizierte Videodatensatz.
  • Die modifizierten Videoframes können in beliebiger geeigneter Weise erzeugt werden. Beispielsweise können Videoframes aus jeder der Gruppen von einem oder mehreren partiellen oder kompletten Videoframes, welche zu bestimmten Audiosegmenten des modifizierten Audiodatensatzes korrespondieren, eliminiert werden (Beschleunigung der Wiedergabe) bzw. diesen hinzugefügt werden (Verlangsamung der Wiedergabe). Oder, wenn die Größe des originalen Videodatensatzes reduziert werden soll, können Videoframes, welche zu einem Audiosegment des modifizierten Audiodatensatzes korrespondieren, gemischt werden, um einen einzelnen gemischten Videoframe zu erzeugen, der als Teil des modifizierten Videodatensatzes beibehalten wird. In ähnlicher Weise kann bzw. können in dem Fall, dass die Größe des originalen Videodatensatzes erhöht werden soll, ein oder mehrere Videoframes auf Basis von existierenden Videoframes synthetisiert und zu dem modifizierten Videodatensatz hinzugefügt werden. Eine Hybridversion dieser Ansätze (Hinzufügen oder Eliminieren von Videoframes und Mischen von Videoframes) kann ebenfalls Verwendung finden.
  • Wenn Videoframes aus dem originalen Videodatensatz eliminiert oder diesem hinzugefügt werden sollen, kann es nützlich sein, die Korrespondenz zwischen Videoframes des originalen Videodatensatzes und Segmenten des modifizierten Audiodatensatzes zu modifizieren, so dass nur ganze Videoframes mit jedem Audiosegment assoziiert sind. Für eine Beschleunigung der Wiedergabe bedeut dies allgemein, dass ein oder mehrere Videoframes mit jedem Audiosegment des modifizierten Audiodatensatzes assoziiert ist bzw. sind, während für eine Verlangsamung der Wiedergabe dies allgemein bedeutet, dass null oder ein Videoframe mit jedem Audiosegment des modifizierten Audiodatensatzes assoziiert ist. Eine Implementierung dieses Ansatzes zur Beschleunigung der Wiedergabe ist im Vorstehenden in dem Beispiel dargestellt, welches der Erörterung der Methode 100 von Fig. 1 folgt. Das Eliminieren oder Hinzufügen von Videoframes kann auf Basis eines beliebigen gewünschten Kriteriums durchgeführt werden. Wenn beispielsweise Videoframes aus dem originalen Videodatensatz eliminiert werden, kann konsistent der erste oder der letzte Videoframe in jeder Gruppe als derjenige selektiert werden, der in dem modifizierten Videodatensatz beibehalten werden soll. Wenn Videoframes zu dem originalen Videodatensatz hinzugefügt werden, können Audiosegmente des modifizierten Audiodatensatzes, mit denen kein Videoframe assoziiert ist, mit dem Videoframe assoziiert werden, der mit dem unmittelbar vorhergehenden oder dem unmittelbar nachfolgenden Audiosegment assoziiert ist. Unabhängig davon, welcher Ansatz verwendet wird, wird die Selektion eines Videoframes aus jeder Gruppe von Videoframes bevorzugt konsistent gehandhabt, um die Qualität der audiovisuellen Wiedergabe, welche von den modifizierten Audio- und Videodatensätzen erzeugt wird, zu verbessern.
  • Das Mischen oder Synthetisieren von Videoframes kann ebenfalls in beliebiger geeigneter Weise durchgeführt werden. Wenn z. B. mehr als ein Videoframe (insgesamt) mit einem Segment von dem modifizierten Audiodatensatz assoziiert ist, kann ein gemischter Videoframe erzeugt werden durch Gewichtung des Beitrags jedes Videoframes entsprechend dem Anteil der Dauer dieses Videoframes, der mit dem jeweiligen Audiosegment assoziiert ist. Wenn z. B. 3/4 der Dauer eines ersten Videoframes und 1/2 der Dauer eines zweiten Videoframes mit einem bestimmten Segment assoziiert sind, dann können der erste und der zweite Videoframe so kombiniert werden, dass der Inhalt des ersten Videoframes 60%, das heißt 0,75/(0,75 + 0,5) des Inhalts des gemischten Frames beiträgt, und dass der Inhalt des zweiten Videoframes 40%, das heißt 0,5/(0,75 + 0,5) des Inhalts des gemischten Frames beträgt. Oder, wenn die Korrespondenz zwischen Videoframes des originalen Videodatensatzes und Segmenten des modifizierten Audiodatensatzes so modifiziert wurde, dass nur ganze Videoframes mit jedem Audiosegment assoziiert sind, dann können die Videoframes, die zu dem Audiosegment korrespondieren, gemischt werden, um einen gemischten Videoframe zu erzeugen, der dann Teil des modifizierten Videodatensatzes wird. Videoframes können analog zu den oben geschriebenen Verfahren des Mischens synthetisiert werden.
  • Es ist möglich, das Verfahren 300 (Fig. 3) zu modifizieren, so dass ferner ein modifizierter Videodatensatz auf Basis des mittels des oben beschriebenen Verfahrens erzeugten modifizierten Audiodatensatzes erzeugt wird. Wenn die nicht-überlappten Daten jedes Audiosegmentes des originalen Audiodatensatzes in Schritt 312 gespeichert werden (das heißt, wenn der modifizierte Audiodatensatz erzeugt wird), können diese Daten als neu für den modifizierten Audiodatensatz markiert werden. Wenn die als neu markierte Datenmenge die Länge eines Audiosegmentes überschreitet, wird eine Menge von Daten (die zeitlich früheren) gleich der Länge eines Audiosegmentes als alt markiert (diese als alt markierten Audiodaten repräsentieren ein Audiosegment in dem modifizierten Audiodatensatz). Der Rest der Audiodaten bleibt als neu markiert und wird im Folgenden mit anderen Audiodaten assoziiert, welche in Schritt 312 gespeichert werden. Sodann wird ein Videoframe von dem originalen Videodatensatz selektiert zwecks Korrespondenz mit dem neu bestimmten Audiosegment des modifizierten Audiodatensatzes. Bei einer Ausführungform, wenn die Zielwiedergaberate größer ist als Eins (Beschleunigung der Wiedergabe), kann derjenige Videoframe selektiert werden, welcher mit dem zweiten Segment des jüngst überlappten Paares von Segmenten assoziiert ist. Bei einer arideren Ausführungsform, wenn die Zielwiedergaberate kleiner ist als Eins (Verlangsamung der Wiedergabe), kann derjenige Videoframe selektiert werden, der mit dem ersten Segment des jüngst überlappten Paares von Segmenten assoziiert ist. Es können auch andere Wege beschritten werden, um den mit einem Segment des modifizierten Audiodatensatzes zu assoziierenden Videoframe zu selektieren. Allgemein ist das verwendete Verfahren von dem Wunsch diktiert, die bestmögliche Synchronisation zwischen der Audio- und Videowiedergabe nach Variation der apparenten Wiedergaberate zu erzielen.
  • Es versteht sich, dass die Erfindung sich auch auf Verfahren zum Erzeugen eines modifizierten Videodatensatzes erstreckt, welche von den im Vorstehenden beschriebenen verschieden sind; die oben beschriebenen Verfahren stehen rein beispielhaft für die Möglichkeiten.
  • Es wurden verschiedene Ausführungsformen der Erfindung beschrieben. Die Beschreibungen sind rein beispielhaft und sollen die Erfindung nicht begrenzen. Für den Fachmann wird daher ohne weiteres erkennbar sein, dass gewisse Modifikationen auf die im Vorstehenden beschriebene Erfindung angewendet werden können, ohne den Bereich der Ansprüche, wie im Nachfolgenden dargelegt, zu verlassen.

Claims (90)

1. Verfahren zur Verwendung mit einem audiovisuellen Wiedergabesystem (200), worin ein originaler Satz von Audiodaten und ein in Beziehung stehender originaler Satz von Videodaten zum Generieren einer audiovisuellen Wiedergabe bei einer normalen Wiedergaberate verwendet werden kann, wobei das Verfahren zum Variieren der apparenten Wiedergaberate der audiovisuellen Wiedergabe gegenüber der normalen Wiedergaberate befähigt, wobei das Verfahren die Schritte umfasst:
Definieren (101) einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
Bestimmen (102) einer Zielwiedergaberate oder -raten für die audiovisuelle Wiedergabe;
Erzeugen (103) eines modifizierten Satzes von Audiodaten, basierend auf der oder den Zielwiedergaberate/n und einer Wertung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und
Erzeugen (104) eines modifizierten Satzes von Videodaten von dem originalen Satz von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
wobei der Schritt des Erzeugens eines modifizierten Satzes von Audiodaten ferner die Schritte umfasst:
(i) Teilen (301) des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen;
(ii) Selektieren (302) eines ersten Segmentes;
(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite Segment dem ersten Segment temporär benachbart ist;
(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines Endbereichs des ersten Segmentes mit einem Endbereich des zweiten Segmentes, welches dem ersten Segment benachbart ist, wobei der Endbereich des ersten Segmentes erste Segmentüberlappungsdaten aufweist und der Endbereich des zweiten Segmentes zweite Segmentüberlappungsdaten aufweist;
(v) Identifizieren (312), als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, welche nicht Teil der ersten Segmentüberlappungsdaten sind;
(vi) Mischen (313) korrespondierender erster Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten; und
(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind, wobei:
in dem Fall, dass zusätzliche Segmente vorhanden sind, das Verfahren ferner die Schritte umfasst:
Kombinieren (315) der gemischten Überlappungsdaten mit den Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind;
Selektieren (316) der kombinierten Daten als ein neues erstes Segment; und
Selektieren (303) eines neuen zweiten Segmentes, welches dem neuen ersten Segment temporär benachbart ist und nicht zuvor als ein Segment selektiert worden ist;
Wiederholen der Schritte (i) bis (vii); und
in dem Fall, dass zusätzliche Segmente nicht vorhanden sind, das Verfahren ferner den Schritt des Identifizierens (317), als Teil des modifizierten Satzes von Audiodaten, der gemischten Daten und der Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind, umfasst.
2. Verfahren nach Anspruch 1, wobei der Schritt des Definierens einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten ferner die Schritte umfasst:
Teilen des originalen Satzes von Videodaten in eine Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede andere Untereinheit von Videodaten repräsentiert ist;
Teilen des originalen Satzes von Audiodaten in Eine Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist; und
Identifizieren korrespondierender Untereinheiten von Videodaten und Segmente von Audiodaten.
3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei wenigstens eine Zielwiedergaberate schneller ist als eine normale Wiedergaberate.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei wenigstens eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.
5. Verfahren nach einem der voranstehenden Ansprüche, wobei die Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.
6. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Bestimmens einer Zielwiedergaberate ferner den Schritt des Bestimmens des Wertes einer Nominalzielwiedergaberate umfasst, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird.
7. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Bestimmens einer Zielwiedergaberate ferner den Schritt des Wertens der Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes der Zielwiedergaberate umfasst.
8. Verfahren nach Anspruch 7, wobei der Schritt des Wertens ferner die Schritte umfasst:
Analysieren des originalen Satzes von Audiodaten; und
Berechnen der Zielwiedergaberate, basierend auf der Analyse des originalen Satzes von Audiodaten.
9. Verfahren nach Anspruch 8, wobei:
der Schritt des Analysierens des originalen Satzes von Audiodaten ferner den Schritt des Bestimmens der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden, umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen Teile der Audiodaten, umfasst.
10. Verfahren nach Anspruch 9, wobei der Schritt des Bestimmens von Betonung ferner den Schritt des Berechnens von Energietermen für die gesprochenen Teile der Audiodaten umfasst.
11. Verfahren nach Anspruch 8, wobei:
der Schritt des Analysierens des originalen Satzes von Audiodaten ferner den Schritt des Bestimmens der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden, umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten, umfasst.
12. Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens von Sprechraten ferner den Schritt des Bestimmens spektraler Änderungen in den gesprochenen Teilen der Audiodaten umfasst.
13. Verfahren nach einem der Ansprüche 8, 10 oder 12, wobei:
der Schritt des Analysierens des originalen Satzes von Audiodaten ferner die Schritte umfasst:
Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden;
Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden; und
Kombinieren korrespondierender Betonungen und Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen Teile; und
der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen Teile der Audiodaten, umfasst.
14. Verfahren nach Anspruch 13, ferner umfassend den Schritt des Bestimmens des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei der Schritt des Berechnens ferner den Schritt des Kombinierens der Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate umfasst.
15. Verfahren nach Anspruch 7, wobei der Schritt des Wertens ferner den Schritt umfasst:
Analysieren des originalen Satzes von Videodaten; und
Berechnen der Zielwiedergaberate, basierend auf der Analyse der Videodaten.
16. Verfahren nach Anspruch 15, wobei:
der Schritt des Analysierens des originalen Satzes von Videodaten ferner das Bestimmen der relativen Änderungsrate der Videodaten entlang verschiedener Populations-basierter Dimensionen umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der Populations-basierten Dimensionen, umfasst.
17. Verfahren nach Anspruch 15 oder Anspruch 16, wobei:
der Schritt des Analysierens des originalen Satzes von Videodaten ferner umfasst:
Bestimmen von Teilen eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, welche sich rasch ändern; und
Bestimmen der Frequenz, mit welcher derartige rasche Änderungen auftreten; und
der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen Änderungen in dem Videobild, umfasst.
18. Verfahren nach Anspruch 17, wobei der Schritt des Berechnens ferner das Etablieren einer Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem Videobild auftreten, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfasst.
19. Verfahren nach einem der Ansprüche 15 bis 18, wobei:
der Schritt des Analysierens des originalen Satzes von Videodaten ferner das Verfolgen der Bewegung von Objekten innerhalb eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem Videobild, umfasst.
20. Verfahren nach Anspruch 19, wobei der Schritt des Berechnens ferner das Etablieren einer Zielwiedergaberate für Zeitdauern, während derer neue Objekte in dem Videobild erscheinen, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfasst.
21. Verfahren nach einem der Ansprüche 7 bis 14, wobei der Schritt des Wertens ferner die Schritte umfasst:
Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;
Durchführen einer zweiten Analyse des originalen Satzes von Audiodaten; und
Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Audiodaten.
22. Verfahren nach einem der Ansprüche 7 oder 15 bis 20, wobei der Schritt des Wertens ferner die Schritte umfasst:
Durchführen einer ersten Analyse des originalen Satzes von Videodaten;
Durchführen einer zweiten Analyse des originalen Satzes von Videodaten;
Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Videodaten.
23. Verfahren nach einem der Ansprüche 7 bis 22, wobei der Schritt des Wertens ferner die Schritte umfasst:
Analysieren des originalen Satzes von Audiodaten; und
Analysieren des originalen Satzes von Videodaten; und
Berechnen der Zielwiedergaberate, basierend auf den Analysen der Audio- und Videodaten.
24. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Audiodaten ferner den Schritt des Analysierens des Inhalts der Audiodaten umfasst, wobei der modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt wird.
25. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner die Schritte umfasst:
Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz;
Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden;
Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes korrespondieren, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und
Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt.
26. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Eliminierens von Daten aus dem originalen Videodatensatz umfasst.
27. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Hinzufügens von Daten zu dem originalen Videodatensatz umfasst.
28. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Mischens von Daten von dem originalen Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten aufweist als der originale Videodatensatz, umfasst.
29. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt des Erzeugens eines modifizierten Satzes von Videodaten ferner den Schritt des Synthetisierens von Daten, basierend auf den Daten in dem originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten aufweist als der originale Videodatensatz, umfasst.
30. Verfahren nach einem der voranstehenden Ansprüche, ferner umfassend die Schritte:
Generieren einer Audiowiedergabe von dem modifizierten Satz von Audiodaten; und
Generieren einer Videowiedergabe von dem modifizierten Satz von Videodaten.
31. System, welches zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe gegenüber einer normalen Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generieren kann, befähigt, umfassend:
Mittel (201) zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
Mittel (201) zum Bestimmen einer Zielwiedergaberate für eine audiovisuelle Wiedergabe;
Mittel (201) zum Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf einer Zielwiedergaberate und einer Wertung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und
Mittel (201) zum Erzeugen eines modifizierten Satzes von Videodaten von dem originalen Satz von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
wobei die Mittel (201) zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Mittel umfassen zum:
(i) Teilen (301) des originalen Satzes vor Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen;
(ii) Selektieren (302) eines ersten Segmentes;
(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite Segment dem ersten Segment temporär benachbart ist;
(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines Endbereichs des ersten Segmentes mit einem Endbereich des zweiten Segmentes, welches dem ersten Segment benachbart ist, wobei der Endbereich des ersten Segmentes erste Segmentüberlappungsdaten aufweist und der Endbereich des zweiten Segmentes zweite Segmentüberlappungsdaten aufweist;
(v) Identifizieren (312), als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, weiche nicht Teil der ersten Segmentüberlappungsdaten sind;
(vi) Mischen (313) korrespondierender erster Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten;
(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind,
(viii) Durchführen - in dem Fall, dass zusätzliche Segmente vorhanden sind - der folgenden Funktionen:
Kombinieren (315) der gemischten Überlappungsdaten mit den Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind;
Selektieren (316) der kombinierten Daten als ein neues erstes Segment;
Selektieren (303) eines neuen zweiten Segmentes, welches dem neuen ersten Segment temporär benachbart ist und nicht zuvor als ein Segment selektiert worden ist; und
Wiederholen der mit den Mitteln nach (i) bis (vii) durchgeführten Funktionen; und
(ix) Durchführen - in dem Fall, dass zusätzliche Segmente nicht vorhanden sind - der Funktion des Identifizierens (317), als Teil des modifizierten Satzes von Audiodaten, der gemischten Daten und der Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind.
32. System nach Anspruch 31, wobei die Mittel zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten ferner umfassen:
Mittel zum Teilen des originalen Satzes von Videodaten in eine Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede andere Untereinheit von Videodaten repräsentiert ist;
Mittel zum Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist; und
Mittel zum Identifizieren korrespondierender Untereinheiten von Videodaten und Segmente von Audiodaten.
33. System nach Anspruch 31 oder Anspruch 32, wobei wenigstens eine Zielwiedergaberate schneller ist als eine normale Wiedergaberate.
34. System nach einem der Ansprüche 31, 32 oder 33, wobei wenigstens eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.
35. System nach einem der Ansprüche 31 bis 34, wobei die Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.
36. System nach einem der Ansprüche 31 bis 35, ferner umfassend:
Mittel (203) zum Generieren einer Audiowiedergabe von dem modifizierten Satz von Audiodaten; und
Mittel (203) zum Generieren einer Videowiedergabe von dem modifizierten Satz von Videodaten.
37. System nach einem der Ansprüche 31 bis 36, wobei die Mittel zum Bestimmen einer Zielwiedergaberate ferner Mittel zum Werten der Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes der Zielwiedergaberate umfassen.
38. System nach Anspruch 37, wobei die Mittel zum Werten ferner umfassen:
Mittel zum Analysieren des originalen Satzes von Audiodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Analyse des originalen Satzes von Audiodaten.
39. System nach Anspruch 38, wobei:
die Mittel zum Analysieren des originalen Satzes von Audiodaten ferner Mittel zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen Teile der Audiodaten, umfassen.
40. System nach Anspruch 39, wobei die Mittel zum Bestimmen von Betonung ferner Mittel zum Berechnen von Energietermen für die gesprochenen Teile der Audiodaten umfassen.
41. System nach Anspruch 38, wobei:
die Mittei zum Analysieren des originalen Satzes von Audiodaten ferner Mittel zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten, umfassen.
42. System nach Anspruch 41, wobei die Mittel zum Bestimmen von Sprechraten ferner Mittel zum Bestimmen spektraler Änderungen in den gesprochenen Teilen der Audiodaten umfassen.
43. System nach einem der Ansprüche 38, 40 oder 42, wobei:
die Mittel zum Analysieren des originalen Satzes von Audiodaten ferner umfassen:
Mittel zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden;
Mittel zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden; und
Mittel zum Kombinieren korrespondierender Betonungen und Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen Teile; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen Teile der Audiodaten, umfassen.
44. System nach Anspruch 43, ferner umfassend Mittel (201, 204) zum Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei die Mittel zum Berechnen ferner Mittel zum Kombinieren der Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate umfassen.
45. System nach Anspruch 37, wobei die Mittel zum Werten ferner umfassen:
Mittel zum Analysieren des originalen Satzes von Videodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Analyse der Videodaten.
46. System nach Anspruch 45, wobei:
die Mittel zum Analysieren des originalen Satzes von Videodaten ferner Mittel zum Bestimmen der relativen Änderungsrate der Videodaten entlang verschiedener Populations-basierter Dimensionen umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der Populations-basierten Dimensionen, umfassen.
47. System nach Anspruch 45 oder Anspruch 46, wobei:
die Mittel zum Analysieren des originalen Satzes von Videodaten ferner umfassen:
Mittel zum Bestimmen von Teilen eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, welche sich rasch ändern; und
Mittel zum Bestimmen der Frequenz, mit welcher derartige rasche Änderungen auftreten; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen Änderungen in dem Videobild umfassen.
48. System nach Anspruch 47, wobei die Mittel zum Berechnen ferner Mittei zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem Videobild auftreten, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.
49. System nach einem der Ansprüche 45 bis 48, wobei:
die Mittel zum Analysieren des originalen Satzes von Videodaten ferner Mittel zum Verfolgen der Bewegung von Objekten innerhalb eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem Videobild, umfassen.
50. System nach Anspruch 49, wobei die Mittel zum Berechnen ferner Mittel zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer neue Objekte in dem Videobild erscheinen, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.
51. System nach einem der Ansprüche 37 bis 44, wobei die Mittel zum Werten ferner umfassen:
Mittel zum Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;
Mittel zum Durchführen einer zweiten Analyse des originalen Satzes von Audiodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Audiodaten.
52. System nach einem der Ansprüche 37 oder 45 bis 50, wobei die Mittel zum Werten ferner umfassen:
Mittel zum Durchführen einer ersten Analyse des originalen Satzes von Videodaten;
Mittel zum Durchführen einer zweiten Analyse des originalen Satzes von Videodaten;
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Videodaten.
53. System nach einem der Ansprüche 37 bis 52, wobei die Mittel zum Werten ferner umfassen:
Mittel zum Analysieren des originalen Satzes von Audiodaten;
Mittel zum Analysieren des originalen Satzes von Videodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf den Analysen der Audio- und Videodaten.
54. System nach einem der Ansprüche 31 bis 53, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Mittel zum Analysieren des Inhalts der Audiodaten umfassen, wobei der modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt wird.
55. System nach einem der Ansprüche 31 bis 54, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner umfassen:
Mittel zum Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz;
Mittel zum Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden;
Mittel zum Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes korrespondieren, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und
Mittel zum Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt.
56. System nach einem der Ansprüche 31 bis 55, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Eliminieren von Daten aus dem originalen Videodatensatz umfassen.
57. System nach einem der Ansprüche 31 bis 56, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Hinzufügen von Daten zu dem originalen Videodatensatz umfassen.
58. System nach einem der Ansprüche 31 bis 57, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Mischen von Daten von dem originalen Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten aufweist als der originale Videodatensatz, umfassen.
59. System nach einem der Ansprüche 31 bis 58, wobei die Mittel zum Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten aufweist als der originale Videodatensatz, umfassen.
60. System nach einem der Ansprüche 31 bis 59, ferner umfassend:
Mittel (204), welche einen Benutzer zum Spezifizieren einer Nominalzielwiedergaberate befähigen; und
Mittel (201 oder 204) zum Bestimmen des Wertes der Nominalzielwiedergaberate.
61. Computerlesbares Medium, codiert mit einem oder mehreren Computerprogrammen, welche zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe gegenüber einer normalen Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generieren kann, befähigen, umfassend:
Instruktionen (101) zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
Instruktionen (102) zum Bestimmen einer Zielwiedergaberate für die audiovisuelle Wiedergabe;
Instruktionen (103) zum Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf der Zielwiedergaberate und einer Wertung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und
Instruktionen (104) zum Erzeugen eines modifizierten Satzes von Videodaten von dem originalen Satz von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
wobei die Instruktionen (102) zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Instruktionen umfassen zum:
(i) Teilen (301) des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen;
(ii) Selektieren (302) eines ersten Segmentes;
(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite Segment dem ersten Segment temporär benachbart ist;
(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines Endbereichs des ersten Segmentes mit einem Endbereich des zweiten Segmentes, welches dem ersten Segment benachbart ist, wobei der Endbereich des ersten Segmentes erste Segmentüberlappungsdaten aufweist und der Endbereich des zweiten Segmentes zweite Segmentüberlappungsdaten aufweist;
(v) Identifizieren (312), als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, welche nicht Teil der ersten Segmentüberlappungsdaten sind;
(vi) Mischen (313) korrespondierender erster Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten;
(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind,
(viii) Durchführen - in dem Fall, dass zusätzliche Segmente vorhanden sind - der folgenden Funktionen:
Kombinieren (315) der gemischten Überlappungsdaten mit den Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind;
Selektieren (316) der kombinierten Daten als ein neues erstes Segment;
Selektieren (303) eines neuen zweiten Segmentes, welches dem neuen ersten Segment temporär benachbart ist und nicht zuvor als ein Segment selektiert worden ist; und
Wiederholen der Instruktionen (i) bis (vii); und
(ix) Durchführen - in dem Fall, dass zusätzliche Segmente nicht vorhanden sind - der Funktion des Identifizierens (317), als Teil des modifizierten Satzes von Audiodaten, der gemischten Daten und der Audiodaten von dem zweiten Segment, welche nicht Teil der zweiten Segmentüberlappungsdaten sind.
62. Computerlesbares Medium nach Anspruch 61, wobei die Instruktionen zum Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten ferner umfassen:
Instruktionen zum Teilen des originalen Satzes von Videodaten in eine Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede andere Untereinheit von Videodaten repräsentiert ist;
Instruktionen zum Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist; und
Instruktionen zum Identifizieren korrespondierender Untereinheiten von Videodaten und Segmente von Audiodaten.
63. Computerlesbares Medium nach Anspruch 61 oder Anspruch 62, wobei wenigstens eine Zielwiedergaberate schneller ist als eine normale Wiedergaberate.
64. Computerlesbares Medium nach einem der Ansprüche 61 bis 63, wobei wenigstens eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.
65. Computerlesbares Medium nach einem der Ansprüche 61 bis 64, wobei die Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.
66. Computerlesbares Medium nach einem der Ansprüche 61 bis 65, wobei die Instruktionen zum Bestimmen einer Zielwiedergaberate ferner Instruktionen zum Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, umfassen.
67. Computerlesbares Medium nach einem der Ansprüche 61 bis 66, wobei die Instruktionen zum Bestimmen einer Zielwiedergaberate ferner Instruktionen zum Werten der Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes der Zielwiedergaberate umfassen.
68. Computerlesbares Medium nach Anspruch 67, wobei die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Analysieren des originalen Satzes von Audiodaten; und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der Analyse des originalen Satzes von Audiodaten.
69. Computerlesbares Medium nach Anspruch 68, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Audiodaten ferner Instruktionen zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen Teile der Audiodaten, umfassen.
70. Computerlesbares Medium nach Anspruch 69, wobei die Instruktionen zum Bestimmen von Betonung ferner Instruktionen zum Berechnen von Energietermen für die gesprochenen Teile der Audiodaten umfassen.
71. Computerlesbares Medium nach Anspruch 68, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Audiodaten ferner Instruktionen zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten, umfassen.
72. Computerlesbares Medium nach Anspruch 71, wobei die Instruktionen zum Bestimmen von Sprechraten ferner Instruktionen zum Bestimmen spektraler Änderungen in den gesprochenen Teilen der Audiodaten umfassen.
73. Computerlesbares Medium nach einem der Ansprüche 68, 70 oder 72, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Audiodaten ferner umfassen:
Instruktionen zum Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten ausgesprochen werden;
Instruktionen zum Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten ausgesprochen werden; und
Instruktionen zum Kombinieren korrespondierender Betonungen und Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen Teile; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen Teile der Audiodaten, umfassen.
74. Computerlesbares Medium nach Anspruch 73, ferner umfassend Instruktionen zum Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei die Instruktionen zum Berechnen ferner Instruktionen zum Kombinieren der Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate umfassen.
75. Computerlesbares Medium nach Anspruch 67, wobei die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Analysieren des originalen Satzes von Videodaten; und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der Analyse der Videodaten.
76. Computerlesbares Medium nach Anspruch 75, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Videodaten ferner Instruktionen zum Bestimmen der relativen Änderungsrate der Videodaten entlang verschiedener Populations-basierter Dimensionen umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der Populations-basierten Dimensionen, umfassen.
77. Computerlesbares Medium nach Anspruch 75 oder Anspruch 76, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Videodaten ferner umfassen:
Instruktionen zum Bestimmen von Teilen eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, welche sich rasch ändern; und
Instruktionen zum Bestimmen der Frequenz, mit welcher derartige rasche Änderungen auftreten; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen Änderungen in dem Videobild, umfassen.
78. Computerlesbares Medium nach Anspruch 77, wobei die Instruktionen zum Berechnen ferner Instruktionen zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem Videobild auftreten, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.
79. Computerlesbares Medium nach einem der Ansprüche 75 bis 78, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Videodaten ferner Instruktionen zum Verfolgen der Bewegung von Objekten innerhalb eines Videobildes, repräsentiert durch den originalen Satz von Videodaten, umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem Videobild, umfassen.
80. Computerlesbares Medium nach Anspruch 79, wobei die Instruktionen zum Berechnen ferner Instruktionen zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer neue Objekte in dem Videobild erscheinen, welche niedriger ist als die Zielwiedergaberate während anderer Zeitdauern, umfassen.
81. Computerlesbares Medium nach einem der Ansprüche 67 bis 74, wobei die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;
Instruktionen zum Durchführen einer zweiten Analyse des originalen Satzes von Audiodaten; und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Audiodaten.
82. Computerlesbares Medium nach einem der Ansprüche 67 oder 75 bis 80, wobei die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Durchführen einer ersten Analyse des originaler Satzes von Videodaten;
Instruktionen zum Durchführen einer zweiten Analyse des originalen Satzes von Videodaten;
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der ersten und zweiten Analyse der Videodaten.
83. Computerlesbares Medium nach einem der Ansprüche 67 bis 82, wobei die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Analysieren des originalen Satzes von Audiodaten; und
Instruktionen zum Analysieren des originalen Satzes von Videodaten; und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den Analysen der Audio- und Videodaten.
84. Computerlesbares Medium nach einem der Ansprüche 61 bis 83, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Audiodaten ferner Instruktionen zum Analysieren des Inhalts der Audiodaten umfassen, wobei der modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt wird.
85. Computerlesbares Medium nach einem der Ansprüche 61 bis 84, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner umfassen:
Instruktionen zum Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz;
Instruktionen zum Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden;
Instruktionen zum Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes korrespondieren, basierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und
Instruktionen zum Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt.
86. Computerlesbares Medium nach einem der Ansprüche 61 bis 85, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Eliminieren von Daten aus dem originalen Videodatensatz umfassen.
87. Computerlesbares Medium nach einem der Ansprüche 61 bis 86, wobei die Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Hinzufügen von Daten zu dem originalen Videodatensatz umfassen.
88. Computerlesbares Medium nach einem der Ansprüche 61 bis 87, wobei Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Mischen von Daten von dem originalen Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten aufweist als der originale Videodatensatz, umfassen.
89. Computerlesbares Medium nach einem der Ansprüche 61 bis 88, wobei Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten ferner Instruktionen zum Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten aufweist als der originale Videodatensatz, umfassen.
90. Computerlesbares Medium nach einem der Ansprüche 61 bis 89, ferner umfassend:
Instruktionen zum Generieren einer Audiowiedergabe von dem modifizierten Satz von Audiodaten; und
Instruktionen zum Generieren einer Videowiedergabe von dem modifizierten Satz von Videodaten.
DE69719825T 1996-12-05 1997-12-03 Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit Expired - Lifetime DE69719825T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/760,769 US5893062A (en) 1996-12-05 1996-12-05 Variable rate video playback with synchronized audio
PCT/US1997/023099 WO1998025405A2 (en) 1996-12-05 1997-12-03 Variable rate video playback with synchronized audio

Publications (2)

Publication Number Publication Date
DE69719825D1 DE69719825D1 (de) 2003-04-17
DE69719825T2 true DE69719825T2 (de) 2003-12-18

Family

ID=25060139

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69719825T Expired - Lifetime DE69719825T2 (de) 1996-12-05 1997-12-03 Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit

Country Status (5)

Country Link
US (6) US5893062A (de)
EP (1) EP1057331B1 (de)
AU (1) AU5898398A (de)
DE (1) DE69719825T2 (de)
WO (1) WO1998025405A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004039238A1 (de) * 2004-08-12 2006-02-23 AverMedia Technologies, Inc., Chung Ho Verfahren und Vorrichtung zum Ausrüsten eines persönlichen digitalen Produkts mit Funktionen des Aufzeichnens und Anzeigens des digitalen Video/Audio-Multimedia

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7382929B2 (en) * 1989-05-22 2008-06-03 Pixel Instruments Corporation Spatial scan replication circuit
AU5027796A (en) * 1995-03-07 1996-09-23 Interval Research Corporation System and method for selective recording of information
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6263507B1 (en) * 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
JPH10322673A (ja) * 1997-05-15 1998-12-04 Canon Inc 通信装置及び方法及び記憶媒体
US8813137B2 (en) * 1998-05-08 2014-08-19 Qualcomm Incorporated Apparatus and method for decoding digital image and audio signals
US6349286B2 (en) * 1998-09-03 2002-02-19 Siemens Information And Communications Network, Inc. System and method for automatic synchronization for multimedia presentations
US6622171B2 (en) * 1998-09-15 2003-09-16 Microsoft Corporation Multimedia timeline modification in networked client/server systems
US6292454B1 (en) * 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6374225B1 (en) * 1998-10-09 2002-04-16 Enounce, Incorporated Method and apparatus to prepare listener-interest-filtered works
US6342904B1 (en) * 1998-12-17 2002-01-29 Newstakes, Inc. Creating a slide presentation from full motion video
US6892351B2 (en) * 1998-12-17 2005-05-10 Newstakes, Inc. Creating a multimedia presentation from full motion video using significance measures
EP1057330B1 (de) * 1998-12-23 2007-03-21 Koninklijke Philips Electronics N.V. Programmwiedergabeanlage
US7302396B1 (en) * 1999-04-27 2007-11-27 Realnetworks, Inc. System and method for cross-fading between audio streams
US6625656B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for continuous playback or distribution of information including audio-visual streamed multimedia
US6625655B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for providing continuous playback or distribution of audio and audio-visual streamed multimedia reveived over networks having non-deterministic delays
AU5140200A (en) 1999-05-26 2000-12-18 Enounce, Incorporated Method and apparatus for controlling time-scale modification during multi-media broadcasts
US6934759B2 (en) * 1999-05-26 2005-08-23 Enounce, Inc. Method and apparatus for user-time-alignment for broadcast works
AU4200600A (en) 1999-09-16 2001-04-17 Enounce, Incorporated Method and apparatus to determine and use audience affinity and aptitude
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US7050110B1 (en) * 1999-10-29 2006-05-23 Intel Corporation Method and system for generating annotations video
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
US7302490B1 (en) 2000-05-03 2007-11-27 Microsoft Corporation Media file format to support switching between multiple timeline-altered media streams
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
US7683903B2 (en) 2001-12-11 2010-03-23 Enounce, Inc. Management of presentation time in a digital media presentation system with variable rate presentation capability
US7242850B2 (en) * 2001-02-23 2007-07-10 Eastman Kodak Company Frame-interpolated variable-rate motion imaging system
US20020138593A1 (en) * 2001-03-26 2002-09-26 Novak Michael J. Methods and systems for retrieving, organizing, and playing media content
US6904566B2 (en) 2001-03-26 2005-06-07 Microsoft Corporation Methods, systems and media players for rendering different media types
US7272794B2 (en) 2001-03-26 2007-09-18 Microsoft Corporation Methods, systems and media players for rendering different media types
US7072908B2 (en) 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
AU2002307533B2 (en) * 2001-05-10 2008-01-31 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US20030033147A1 (en) * 2001-06-08 2003-02-13 Recording For The Blind & Dyslexic Incorporated Method and apparatus for coordinating text and audio events in a digital talking book
GB0118575D0 (en) * 2001-07-31 2001-09-19 Koninl Philips Electronics Nv Entertainment schedule adapter
US8438004B2 (en) * 2001-10-03 2013-05-07 Hewlett-Packard Development Company L.P. System and methods for language translation printing
US20050188297A1 (en) * 2001-11-01 2005-08-25 Automatic E-Learning, Llc Multi-audio add/drop deterministic animation synchronization
US7130528B2 (en) * 2002-03-01 2006-10-31 Thomson Licensing Audio data deletion and silencing during trick mode replay
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
US7809241B2 (en) * 2002-03-01 2010-10-05 Thomson Licensing Audio frequency scaling during video trick modes utilizing digital signal processing
US6625387B1 (en) * 2002-03-01 2003-09-23 Thomson Licensing S.A. Gated silence removal during video trick modes
US20030185296A1 (en) * 2002-03-28 2003-10-02 Masten James W. System for the capture of evidentiary multimedia data, live/delayed off-load to secure archival storage and managed streaming distribution
US20040010330A1 (en) * 2002-07-11 2004-01-15 Ling Chen Speed control of digital audio playback
JP3973522B2 (ja) 2002-09-19 2007-09-12 三洋電機株式会社 コンテンツ編集装置
US7426470B2 (en) * 2002-10-03 2008-09-16 Ntt Docomo, Inc. Energy-based nonuniform time-scale modification of audio signals
US7457531B2 (en) * 2002-10-16 2008-11-25 Hasbro, Inc. Low bandwidth image system
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7739715B2 (en) * 2003-06-24 2010-06-15 Microsoft Corporation Variable play speed control for media streams
US6999922B2 (en) * 2003-06-27 2006-02-14 Motorola, Inc. Synchronization and overlap method and system for single buffer speech compression and expansion
US8340972B2 (en) * 2003-06-27 2012-12-25 Motorola Mobility Llc Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US7966034B2 (en) * 2003-09-30 2011-06-21 Sony Ericsson Mobile Communications Ab Method and apparatus of synchronizing complementary multi-media effects in a wireless communication device
US7725828B1 (en) * 2003-10-15 2010-05-25 Apple Inc. Application of speed effects to a video presentation
US7149973B2 (en) 2003-11-05 2006-12-12 Sonic Foundry, Inc. Rich media event production system and method including the capturing, indexing, and synchronizing of RGB-based graphic content
KR100547445B1 (ko) * 2003-11-11 2006-01-31 주식회사 코스모탄 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법
US7454348B1 (en) 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
US7170545B2 (en) * 2004-04-27 2007-01-30 Polycom, Inc. Method and apparatus for inserting variable audio delay to minimize latency in video conferencing
US20060031879A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of news-related broadcasted or streamed multimedia content
US20060031885A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of music-related broadcasted or streamed multimedia content
US20060031916A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of broadcasted or streamed multimedia content
US20050276270A1 (en) * 2004-05-27 2005-12-15 Rimas Buinevicius System, method, and device for recording rich media data
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US20060212346A1 (en) * 2005-03-21 2006-09-21 Robert Brazell Systems and methods for message media content synchronization
US8799757B2 (en) * 2005-07-01 2014-08-05 Microsoft Corporation Synchronization aspects of interactive multimedia presentation management
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US7822073B2 (en) * 2005-11-03 2010-10-26 George Mason Intellectual Properties, Inc. Packet flow side channel
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
US20080126095A1 (en) * 2006-10-27 2008-05-29 Gil Sideman System and method for adding functionality to a user interface playback environment
KR101334366B1 (ko) * 2006-12-28 2013-11-29 삼성전자주식회사 오디오 배속 재생 방법 및 장치
US8428443B2 (en) * 2007-03-12 2013-04-23 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US20080229200A1 (en) * 2007-03-16 2008-09-18 Fein Gene S Graphical Digital Audio Data Processing System
US8204359B2 (en) 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US20090088249A1 (en) 2007-06-14 2009-04-02 Robert Kay Systems and methods for altering a video game experience based on a controller type
US8678896B2 (en) * 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
WO2010006054A1 (en) * 2008-07-08 2010-01-14 Harmonix Music Systems, Inc. Systems and methods for simulating a rock and band experience
US8843375B1 (en) * 2008-09-29 2014-09-23 Apple Inc. User interfaces for editing audio clips
US8026436B2 (en) * 2009-04-13 2011-09-27 Smartsound Software, Inc. Method and apparatus for producing audio tracks
US8533598B2 (en) * 2009-04-30 2013-09-10 Apple Inc. Media editing with a segmented timeline
US8449360B2 (en) * 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8465366B2 (en) * 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
EP2494432B1 (de) 2009-10-27 2019-05-29 Harmonix Music Systems, Inc. Auf gestik basierende benutzerschnittstelle
US8874243B2 (en) 2010-03-16 2014-10-28 Harmonix Music Systems, Inc. Simulating musical instruments
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
CA2802348A1 (en) 2010-06-11 2011-12-15 Harmonix Music Systems, Inc. Dance game and tutorial
US10324605B2 (en) 2011-02-16 2019-06-18 Apple Inc. Media-editing application with novel editing tools
EP2596626B8 (de) * 2010-07-20 2018-11-21 InterDigital Madison Patent Holdings Verfahren zur inhaltspräsentation während eines trickmodusbetriebs
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
US8533259B2 (en) * 2011-01-27 2013-09-10 Rhythm NewMediaInc. Efficient real-time stitching of multimedia files
US9251855B2 (en) 2011-01-28 2016-02-02 Apple Inc. Efficient media processing
US8621355B2 (en) 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
US11747972B2 (en) 2011-02-16 2023-09-05 Apple Inc. Media-editing application with novel editing tools
US9997196B2 (en) 2011-02-16 2018-06-12 Apple Inc. Retiming media presentations
US8839110B2 (en) 2011-02-16 2014-09-16 Apple Inc. Rate conform operation for a media-editing application
US8856283B2 (en) * 2011-06-03 2014-10-07 Apple Inc. Playlists for real-time or near real-time streaming
US8996389B2 (en) * 2011-06-14 2015-03-31 Polycom, Inc. Artifact reduction in time compression
US9437247B2 (en) 2011-11-14 2016-09-06 Apple Inc. Preview display for multi-camera media clips
JP5854208B2 (ja) * 2011-11-28 2016-02-09 日本電気株式会社 多段高速再生のための映像コンテンツ生成方法
US20130336379A1 (en) * 2012-06-13 2013-12-19 Divx, Llc System and Methods for Encoding Live Multimedia Content with Synchronized Resampled Audio Data
US9014544B2 (en) 2012-12-19 2015-04-21 Apple Inc. User interface for retiming in a media authoring tool
US9607612B2 (en) * 2013-05-20 2017-03-28 Intel Corporation Natural human-computer interaction for virtual personal assistant systems
US10102285B2 (en) * 2014-08-27 2018-10-16 International Business Machines Corporation Consolidating video search for an event
KR102485575B1 (ko) * 2015-12-03 2023-01-09 삼성디스플레이 주식회사 디스플레이 장치의 터치 감지 방법 및 디스플레이 장치
US10231001B2 (en) 2016-05-24 2019-03-12 Divx, Llc Systems and methods for providing audio content during trick-play playback
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
US9940968B2 (en) * 2016-08-30 2018-04-10 The Nielsen Company (Us), Llc Methods and apparatus to perform speed-enhanced playback of recorded media
US11132533B2 (en) * 2017-06-07 2021-09-28 David Scott Dreessen Systems and methods for creating target motion, capturing motion, analyzing motion, and improving motion
US11039177B2 (en) * 2019-03-19 2021-06-15 Rovi Guides, Inc. Systems and methods for varied audio segment compression for accelerated playback of media assets
US11102523B2 (en) 2019-03-19 2021-08-24 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers
US10708633B1 (en) 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets
CN110753201B (zh) * 2019-11-12 2022-02-08 维沃移动通信有限公司 一种视频录制方法、装置、电子设备及存储介质
RU2759666C1 (ru) * 2021-02-19 2021-11-16 Общество с ограниченной ответственностью «ЯЛОС СТРИМ» Система воспроизведения аудио-видеоданных

Family Cites Families (268)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3884403A (en) 1973-12-07 1975-05-20 Robert A Brewer Article carrying strap
US3919475A (en) 1974-10-09 1975-11-11 Honeywell Inc Head attached television
US4033335A (en) 1975-06-12 1977-07-05 Wisconsin Alumni Research Foundation Method and apparatus for multiplexing of physiological sensor signals with gamma ray camera data signals
US4051534A (en) 1976-10-27 1977-09-27 Honeywell Inc. Head attached television
US4131919A (en) 1977-05-20 1978-12-26 Eastman Kodak Company Electronic still camera
US4260229A (en) 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
JPS54114920A (en) 1978-02-28 1979-09-07 Kokusai Denshin Denwa Co Ltd Television signal adaptive forecasting encoding system
US4782401A (en) 1979-05-11 1988-11-01 Nelson A. Faerber Editing method and apparatus for commercials during video recording
FR2462728A1 (fr) 1979-07-30 1981-02-13 Moviecam Kinematograph Camera
US4390904A (en) 1979-09-20 1983-06-28 Shelton Video Editors, Inc. Automatic circuit and method for editing commercial messages from television signals
US4283735A (en) 1979-09-21 1981-08-11 David Jagger Method and apparatus for selectively deleting during video tape recording
US4319286A (en) 1980-01-07 1982-03-09 Muntz Electronics, Inc. System for detecting fades in television signals to delete commercials from recorded television broadcasts
US4750052A (en) 1981-02-13 1988-06-07 Zenith Electronics Corporation Apparatus and method for automatically deleting selected program intervals from recorded television broadcasts
JPH0642740B2 (ja) 1981-05-12 1994-06-01 富士写真フイルム株式会社 画像記録再生装置
US4965825A (en) 1981-11-03 1990-10-23 The Personalized Mass Media Corporation Signal processing apparatus and methods
EP0096705A1 (de) 1981-12-19 1983-12-28 CHARD, Frederick William Verfahren und gerät an einem fernsehgerät zum redigieren einer fernsehsendung
US5105285A (en) 1982-03-19 1992-04-14 Canon Kabushiki Kaisha Image transmission system
US4520404A (en) 1982-08-23 1985-05-28 Kohorn H Von System, apparatus and method for recording and editing broadcast transmissions
US4605973A (en) 1982-08-23 1986-08-12 Kohorn H Von System, apparatus and method for recording and editing broadcast transmissions
US4574354A (en) 1982-11-19 1986-03-04 Tektronix, Inc. Method and apparatus for time-aligning data
US4446997A (en) 1983-01-26 1984-05-08 Elliot Himberg Convertible camera-supporting belt device
US4527201A (en) 1983-03-29 1985-07-02 Panavision, Inc. Zoom indicating apparatus for video camera or the like
US4618895A (en) 1983-08-31 1986-10-21 Wright Bruce R Video editing system
US4526308A (en) 1984-01-09 1985-07-02 Dovey Dennis J Camera support
US4750053A (en) 1984-02-02 1988-06-07 Broadcast Advertisers Reports, Inc. Method and system for enabling television commerical monitoring using a marking signal superimposed over an audio signal
JPS60250784A (ja) 1984-05-28 1985-12-11 Fuji Photo Optical Co Ltd 電子カメラ
US4602297A (en) 1985-01-22 1986-07-22 Morris Reese System for editing commercial messages from recorded television broadcasts
US4600281A (en) 1985-03-29 1986-07-15 Bloomstein Richard W Altering facial displays in cinematic works
US4777537A (en) 1985-10-21 1988-10-11 Sony Corporation Signal recording apparatus and method
GB8528143D0 (en) 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JPS62171267U (de) 1986-04-18 1987-10-30
US4739398A (en) 1986-05-02 1988-04-19 Control Data Corporation Method, apparatus and system for recognizing broadcast segments
DE3628743C2 (de) 1986-08-23 1994-05-11 Grundig Emv Einrichtung zum Aufzeichnen und schnellen Wiederauffinden von Videosignalabschnitten auf einem Magnetband
US4843484A (en) 1986-09-12 1989-06-27 Pioneer Electronic Corporation Information recording disc with composite index codes and its playback method
US5040081A (en) 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US4714184A (en) 1987-03-13 1987-12-22 Fotima International Ltd. Camera carrier
US4947265A (en) 1987-06-11 1990-08-07 Sony Corporation Apparatus and method for recording or reproducing still video and audio information and having after recording editing capability
US4930160A (en) 1987-09-02 1990-05-29 Vogel Peter S Automatic censorship of video programs
JP2565209B2 (ja) 1987-12-28 1996-12-18 ソニー株式会社 テレビジヨン信号処理装置
US4913539A (en) 1988-04-04 1990-04-03 New York Institute Of Technology Apparatus and method for lip-synching animation
US4847543A (en) 1988-04-08 1989-07-11 Ultimatte Corporation Motion control drive interface
US5514861A (en) 1988-05-11 1996-05-07 Symbol Technologies, Inc. Computer and/or scanner system mounted on a glove
US5012335A (en) 1988-06-27 1991-04-30 Alija Cohodar Observation and recording system for a police vehicle
US5025394A (en) 1988-09-09 1991-06-18 New York Institute Of Technology Method and apparatus for generating animated images
US5109482A (en) 1989-01-11 1992-04-28 David Bohrman Interactive video control system for displaying user-selectable clips
JP2977829B2 (ja) 1989-01-11 1999-11-15 株式会社東芝 動画像再生装置および動画像再生方法
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
US5253066C1 (en) 1989-06-01 2001-05-22 United Video Properties Inc Tv recording and viewing control system
US4934821A (en) 1989-06-26 1990-06-19 Eastman Kodak Company Technique for scanning a microfilm image moving at a variable speed
US5701582A (en) 1989-08-23 1997-12-23 Delta Beta Pty. Ltd. Method and apparatus for efficient transmissions of programs
US5421031A (en) 1989-08-23 1995-05-30 Delta Beta Pty. Ltd. Program transmission optimisation
US5249289A (en) 1989-09-28 1993-09-28 International Business Machines Corporation System and method for rebuilding edited digital audio files
JP3225356B2 (ja) 1989-11-29 2001-11-05 コニカ株式会社 スチルビデオカメラ
US5012334B1 (en) 1990-01-29 1997-05-13 Grass Valley Group Video image bank for storing and retrieving video image sequences
JPH03252287A (ja) 1990-02-28 1991-11-11 Victor Co Of Japan Ltd 動画像圧縮装置
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
JP2958048B2 (ja) 1990-05-16 1999-10-06 シャープ株式会社 テレビジョン画像処理装置
JPH0427280A (ja) 1990-05-22 1992-01-30 Canon Inc カメラ一体型ビデオレコーダ装置
US5477331A (en) 1990-09-14 1995-12-19 Canon Kabushiki Kaisha Image recording apparatus with index information recording feature
US5177796A (en) 1990-10-19 1993-01-05 International Business Machines Corporation Image data processing of correlated images
JPH04207788A (ja) 1990-11-30 1992-07-29 Sony Corp 画像信号符号化装置及び方法
JPH04209384A (ja) 1990-11-30 1992-07-30 Sharp Corp 磁気テープ記録/再生装置
US5305400A (en) 1990-12-05 1994-04-19 Deutsche Itt Industries Gmbh Method of encoding and decoding the video data of an image sequence
US5172281A (en) 1990-12-17 1992-12-15 Ardis Patrick M Video transcript retriever
US5253275A (en) 1991-01-07 1993-10-12 H. Lee Browne Audio and video transmission and receiving system
US5684514A (en) 1991-01-11 1997-11-04 Advanced Interaction, Inc. Apparatus and method for assembling content addressable video
US5317730A (en) 1991-01-11 1994-05-31 International Business Machines Corporation System for modifying persistent database based upon set of data elements formed after selective insertion or deletion
JPH04250436A (ja) 1991-01-11 1992-09-07 Pioneer Electron Corp 撮像装置
US5187571A (en) 1991-02-01 1993-02-16 Bell Communications Research, Inc. Television system for displaying multiple views of a remote location
US5430835A (en) 1991-02-15 1995-07-04 Sierra On-Line, Inc. Method and means for computer sychronization of actions and sounds
US5241428A (en) 1991-03-12 1993-08-31 Goldwasser Eric P Variable-delay video recorder
CA2057961C (en) 1991-05-06 2000-06-13 Robert Paff Graphical workstation for integrated security system
US5185667A (en) 1991-05-13 1993-02-09 Telerobotics International, Inc. Omniview motionless camera orientation system
US5265180A (en) 1991-06-13 1993-11-23 Intel Corporation Method of encoding a sequence of images of a digital motion video signal
US5182641A (en) 1991-06-17 1993-01-26 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Composite video and graphics display for camera viewing systems in robotics and teleoperation
DE69222580T2 (de) 1991-07-15 1998-04-16 Hitachi Ltd Bildkoder-Dekoder und Telekonferenzendstellengerät
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5488409A (en) 1991-08-19 1996-01-30 Yuen; Henry C. Apparatus and method for tracking the playing of VCR programs
US5524193A (en) 1991-10-15 1996-06-04 And Communications Interactive multimedia annotation method and apparatus
JPH05145818A (ja) 1991-11-21 1993-06-11 Sony Corp 撮像装置
US5689648A (en) 1992-01-31 1997-11-18 Raychem Corporation Method and apparatus for publication of information
US6208805B1 (en) 1992-02-07 2001-03-27 Max Abecassis Inhibiting a control function from interfering with a playing of a video
US5396287A (en) 1992-02-25 1995-03-07 Fuji Photo Optical Co., Ltd. TV camera work control apparatus using tripod head
KR100206261B1 (ko) 1992-02-28 1999-07-01 윤종용 디지탈 vtr의 영상신호 대역 압축장치
CA2132515C (en) 1992-03-20 2006-01-31 Glen William Auty An object monitoring system
JPH0756652B2 (ja) 1992-03-24 1995-06-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 動画像のフレーム列の検索
US5999173A (en) 1992-04-03 1999-12-07 Adobe Systems Incorporated Method and apparatus for video editing with video clip representations displayed along a time line
US5467288A (en) 1992-04-10 1995-11-14 Avid Technology, Inc. Digital audio workstations providing digital storage and display of video information
US5436653A (en) 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5692661A (en) 1992-05-22 1997-12-02 Kellerman; Theodore J. Sports harness for a portable radio/cassette player
US5295089A (en) 1992-05-28 1994-03-15 Emilio Ambasz Soft, foldable consumer electronic products
US5262856A (en) 1992-06-04 1993-11-16 Massachusetts Institute Of Technology Video image compositing techniques
US5703795A (en) 1992-06-22 1997-12-30 Mankovitz; Roy J. Apparatus and methods for accessing information relating to radio and television programs
JPH0678307A (ja) 1992-07-06 1994-03-18 Sanyo Electric Co Ltd リモートコントロール装置及び電子機器制御システム
US5404316A (en) 1992-08-03 1995-04-04 Spectra Group Ltd., Inc. Desktop digital video processing system
DE69322470T2 (de) 1992-08-12 1999-07-15 International Business Machines Corp., Armonk, N.Y. System und Verfahren zur Lokalisierung von Videosegmentübergängen
DE69327220T2 (de) 1992-10-09 2000-06-21 Sony Corp., Tokio/Tokyo Erzeugung und Aufzeichnung von Bildern
US5396583A (en) 1992-10-13 1995-03-07 Apple Computer, Inc. Cylindrical to planar image mapping using scanline coherence
US5420801A (en) * 1992-11-13 1995-05-30 International Business Machines Corporation System and method for synchronization of multimedia streams
US5329320A (en) 1992-12-03 1994-07-12 Aharon Yifrach TV receiver and buffer system therefor
EP0605045B1 (de) 1992-12-29 1999-03-31 Laboratoires D'electronique Philips S.A.S. Bildverarbeitungsverfahren und -vorrichtung zum Erzeugen eines Bildes aus mehreren angrenzenden Bildern
JP3382276B2 (ja) 1993-01-07 2003-03-04 キヤノン株式会社 電子機器及びその制御方法
US5333091B2 (en) 1993-01-08 1996-12-17 Arthur D Little Enterprises Method and apparatus for controlling a videotape player to automatically scan past recorded commercial messages
US5377051A (en) 1993-01-13 1994-12-27 Hitachi America, Ltd. Digital video recorder compatible receiver with trick play image enhancement
FR2700908B1 (fr) 1993-01-26 1995-02-24 Thomson Consumer Electronics Récepteur de télévision à mémoire tampon.
US5406626A (en) 1993-03-15 1995-04-11 Macrovision Corporation Radio receiver for information dissemenation using subcarrier
US5590195A (en) 1993-03-15 1996-12-31 Command Audio Corporation Information dissemination using various transmission modes
US5440348A (en) 1993-04-16 1995-08-08 Avid Technology, Inc. Method and user interface for creating, specifying and adjusting motion picture transitions
WO1994026061A1 (en) 1993-04-29 1994-11-10 Michael Friedland Hands free video camera system
US5343251A (en) 1993-05-13 1994-08-30 Pareto Partners, Inc. Method and apparatus for classifying patterns of television programs and commercials based on discerning of broadcast audio and video signals
EP0625857B1 (de) 1993-05-19 1998-06-24 ALCATEL BELL Naamloze Vennootschap Videoserver
US5416310A (en) 1993-05-28 1995-05-16 Symbol Technologies, Inc. Computer and/or scanner system incorporated into a garment
GB2278907A (en) 1993-06-08 1994-12-14 Vinten Group Plc Manual control system for camera mountings
US5438423C1 (en) 1993-06-25 2002-08-27 Grass Valley Us Inc Time warping for video viewing
US5384703A (en) 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US5608839A (en) 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JPH09506217A (ja) 1993-10-20 1997-06-17 ヴィデオコンファレンスィング システムズ インコーポレイテッド 適応型テレビ会議システム
US5886739A (en) 1993-11-01 1999-03-23 Winningstad; C. Norman Portable automatic tracking video recording system
US5473379A (en) 1993-11-04 1995-12-05 At&T Corp. Method and apparatus for improving motion compensation in digital video coding
US5438357A (en) 1993-11-23 1995-08-01 Mcnelley; Steve H. Image manipulating teleconferencing system
US5828786A (en) 1993-12-02 1998-10-27 General Instrument Corporation Analyzer and methods for detecting and processing video data types in a video data stream
US5467271A (en) 1993-12-17 1995-11-14 Trw, Inc. Mapping and analysis system for precision farming applications
JPH07219970A (ja) 1993-12-20 1995-08-18 Xerox Corp 加速フォーマットでの再生方法及び再生装置
US5436542A (en) 1994-01-28 1995-07-25 Surgix, Inc. Telescopic camera mount with remotely controlled positioning
JPH07264452A (ja) 1994-02-03 1995-10-13 Samsung Electron Co Ltd カメラ一体型の磁気記録再生装置およびその方法
US5592626A (en) 1994-02-07 1997-01-07 The Regents Of The University Of California System and method for selecting cache server based on transmission and storage factors for efficient delivery of multimedia information in a hierarchical network of servers
US5537151A (en) 1994-02-16 1996-07-16 Ati Technologies Inc. Close caption support with timewarp
DE4408131A1 (de) 1994-03-10 1995-07-06 Otto Marchner Vorrichtung zur lediglich zeitversetzten Videowiedergabe von Betrachtungslücken während noch laufenden Fernsehsendungen
US5623173A (en) 1994-03-18 1997-04-22 Lucent Technologies Inc. Bus structure for power system
CA2144795A1 (en) 1994-03-18 1995-09-19 Homer H. Chen Audio visual dubbing system and method
JPH07274049A (ja) 1994-03-30 1995-10-20 Sony Corp 機能情報用メモリを備えた電子機器
US5524051A (en) 1994-04-06 1996-06-04 Command Audio Corporation Method and system for audio information dissemination using various modes of transmission
US5793971A (en) 1994-04-25 1998-08-11 Sony Corporation Video signal output apparatus having near video-on-demand function
US5583652A (en) 1994-04-28 1996-12-10 International Business Machines Corporation Synchronized, variable-speed playback of digitally recorded audio and video
US6069621A (en) 1994-05-10 2000-05-30 Schupak; Donald Distributed computer system for providing audio, video, and information signals to plural modules throughout a home
US5550754A (en) 1994-05-13 1996-08-27 Videoptic Research Teleconferencing camcorder
US5796426A (en) 1994-05-27 1998-08-18 Warp, Ltd. Wide-angle image dewarping method and apparatus
US5635982A (en) 1994-06-27 1997-06-03 Zhang; Hong J. System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions
US5606359A (en) 1994-06-30 1997-02-25 Hewlett-Packard Company Video on demand system with multiple data sources configured to provide vcr-like services
US5613909A (en) 1994-07-21 1997-03-25 Stelovsky; Jan Time-segmented multimedia game playing and authoring system
US5546145A (en) 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
JPH0879685A (ja) 1994-08-31 1996-03-22 Sony Corp ニア・ビデオ・オン・デマンドシステムにおけるプログラム再生装置
US5613032A (en) 1994-09-02 1997-03-18 Bell Communications Research, Inc. System and method for recording, playing back and searching multimedia events wherein video, audio and text can be searched and retrieved
JPH0879626A (ja) 1994-09-05 1996-03-22 Sony Corp ビデオ装置
US5805156A (en) 1994-09-19 1998-09-08 Intel Corporation Automated media capturing system
US5598352A (en) * 1994-09-30 1997-01-28 Cirrus Logic, Inc. Method and apparatus for audio and video synchronizing in MPEG playback systems
US5575443A (en) 1994-10-04 1996-11-19 Honeycutt; Jay W. Quick release accessory mount on a bicycle
US5920842A (en) 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
US5594498A (en) 1994-10-14 1997-01-14 Semco, Inc. Personal audio/video surveillance system
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
US5664227A (en) * 1994-10-14 1997-09-02 Carnegie Mellon University System and method for skimming digital audio/video data
US5612742A (en) 1994-10-19 1997-03-18 Imedia Corporation Method and apparatus for encoding and formatting data representing a video program to provide multiple overlapping presentations of the video program
US5926205A (en) 1994-10-19 1999-07-20 Imedia Corporation Method and apparatus for encoding and formatting data representing a video program to provide multiple overlapping presentations of the video program
US5614940A (en) 1994-10-21 1997-03-25 Intel Corporation Method and apparatus for providing broadcast information with indexing
US5687095A (en) * 1994-11-01 1997-11-11 Lucent Technologies Inc. Video transmission rate matching for multimedia communication systems
EP0713331B1 (de) 1994-11-17 2001-03-14 Canon Kabushiki Kaisha Kamerasteuervorrichtung und -Verfahren
US5822493A (en) 1994-11-17 1998-10-13 Matsushita Electric Industrial Co., Ltd. Real-time image recording/producing method and apparatus and video library system
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
JP3392967B2 (ja) 1994-12-27 2003-03-31 ペンタックス株式会社 スチルビデオカメラ
US5774498A (en) 1994-12-28 1998-06-30 Sony Corporation Data transmitting apparatus and method of same
JP3472659B2 (ja) 1995-02-20 2003-12-02 株式会社日立製作所 映像供給方法および映像供給システム
AU5027796A (en) 1995-03-07 1996-09-23 Interval Research Corporation System and method for selective recording of information
JPH08249348A (ja) 1995-03-13 1996-09-27 Hitachi Ltd 映像検索方法および装置
IT1279171B1 (it) 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5703655A (en) 1995-03-24 1997-12-30 U S West Technologies, Inc. Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process
JP3315555B2 (ja) 1995-04-07 2002-08-19 キヤノン株式会社 カメラ制御装置
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5666159A (en) 1995-04-24 1997-09-09 Eastman Kodak Company Electronic camera system with programmable transmission capability
US5838874A (en) 1995-05-08 1998-11-17 Kabushiki Kaisha Toshiba Audiovisual encoding system with a reduced number of audio encoders
US5572261A (en) 1995-06-07 1996-11-05 Cooper; J. Carl Automatic audio to video timing measurement device and method
US5682597A (en) 1995-06-15 1997-10-28 International Business Machines Corporation Hybrid video-on-demand based on a near-video-on-demand system
US5724646A (en) 1995-06-15 1998-03-03 International Business Machines Corporation Fixed video-on-demand
JPH0916457A (ja) 1995-06-28 1997-01-17 Fujitsu Ltd マルチメディアデータ検索システム
US5539483A (en) 1995-06-30 1996-07-23 At&T Corp. Panoramic projection apparatus
US5742517A (en) 1995-08-29 1998-04-21 Integrated Computer Utilities, Llc Method for randomly accessing stored video and a field inspection system employing the same
WO1997010564A1 (en) * 1995-09-15 1997-03-20 Interval Research Corporation A method of compressing a plurality of video images
US5694474A (en) 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
US5721823A (en) 1995-09-29 1998-02-24 Hewlett-Packard Co. Digital layout method suitable for near video on demand system
US5751336A (en) 1995-10-12 1998-05-12 International Business Machines Corporation Permutation based pyramid block transmission scheme for broadcasting in video-on-demand storage systems
JPH09121358A (ja) 1995-10-25 1997-05-06 Matsushita Electric Ind Co Ltd 画像符号化及び復号化装置と方法
US5768640A (en) 1995-10-27 1998-06-16 Konica Corporation Camera having an information recording function
US5678793A (en) 1995-10-30 1997-10-21 Hill; Gregory Hill Bracket for mounting a hand holdable appliance or the like
US5717869A (en) 1995-11-03 1998-02-10 Xerox Corporation Computer controlled display system using a timeline to control playback of temporal data representing collaborative activities
US6282362B1 (en) 1995-11-07 2001-08-28 Trimble Navigation Limited Geographical position/image digital recording and display system
US6118925A (en) 1995-11-14 2000-09-12 Hitachi Denshi Kabushiki Kaisha Method of and system for confirming program materials to be broadcasted and then broadcasting the program materials, and recording medium having recorded therein a procedure for implementing the method
US5726660A (en) 1995-12-01 1998-03-10 Purdy; Peter K. Personal data collection and reporting system
US5752113A (en) 1995-12-22 1998-05-12 Borden; John Panoramic indexing camera mount
US5740037A (en) 1996-01-22 1998-04-14 Hughes Aircraft Company Graphical user interface system for manportable applications
US5758181A (en) 1996-01-22 1998-05-26 International Business Machines Corporation Method and system for accelerated presentation of segmented data
US5936659A (en) 1996-01-31 1999-08-10 Telcordia Technologies, Inc. Method for video delivery using pyramid broadcasting
US6061056A (en) 1996-03-04 2000-05-09 Telexis Corporation Television monitoring system with automatic selection of program material of interest and subsequent display under user control
WO1997033433A1 (en) 1996-03-04 1997-09-12 Matsushita Electric Industrial Co., Ltd. Image selecting/displaying apparatus
US5778181A (en) 1996-03-08 1998-07-07 Actv, Inc. Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments
US5774664A (en) 1996-03-08 1998-06-30 Actv, Inc. Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments
US5791907A (en) 1996-03-08 1998-08-11 Ramshaw; Bruce J. Interactive medical training system
US5826206A (en) 1996-03-12 1998-10-20 Training Inovations Group, Llc Debriefing systems and methods for retrieving and presenting multiple datastreams with time indication marks in time synchronism
US5880788A (en) 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US6240555B1 (en) 1996-03-29 2001-05-29 Microsoft Corporation Interactive entertainment system for presenting supplemental interactive content together with continuous video programs
US6025837A (en) 1996-03-29 2000-02-15 Micrsoft Corporation Electronic program guide with hyperlinks to target resources
US5831662A (en) 1996-04-04 1998-11-03 Hughes Electronics Corporation Near on-demand digital information delivery system and method using signal fragmentation and sequencing to reduce average bandwidth and peak bandwidth variability
US5737009A (en) 1996-04-04 1998-04-07 Hughes Electronics On-demand digital information delivery system and method using signal fragmentation and linear/fractal sequencing.
US6404811B1 (en) 1996-05-13 2002-06-11 Tektronix, Inc. Interactive multimedia system
US6141693A (en) 1996-06-03 2000-10-31 Webtv Networks, Inc. Method and apparatus for extracting digital data from a video stream and using the digital data to configure the video stream for display on a television set
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6160950A (en) 1996-07-18 2000-12-12 Matsushita Electric Industrial Co., Ltd. Method and apparatus for automatically generating a digest of a program
US5928327A (en) 1996-08-08 1999-07-27 Wang; Pong-Sheng System and process for delivering digital data on demand
US5892536A (en) 1996-10-03 1999-04-06 Personal Audio Systems and methods for computer enhanced broadcast monitoring
US20020120925A1 (en) 2000-03-28 2002-08-29 Logan James D. Audio and video program recording, editing and playback systems using metadata
US20030093790A1 (en) 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
US5946050A (en) 1996-10-04 1999-08-31 Samsung Electronics Co., Ltd. Keyword listening device
US5974235A (en) 1996-10-31 1999-10-26 Sensormatic Electronics Corporation Apparatus having flexible capabilities for analysis of video information
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6263507B1 (en) 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US6005564A (en) 1996-12-05 1999-12-21 Interval Research Corporation Display pause with elastic playback
US5917542A (en) 1997-02-18 1999-06-29 Eastman Kodak Company System and method for digital image capture and transmission
US6061055A (en) 1997-03-21 2000-05-09 Autodesk, Inc. Method of tracking objects with an imaging device
US5749010A (en) 1997-04-18 1998-05-05 Mccumber Enterprises, Inc. Camera support
US6243725B1 (en) 1997-05-21 2001-06-05 Premier International, Ltd. List building system
JP3528524B2 (ja) 1997-07-10 2004-05-17 ソニー株式会社 記録再生装置および記録再生方法、並びに記録媒体
US6624846B1 (en) 1997-07-18 2003-09-23 Interval Research Corporation Visual user interface for use in controlling the interaction of a device with a spatial region
US20020031331A1 (en) 1997-08-12 2002-03-14 Index Systems, Inc. Apparatus and methods for voice titles
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US5768648A (en) 1997-09-05 1998-06-16 Roy Isaia Camera mount for controlled and steady rolling movement
US6961954B1 (en) 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
US6072542A (en) 1997-11-25 2000-06-06 Fuji Xerox Co., Ltd. Automatic video segmentation using hidden markov model
US5940004A (en) 1997-12-18 1999-08-17 Fulton; John G. Personal recovery system
US6272231B1 (en) 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
US6018359A (en) 1998-04-24 2000-01-25 Massachusetts Institute Of Technology System and method for multicast video-on-demand delivery system
US6163510A (en) 1998-06-30 2000-12-19 International Business Machines Corporation Multimedia search and indexing system and method of operation using audio cues with signal thresholds
US6366296B1 (en) 1998-09-11 2002-04-02 Xerox Corporation Media browser using multimodal analysis
US6452969B1 (en) 1998-09-28 2002-09-17 Thomson Licensing S.A. Transform domain inverse motion compensation having fractional pel accuracy
US6317039B1 (en) 1998-10-19 2001-11-13 John A. Thomason Wireless video audio data remote system
US6993787B1 (en) 1998-10-29 2006-01-31 Matsushita Electric Industrial Co., Ltd. Providing VCR functionality for data-centered video multicast
US7024678B2 (en) 1998-11-30 2006-04-04 Sedna Patent Services, Llc Method and apparatus for producing demand real-time television
US6297845B1 (en) 1998-12-29 2001-10-02 International Business Machines Corporation System and method of in-service testing of compressed digital broadcast video
US6934461B1 (en) 1999-01-05 2005-08-23 Interval Research Corporation Low attention recording, with particular application to social recording
US6825875B1 (en) 1999-01-05 2004-11-30 Interval Research Corporation Hybrid recording unit including portable video recorder and auxillary device
US6236395B1 (en) 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US7454777B1 (en) 1999-03-01 2008-11-18 Sony Corporation Satellite system/internet system with display option palette with multiple filtering options
US6934759B2 (en) 1999-05-26 2005-08-23 Enounce, Inc. Method and apparatus for user-time-alignment for broadcast works
US6502139B1 (en) 1999-06-01 2002-12-31 Technion Research And Development Foundation Ltd. System for optimizing video on demand transmission by partitioning video program into multiple segments, decreasing transmission rate for successive segments and repeatedly, simultaneously transmission
US6986156B1 (en) 1999-06-11 2006-01-10 Scientific Atlanta, Inc Systems and methods for adaptive scheduling and dynamic bandwidth resource allocation management in a digital broadband delivery system
US6868452B1 (en) 1999-08-06 2005-03-15 Wisconsin Alumni Research Foundation Method for caching of media files to reduce delivery cost
US7143431B1 (en) 1999-08-06 2006-11-28 Wisconsin Alumni Research Foundation Method for reduced bandwidth for on-demand data streaming using mini-clusters
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US20020157103A1 (en) 2000-01-07 2002-10-24 Deyang Song Method for digital media playback in a broadcast network
KR100317303B1 (ko) 2000-01-10 2001-12-22 구자홍 방송 프로그램 녹화 및 재생시 a/v와 데이터간 동기화장치
WO2001052541A1 (en) 2000-01-14 2001-07-19 Nds Limited Advertisements in an end-user controlled playback environment
US6701528B1 (en) 2000-01-26 2004-03-02 Hughes Electronics Corporation Virtual video on demand using multiple encrypted video segments
US6622305B1 (en) 2000-02-25 2003-09-16 Opentv, Inc. System and method for displaying near video on demand
US20040123324A1 (en) 2000-03-07 2004-06-24 Sazzad Sharif M. Methods and apparatus for providing video services such as Video-on-Demand, news and advertising services
JP2001306581A (ja) 2000-04-18 2001-11-02 Sony Corp ミドルウェアおよびミドルウェアを用いたメディアデータ視聴機器
US7194186B1 (en) 2000-04-21 2007-03-20 Vulcan Patents Llc Flexible marking of recording data by a recording unit
US7266771B1 (en) 2000-04-21 2007-09-04 Vulcan Patents Llc Video stream representation and navigation using inherent data
KR100547317B1 (ko) 2000-07-14 2006-01-26 엘지전자 주식회사 인덱스 정보의 추출과 검색이 동시에 가능한 녹화/재생장치
TWI230858B (en) 2000-12-12 2005-04-11 Matsushita Electric Ind Co Ltd File management method, content recording/playback apparatus and content recording program
MY147018A (en) 2001-01-04 2012-10-15 Thomson Licensing Sa A method and apparatus for acquiring media services available from content aggregators
US20020170068A1 (en) 2001-03-19 2002-11-14 Rafey Richter A. Virtual and condensed television programs
US20020159750A1 (en) 2001-04-26 2002-10-31 Koninklijke Philips Electronics N.V. Method for segmenting and indexing TV programs using multi-media cues
US7055103B2 (en) 2001-08-28 2006-05-30 Itzhak Lif Method of matchmaking service
US20030149574A1 (en) 2002-02-05 2003-08-07 Rudman Daniel E. Method for providing media consumers with total choice and total control
US7130528B2 (en) 2002-03-01 2006-10-31 Thomson Licensing Audio data deletion and silencing during trick mode replay
KR100447200B1 (ko) 2002-07-30 2004-09-04 엘지전자 주식회사 Pvr 지원 비디오 디코딩 시스템
US20060031916A1 (en) 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of broadcasted or streamed multimedia content
US20060031879A1 (en) 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of news-related broadcasted or streamed multimedia content
US20060053470A1 (en) 2004-04-30 2006-03-09 Vulcan Inc. Management and non-linear presentation of augmented broadcasted or streamed multimedia content
US20060031885A1 (en) 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of music-related broadcasted or streamed multimedia content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004039238A1 (de) * 2004-08-12 2006-02-23 AverMedia Technologies, Inc., Chung Ho Verfahren und Vorrichtung zum Ausrüsten eines persönlichen digitalen Produkts mit Funktionen des Aufzeichnens und Anzeigens des digitalen Video/Audio-Multimedia

Also Published As

Publication number Publication date
US8238722B2 (en) 2012-08-07
US20040170385A1 (en) 2004-09-02
US5893062A (en) 1999-04-06
AU5898398A (en) 1998-06-29
US7480446B2 (en) 2009-01-20
US20020059074A1 (en) 2002-05-16
EP1057331A2 (de) 2000-12-06
US6728678B2 (en) 2004-04-27
WO1998025405A2 (en) 1998-06-11
US20120321276A1 (en) 2012-12-20
US20090097823A1 (en) 2009-04-16
US6360202B1 (en) 2002-03-19
EP1057331B1 (de) 2003-03-12
DE69719825D1 (de) 2003-04-17
WO1998025405A3 (en) 1998-10-22

Similar Documents

Publication Publication Date Title
DE69719825T2 (de) Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE69513541T2 (de) Verfahren zum Detektieren von durch Kamarabewegungen verursachte Szenenänderungen
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE602004006206T2 (de) System und Verfahren zur hochqualitativen Verlängerung und Verkürzung eines digitalen Audiosignals
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
AT507588B1 (de) Verfahren zum bearbeiten von audio-daten in eine verdichtete version
DE60009827T2 (de) Zeitskalenmodifikation eines audiosignals
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE69615832T2 (de) Sprachsynthese mit wellenformen
DE60002483T2 (de) Skalierbares kodierungsverfahren für hochqualitätsaudio
DE60225400T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals
DE3687915T2 (de) Änderung von Gesichtsausdrücken in der Kinematographie.
DE19753453B4 (de) System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69800717T2 (de) Kodierung von tonrastern mit verstärkungregelungswörtern
DE69836472T2 (de) Tonverarbeitungsverfahren, tonprozessor und aufzeichnungs-/wiedergabevorrichtung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE19743662A1 (de) Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
DE602004000656T2 (de) Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text
DE2854601A1 (de) Ton-synthesizer und verfahren zur ton-aufbereitung
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
EP1212751B1 (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld
DE3037276A1 (de) Tonsynthesizer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition