DE69719825T2 - Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit - Google Patents
Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeitInfo
- Publication number
- DE69719825T2 DE69719825T2 DE69719825T DE69719825T DE69719825T2 DE 69719825 T2 DE69719825 T2 DE 69719825T2 DE 69719825 T DE69719825 T DE 69719825T DE 69719825 T DE69719825 T DE 69719825T DE 69719825 T2 DE69719825 T2 DE 69719825T2
- Authority
- DE
- Germany
- Prior art keywords
- data
- audio
- audio data
- segment
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001360 synchronised effect Effects 0.000 title description 8
- 238000000034 method Methods 0.000 claims description 168
- 238000004458 analytical method Methods 0.000 claims description 43
- 238000002156 mixing Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000036961 partial effect Effects 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims 4
- 108010001267 Protein Subunits Proteins 0.000 claims 3
- 230000001944 accentuation Effects 0.000 claims 2
- 238000004590 computer program Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 238000013459 approach Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000010513 Stupor Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4341—Demultiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/602—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/78—Television signal recording using magnetic recording
- H04N5/782—Television signal recording using magnetic recording on tape
- H04N5/783—Adaptations for reproducing at a rate different from the recording rate
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B33/00—Constructional parts, details or accessories not provided for in the other groups of this subclass
- G11B33/10—Indicating arrangements; Warning arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/426—Internal components of the client ; Characteristics thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Controls And Circuits For Display Device (AREA)
- Television Signal Processing For Recording (AREA)
- Television Systems (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
- Die vorliegende Erfindung betrifft die Wiedergabe von Audio- und Videodaten und betrifft im Besonderen das Variieren der apparenten Wiedergaberate, bei welcher die Audio- und Videodaten wiedergegeben werden.
- Es ist wünschenswert, die apparente Wiedergaberate (d. h. die Änderungsrate der Wiedergabe, wie sie von einem Beobachter wahrgenommen wird, im Gegensatz zu der Rate, bei der die Daten verarbeitet werden, um die Wiedergabe zu generieren) einer von Audio-, Video- oder zueinander in Beziehung stehenden Audio- und Videodaten generierten Wiedergabe variieren zu können. So kann es beispielsweise wünschenswert sein, die apparente Wiedergaberate zu erhöhen, um einen raschen Überblick über den Inhalt der Daten zu gewinnen, oder weil man die Wiedergabe mit einer schnelleren Rate als der normalen - bei der man den Inhalt der Daten aber immer noch geeignet aufnehmen oder verarbeiten kann - anhören oder anschauen will.
- Alternativ mag es wünschenswert sein, die apparente Wiedergaberate zu verlangsamen, so dass man die Wiedergabe sorgfältiger prüfen kann, oder weil man den Inhalt der Wiedergabe bei einer langsameren Rate besser verarbeiten kann.
- Sowohl Audio- wie auch Videodaten lassen sich in analoger Form oder in digitaler Form darstellen. Das Verfahren, welches zum Manipulieren von Audio- und/oder Videodaten verwendet wird, um eine Variation in der apparenten Wiedergaberate einer von diesen Daten generierten Wiedergabe zu bewirken, hängt von der Form ab, in der die Daten dargestellt sind. Herkömmliche Vorrichtungen ermöglich es jedoch, in der einen Form vorliegende Daten leicht in die andere Farm umzuwandeln (d. h. analoge Daten in digitale Daten oder digitale Daten in analoge Daten), so dass man große Freiheit hat bei der Verwendung von Methoden zum Durchführen der Wiedergaberatenvariation, unabhängig von der Form, in der die Daten ursprünglich vorlagen.
- Die apparente Wiedergaberate einer Audiowiedergabe oder einer Videowiedergabe kann durch Löschen spezifizierter Daten oder Hinzufügen spezifizierter Daten (d. h. Wiederholen gewisser Daten) aus bzw. zu einem korrespondierenden Satz von digitalen Audiodaten oder digitalen Videodaten, die den Inhalt der Wiedergabe repräsentieren, erhöht bzw. erniedrigt werden. Zur Realisierung einer derartigen Variation der apparenten Wiedergaberate einer Audiowiedergabe oder einer Videowiedergabe sind bereits vielfältige Techniken eingesetzt worden. So hat man zum Beispiel die apparente Wiedergaberate einer durch einen Satz von digitalen Audiodaten repräsentierten Audiowiedergabe variiert durch die Verwendung der sog, Synchronized Overlap Add (SOLA-)Methode (auf die im Folgende noch näher eingegangen wird), um einen originalen Satz von digitalen Audiodaten geeignet zu modifizieren, wobei ein modifizierter Satz von digitalen Audiodaten erzeugt wird, von dem die Audiowiedergabe generiert wird.
- Häufig steht ein Satz von Audiodaten in Beziehung zu einem bestimmten Satz von Videodaten, und die beiden werden gemeinsam verwendet, um eine audiovisuelle Wiedergabe zu generieren, wie dies zum Beispiel bei der Darstellung von Fernsehsendungen, Filmen oder Computer-Multimedia-Daten geschieht. Wenn die apparente Wiedergaberate einer audiovisuellen Wiedergabe variiert wird, müssen die Audiowiedergabe und die Videowiedergabe synchronisiert werden, um die zeitliche Korrespondenz zwischen dem Inhalt der Audiowiedergabe und der Videowiedergabe zu wahren. (Alternativ kann die Audiowiedergabe vollständig eliminiert und so die Notwendigkeit der Aufrechterhaltung der Synchronisation umgangen werden; allerdings geht dann der Inhalt der Audiowiedergabe verloren.)
- Bislang wurde die apparente Wiedergaberate einer audiovisuellen Wiedergabe variiert durch gleichmäßiges Löschen bzw. Wiederholen von Videodaten (z. B. Video-Frames) und gleichmäßiges, der Behandlung der Videodaten entsprechendes Löschen bzw. Wiederholen von Audiodaten (wenn z. B. die apparente Wiedergaberate der Videowiedergabe auf die doppelte Geschwindigkeit der originalen Wiedergaberate beschleunigt wird, indem zum Beispiel jeder zweite Video-Frame eliminiert wird, dann wird die Audiowiedergabe ebenfalls beschleunigt durch Eliminieren jedes zweiten Audio-Abtastwertes oder -Sample oder jedes zweiten Satzes einer bestimmten Anzahl von Audio-Samples). Zwar ist dies ein wirksamer Ansatz zum Wahren der Synchronisation; er kann aber zu einer Verzerrung der Audio- und Videowiedergaben führen, insbesondere bei relativ hohen oder niedrigen apparenten Wiedergaberaten. Im Besonderen kann die Audiowiedergabe in der Weise verzerrt werden, dass mit höher werdender apparenter Wiedergaberate menschliche Stimmen zunehmend einen "Micky-Maus"-Effekt zu manifestieren beginnen, und dass mit kleiner werdender apparenter Wiedergaberate menschliche Stimmen zunehmend so zu klingen beginnen, als befände der Sprecher sich in einem Zustand der Betäubung. Eine derartige Verzerrung der Wiedergabe ist eine Folge der Tatsache, dass die Eliminierung von Audiodaten aus dem originalen Satz von Audiodaten mechanisch geschieht, ohne Rücksicht auf den Inhalt der Audiodaten, welche eliminiert oder beibehalten werden.
- Es wäre wünschenswert, einen besseren Weg zum Variieren der apparenten Wiedergaberate einer audiovisuellen Wiedergabe zur Verfügung zu haben. Im Besonderen ist ein Ansatz wünschenswert, der die zur Generierung der Wiedergabe verwendeten Audio- und/oder Videodaten auf "intelligente" Weise modifiziert, basierend auf einer Wertung oder Evaluierung des Inhaltes der Audiodaten und/oder Videodaten, weil ein derartiger Ansatz eine Verzerrung der Wiedergabe, insbesondere der Audiowiedergabe, reduzieren oder eliminieren kann. Gute Synchronisation zwischen der Audio- und Videowiedergabe sollte ebenfalls erhalten bleiben. Wünschenswert ist außerdem die Fähigkeit, die apparente Wiedergaberate über einen weiten Bereich von Größen zu variieren. Ferner kann die Variation der apparenten Wiedergaberate bevorzugt automatisch in der Weise durchgeführt werden, dass eine apparente Wiedergaberate erzeugt wird, welche einer spezifizierten Zielwiedergaberate oder -raten eng folgt.
- Die EP-A-0 681 398 offenbart ein Verfahren und ein System, welches zum Variieren der Wiedergaberate einer audiovisuellen Wiedergabe befähigt. Die Wiedergaberate wird vom Benutzer direkt beeinflusst. Die Audiodaten werden expandiert oder komprimiert, so dass die Tonhöhe oder der Pitch der Audiodaten unverzerrt bleibt, während Audio-zu-Video-Synchronisation gewahrt bleibt.
- Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren gemäß Anspruch 1 bereitgestellt.
- Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein System gemäß Anspruch 31 bereitgestellt.
- Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein computerlesbares Medium gemäß Anspruch 34 bereitgestellt.
- Die Erfindung ermöglicht es, die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Die Erfindung kann die Modifikation eines originalen Satzes von Audiodaten gemäß einer Zielwiedergaberate (bei der es sich um eine einzige Zielwiedergaberate oder um eine Sequenz von Zielwiedergaberaten handeln kann, wie im Folgenden erläutert) auf Basis einer Evaluierung des Inhaltes des Audiodatensatzes bewirken, dann die Modifizierung eines in Beziehung stehenden originalen Satzes von Videodaten entsprechend den an dem originalen Audiodatensatz vorgenommenen Modifizierungen bewirken, so dass die modifiziertem Audio- und Videodatensätze (und damit die von ihnen erzeugten Wiedergaben) synchronisiert sind. Wenn die so erzeugten modifizierten Audio- und Videodatensätze zur Generierung einer audiovisuellen Wiedergabe verwendet werden, weist die audiovisuelle Wiedergabe eine apparente Wiedergaberate (oder -raten) auf, die der Zielwiedergaberate (oder -raten) angenähert ist bzw. sind. Durch Sicherstellen, dass die modifizierten Audio- und Videodatensätze synchronisiert sind, wird die Dissonanz (z. B. eine zeitliche Unstimmigkeit zwischen gesprochenen Warten in der Audiowiedergabe und der entsprechenden Lippenbewegung des Sprechers in der Videowiedergabe), die sich andernfalls, wenn die Audio- und Videowiedergabe nicht synchronisiert sind, ergeben würde, minimiert oder eliminiert. Ferner ist das direkte Modifizieren des originalen Audiodatensatzes auf Basis einer Evaluierung des Inhaltes der Audiodaten zur Erzeugung einer Variation der apparenten Wiedergaberate der audiovisuellen Wiedergabe vorteilhaft, weil es damit möglich werden kann, Artefakte (z. B. Pitch-Verdoppelung, Knack- und Klickgeräusche) in der Audiowiedergabe zu minimieren oder zu eliminieren. Bevorzugt wird der originale Audiodatensatz in der Weise modifiziert, dass man einen modifizierten Audiodatensatz erhält, der zum Generieren einer Audiowiedergabe mit wenig oder gar keiner Verzerrung verwendet werden kann (z. B. mit Reduzierung oder Eliminierung der Tendenz, dass menschliche Stimmen einen "Micky-Maus"-Effekt zeigen, wenn die apparente Wiedergaberate über eine normale Wiedergaberate hinaus angehoben wird, oder wie betäubt klingen, wenn die apparente Wiedergaberate unter eine normale Wiedergaberate gesenkt wird). Allgemein kann erfindungsgemäß eine Zielwiedergaberate (und damit typisch die apparente Wiedergaberate) schneller oder langsamer sein als eine normale Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine audiovisuelle Wiedergabe von den originalen Sätzen von Audio- und Videodaten generiert. Im Besonderen, wie aus der nachfolgenden Beschreibung noch besser erkennbar werden wird, erlauben die zur Erzeugung des modifizierten Audiodatensatzes verwendeten Verfahren, einen weiten Bereich von apparenten Wiedergaberaten zu erzeugen, ohne dabei ein inakzeptables Maß an Verzerrung in die audiovisuelle Wiedergabe (insbesondere in die Audiowiedergabe) einzuführen.
- Bei einer Ausführungsform der Erfindung kann die apparente Wiedergaberate einer audiovisuellen Wiedergabe von einer normalen Wiedergaberate, beider ein audiovisuelles Wiedergabesystem die audiovisuelle Wiedergabe von einem originalen Satz von Audiodaten und einem in Beziehung stehenden originalen Satz von Videodaten generiert, variiert werden durch: i) Definieren einer Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten; ii) Bestimmen einer Zielwiedergaberate (welche tatsächlich eine Sequenz von Zielwiedergaberaten sein kann) für die audiovisuelle Wiedergabe; iii) Erzeugen eines modifizierten Satzes von Audiodaten, basierend auf der Zielwiedergaberate und einer Evaluierung des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem originalen Satz von Audiodaten korrespondiert; und iv) Erzeugen eines modifizierten Satzes von Videodaten, basierend auf dem modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten und der Korrespondenz zwischen dem originalen Satz von Audiodaten und dem originalen Satz von Videodaten.
- Eine Zielwiedergaberate kann "manuell" durch eine Benutzerinstruktion (d. h. durch Spezifizieren einer Nominalzielwiedergaberate durch den Benutzer) etabliert werden. Alternativ kann eine Zielwiedergaberate automatisch etabliert werden, ohne Benutzereingabe, basierend auf einer Analyse der audiovisuellen Daten. Eine Zielwiedergaberate kann aber auch durch automatisches Modifizieren einer benutzerspezifizierten Nominalzielwiedergabe auf Basis einer Analyse der audiovisuellen Daten etabliert werden. Wie im Vorstehenden erwähnt, kann in dem Falle, dass eine Nominalzielwiedergaberate von einem Benutzer spezifiziert wird, eine einzelne Zielwiedergaberate für die gesamte audiovisuelle Wiedergabe spezifiziert werden, oder es kann eine Reihe von Zielwiedergaberaten spezifiziert werden, von denen jede zu einem Teil der audiovisuellen Wiedergabe korrespondiert. Ähnlich kann in Einklang mit der Erfindung eine einzelne Zielwiedergaberate oder eine Reihe von Zielwiedergaberaten automatisch etabliert werden (entweder "von Grund auf" oder auf Basis einer anfänglich spezifizierten Nominalwiedergaberate oder -raten). Ferner, wie aus der nachfolgenden Beschreibung erkennbar werden wird, ermöglicht es die Erfindung einem Benutzer, eine Nominalzielwiedergaberate in Echtzeit zu variieren, während die audiovisuelle Wiedergabe generiert wird.
- Es kann eine beliebige geeignete Methode zum automatischen Bestimmen einer Zielwiedergaberate oder zum automatischen Modifizieren einer Nominalzielwiedergaberate verwendet werden. Eine derartige automatische Bestimmung oder Modifizierung der Zielwiedergaberate kann durchgeführt werden durch Evaluieren des originalen Satzes von Audiodaten, des originalen Satzes von Videodaten oder beider Sätze. Ferner kann die Zielwiedergaberate durch Mehrfachevaluierungen der Audio- und/oder Videodatensätze automatisch etabliert werden. Der Audiodatensatz kann beispielsweise evaluiert werden, um die Betonung zu bestimmen, mit der gesprochene Teile der Audiodaten geäußert werden (z. B. durch Berechnen eines Energieterms für die gesprochenen Teile), wobei die Zielwiedergaberate auf den relativen Betonungen der gesprochenen Teile der Audiodaten basiert. Eine andere Möglichkeit besteht darin, den Audiodatensatz zu evaluieren, um die Geschwindigkeit zu bestimmen, mit der gesprochene Teile der Audiodaten geäußert werden (zum Beispiel durch Bestimmen spektraler Änderungen in den gesprochenen Teilen), wobei die Zielwiedergabe auf den relativen Geschwindigkeiten der gesprochenen Teile der Audiodaten basiert. Es können aber auch sowohl Betonung und Geschwindigkeit, mit denen gesprochene Teile der Audiodaten geäußert werden, bestimmt und kombiniert werden, um Audiospannungswerte für die gesprochenen Teile zu erzeugen, wobei die Zielwiedergabe auf den Audiospannungswerten der gesprochenen Teile basiert. Der Videodatensatz kann zum Beispiel evaluiert werden, um die relative Änderungsrate der Videodaten entlang verschiedener populationsbasierter Dimensionen (im Folgenden noch näher erläutert) zu bestimmen, wobei die Zielwiedergabe auf dieser Evaluierung basiert. Eine weitere Möglichkeit besteht darin, den Videodatensatz zu evaluieren, indem Teile des korrespondieren Videobildes, die sich rasch verändern, sowie die Frequenz, mit der solche raschen Änderungen auftreten, bestimmt werden, wobei die Zielwiedergabe dann auf Auftreten und Frequenz dieser raschen Änderungen basiert wird. Eine andere Möglichkeit besteht darin, den Videodatensatz zu evaluieren durch Verfolgen der Bewegung von Objekten innerhalb des korrespondierenden Videobildes, und die Zielwiedergabe auf dem Auftauchen neuer Objekte in dem Videobild zu basieren.
- Der modifizierte Satz von Audiodaten kann auf Basis der Größe der Zielwiedergaberate und einer Analyse des Inhaltes der Audiodaten erzeugt werden. Beispielsweise kann der modifizierte Satz von Audiodaten erzeugt werden durch: i) Teilen des originalen Satzes von Audiodaten in eine Mehrzahl von Segmenten, wobei jedes Segment einen zusammenhängenden Teil des Satzes von Audiodaten repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei jedes Segment einem oder zwei anderen Segmenten benachbart ist, derart, dass keine Lücken zwischen Segmenten vorhanden sind und benachbarte Segmente nicht überlappen; ii) Überlappen eines Endbereichs eines ersten Segmentes mit einem benachbarten Endbereich eines zweiten Segmentes, welches dem ersten Segment benachbart ist (die Überlappung kann negativ sein, wie im Folgenden noch näher beschrieben werden wird); iii) Identifizieren, als Teil des modifizierten Satzes von Audiodaten, der Audiodaten von dem ersten Segment, welche nicht Teil des überlappten Endbereichs des ersten Segmentes sind; iv) Mischen der Daten der korrespondierenden überlappten Endbereiche; und v) Bestimmen, ob zusätzliche Segmente indem originalen Satz von Audiodaten vorhanden sind, welche nicht mit einem benachbarten Segment überlappt worden sind, wobei in dem Fall, dass zusätzliche Segmente vorhanden sind, die zusätzlichen Segmente in Einklang mit der obigen Beschreibung verarbeitet werden (wobei ein neues erstes Segment von den gemischten Daten und den nicht-überlappten Daten von dem vorherigen zweiten Segmentes erzeugt wird), und in dem Fall, dass zusätzliche Segmente nicht vorhanden sind, die gemischten Daten und die nicht-überlappten Daten von dem zweiten Segment als Teil des modifizierten Audiodatensatzes aufgenommen werden.
- Der modifizierte Satz von Videodaten kann erzeugt werden durch i) Etablieren einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend auf einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz und einer Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz; ii) Gruppieren der Audiodaten des modifizierten Audiodatensatzes in Audiosegmente mit der gleichen Menge an Audiodaten, wie in Audiosegmenten des originalen Audiodatensatzes gefunden; iii) für jedes der Audiosegmente des modifizierten Audiodatensatzes: Identifizieren von einer oder mehreren partiellen oder vollständigen Untereinheiten von Videodaten von dem originalen Videodatensatz, welche zu Audiodaten in dem Audiosegment des modifizierten Audiodatensatzes korrespondieren, Sasierend auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz; und iv) Modifizieren der Video-Frames in dem originalen Videodatensatz nach Bedarf, um den modifizierten Videodatensatz zu erzeugen, so dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des modifizierten Videodatensatzes vorliegt. Der modifizierte Satz von Videodaten kann erzeugt werden durch Eliminieren von Daten aus dem originalen Videodatensatz, durch Hinzufügen von Daten zu dem originalen Videodatensatz, durch Mischen von Daten von dem originalen Videodatensatz und/oder durch Synthetisieren von Daten, basierend auf den Daten in dem originalen Videodatensatz.
- Die modifizierten Sätze von Audio- und Videodaten können zur späteren Verwendung für die Generierung einer audiovisuellen Wiedergabe gespeichert werden, oder sie können unmittelbar zur Generierung einer audiovisuellen Wiedergabe verwendet werden. Insbesondere im letzteren Fall kann die Erfindung zur Generierung einer audiovisuellen Wiedergabe verwendet werden, wobei die apparente Wiedergaberate der Wiedergabe in Echtzeit variiert werden kann. Eine derartige Echtzeitvariation der apparenten Wiedergaberate ist möglich, weil das im Vorstehenden beschriebene Verfahren zum Modifizieren des Audiodatensatzes ohne Kenntnis der weit in der Zukunft liegenden Audiodaten des originalen Audiodatensatzes auskommt, um einen modifizierten Audiodatensatz erzeugen zu können, und nur die Audiodaten benötigt, welche ein nächstes Segment des originalen Audiodatensatzes umfassen. Ferner, weil die Berechnungen zum Bestimmen modifizierter Audio- und Videodaten kurz vor Generierung einer Wiedergabe von den Daten durchgeführt werden können, können die Berechnungen auf Basis einer erst vor ganz kurzer Zeit (z. B. von einem Benutzer in Echtzeit) bestimmten Zielwiedergaberate durchgeführt werden. Ferner kann die Menge an Berechnungen, die von einem erfindungsgemäßen Verfahren benötigt werden, durch derzeitige Verarbeitungseinrichtungen ausreichend schnell durchgeführt werden, um zur Generierung einer Echtzeitwiedergabe von den modifizierten Audio- und Videodaten zu befähigen.
- Fig. 1 ist ein Ablaufdiagramm eines Verfahrens in Einklang mit der vorliegenden Erfindung.
- Fig. 2 ist eine vereinfachte Darstellung eines Systems, mit dem die Erfindung implementiert werden kann.
- Fig. 3A und Fig. 3B bilden zusammen ein Ablaufdiagramm eines Verfahrens in Einklang mit einer Ausführungsform der Erfindung zum Modifizieren eines Satzes von Audiodaten entsprechend einer Zielwiedergaberate.
- Die Fig. 4A, 4B und 4C sind schematische Darstellungen eines Audiodatensatzes mit vier Segmenten und der Transformationen des Audiodatensatzes, welche während der Implementierung des Verfahrens nach Fig. 3A und Fig. 3B zum Modifizieren des Audiodatensatzes auf Erhalt einer Beschleunigung der korrespondierenden Audiowiedergabe auftreten können. Fig. 4A veranschaulicht das Mischen des ersten und zweiten Segmentes des Audiodatensatzes. Fig. 4B zeigt das Mischen des zweiten und dritten Segmentes des Audiodatensatzes. Fig. 4C veranschaulicht das Mischen des dritten und vierten Segmentes des Audiodatensatzes.
- Die Fig. 5A, 5B und 5C zeigen Segmentüberlappungen, wobei alle Trial- Überlappungen positiv sind.
- Die Fig. 6A, 6B und 6C zeigen Segmentüberlappungen, wobei alle Trial- Überlappungen negativ sind.
- Fig. 7 zeigt einen Bereich von Trial-Überlappungen, einschließlich einer positiven Zielüberlappung und einiger negativer Überlappungen.
- Fig. 8A zeigt einen weiteren Bereich von Trial-Überlappungen, die einer speziellen Handhabung in dem Verfahren nach Fig. 3A und Fig. 3B bedürfen. Fig. 8B zeigt einen Weg, der beschritten werden kann, um die in Fig. 8A gezeigte Situation anzusprechen.
- Die Erfindung ermöglicht es, die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Die audiovisuelle Wiedergabe kann auf Basis von zueinander in Beziehung stehenden Sätzen von Audio- und Videodaten (der "originalen" Sätzen von Audio- und Videodaten) bei einer normalen Wiedergaberate von einem audiovisuellen Wiedergabesystem generiert werden. Die Erfindung kann es ermöglichen, die originalen Sätze von Audio- und Videodaten gemäß einer Zielwiedergaberate oder -raten (welche im Normalfall von der normalen Wiedergaberate verschieden ist bzw. sind, nämlich schneller oder langsamer) zu modifizieren, so dass, wenn die modifizierten Sätze von Audio- und Videodaten zum Generieren einer audiovisuellen Wiedergabe mit demselben audiovisuellen Wiedergabesystem verwendet werden, die apparente Wiedergaberate bzw. -raten der audiovisuellen Wiedergabe annähernd gleich der Zielwiedergaberate bzw. -raten ist bzw. sind. (Es sei angemerkt, dass - insbesondere dann, wenn die Größe der Zielwiedergaberate gleich oder ähnlich der normalen Wiedergaberate ist - der Fall eintreten kann, dass ein "modifizierter" Satz von Audiodaten oder Videodaten gleich dem korrespondierenden originalen Satz von Audiodaten oder Videodaten ist.)
- Fig. 1 ist ein Ablaufdiagramm eines Verfahrens 100 in Einklang mit der Erfindung. Das Verfahren 100 bewirkt eine Variation der apparenten Wiedergaberate der audiovisuellen Wiedergabe durch Modifizieren eines originalen Audiodatensatzes gemäß einer Zielwiedergaberate, um einen modifizierten Audiodatensatz zu erzeugen, gefolgt von Modifizieren eines in Beziehung stehenden originalen Videodatensatzes zum Erzeugen eines modifizierten Videodatensatzes, so dass eine Korrespondenz zwischen den Audiodaten und Videodaten der originalen Datensätze in den modifizierten Datensätzen erhalten bleibt. Bevorzugt wird der originale Audiodatensatz in der Weise modifiziert, dass ein modifizierter Audiodatensatz entsteht, der eine Audiowiedergabe mit geringer oder gar keiner Verzerrung generiert.
- Die Sätze von Audiodaten und Videodaten können digital oder analog sein (in zahlreichen Anwendungen, in welchen die Erfindung Anwendung finden kann, ist typisch Letzteres der Fall). Wie für den Fachmann auf dem Gebiet der Computerprogrammierung erkennbar sein wird, kann das Verfahren 100 (und andere, nachfolgend beschriebene erfindungsgemäße Verfahren) zum Beispiel auf einem beliebigen geeignet programmierten Digitalcomputer implementiert werden. Wenn also die Audio- und/oder Videodaten anfänglich analog sind, dann können die Audio- und/oder Videodaten mit Hilfe wohlbekannter Verfahren und Vorrichtungen digitalisiert werden, um das Verfahren 100 auf einem Digitalcomputer implementieren zu können. Die digitalen Audiodaten können zum Beispiel als eine Sequenz von Audio-Abtastwerten oder -Samples repräsentiert sein, welche die Amplitude der analogen Audiosignale an gleichabständigen Punkten in der Zeit darstellen. Die digitalen Videodaten können zum Beispiel als eine Sequenz von Frames von Pixeln von Videodaten repräsentiert sein (jedes Pixel kann ferner separate Daten enthalten, die jeweils die Anwesenheit einer bestimmten Farbe in dem jeweiligen Pixel repräsentieren).
- Fig. 2 ist eine vereinfachte Darstellung eines Systems 200, mit dem die Erfindung implementiert werden kann. Das System 200 enthält eine Verarbeitungseinrichtung 201 (z. B. einen konventionellen Mikroprozessor), eine Datenspeichereinrichtung 202 (z. B. einen konventionellen Speicher mit Direktzugriff und/oder einen konventionelle Plattenspeicher), eine Wiedergabeeinrichtung 203 (z. B. einen Computerwiedergabebildschirm, ein Fernsehgerät und/oder Audiolautsprecher konventioneller Art) und eine Benutzerschnittstelleneinrichtung 204 (z. B. eine Fernbedienung, Computertastatur, Maus und/oder einen Berührungsbildschirm konventioneller Art). Diese Einrichtungen sowie andere (nicht gezeigte) konventionelle Einrichtungen, wie sie Teil eines typischen Digitalcomputers bilden können, können miteinander über einen konventionellen Computerbus 205 wechselwirken. Es versteht sich, dass die Erfindung auch mit anderen Systemen, welche andere Komponenten und/oder eine andere Konfiguration als die in Fig. 2 gezeigten aufweisen, implementiert werden kann. Wenn zum Beispiel die Audiodaten und/oder Videodaten anfänglich analoge Daten sind und die Verarbeitungseinrichtung als Teil eines Digitalcomputers implementiert ist, kann ein System zum Implementieren der Erfindung einen konventionellen A/D-Wandler zum Umwandeln der analogen Daten in digitale Daten beinhalten. Wenn ein derartiges System auch eine analoge Wiedergabeeinrichtung enthält (z. B. ein Fernsehgerät), dann kann das System auch einen konventionellen D/A-Wandler beinhalten, um die verarbeiteten digitalen Daten in die analoge Form umzusetzen.
- Es wird nun erneut auf Fig. 1 Bezug genommen, gemäß welcher in Schritt 101 des Verfahrens 100 eine Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz etabliert wird. Wie im Vorstehenden angegeben, können digitale Audiodaten als eine Sequenz von Audio-Samples repräsentiert sein und digitale Videodaten können als eine Sequenz von Video- Frames repräsentiert sein. Wie aus der nachfolgenden Beschreibung erkennbar, liegt eine geeignete Basis zum Etablieren einer Korrespondenz zwischen derartigen Audio- und Videodaten darin, die Zahl der Audio-Samples zu bestimmen, welche die gleiche Dauer wie ein Frame von Videodaten aufweisen, und diese Zahl von Samples als ein Audiosegment zu definieren. (Allgemeiner bedeutet im vorliegenden Text ein Audio-"Segment" jedoch einen zusammenhängenden Teil eines Satzes von Audiodaten, der während einer spezifizierten Zeitdauer auftritt.) Die Bestimmung der Anzahl von Audio-Samples, die in der Dauer zu einem Video-Frame korrespondieren, kann auf Basis der Video-Framerate und der Audio-Samplerate, bei denen die Videodaten und Audiodaten in eine Videowiedergabeeinrichtung bzw. Audiowiedergabeeinrichtung eines audiovisuellen Wiedergabesystems, mit dem die Erfindung realisiert wird, eingegeben werden, durchgeführt werden. Nach Erfolgter Etablierung der Zahl von Samples in einem Audiosegment kann eine Korrespondenz zwischen Audiosegmenten und Videoframes etabliert werden. Beispielsweise können die Audiosegmente so definiert werden, dass jedes Audiosegment zu einem einzelnen bestimmten Videoframe korrespondiert (wie es der Fall ist, wenn das modifizierte SOLA-Verfahren zur Implementierung von Schritt 103 des Verfahrens 100 verwendet wird, wie im Folgenden beschrieben). Eine andere Möglichkeit besteht darin, überlappende Audiosegmente zu definieren, so dass jedes Segment, in Teilen oder im Ganzen, zu einem oder mehreren Videoframes korrespondieren kann (wie es der Fall ist, wenn das unmodifizierte SOLA-Verfahren zur Implementierung von Schritt 103 des Verfahrens 100 verwendet wird, wie im Folgenden beschrieben). Die erstgenannte Implementierung ist rechnerisch weniger aufwändig (und kann deshalb den Vorzug verdienen), weil das Matching von Audiosegmenten mit bestimmten, einmaligen Videoframes eine direktere Lösung ist als die in der letztgenannten Implementierung angewendete Lösung, über alle Schritte des Verfahrens 100 hinweg eine Aufzeichnung der Korrespondenzen zwischen Audiosegmenten und Videoframes aufrechtzuerhalten.
- In Schritt 102 wird eine Zielwiedergaberate bestimmt. Wie im Vorstehenden beschrieben, kann allgemein die Zielwiedergaberate schneller oder langsamer sein als die normale Rate, bei der die audiovisuellen Daten (d. h. die Audio- und/oder Videodaten) wiedergegeben werden. Die Zielwiedergaberate kann als eine Zahl angegeben werden, die ein Mehrfaches der normalen Wiedergaberate repräsentiert, d. h. eine Zielwiedergaberate, die kleiner ist als Eins, repräsentiert eine Wiedergaberate, die langsamer ist als die normale Wiedergaberate, während eine Zielwiedergaberate, die größer ist als Eins, eine Wiedergaberate repräsentiert, die schneller ist als die normale Wiedergaberate. Die Wahl einer bestimmten Methode zur Erzeugung modifizierter Audio- und Videodatensätze sowie der Inhalt der Audio- und Videodaten kann den möglichen Wiedergaberatenänderungen, welche erzielt werden können, Grenzen setzen.
- Eine Nominalzielwiedergaberate kann von einem Benutzer eines audiovisuellen Wiedergabesystems, mit dem die Erfindung implementiert wird, manuell spezifiziert werden. Es kann eine einzige Zielwiedergaberate für die gesamte audiovisuelle Wiedergabe spezifiziert werden, oder es kann eine Reihe von Zielwiedergaberaten, von denen jede zu einem Teil der audiovisuellen Wiedergabe korrespondiert, spezifiziert werden. Der Schritt 102 kann einen von einem Benutzer spezifizierten Nominalzielwiedergaberatenwert oder -werte bestimmen. Wenn mehrfache Nominalzielwiedergaberatenwerte spezifiziert werden, kann der Schritt 102 auch eine Anfangs- und Endzeit innerhalb der audiovisuellen Wiedergabe für jede Nominalzielwiedergaberate bestimmen. Der Benutzer kann eine beliebige geeignete Benutzerschnittstelleneinrichtung verwenden (wie die beispielhaft unter Bezugnahme auf Fig. 2 nachfolgend beschriebenen Einrichtungen), um einen oder mehrere Werte für die Nominalzielwiedergaberate zu spezifizieren.
- Es mag wünschenswert sein, eine spezifizierte Nominalzielwiedergaberate zu modifizieren, um die Wahrscheinlichkeit zu erhöhen, dass der Audioteil der audiovisuellen Wiedergabe auf verständliche Weise oder mit akzeptabler Treue wiedergegeben wird. Erfindungsgemäß kann dies automatisch als Teil des Schrittes 102 geschehen. Erfindungsgemäß ist es auch möglich, die Zielwiedergaberate "von Grund auf" automatisch zu bestimmen, d. h. ohne Vorgabe oder Spezifizierung einer Nominalzielwiedergaberate. In einem solchen Fall müssen jedoch andere Kriterien zum Regieren der Bestimmung der Zielwiedergaberate etabliert werden. Mehrere Methoden zum automatischen Bestimmen einer Zielwiedergaberate oder zum Modifizieren einer Nominalzielwiedergaberate werden im Folgenden ausführlicher erläutert. Es kann jedoch auch eine beliebige andere geeignete Methode verwendet werden.
- In Schritt 103 wird der originale Audiodatensatz auf Basis der Zielwiedergaberate manipuliert, um einen modifizierten Audiodatensatz zu erzeugen. Der modifizierte Audiodatensatz wird so erzeugt, dass allgemein bei Verwendung des modifizierten Audiodatensatzes zum Generieren einer Audiowiedergabe die Audiowiedergabe um einen Betrag beschleunigt oder verlangsamt erscheint, der annähernd gleich der Zielwiedergaberate ist. Es kann ein beliebiges geeignetes Verfahren zum Modifizieren des originalen Audiodatensatzes verwendet werden. Einige besondere, beispielhafte Methoden werden im Folgenden ausführlicher erörtert.
- In Schritt 104 wird der originale Videodatensatz manipuliert, um einen modifizierten Videodatensatz zu erzeugen. Die Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Audiodatensatz (Schritt 103) und die Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz (Schritt 101) werden verwendet, um eine Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz zu erzeugen. Unter Verwendung der neu entwickelten Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz können Videodaten aus dem originalen Videodatensatz gelöscht bzw. diesem hinzugefügt werden, um den modifizierten Videodatensatz zu erzeugen. Es kann eine beliebige geeignete Methode zum Erzeugen des modifizierten Videodatensatzes von dem modifizierten Audiodatensatz verwendet werden. Einige besondere, beispielhafte Methoden werden im Folgenden näher erörtert.
- Eine audiovisuelle Wiedergabe kann von den modifizierten Datensätzen mit Hilfe eines audiovisuellen Wiedergabesystems erzeugt werden. Ein bestimmtes audiovisuelles Wiedergabesystem kann Audio- und Videodaten mit einer bestimmten Rate verarbeiten, um eine audiovisuelle Wiedergabe bei einer normalen Wiedergaberate zu erzeugen. Die Audio- und Videodaten der modifizierten Audio- und Videodatensätze werden von dem audiovisuellen Wiedergabesystem mit der gleichen Rate verarbeitet. Weil aber die modifizierten Audio- und Videodatensätze (im Normalfall) eine unterschiedliche Menge (entweder mehr oder weniger) an Daten aufweisen als die originalen Audio- und Videodatensätze, ist die apparente Wiedergaberate der audiovisuellen Wiedergabe, welche von den modifizierten Audio- und Videodatensätzen erzeugt wird, von der normalen Wiedergaberate verschieden. Weil ferner in Schritt 104 der modifizierte Videodatensatz auf Basis des Inhaltes des modifizierten Audiodatensatzes und einer Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen Videodatensatz erzeugt wird, ist der modifizierte Videodatensatz mit dem modifizierten Audiodatensatz (wenigstens annähernd, möglicherweise sogar genau) synchronisiert und erzeugt eine Wiedergabe von gleicher oder annähernd gleicher Dauer.
- Wie aus der nachfolgenden Beschreibung erkennbar, kann die Erfindung ein Verfahren zum Modifizieren des Audiodatensatzes verwenden, welches ohne Kenntnis der weit in der Zukunft liegenden Audiodaten des originalen Audiodatensatzes auskommt, um einen modifizierten Audiodatensatz erzeugen zu können, und nur die Audiodaten verlangt, welche ein nächstes Segment des originalen Audiodatensatzes umfassen. So kann es die Erfindung möglich machen, die audiovisuelle Wiedergabe zu generieren, während die modifizierten Audio- und Videodatensätze erzeugt werden. Im Besonderen erlaubt es die Erfindung vorteilhaft, die apparente Wiedergaberate (via Variation der bestimmten Zielwiedergaberate) in Echtzeit zu variieren. Es ist aber auch möglich, die modifizierten Audio- und Videodatensätze in einer konventionellen Datenspeichereinrichtung zu speichern, zum Beispiel in einem konventionellen Computerplattenspeicher, um sie nach Wunsch zu einem späteren Zeitpunkt wiederzugeben.
- Ein Beispiel soll die Arbeitsweise des Verfahrens 100 veranschaulichen, ebenso einige kleinere Anpassungen, die im Rahmen einer praktischen Implementierung des Verfahrens 100 möglicherweise notwendig werden. Beispielhaft kann in einer typischen Implementierung die Erfindung implementiert werden mit einer Videowiedergabeeinrichtung, welche die Videowiedergabe mit neuen digitalen Videodaten mit einer Rate von 30 Frames pro Sekunde auffrischt (Refreshing), und einem oder mehreren Audiolautsprechern, welche digitale Audiodaten mit einer Rate von 8000 Samples pro Sekunde akzeptieren. In einer derartigen Implementierung korrespondiert also jeder Rahmen von Videodaten in der Dauer zu 266,67 Audiosamples (Schritt 101 des Verfahrens 100), d. h. 8000 Samples pro Sekunde dividiert durch 30 Frames pro Sekunde. Ein Audiosegment kann also als 266,67 Audiosamples definiert werden. Weil in praxi ein Audiosample nicht unterteilt werden kann, kann die Zahl der Audiosamples in jedem Audiosegment auf die nächsthöhere ganze Zahl aufgerundet oder auf die nächstniedrige ganze Zahl beschnitten werden, so dass im Mittei jedes Audiosegment die berechnete Zahl von Audiosamples pro Videoframe enthält. In diesem Beispiel enthält also jeder Satz von drei Audiosegmenten ein Segment mit 266 Audiosamples und zwei Segmente mit 267 Audiosamples, angeordnet in beliebiger Reihenfolge.
- Ferner sei in diesem Beispiel angenommen, dass die Zielwiedergaberate das 2,5fache der normalen Wiedergaberate beträgt (Schritt 102 des Verfahrens 100). Der originale Audiodatensatz wird entsprechend der Zielwiedergaberate modifiziert, um den modifizierten Audiodatensatz zu erzeugen (Schritt 103 des Verfahrens 100). Hier bedeutet dies die Erzeugung eines modifizierten Audiodatensatzes, der etwa 60% weniger Audiosamples enthält als der originale Audiodatensatz, so dass die gewünschte Geschwindigkeitserhöhung von 2,5 erzielt wird. Der modifizierte Audiodatensatz enthält Teilsätze (Subsets) von Audiodaten, die jeweils zu einem der Audiosegmente des originalen Audiodatensatzes korrespondieren. Jeder dieser Teilsätze enthält im Mittel ca. 60% weniger Audiosamples, als in dem korrespondierenden Audiosegment des originalen Audiodatensatzes vorhanden waren, wenngleich bestimmte Teilsätze erheblich von diesem Mittel abweichen können, wie aus der nachfolgenden Beschreibung der Fig. 3A, 3B, 4A, 4B und 4C erkennbar wird.
- Die Audiolautsprecher und die Videowiedergabeeinrichtung erwarten den Empfang von 8000 Audiosamples pro Sekunde bzw. 30 Videoframes pro Sekunde. Nun korrespondieren aber jeweils 266,67 Audiosamples (in praxi 266 oder 267 Samples) des modifizierten Audiodatensatzes im Mittel zu 2,5 Videoframes des originalen Videodatensatzes. (Dies kann verifiziert werden anhand dessen, dass im Mittel 2,5 Audiosamples in dem originalen Audiodatensatz für jedes Audiosample des modifizierten Audiodatensatzes vorhanden sind, und dass jedes Audiosegment - 266,67 Audiosamples - des originalen Audiodatensatzes zu einem Videoframe des originalen Videodatensatzes korrespondiert.) Damit also Korrespondenz zwischen der Audio- und Videowiedergabe nach Modifizierung der Audiodaten entsprechend der Zielwiedergaberate erhalten bleibt, muss die Zahl der Videoframes vermindert werden, so dass jedes Audiosegment (d. h. 266,67 Audiosamples) des modifizierter Audiodatensatzes zu einem einzigen Videoframe korrespondieren. Im vorliegenden Beispiel muss ein modifizierter Videodatensatz erzeugt werden, der 1 Videoframe für jeweils 2,5 Videoframes in dem originalen Videodatensatz enthält. Weil Videoframes nicht zeitlich auseinander gesplittet werden können, wird zwecks Erleichterung der Erfindung angenommen, dass jedes Audiosegment des modifizierten Audiodatensatzes zu einer ganzen Zahl von Videoframes des originalen Videodatensatzes korrespondiert, so dass im Mittei jedes Audiosegment des modifizierten Audiodatensatzes zu 2,5 Videoframes korrespondiert. Anders ausgedrückt: das erste Audiosegment mag zu den ersten drei Frames von Videodaten des originalen Videodatensatzes korrespondieren, während das zweite Audiosegment zum vierten und fünften (d. h. den nächsten zwei) Frames von Videodaten korrespondiert. Der originale Videodatensatz wird dann modifiziert durch Beibehalten von nur einem Videoframe von jedem Satz von Videoframes, der zu einem Audiosegment des modifizierten Audiodatensatzes korrespondiert. Bewirkt werden kann dies, wie im Vorstehenden beschrieben, durch Eliminieren oder Mischen von Videoframes.
- Wie im Vorstehenden unter Bezugnahme auf Schritt 102 des Verfahrens 100 (Fig. 1) erwähnt, ist es erfindungsgemäß möglich, auf automatischem Wege eine Zielwiedergaberate zu bestimmen oder eine spezifizierte Nominalzielwiedergaberate zu modifizieren. Allgemein kann eine Zielwiedergaberate automatisch bestimmt oder modifiziert werden durch Analysieren des originalen Satzes von Audiodaten, des originalen Satzes von Videodaten oder beider Sätze. Mehrere Methoden, welche Verwendung finden können, um eine solche automatische Bestimmung oder Modifizierung der Zielwiedergaberate durchzuführen, sind im Folgenden erläutert. Es versteht sich jedoch, dass auch eine beliebige andere geeignete Methode zum Bestimmen oder Modifizieren einer Zielwiedergaberate für die Erfindung verwendet werden kann.
- Ein Verfahren zum Bestimmen einer Zielwiedergaberate ist im Detail in der auf gemeinsame Inhaberschaft zurückgehenden, parallel anhängigen US-Patentschrift Nr. 5 828 994 mit dem Titel "Non-Uniform Time Scale Modification of Recorded Audio" von Michele Covell und M. Margaret Withgott, mit Erteilungsdatum vom 27. Oktober 1998 (im Folgenden "Covell und Withgott" genannt) offenbart. Bei diesem Verfahren werden die Audiodaten eines Satzes von audiovisuellen Daten analysiert, und auf dieser Basis wird eine Sequenz von Zielwiedergaberaten etabliert. Kurz gefasst wird bei diesem Verfahren der Audiodatensatz nach einer bestimmten Sprecherstimme bzw. -stimmen abgesucht (typisch, obschon nicht zwingend, eine Stimme oder Stimmen, bei der bzw. denen die Wahrscheinlichkeit besteht, dass sie Teil des Audiodatensatzes ist bzw. sind). Der Audiodatensatz wird in Abschnitte unterteilt, und jeder Abschnitt wird evaluiert, um eine Wahrscheinlichkeit, dass der Abschnitt die bestimmte Sprecherstimme bzw. -stimmen enthält, zu bestimmen. Die Wahrscheinlichkeiten können normalisiert werden. Die Zielwiedergaberate für jeden Abschnitt kann auf Basis der normalisierten Wahrscheinlichkeit für den Abschnitt etabliert werden. Beispielsweise kann für Abschnitte mit einer sehr hohen Wahrscheinlichkeit, dass der bestimmte Sprecher spricht, die Zielwiedergaberate als normale Wiedergaberate oder sogar als zu der normalen Wiedergaberate verlangsamte Wiedergaberate etabliert werden. Mit sinkender Wahrscheinlichkeit, dass ein bestimmter Abschnitt die bestimmte Sprecherstimme oder -stimmen enthält, kann die Zielwiedergaberate progressiv höher gewählt werden. Zusammenfassend kann dieses Verfahren also eine Sequenz von Zielwiedergaberaten erzeugen, basierend darauf, ob ein oder mehrere bestimmte Sprecher sprechen. Dieses Verfahren ist zwar im Vorstehenden so beschrieben, dass es verwendet wird, um eine Sequenz von Zielwiedergaberaten von Grund auf zu bestimmen; selbstverständlich könnte das Verfahren aber auch zum Modifizieren einer Nominalzielwiedergaberate (oder einer Sequenz von Raten) durch Erhöhen oder Erniedrigen der Nominalzielwiedergaberate auf Basis der bestimmten Wahrscheinlichkeit, dass der Abschnitt von Audiodaten, die zu der Nominalzielwiedergaberate korrespondieren, die bestimmte Sprecherstimme oder -stimmen enthält, verwendet werden.
- Covell und Withgott beschreiben im Detail andere Verfahren zur Verwendung der Analyse eines Audiodatensatzes von einem Satz von audiovisuellen Daten, um die Zielwiedergaberate zu beeinflussen (d. h. um eine Zielwiedergaberate zu bestimmen oder eine Nominalzielwiedergaberate zu modifizieren). Diese Verfahren können auch in Verbindung mit der vorliegenden Erfindung verwendet werden. Bei einem derartigen Verfahren wird die Größe der Betonung, mit der die gesprochenen Teile eines Audiodatensatzes geäußert werden, bestimmt. (Die Größe der Betonung nicht-gesprochener Teile des Audiodatensatzes wird zu Null angenommen.) Eine solche Betonung kann beispielsweise bestimmt werden durch Berechnen eines Energieterms für die gesprochenen Teile. Die Zielwiedergaberate von verschiedenen Teilen des Audiodatensätzes kann dann etabliert werden (oder die Nominalzielwiedergaberate/n kann/können modifiziert werden) entsprechend den relativen Größen der Betonung, wie sie für diese Teile bestimmt wurden. Beispielsweise kann die Größe der Zielwiedergaberate umgekehrt zu dem Maß an Betonung, mit dem ein gesprochener Teil des Audiodatensatzes geäußert wird, variiert werden. Bei einem weiteren derartigen Verfahren nach Covell und Withgott wird die Größe der Geschwindigkeit, mit der die gesprochenen Teile eines Audiodatensatzes geäußert werden, bestimmt (nicht-gesprochene Teile haben eine Geschwindigkeit von Null). Die Sprechgeschwindigkeit kann zum Beispiel aufgrund von Messungen spektraler Veränderungen in der Sprache bestimmt werden. Die relativen Größen der Sprechgeschwindigkeit können dazu verwendet werden, die Zielwiedergaberate verschiedener Teile des Audiodatensatzes zu etablieren (oder die Nominalzielwiedergaberate oder -raten zu modifizieren). Beispielsweise wird die Zielwiedergaberate von gesprochenen Teilen, welche ursprünglich schnell gesprochen wurden, relativ langsamer gemacht als die Zielwiedergaberate von anderen gesprochenen Teilen. Wie weiter von Covell und Withgott für ein weiteres Verfahren beschrieben, können die ermittelten Größen der Sprechbetonung und der Sprechgeschwindigkeit kombiniert werden, um einen "Audiospannungs"-Wert zu erzeugen, wobei der Audiospannungswert dann dazu verwendet wird, eine Zielwiedergaberate oder -raten (oder eine Nominalzielwiedergaberate oder -räten) in beliebiger gewünschter Weise zu etablieren (bzw. zu modifizieren).
- Wie im Vorstehenden erwähnt, können die Videodaten eines Satzes von audiovisuellen Daten ebenfalls analysiert und auf Basis dieser Analyse eine Zielwiedergaberate (oder eine Sequenz von Raten) etabliert werden (d. h. von Grund auf bestimmt oder durch Modifizieren einer Nominalzielwiedergaberate erhalten werden). In der auf gemeinsame Inhaberschaft zurückgehenden, parallel anhängigen US-Patentanmeldung mit dem Titel "A Method of Compressing a Plurality of Video Images for Efficiently Storing, Displaying and Searching the Plurality of Video Images" von Subutai Ahmad, Serial No. 08/528 891, mit Einreichungsdatum vom 15. September 1995 (im Folgenden mit "Ahmad" bezeichnet) und veröffentlicht unter WO-A-97/10564, sind mehrere derartige Verfahren zum Bestimmen einer Zielwiedergaberate im Detail beschrieben. Bei einem solchen Verfahren werden die Videodaten analysiert, um die relative Änderungsrate der Videodaten entlang verschiedener populationsbasierter Dimensionen zu bestimmen (d. h. Dimensionen, welche auf Basis einer Analyse einer spezifizierten Population der Daten selektiert sind). Lineare (oder affine) Vielfache sind ein Beispiel für die Implementierung einer derartigen Analyse. Bei einem linearen Vielfachen werden in Beziehung stehende n-dimensionale Sätze von Daten (z. B. die Pixel eines Satzes von Frames von Videodaten) überwacht, um die Variation entlang jeder Dimension (z. B. Pixel) zwischen "benachbarten" Sätzen (z. B. aufeinanderfolgenden Videoframes) von Daten zu bestimmen. Es kann eine bestimmte Zahl von Dimensionen (z. B. bestimmte Pixel) mit der größten Variation als die populationsbasierten Dimensionen selektiert werden. Die Änderung der Werte der Daten (z. B. Änderung in Pixelwerten) entlang der populationsbasierten Dimensionen wird überwacht. Die Zielwiedergaberate kann auf Basis dieser Veränderungen etabliert werden. So kann die Zielwiedergaberate zum Beispiel relativ langsamer gemacht werden, wenn die Videodaten (entlang den populationsbasierten Dimensionen) sich rasch verändern, und umgekehrt. Bei einem anderen Verfahren nach Ahmad werden die Videodaten analysiert, um Teile des Videobildes zu bestimmen, welche sich rasch verändern, sowie die Frequenzen, mit der solche raschen Änderungen in Erscheinung treten. Während Perioden, in denen zahlreiche solcher rascher Änderungen auftreten, kann die Zielwiedergaberate relativ langsamer gemacht werden; während Perioden, in denen das Videobild relativ stabil bleibt, kann die Zielwiedergaberate relativ schneller gemacht werden.
- Andere Verfahren zum Etablieren einer Zielwiedergaberate auf Basis der Analyse des Videodatensatzes sind z. B. in "A Real-Time System for Automatically Annotating Unstructured Image Sequences" von Zabih, Woodfill und Withgott, IEEE International Conference an Systems, Man, and Cybernetics, 1993, und "Tracking Non-Rigid Objects in Complex Scenes" von Huttenlocher, Noh und Rucklidge, International Conference an Computer Vision, 1993, beschrieben. Bei diesen Verfahren wird die Bewegung von Objekten in dem Videobild verfolgt. Die Zielwiedergaberate kann zum Beispiel während Zeitabschnitten, in denen neue Objekte in dem Videobild in Erscheinung treten, relativ langsamer gemacht werden.
- Eine Zielwiedergaberate kann auch durch Kombinieren der Ergebnisse von Mehrfachanalysen der audiovisuellen Daten etabliert werden. Allgemein kann die Mehrfachanalyse eine Analyse der Audiodaten allein, der Videodaten allein oder der Audio- und Videodaten umfassen. Die Resultate der Analysen können auf beliebige geeignete Weise kombiniert werden. So kann zum Beispiel die durch Mehrfachanalyse etablierte Zielwiedergaberate (oder Sequenz von Raten) gemittelt werden, um eine Zielwiedergaberate zu etablieren. Eine andere Möglichkeit besteht darin, die mittels Mehrfachanalyse etablierte schnellere oder langsamere der Zielwiedergaberaten als Zielwiedergaberate zu wählen. Es können auch andere nicht-lineare Filtermethoden (z. B. Stack-Filter) oder zeitvariante Methoden (z. B. Funktionen, welche eine zeitliche Hysterese beinhalten) verwendet werden, wie für den Fachmann auf dem Gebiet der Datenanalyse erkennbar, um eine Zielwiedergaberate aufgrund von mehrfachen Zielwiedergaberaten, etabliert mittels Mehrfachanalyse der audiovisuellen Daten, zu etablieren.
- In Schritt 103 des Verfahrens 100 (Fig. 1), wie im Vorstehenden beschrieben, wird ein modifizierter Satz von Audiodaten auf Basis der Zielwiedergaberate erzeugt. Der modifizierte Audiodatensatz wird erzeugt, so dass bei Verwendung zum Generieren einer Audiowiedergabe die apparente Wiedergaberate der Wiedergabe der Zielwiedergaberate angenähert oder gleich ist. Im Folgenden wird ein besonderes Verfahren zum Erzeugen eines derartigen modifizierten Audiodatensatzes im Detail und unter Bezugnahme auf die Fig. 3A, 3B, 4A, 4B und 4C beschrieben. Das beschriebene Verfahren ist eine Modifikation der bereits bekannt gewordenen Synchronized Overlap Add (SOLA)-Methode. Die SOLA-Methode, welche ebenfalls zur Erzeugung eines modifizierten Audiodatensatzes verwendet werden kann, ist in einem Paper mit dem Titel "High quality time scale modification for speech" von S. Roucos und A. M. Wilgus, veröffentlicht in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, pp. 493-496, IEEE, 1985, näher erläutert.
- Es können sowohl die modifizierte SOLA-Methode als auch die SOLA-Methode verwendet werden, um einen modifizierten Audiodatensatz zu erzeugen, der zu einer Wiedergabe führt, welche eine apparente Wiedergaberate aufweist, die gegenüber der normalen Wiedergaberate entweder beschleunigt oder verlangsamt ist. Ferner können sowohl die modifizierte SOLA-Methode als auch die SOLA-Methode einen modifizierten Audiodatensatz erzeugen, der eine Audiowiedergabe mit wenig oder gar keiner Verzerrung des durch den originalen Audiodatensatzes repräsentierten Lautes generiert. Beispielsweise ermöglichen es diese Methoden, die Audiowiedergabe zu beschleunigen, ohne im Falle der Wiedergabe menschlicher Stimmen einen "Micky-Maus"-Effekt zu erzeugen, oder die Audiowiedergabe zu verlangsamen, ohne die Sprecher wie betäubt klingen zu lassen. Die im Folgenden beschriebene modifizierte SOLA- Methode unterscheidet sich von der in dem obenerwähnten Paper beschriebenen SOLA-Methode im Wesentlichen dadurch, dass die SOLA-Methode ein anfängliches Überlappen von Segmenten zulässt, während die modifizierte SOLA- Methode dies nicht erlaubt; abgesehen von diesem Unterschied sind die beiden Verfahren im Wesentlichen gleich. Die Verwendung der modifizierten SOLA-Methode kann im Vergleich zur Verwendung der SOLA-Methode vorteilhaft sein, weil die modifizierte SOLA-Methode zu einem geringeren rechnerischen Aufwand führt (zum Beispiel verlangt die SOLA-Methode einen größeren "Buchführungsaufwand" zum Verfolgen der anfänglich überlappenden Segmente). Ferner kann die modifizierte SOLA-Methode weniger Verzerrung erzeugen als die SOLA-Methode, weil die modifizierte SOLA-Methode einen größeren Teil der originalen Audiodaten in unmodifizierter Form beibehält. Für den Fachmann auf dem Gebiet der Datenanalyse wird anhand der nachfolgenden Beschreibung der modifizierten SOLA-Methode ohne weiteres erkennbar sein, wie die SOLA-Methode für die Erfindung Verwendung finden kann; in der Hauptsache erfordert die Verwendung der SOLA-Methode, dass die Schritte der modifizierten SOLA-Methode, wie sie im Folgenden beschrieben werden, so modifiziert werden, dass die anfängliche Überlappung der Segmente Berücksichtigung findet.
- Die Fig. 3A und 3B bilden zusammen ein Ablaufdiagramm eines Verfahrens 300 (bei dem es sich um eine modifizierte SOLA-Methode handelt) gemäß einer Ausführungsform der Erfindung zum Modifizieren eines Satzes von Audiodaten entsprechend einer Zielwiedergaberate. Das Verfahren 300 kann mit einer beliebigen Zielwiedergaberate verwendet werden, d. h. entweder mit einer Zielwiedergaberate, welche dazu gedacht ist, die apparente Wiedergaberate zu beschleunigen (d. h. bei Angabe der Zielwiedergaberate als Zahl, welche ein Mehrfaches der normalen Wiedergaberate repräsentiert, mit einer Zielwiedergaberate größer als Eins) oder mit einer Zielwiedergaberate, welche dazu gedacht ist, die apparente Wiedergaberate zu verlangsamen (d. h. einer Zielwiedergaberate kleiner als Eins). Die Fig. 4A, 4B und 4C sind schematische Darstellungen eines Audiodatensatzes 400 und der Transformationen des Audiodatensatzes 400, welche bei der Implementierung des Verfahrens 300 zum Modifizieren des Audiodatensatzes 400 auf Erhalt einer Beschleunigung der korrespondierenden Audiowiedergabe (Zielwiedergaberate größer als Eins) auftreten können.
- Allgemein bewirkt die modifizierte SOLA-Methode nach Fig. 3A und Fig. 3B, dass sich Anfang und Ende jedes Segmentes mit dem Ende bzw. Anfang von benachbarten Segmenten überlappen. Wie aus der nachfolgenden Beschreibung erkennbar wird, kann das Überlappen von Segmenten in der Hinzufügung von Daten zu dem Audiodatensatz, der Eliminierung von Daten aus demselben und/oder dem Mischen von Daten in demselben resultieren. (Es sei angemerkt, dass, wie im Folgenden näher erläutert und beispielhaft dargestellt, die "Überlappung" negativ sein kann.) Zum Beschleunigen der Wiedergabe wird der Audiodatensatz in der Länge um die Summe aller Überlapplängen (die typisch vorwiegend oder ausschließlich positiv sind) gekürzt. Dementsprechend wird für eine Verlangsamung der Wiedergabe der Audiodatensatz in der Länge um die Summe der Überlapplängen (die typisch vorwiegend oder ausschließlich negativ sind) vergrößert.
- Sprachlaute können in zwei Hauptklassen eingeteilt werden: stimmhaft und stimmlos. Stimmhafte Sprachlaute werden erzeugt als Antwort des Vokaltraktes auf periodische Erregung von den Stimmbändern, welche Pitch-Pulse erzeugen. Stimmhafte Sprachlaute umfassen die Mehrzahl der Sprachlaute, z. B. die Vokale, Nasenlaute, Halbvokale und stimmhafte Übergänge. Stimmlose Laute, welche die Frikativlaute und stimmlosen Verschlusslaute umfassen, entstehen als Folge von Turbulenz, erzeugt durch eine Verengung an irgendeiner Stelle entlang des Vokaltraktes. Während das hier beschriebene Verfahren bestgeeignet ist zum Modifizieren von Audiodaten, welche stimmhafte Laute repräsentieren, zeigt es auch gutes Verhalten bei der Modifizierung von Audiodaten, welche sowohl stimmhafte wie auch stimmlose Laute repräsentieren, insbesondere mit Hinblick auf die Art und Weise und das relative Verhältnis, in der bzw. in dem derartige Laute in der menschlichen Sprache in Erscheinung treten.
- Die möglichen Längen jeder Überlappung sind entsprechend des gewünschten Umfangs der Wiedergaberatenvariation begrenzt. Innerhalb dieser Begrenzung jedoch wird die Länge jeder besonderen Überlappung so gewählt, dass die Pitch-Pulse der überlappten Bereiche einander eng angenähert sind (d. h. übereinanderliegen) (siehe Fig. 5A, 5B und 5C und Fig. 6A, 6B und 5C, die im Folgenden erörtert werden). Somit wird durch das Hinzufügen, Eliminieren und/oder Mischen der Audiodaten der überlappten Bereiche der zu den überlappten Teilen der Audiodaten korrespondierende Laut nicht stark verzerrt. Es resultiert daraus, dass der Audiodatensatz wie gewünscht modifiziert werden kann (d. h. die apparente Wiedergaberate eines Audiodatensatzes kann wie gewünscht variiert werden) und zugleich das mit der Modifikation des Audiodatensatzes verbundene Ausmaß an Verzerrung reduziert werden kann (d. h. die modifizierte Wiedergabe klingt "normal"). In der Praxis wurde gefunden, dass das Verfahren 300 gut funktioniert (d. h. eine Audiowiedergabe mit relativ wenig oder gar keiner Verzerrung erzeugt) beim Variieren der apparenten Wiedergaberate einer Audiowiedergabe, welche gesprochenes und/oder nicht-gesprochenes Audio enthält.
- In Schritt 301 wird ein Audiodatensatz in Segmente von Audiodaten (in der nachfolgenden Erörterung als Audiosamples bezeichnet) von gleicher Zeitdauer unterteilt. Jedes Audiosegment korrespondiert bevorzugt zu einer spezifizierten Einheit von Videodaten gleicher Dauer. So kann beispielsweise jedes Audiosegment Audiosamples umfassen, welche sich über eine Zeitdauer erstrecken, die zu einem einzelnen Videoframe von Videodaten korrespondiert, d. h. jedes Audiosegment der Audiodaten korrespondiert zu einem bestimmten Videoframe der Videodaten. Die Segmente überlappen nicht, und es sind keine Lücken zwischen Segmenten vorhanden, d. h. der Anfang jedes Segmentes (ausgenommen das Anfangssegment eines Audiodatensatzes) ist dem Ende des vorhergehenden Segmentes unmittelbar benachbart, und das Ende jedes Segmentes (ausgenommen das Schlusssegment des Audiodatensatzes) ist dem Anfang des nachfolgenden Segmentes unmittelbar benachbart. In den Fig. 4A, 4B und 4C ist der Audiodatensatz 400 in Segmente 401 bis 404 unterteilt. Dies ist jeweils in der obersten Reihe der Fig. 4A, 4B und 4C veranschaulicht.
- In Schritt 302 wird ein erstes Segment selektiert. Typisch, wenngleich nicht zwingend, ist das in Schritt 302 selektierte erste Segment ein Segment, welches entweder am Anfang oder am Ende des Audiodatensatzes angeordnet ist, z. B. das Segment 401 bzw. das Segment 404 des Audiodatensatzes 400 der Fig. 4A, 4B und 4C. (Es wird erkennbar sein, dass, wenn die Erfindung implementiert wird, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe in Echtzeit zu variieren, das erste Segment allgemein - unter Berücksichtigung des Verarbeitungsgeschwindigkeitsvermögens derzeitiger Einrichtungen zum Verarbeiten von audiovisuellen Daten - das erste zeitlich auftretende Segment sein muss, um die Echtzeitwiedergabe zu wahren.) Bei der nachfolgenden Beschreibung des Verfahrens 300 ist das in Schritt 302 selektierte erste Segment das Segment am Anfang (d. h. zeitlich das erste auftretende Segment) des Audiodatensatzes (d. h. das Segment 401 des Audiodatensatzes 400 in den Fig. 4A, 4B und 4C), und die Segmente werden sukzessive gemäß dem Verfahren 300 unter Vorwärtsbewegen in der Zeit (d. h. von links nach rechts in den Fig. 4A, 4B und 4C) verarbeitet. Aus der nachfolgenden Beschreibung ergibt sich jedoch, dass in Schritt 302 auch das letzte Segment selektiert werden könnte und das Verfahren 300 unter Rückwärtsbewegen in der Zeit (d. h. von rechts nach links in den Fig. 4A, 4B und 4C) in Analogie zu der im Folgenden beschriebenen Weise implementiert werden könnte.
- In Schritt 303 wird ein zweites Segment selektiert (Segment 402 in Fig. 4A). Das zweite Segment ist zeitlich dem ersten Segment benachbart, jedoch ohne es zu überlappen. Das erste und das zweite Segment sind jeweils in der zweiten Reihe der Fig. 4A, 4B und 4C gezeigt.
- Wie in dem oben erörterten Beispiel angegeben, kann die Unterteilung eines Audiodatensatzes in exakt gleiche Audiosegmente zu Audiosegmenten mit einem gebrochenen Audiosample führen (in dem obigen Beispiel z. B. 266,67 Audiosamples). Diese Problematik kann, wie im Vorstehenden erörtert, dadurch angesprochen werden, dass die Zahl der Audiosamples in jedem Segment so angepasst wird, dass sie ein ganzzahliger Wert ist, so dass im Mittel jedes Audiosegment die exakt berechnete Zahl von Audiosamples beinhaltet. In den Schritten 302 und 303 sind die ganzen Zahlen von Audiosamples mit den Segmenten als die "Längen" der Segmente assoziiert.
- In Schritt 304 wird eine Zielüberlappung des ersten und des zweiten Segmentes bestimmt. Die Zielüberlappung repräsentiert eine Approximation der tatsächlichen Überlappung zwischen benachbarten Teilen des ersten und zweiten Segments, welche in späteren Schritten des Verfahrens 300 bestimmt wird. Die Größe der Zielüberlappung steht in direkter Beziehung zu der Zielwiedergaberate; demnach - wie aus der nachfolgenden Beschreibung erkennbar wird - ist die nach dem Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate eng angenähert. Die Zielwiedergaberate kann gemäß der Gleichung (1)
- t = [(s - 1)/s]·d (1)
- bestimmt werden, wobei t die Zielüberlappung bedeutet (ausgedrückt in der Zeit oder der Zahl von Audiosamples, wobei s für die Zielwiedergaberate steht (eine dimensionslose Größe, die üblicherweise nicht gleich Eins ist), und wobei d die Dauer jedes Segmentes bedeutet (wieder ausgedrückt in der Zeit oder der Zahl der Audiosamples). (Es sei angemerkt, dass d, wenn in Audiosamples ausgedrückt, ein nicht-ganzzahliger Wert sein kann.) Wie aus der Betrachtung der Gleichung (1) erkennbar, ist in dem Falle, dass die Zielwiedergaberate größer ist als Eins (d. h., wenn eine Beschleunigung der Wiedergabe gewünscht ist), die Zielüberlappung größer als Null. Umgekehrt ist in dem Falle, dass die Zielwiedergaberate kleiner ist als Eins (d. h. wenn eine Verlangsamung der Wiedergabe gewünscht ist), die Zielüberlappung kleiner als Null.
- In Schritt 305 wird ein Satz von Trial-Überlappungen auf Basis der Zielüberlappung bestimmt. Wie im Folgenden noch ausführlicher erläutert, wird jede der Trial-Überlappungen evaluiert, um zu bestimmen, welche Trial-Überlappung am besten funktioniert, z. B. welche Trial-Überlappung in einer Modifikation des originalen Audiodatensatzes mit der geringsten Verzerrung des durch den modifizierten Audiodatensatz erzeugten Lautes resultiert. Es wird erkennbar sein, dass die Granularität der Trial-Überlappungen (d. h. das Maß, um den jede Trial-Überlappung von der/den Trial-Überlappungen mit der nächstbenachbarten Größe differiert, und der Bereich der Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung beeinflussen kann. Allgemein nimmt mit feiner werdender Granularität der Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung zu, weil mehr Trial-Überlappungen für einen gegebenen Bereich von Trial-Überlappungen evaluiert werden. Allgemein nimmt mit größer werdendem Bereich von Trial-Überlappungen die Qualität der Bestimmung der besten Überlappung zu, weil mehr Trial-Überlappungen für eine gegebene Granularität evaluiert werden. Bevorzugt ist der Bereich der Trial-Überlappungen mindestens groß genug, um einen Pitch-Puls des Pitch mit der niedrigsten, in den Audiodaten zu erwartenden Frequenz zu enthalten (wenn z. B. der Pitch mit der niedrigsten Frequenz eine Frequenz von 80 Hz hat, so dass der Pitch-Puls 12,5 Millisekunden beträgt, und die Samplingrate 8000 Samples pro Sekunde beträgt, ist der Bereich der Trial- Überlappungen bevorzugt mindestens 100 Audiosamples lang), weil im Allgemeinen sich überlagernde Pitch-Pulse von überlappenden Teilen der Segmente innerhalb dieses Bereichs gefunden werden können. Mit zunehmender Zahl an evaluierten Trial-Überlappungen nimmt aber der erforderliche Zeitaufwand zum Evaluieren aller Trial-Überlappungen zu. Ferner vergrößert im Allgemeinen ein breiterer Bereich von Trial-Überlappungen die Wahrscheinlichkeit, eine beste Überlappung zu bestimmen, die sich wesentlich von der Trial-Überlappung unterscheidet; wenn dies häufig genug auftritt, kann die apparente Wiedergaberate erheblich von der Zielwiedergaberate abweichen (wie jedoch im Folgenden erläutert, kann dieses Problem dadurch überwunden werden, dass die tatsächliche apparente Wiedergaberate kontinuierlich überwacht und die Zielwiedergaberate nach Bedarf modifiziert wird, um zu bewirken, dass die apparente Wiedergaberate mit der Zielwiedergaberate konvergiert). Die Granularität und der Bereich der Trial-Überlappungen werden als Kompromiss zwischen der erforderlichen Rechenzeit und der erwarteten Qualität der erzeugten besten Überlappung gewählt. Als Beispiel sei angeführt, dass für eine Audio-Samplingrate von 8000 Samples pro Sekunde der Bereich von Trial- Überlappungen 100 Audiosamples lang sein kann und die Granularität ein Audiosample sein kann, d. h. es werden 101 Trial-Überlappungen evaluiert.
- Bevorzugt ist der Bereich von Trial-Überlappungen um die Zielüberlappung herum zentriert, so dass, ungeachtet der Tatsache, dass die tatsächliche Überlappung zweier Segmente von der Zielüberlappung abweichen kann, die mittlere tatsächliche Überlappung dazu tendieren wird, mit groß werdender Zahl der Segmente der Zielüberlappung zu gleichen. Je näher die mittlere tatsächliche Überlappung der Zielüberlappung ist, desto näher ist die mit dem Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate. (Die erzeugte apparente Wiedergaberate kann aber auch überwacht werden, um ein Variieren der Zielwiedergaberate zu ermöglichen und zu bewirken, dass die erzeugte apparente Wiedergaberate annähernd gleich der Zielwiedergaberate bleibt, wie im Vorstehenden bereits erwähnt und im Folgenden ausführlich beschrieben.)
- In Schritt 306 wird eine Trial-Überlappung selektiert, welche bislang noch nicht berücksichtigt wurde. Die Trial-Überlappungen können in beliebiger Reihenfolge evaluiert werden.
- In Schritt 307 werden die Audiodaten am Ende des ersten Segmentes, welches in die Überlappung fällt, als erste Segmentüberlappungsdaten identifiziert. Dies ist zum Beispiel jeweils in der dritten Reihe der Fig. 4A, 4B und 4C dargestellt, d. h. Fig. 4A zeigt einen Satz von ersten Segmentüberlappungsdaten 406.
- In Schritt 308 werden die Audiodaten am Anfang des zweiten Segmentes, welches in die Überlappung fällt, als zweite Segmentüberlappungsdaten identifiziert. Dies ist zum Beispiel ebenfalls jeweils in der dritten Reihe der Fig. 4A, 4B und 4C dargestellt, d. h. Fig. 4A zeigt einen Satz von zweiten Segmentüberlappungsdaten 407.
- Wenn zwei Segmente überlappt sind, dann liegen nicht nur Segmentüberlappungsdaten vor (wie im Vorhergehenden beschrieben), sondern auch nicht- überlappte Daten. Nicht-überlappte Daten sind ebenfalls jeweils in der dritten Reihe der Fig. 4A, 4B und 4C gezeigt. Gemäß Fig. 4A enthält zum Beispiel ein erstes Segment 401 nicht-überlappte Daten 405, während ein zweites Segment 402 nicht-überlappte Daten 408 enthält.
- In Schritt 309 wird die Korrelation zwischen den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten berechnet. Es kann ein beliebiges geeignetes Verfahren zum Berechnen einer Korrelation zwischen den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten zur Verwendung kommen. Bei einer Ausführungsform wird die Korrelation als das mittlere Kreuzprodukt korrespondierender Audiodaten von den ersten Segmentüberlappungsdaten (nachdem der Mittelwert der ersten Segmentüberlappungsdaten jeweils von den ersten Segmentüberlappungsdaten subtrahiert wurde) und den zweiten Segmentüberlappungsdaten (nachdem der Mittelwert der zweiten Segmentüberlappungsdaten jeweils von den zweiten Segmentüberlappungsdaten subtrahiert wurde) bestimmt. N&sub1; und N&sub2; sei die Datenmenge im ersten bzw. zweiten Segment. M bedeute die Datenmenge, welche dem ersten Segment von dem zweiten Segment hinzugefügt wird, um sich negativen Überlappungen anzupassen, falls notwendig, wie im Vorstehenden beschrieben. (Es sei angemerkt, dass es auch notwendig sein mag, zusätzliche Daten zu dem zweiten Segment hinzuzufügen, wenn zum Beispiel der Bereich von Überlappungen größer ist als die Länge des zweiten Segmentes; wie aber im Folgenden erörtert, wird angenommen, dass diese Eventualität in typischen Anwendungen der Erfindung unwahrscheinlich ist.)
- Die Amplitude der Audiodaten im ersten Segment sei repräsentiert durch a[1], a[2], ..., a[N&sub1; + M] (worin M Null ist, wenn keine Daten zu dem ersten Segment hinzugefügt wurden), und die Amplitude der Audiodaten im zweiten Segment sei repräsentiert durch b[1], b[2], ..., b[N&sub2;]. k bedeute die Menge an Audiodaten in einer Trial-Überlappung, (2r + 1) stehe für die Länge des Bereichs von Trial-Überlappungen (so dass r Audiodaten zu beiden Seiten der Trial-Überlappung vorhanden sind), und d sei die Zielüberlappung. Die Mittelwerte der ersten und zweiten Segmentüberlappungsdaten für eine Trial-Überlappung sind gegeben durch die Gleichungen (2) bzw. (3):
- a' = (a[N&sub1; - k + 1] + a[N&sub1; - k + 2] + ... + a[N&sub1; + M])/(k + M) (2)
- b' = (b[1] + b[2] + ... + b[k + M])/(k + M) (3)
- Das Korrelationsmaß C ist dann gegeben durch Gleichung (4):
- C = {(a[N&sub1; - k + i] - a')·(b[1] - b') + (a[N&sub1; - k + 2] - a')· (b[2] - b') + ... + (a[N&sub1; + M] - a')·(b[k + M] - b')}/(k + M) (4)
- Es mag wünschenswert sein, die Korrelationsberechnung zu modifizieren, um die berechnete Korrelation für jede Trial-Überlappung entsprechend der Nähe der Trial-Überlappung zu der Zielüberlappung zu gewichten. Das Korrelationsmaß C ist dann gegeben durch die Gleichung (5):
- C = W(d, k, r)·{(a[N&sub1; - k + 1] - a')·(b[1] - b') + (a[N&sub1; - k + 2] - a')·(b[2] - b') + ... + (a[N&sub1; + M] - a')· (b[k + M] - b')}/(k + M) (5)
- worin W(d, k, r) einen Gewichtungsfaktor bedeutet, der eine Funktion der jeweiligen Trial-Überlappung k, der Zielüberlappung d und der halben Länge des Bereichs von Trial-Überlappungen r ist. Es kann eine beliebige geeignete Gewichtungsfunktion verwendet werden. Beispielsweise könnte die Gewichtungsfunktion wie in Gleichung (6) gegeben sein:
- W(d, k, r) = 1 - k - d /r (6)
- Wie aus der Betrachtung von Gleichung (6) erkennbar, ist eine solche Gewichtungsfunktion gleich Null an beiden Enden des Bereichs von Trial-Überlappungen (weil k - d gleich r für diese Überlappungen ist) und ist gleich Eins für die Zielüberlappung (weil k - d gleich Null für diese Überlappung ist). Die Gewichtungsfunktion nimmt linear zwischen dem jeweiligen Ende des Bereichs von Überlappungen und der Zielüberlappung zu.
- In Schritt 310 wird eine Bestimmung dahingehend durchgeführt, ob jede Trial- Überlappung evaluiert worden ist. Der Schritt 310 wird verwendet, um zu bestimmen, wann der Vergleich von überlappenden Teilen von einander benachbarten Segmenten enden soll. Wenn immer noch eine oder mehrere Trial- Überlappungen zu evaluieren ist bzw. sind, kehrt das Verfahren 300 zu Schritt 306 zum Selektieren einer anderen zu evaluierenden Trial-Überlappung zurück, und die Schritte 307 bis 309 werden erneut durchgeführt. Das Verfahren 300 wiederholt die Schritte 306 bis 309, bis alle Trial-Überlappungen evaluiert worden sind. Sobald alle Trial-Überlappungen evaluiert worden sind, wird das Verfahren 300 mit Schritt 311 fortgesetzt.
- In Schritt 311 wird die beste Überlappung selektiert. Die beste Überlappung ist diejenige Überlappung, die das höchste Korrelationsmaß zwischen den Audiodaten der ersten Segmentüberlappungsdaten und den Audiodaten der zweiten Segmentüberlappungsdaten aufweist, z. B. das höchste mittlere Kreuzprodukt (im Vorstehenden beschrieben). Wenn mehr als eine Trial-Überlappung das höchste Korrelationsmaß aufweist, dann wird diejenige Trial-Überlappung selektiert, die der Zielüberlappung am nächsten kommt. Wenn es zwei solcher Trial-Überlappungen gibt, die am nächsten kommen, kann eine beliebige der beiden gewählt werden, oder - gemäß einem erfindungsgemäßen Verfahren, bei dem die tatsächliche apparente Wiedergaberate überwacht wird (im Folgenden beschrieben) - es wird diejenige Trial-Überlappung gewählt, die bewirkt, dass die tatsächliche apparente Wiedergaberate näher an die Zielwiedergaberate herankommt. Es möge beachtet werden, dass die beste Überlappung positiv oder negativ sein kann. Ferner gilt dies sowohl für eine Zielwiedergaberate größer als Eins (Beschleunigung der Wiedergabe) als auch kleiner als Eins (Verlangsamung der Wiedergabe). Jedoch wird für eine Beschleunigung der Wiedergabe die beste Überlappung typisch positiv sein, während für eine Verlangsamung der Wiedergabe die beste Überlappung typisch negativ sein wird; in beiden Fällen liegt idealerweise die beste Überlappung größenmäßig nahe der Zielüberlappung. Aus Gründen der leichteren Beschreibung und beispielhaften Darstellung der Erfindung sei davon ausgegangen, dass die dritte Zeile der Fig. 4A, 4B und 4C die beste Überlappung für das erste und zweite Segment dieser Figuren zeigt. Beispielsweise ist in Fig. 4A die beste Überlappung im ersten Segment durch die Ziffer 409 und im zweiten Segment durch die Ziffer 410 bezeichnet.
- In Schritt 312 werden die nicht-überlappten Daten, auf Basis der besten Überlappung, von dem ersten Segment gespeichert. Die gespeicherten nicht- überlappten Daten von dem ersten Segment sind jeweils in der vierten Reihe der Fig. 4A, 4B und 4C gezeigt. So werden zum Beispiel in Fig. 4A die nicht-überlappten Daten 405 gespeichert. Man beachte, dass, wenn die beste Überlappung negativ ist (wie dies typisch für eine Verlangsamung der Wiedergabe der Fall ist), dann enthalten die nicht-überlappten Daten mehr als die Audiodaten von dem ersten Segment; die nicht-überlappten Daten enthalten auch einige Audiodaten, die ursprünglich Teil des zweiten Segmentes waren (und, möglicherweise, in einem extremen Verlangsamungsfall, nachfolgender Segmente).
- In Schritt 313 werden die ersten Segmentüberlappungsdaten, welche zu der besten Überlappung korrespondieren, mit den zweiten Segmentüberlappungsdaten, welche zu der besten Überlappung korrespondieren, gemischt. Wie in der jeweils fünften Reihe der Fig. 4A, 4B und 4C zu sehen, ersetzen die gemischten Audiodaten die zweiten Segmentüberlappungsdaten in dem zweiten Segment. Beispielsweise enthält in Fig. 4A nach dem Mischen das zweite Segment 402 gemischte Daten 411 und nicht-überlappte Daten 408. Die ersten Segmentüberlappungsdaten und die zweiten Segmentüberlappungsdaten werden verworfen. Gemäß Fig. 4A ersetzen die gemischten Daten also die ersten und die zweiten Segmentüberlappungsdaten, wodurch die Größe des Audiodatensatzes 400 um die Menge der überlappten Daten vermindert wird (d. h. die Größe der ersten Segmentüberlappungsdaten oder, äquivalent, der zweiten Segmentüberlappungsdaten).
- Das Mischen kann durchgeführt werden unter Verwendung einer beliebigen geeigneten Technik, welche eine glatte Transition zwischen dem Ende der ersten Segmentüberlappungsdaten und dem Anfang der zweiten Segmentüberlappungsdaten erzeugt. So kann das Mischen zum Beispiel durchgeführt werden, indem eine lineare Überblendung der ersten Segmentüberlappungsdaten mit den zweiten Segmentüberlappungsdaten durchgeführt wird, welche eine gewichtete Kombination der Daten in dem ersten und zweiten Überlappungssegment erzeugt. Die Gewichtung der ersten Segmentüberlappungsdaten ist linear ansteigend von Eins am Anfang der ersten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den nicht-überlappten Daten des ersten Segmentes) zu Null am Ende der ersten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den zweiten Segmentüberlappungsdaten). Dementsprechend ist die Gewichtung der zweiten Segmentüberlappungsdaten linear ansteigend von Null am Anfang der zweiten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den ersten Segmentüberlappungsdaten) zu Eins am Ende der zweiten Segmentüberlappungsdaten (d. h. der Audiodaten benachbart zu den nicht-überlappten Daten des zweiten Segmentes). Die lineare Überblendung der ersten und zweiten Segmentüberlappungsdaten ist gegeben durch Gleichung (7):
- g[i] = (i/(k + M))·b[i] + (1 - (i/(k + M)))·a[N&sub1; - k + i]
- für i = 1, 2, ..., (k + M) (7)
- wobei N&sub1; die ursprüngliche Zahl von Samples in dem ersten Segment ist; wobei M die Zahl der Samples bedeutet, welche gegebenenfalls zur Erweiterung der Länge des ersten Segmentes zwecks Anpassung an negative Überlappungen hinzugefügt wurden; wobei k (hier) die beste Überlappung ist; wobei (k + M) die Zahl der Samples für die beste Überlappung ist, welche zwischen dem erweiterten ersten Segment und dem zweiten Segment überlappen; wobei a[N&sub1; - k + 1], a[N&sub1; - k + 2], ..., a[N&sub1; + M] die letzten [k + M]-Samples des erweiterten ersten Segmentes a sind; wobei b[1], b[2], ..., b[k + M] die ersten (k + M)-Samples des zweiten Segmentes b sind; und wobei g[1], g[2], ..., g[k + M] die (k + M)-Samples der gemischten Daten g sind.
- In Schritt 314 wird eine Bestimmung dahingehend durchgeführt, ob das zweite Segment das letzte Segment in dem Audiodatensatz ist. Der Schritt 314 wird verwendet, um zu bestimmen, wenn das Verfahren 300 enden soll (d. h. wenn der ganze Audiodatensatz modifiziert worden ist) und wird im Folgenden näher erläutert.
- In Schritt 315 werden die gemischten Daten mit den nicht-überlappten Daten des zweiten Segmentes kombiniert, um ein modifiziertes zweites Segment zu bilden. Diese Kombination ist jeweils in der fünften Reihe der Fig. 4A, 4B und 4C veranschaulicht. So enthält beispielsweise, wie im Vorstehenden bereits erwähnt, gemäß Fig. 4A nach erfolgtem Mischen das zweite Segment 402 gemischte Daten 411 und nicht-überlappte Daten 408. An diesem Punkt ist die Überlappung der ersten zwei Segmente des Audiodatensatzes komplett, und es kann ein neuer Satz von Segmenten überlappt werden.
- Typisch werden bei positiver Zielüberlappung (d. h., wenn die apparente Wiedergaberate beschleunigt werden soll, so dass die Zielwiedergaberate größer als Eins ist) das erste und das zweite Segment entsprechend jeder der Trial- Überlappungen überlappt, indem einfach das zweite Segment in der Zeit in Richtung des ersten Segmente bewegt wird, und zwar um einen Betrag, der gleich der Trial-Überlappung ist (d. h. von rechts nach links in den Fig. 4A, 4B und 4C). Jede Trial-Überlappung bewegt das zweite Segment um einen anderen Betrag in bezug auf das erste Segment.
- Die Fig. 5A, 5B und 5C zeigen eine Überlappung von Segmenten, wobei alle Trial-Überlappungen positiv sind. In Fig. 5A sind benachbarte Segmente 501 und 502 gezeigt. Segment 501 enthält Pitch-Pulse 501a, 501b und 501c, während Segment 502 Pitch-Pulse 502a, 502b und 503c enthält.
- In Fig. 5B ist die Überlappung der Segmente 501 und 502 veranschaulicht. Segment 502 ist in zwei Positionen gezeigt: die obere Position korrespondiert zu der Zielüberlappung 503, während die untere Position zu der besten Überlappung 505 korrespondiert. Der Bereich 504 von Überlappungen ist ebenfalls gezeigt. Fig. 58 zeigt, wie die beste Überlappung 505 aus dem "Matching" von Pitch-Pulsen in benachbarten Segmenten resultieren kann: in der unteren Position des Segmentes 502 liegt der Pitch-Puls 502a des Segmentes 502 über dem Pitch-Puls 501c des Segmentes 501. (Es sei angemerkt, dass, konzeptionsmäßig, wenn die Segmente 501 und 502 überlappen, die überlappenden Bereiche übereinanderliegen; aus Gründen der Übersichtlichkeit der Darstellung sind in Fig. 58 die Segmente 501 und 502 in vertikaler Richtung zueinander versetzt.)
- In Fig. 5C ist der Teil des Segmentes 501, der in dem modifizierten Audiodatensatz behalten wird, als Segment 511 gezeigt. Das Segment 512 repräsentiert ein modifiziertes zweites Segment 502: der Abschnitt 512a repräsentiert das Mischen der überlappenden Bereiche der Segmente 501 und 502, während der Abschnitt 512b den nicht-überlappenden Bereich des Segmentes 502 repräsentiert, einschließlich der Pitch-Pulse 502b und 502c. (Der Abschnitt 512a ist wie in Fig. 5C gezeigt repräsentiert, um zu zeigen, dass der Abschnitt 512a durch Mischen von Daten erzeugt wird; die Darstellung soll nicht den Audiodateninhalt des Abschnittes 512a widerspiegeln.)
- Wenn z. B. der Pitch eines gesprochenen Lautes 90 Hz beträgt, jedes Audiosegment zu einem Videoframe korrespondiert und die Videoframerate 30 Hz beträgt, dann wird jedes Audiosegment 3 Pitch-Pulse beinhalten, wie in den Fig. 5A, 5B und 5C gezeigt. Ein gesprochener Vokallaut kann z. B. ca. 1/3 Sekunde dauern. Für die obengenannte Pitch-Frequenz und Audiosegmentlänge wird ein derartiger gesprochener Vokallaut 30 Pitch-Pulse enthalten und sich über 10 Audiosegmente erstrecken. Weil jeder zu einem solchen Vokallaut korrespondierende Pitch-Puls sehr ähnlich den anderen Pitch-Pulsen dieses Vokallautes sein wird, ist leicht zu erkennen, dass die zu diesem Vokallaut korrespondierenden 10 Audiosegmente überlappt sein können, wie in den Fig. 5A, 5B und 5C gezeigt (das heißt, so dass Pitch-Pulse von einander benachbarten Segmenten übereinander liegen), und zwar sogar um einen sehr großen Betrag, ohne eine wesentliche (oder möglicherweise überhaupt keine) Verzerrung dieses Lautes zu erzeugen. Eine solche Verzerrung, wie sie durch die Verwendung einer solchen Überlappungsmethode erzeugt wird, entsteht häufig aus der Überlappung von Segmenten, welche Pitch-Pulse von verschiedenen Lauten beinhalten (das heißt, aufeinanderfolgende verschiedene Vokallaute, aufeinanderfolgende verschiedene Konsonantlaute oder aufeinanderfolgende Vokal- und Konsonantlaute).
- Eine oder mehrere Trial-Überlappungen können negativ sein. Negative Überlappungen können in verschiedenen Situationen auftreten. Wenn z. B. eine Verlangsamung der Wiedergabe (Zielwiedergaberate kleiner als Eins) gewünscht wird, ist die Zielüberlappung negativ (ausgenommen vielleicht manche Fälle, in denen eine Echtzeitanpassung der Zielüberlappung, wie an anderer Stelle hierin beschrieben, eine positive Zielüberlappung erzeugt, um zu bewirken, dass die tatsächliche apparente Wiedergaberate der Zielwiedergaberate noch näher kommt). Wenn die Zielüberlappung negativ ist, sind in der Regel die meisten, häufig alle Trial-Überlappungen ebenfalls negativ.
- Die Fig. 6A, 6B und 6C zeigen die Überlappung von Segmenten, wobei alle Trial-Überlappungen negativ sind. Fig. 6A zeigt einander benachbarte Segmente 601 und 602. Segment 601 enthält Pitch-Pulse 601a, 601b und 601c, während Segment 602 Pitch-Pulse 602a, 602b und 602c enthält.
- In Fig. 6B ist die Überlappung der Segmente 601 und 602 veranschaulicht. Segment 602 ist in zwei Positionen gezeigt: die obere Position korrespondiert zu der Ziel-Überlappung 603, während die untere Position zu der besten Überlappung 605 korrespondiert. Der Bereich 604 von Überlappungen ist ebenfalls gezeigt. Wie aus Fig. 6B ersichtlich, bewirkt die negative Überlappung, dass das zweite Segment 602 von dem ersten Segment 601 wegbewegt wird (das heißt bezogen auf Fig. 6B nach rechts), wodurch eine Lücke zwischen dem Ende des ersten Segmentes und dem Anfang des zweiten Segmentes 602 entsteht. Um die Segmente 601 und 602 zu überlappen, müssen Audiodaten zu dem Ende des Segmentes 601 hinzugefügt werden. Dies wird herbeigeführt, indem Daten vom Anfang des zweiten Segmentes 602 zum Ende des ersten Segmentes 601 hinzugefügt werden, um ein erweitertes erstes Segment 606 zu bilden. Die dem ersten Segment 601 hinzugefügte Menge an Daten ist eine Menge gleich mindestens einem Audiosample mehr als die Menge, um die sich die negativste Überlappung vom Ende des ersten Segmentes 601 in das zweite Segment 602 hinein erstreckt (um sicherzustellen, dass mindestens ein gewisser Grad an Überlappung zwischen dem erweiterten ersten Segment 606 und dem zweiten Segment 602 für alle Überlappungen vorhanden ist). Wie die im Vorstehenden beschriebene Fig. 5B zeigt Fig. 6B, wie die beste Überlappung 605 aus dem "Matching" von Pitch-Pulsen in den Segmenten resultieren kann: in der unteren Position 602 liegt der Pitch-Puls 602a des Segmentes 602 über dem Pitch-Puls 602b des erweiterten Segmentes 606.
- In Fig. 6C ist der Teil des erweiterten Segmentes 606, der in dem modifizierten Audiodatensatz beibehalten wird, als Segment 611 gezeigt. Das Segment 612 repräsentiert ein modifiziertes zweites Segment 602: der Abschnitt 612a repräsentiert das Mischen der überlappenden Bereiche des erweiterten Segmentes 606 und des Segmentes 602, während der Abschnitt 612b den nicht-überlappenden Teil des Segmentes 602 repräsentiert, einschließlich der Pitch-Pulse 602b und 602c.
- Wie im Vorstehenden bereits erwähnt, kann eine negative Überlappung auch in anderen Situationen auftreten. So erzeugen z. B. bei Zielüberlappungen größer als Null die Größe der Zielüberlappung, die Größe des Bereichs der Überlappungen und die Position des Bereichs bezogen auf die Zielüberlappung in Kombination eine oder mehrere negative Trial-Überlappungen. In Fig. 7 ist diese Situation veranschaulicht. Eine Zielüberlappung 704, gemessen von einem Punkt 703, bei dem das erste Segment 701 an das zweite Segment 702 angrenzt, erstreckt sich zu einem Punkt 701a in einem ersten Segment 701 und einem Punkt 702a in einem zweiten Segment 702. Ein Bereich von Trial- Überlappungen ist um die Zielüberlappung 704 zentriert. Der Bereich hat eine Länge 705 und erstreckt sich zu beiden Seiten der Trial-Überlappung 704 zu Punkten 701b und 701c "in" dem ersten Segment 701 und zu Punkten 702b und 702c "in" dem zweiten Segment 702. Die Größe der Zielüberlappung 704, die Länge 705 des Bereichs und die Position des Bereichs bezogen auf die Zielüberlappung 704 sind so, dass einige Überlappungen (negative Überlappungen) innerhalb des Bereichs von Trial-Überlappungen bewirken, dass das erste Segment 701 und das zweite Segment 702 so positioniert sind, dass die Segmente 701 und 702 einander tatsächlich nicht überlappen. (Dies ist aus der Betrachtung von Fig. 7 ersichtlich, welche zeigt, dass die Punkte 701c und 702c, welche "in" dem ersten Segment 701 bzw. zweiten Segment 702 sind, tatsächlich außerhalb der Segmente 701 bzw. 702 liegen.) In einer Situation, wie sie in Fig. 7 gezeigt ist, können die positiven Überlappungen auf eine Weise evaluiert werden, wie in den Fig. 5A, 5B und 5C gezeigt, während die negativen Überlappungen auf eine Weise evaluiert werden können, wie sie in den Fig. 6A, 6B und 6C gezeigt ist.
- Wenn der Absolutwert einer oder mehrerer negativer Überlappungen größer ist als die Länge des zweiten Segmentes (was z. B. geschehen kann, wenn die Zielwiedergaberate kleiner als 0,5 ist), dann können zusätzliche Audiodaten von dem Audiodatensatz, der hinter dem zweiten Segment ist, nach Bedarf zu dem ersten Segment hinzugefügt werden. (Es sei angemerkt, dass in der Praxis Zielwiedergaberaten unter 0,5 unüblich sind, weil bei derart niedrigen Wiedergaberaten die Qualität der Audiowiedergabe eine nicht hinnehmbare Verschlechterung erfährt.)
- In Abhängigkeit von dem Wert der Zielüberlappung, der Größe des Bereichs von Überlappungen und der Anordnung des Bereichs von Überlappungen bezogen auf die Zielüberlappung können Spezialfälle entstehen, die einer Modifikation des im Vorstehenden beschriebenen allgemeinen Ansatzes bedürfen. Einige solcher spezieller Situationen und Wege zu ihrer Handhabung sind im nachfolgenden erörtert.
- So können z. B. im Falte von Zielüberlappungen größer als Null die Größe der Zielüberlappung, die Größe des Bereichs von Überlappungen und die Position des Bereichs bezogen auf die Zielüberlappung in Kombination eine oder mehrere Trial-Überlappungen erzeugen, die bewirkt bzw. bewirken, dass der Anfang des zweiten Segmentes so verschoben wird, dass er sich vordem Anfang des ersten Segmentes erstreckt (das heißt, eine Überlappung größer als die Länge des ersten Segmentes). Fig. 8A zeigt diese Situation, während Fig. 8B einen Weg aufzeigt, mit dem diese Situation angesprochen werden kann. Wie in Fig. 8A gezeigt, erstreckt sich eine Zielüberlappung 804 zu einem Punkt 801a in einem ersten Segment 801 und zu einem Punkt 802a in zweiten Segment 802. Ein Bereich von Trial-Überlappungen ist um die Zielüberlappung 804 zentriert. Der Bereich hat eine Länge 805 und erstreckt sich in gleichen Abständen 805a und 805b zu beiden Seiten der Trial-Überlappung 804 zu Punkten 801b und 801c "in" dem ersten Segment 801 und zu Punkten 802b und 802c "in" dem zweiten Segment 802. Die Größe der Zielüberlappung 804 und die Distanz 805a sind so, dass der Punkt 801b sich um eine Distanz 806 über das erste Segment 801 hinaus erstreckt, so dass einige Überlappungen innerhalb des Bereichs von Trial-Überlappungen bewirken, dass das zweite Segment 802 vor dem Anfang des ersten Segmentes 802 positioniert ist. Daraus ergibt sich ein Problem, weil in dem ersten Segment 801 keine Daten sind, die zu dem Teil des zweiten Segmentes 802 korrespondieren können, der sich vor dem ersten Segment 801 erstreckt.
- Wie in Fig. 8B gezeigt, kann diese Problematik überwunden werden durch Verschieben des Bereichs von Überlappungen um eine Distanz 806, so dass der Bereich von Überlappungen sich zwischen Punkten 801d und 801e in dem ersten Segment 801 und zwischen Punkten 802d und 802e in dem zweiten Segment 802 erstreckt. Nun wird damit zwar das in Fig. 8A veranschaulichte Problem überwunden, und es wird immer noch die gleiche Zahl von Überlappungen berücksichtigt (was wünschenswert ist, um die Qualität der Bestimmung der besten Überlappung zu verbessern), jedoch ist der Bereich von Überlappungen nicht mehr um die Zielüberlappung 804 zentriert: die Abstände 805a und 805b z. B. wurden um einen Betrag gleich der Distanz 806 verkürzt bzw. verlängert. Dieses "Aus-dem-Gleichgewicht-Bringen" der Trial-Überlappungen kann die Wahrscheinlichkeit, dass die mittlere tatsächliche Überlappung von der Zielüberlappung abweicht, und das Ausmaß, in dem dies geschieht, erhöhen und damit verbunden dazu führen, dass die erzeugte apparente Wiedergaberate von der Zielwiedergaberate abweicht.
- Alternativ können einige der Trial-Überlappungen aus der Betrachtung herausgenommen werden. So kann z. B. eine Zahl von Überlappungen, welche betragsmäßig der Länge 806 entsprechen, von beiden Enden des Bereichs von Trial-Überlappungen eliminiert werden. Dieser Ansatz hat den Vorteil, dass der Bereich von Überlappungen um die Zielüberlappung zentriert bleibt, wodurch die Wahrscheinlichkeit, dass die durch das Verfahren 300 erzeugte apparente Wiedergaberate der Zielwiedergaberate angepasst ist, erhöht wird.
- Ferner ist es möglich, dass der Bereich von Trial-Überlappungen größer ist als die Länge jedes Segmentes. (Es wird jedoch davon ausgegangen, dass es zu bevorzugen - und auch typisch - ist, dass die Größe des Bereichs von Trial- Überlappungen so spezifiziert wird, dass dies nicht geschieht: typisch weißt ein Segment eine Länge von mehreren Pitch-Pulsen auf und, wie im Vorstehenden beschrieben, wird der Bereich von Trial-Überlappungen ein wenig länger als ein Pitch-Puls sein.) In diesem Fall können dem ersten Segment Daten hinzugefügt werden, wie im Vorstehenden beschrieben, und dem zweiten Segment können zusätzliche Daten von den Audiodaten, die nach dem Ende des zweiten Segmentes auftreten, hinzugefügt werden. Es mag auch notwendig sein, den Bereich von Überlappungen zu verschieben, so dass der Bereich nicht um die Zielüberlappung zentriert ist, wie ebenfalls im Vorstehenden beschrieben, oder einige Überlappungen von dem Bereich von Überlappungen zu entfernen, wie ebenfalls im Vorstehenden beschrieben.
- Es wird nun erneut auf die Fig. 3A und 3B Bezug genommen, gemäß welchen in Schritt 316 das modifizierte zweite Segment als ein neues erstes Segment für die nächste Überlappung selektiert wird. Es sei hier ein Punkt wiederholt, der bereits im Vorstehenden auf etwas andere Weise ausgedrückt wurde, nämlich, dass die Bedeutung der Verwendung des modifizierten zweiten Segmentes von der vorherigen Überlappung als das erste Segment der aktuellen Überlappung an Stelle des unmodifizierten zweiten Segmentes darin liegt, dass die gemischten Daten den Bereich glätten, in dem Audiodaten entfernt werden, so dass aus der Entfernung von Audiodaten resultierende Lautverzerrungen auf ein Minimum reduziert werden.
- Nach Selektion des neuen ersten Segmentes geht das Verfahren 300 sodann zu Schritt 303 zurück, um ein neues zweites Segment zu selektieren, welches zeitlich benachbart zu dem neuen ersten Segment liegt, ohne dieses jedoch zu überlappen. Wie im Vorstehenden erwähnt, sind das erste und das zweite Segment jeweils in der zweiten Reihe der Fig. 4A, 4B und 4C gezeigt. Im Einzelnen ist in Fig. 4B nach erfolgter Überlappung des Segmentes 401 und des Segmentes 402 das erste Segment das modifizierte Segment 402 von Fig. 4A (einschließlich der gemischten Daten 411 und der nicht-überlappten Daten 408) und das zweite Segment ist das Segment 403 (unmodifiziert) des Audiodatensatzes 400.
- Die Schritte 304 bis 316 werden erneut durchgeführt, um das Ende des modifizierten Segmentes 402 mit dem Anfang des Segmentes 403 zu mischen. In der dritten Reihe von Fig. 4B ist die beste Überlappung des modifizierten Segmentes 402 und des Segmentes 403 gezeigt. Die beste Überlappung ist mit der Bezugsziffer 416 in dem modifizierten Segment 402 und mit der Bezugsziffer 417 in dem Segment 403 bezeichnet. Für die beste Überlappung enthält das modifizierte Segment 402 nicht-überlappte Daten 412 und erste Segmentüberlappungsdaten 413, während das Segment 403 nicht-überlappte Daten 415 und zweite Segmentüberlappungsdaten 414 enthält. Die nicht- überlappten Daten 412 des modifizierten Segmentes 402 werden mit den zuvor gespeicherten nicht-überlappten Daten 405 von dem ersten Segment 401 gespeichert, wie in der vierten Reihe von Fig. 4B gezeigt. (Es möge beachtet werden, dass die nicht-überlappten Daten 412 des modifizierten Segmentes 402 die gemischten Daten 411 enthalten.) Die ersten Segmentüberlappungsdaten 413 werden mit den zweiten Segmentüberlappungsdaten 414 gemischt, um die gemischten Daten 418 zu erzeugen. Auf diese Weise wird die Größe des Audiodatensatzes 400 um den Betrag der Überlappung des modifizierten Segments 402 und des Segmentes 403 (das heißt, Überlappung 416 in dem modifizierten Segment 402 oder, äquivalent, Überlappung 417 in dem Segment 403) weiter reduziert. Wie in der fünften Reihe von Fig. 4B gezeigt, werden die gemischten Daten 418 mit den nicht-überlappten Daten 415 von dem Segment 403 kombiniert, um ein modifiziertes Segment 403 zu erzeugen.
- Wie in der zweiten Reihe von Fig. 4C gezeigt, beginnt die Überlappung der Segmente 403 und 404 des Audiodatensatzes 400 mit der Selektion des modifizierten Segmentes 403 als das erste Segment und des Segmentes 404 als das zweite Segment (dies ist auch in der fünften Reihe von Fig. 4B gezeigt). Wieder werden die Schritte 304 bis 316 durchgeführt, um das Ende des modifizierten Segmentes 403 mit dem Anfang des Segmentes 404 zu mischen. In der dritten Reihe von Fig. 4C ist die beste Überlappung (bezeichnet mit Ziffer 423 in dem modifizierten Segment 403 und mit der Ziffer 424 in dem Segment 404) des modifizierten Segmentes 403 und des Segmentes 404 gezeigt. Für die beste Überlappung enthält das modifizierte Segment 403 nicht-überlappte Daten 419 und erste Segmentüberlappungsdaten 420, während das Segment 404 nicht-überlappte Daten 422 und zweite Segmentüberlappungsdaten 421 enthält. Die nicht-überlappten Daten 419 des modifizierten Segmentes 403 werden mit den zuvor gespeicherten nicht-überlappten Daten 405 von denn ersten Segment 401 und den nicht-überlappten Daten 412 von dem modifizierten Segment 402 gespeichert, wie in der vierten Reihe von Fig. 4C dargestellt. (Es möge beachtet werden, dass auch hier die nicht-überlappten Daten 419 des modifizierten Segmentes 403 die gemischten Daten 418 enthalten.) Die ersten Segmentüberlappungsdaten 420 werden mit den zweiten Segmentüberlappungsdaten 421 gemischt, um die gemischten Daten 425 zu erzeugen, wodurch die Größe des Audiodatensatzes 400 um den Betrag der Überlappung des modifizierten Segmentes 403 und des Segmentes 404 (das heißt, Überlappung 423 in dem modifizierten Segment 403 oder, äquivalent, Überlappung 424 in dem Segment 404) weiter reduziert wird.
- Es wird nun erneut auf die Fig. 3A und 3B Bezug genommen, gemäß welchen in Schritt 314 eine Bestimmung durchgeführt wird, dahingehend, ob das zweite Segment der beiden überlappten Segmente das letzte Segment in dem Audiodatensatz ist. Wenn ja, dann werden in Schritt 317 die von den ersten Segmentüberlappungsdaten und den zweiten Segmentüberlappungsdaten erzeugten gemischten Daten zusammen mit den nicht-überlappten Daten von dem zweiten Segment gespeichert. Dies ist in der fünften Reihe von Fig. 4C gezeigt: die gemischten Daten 425 und die nicht-überlappten Daten 422 werden mit den nicht-überlappten Daten 405, 412 und 419 gespeichert, um den modifizierten Audiodatensatz 400 zu bilden. Der modifizierte Audiodatensatz 400 ist um den kumulativen Betrag der besten Überlappungen, wie im Vorstehenden bestimmt, kürzer als der originale Audiodatensatz 400.
- In der obigen Beschreibung des Verfahrens 300 wird gesagt, dass die Daten des modifizierten Audiodatensatzes 400 "gespeichert" werden, wenn diese Daten identifiziert werden. In diesem Zusammenhang muss der Ausdruck "gespeichert" nicht unbedingt permanentes Speichern in einer nichtflüchtigen Datenspeichereinrichtung bedeuten, bei der es z. B. um einen Plattenspeicher handeln kann, vielmehr kann der Ausdruck auch nur bedeuten, dass die Daten vorübergehend gespeichert werden (z. B. in einem Direktzugriffsspeicher), bevor sie zur Generierung einer Wiedergabe verwendet werden. Allgemein können, sobald ein korrespondierender Videoframe des modifizierten Videodatensatzes als Begleitung eines Audiosegmentes des modifizierten Audiodatensatzes bestimmt wurde, wie im nachfolgenden beschrieben, dieses Audiosegment und dieser Videoframe den geeigneten Wiedergabeeinrichtungen zur Generierung einer Wiedergabe dargeboten werden. Dies ist so, weil die Bestimmung der "gespeicherten" Daten des modifizierten Audio- und Videodatensatzes nicht durch Daten von dem originalen Audio- und Videodatensatz beeinflusst wird, die relativ weit in der Zukunft liegen. Weiter: weil die Berechnungen zum Bestimmen modifizierter Audio- und Videodaten kurz vor dem Generieren einer Wiedergabe von diesen Daten erfolgen kann, können die Berechnungen auf Basis einer erst vor sehr kurzer Zeit bestimmten (z. B. von einem Benutzer in Echtzeit bestimmten) Zielwiedergaberate durchgeführt werden. Ferner kann die für das Verfahren 300 erforderliche Menge an Berechnungen für typische Mengen an Audio- und Videodaten (siehe die im Vorstehenden erörterten beispielhaften Zahlen) mit Hilfe derzeitiger Verarbeitungseinrichtungen ausreichend schnell durchgeführt werden, um die Generierung einer Echtzeitwiedergabe von den modifizierten Audio- und Videodaten zu ermöglichen. Aus dem Vorstehenden wird somit erkennbar, dass die Erfindung es ermöglichen kann, die apparente Wiedergaberate einer audiovisuellen Wiedergabe in Echtzeit zu variieren.
- Im Vorstehenden wurde ein bestimmtes Verfahren zum Modifizieren eines Satzes von Audiodaten zum Variieren der apparenten Wiedergaberate einer Audiowiedergabe beschrieben. Es versteht sich, dass allgemein auch andere Verfahren für ein derartiges Modifizieren eines Audiodatensatzes für die Erfindung Verwendung finden können. So können z. B. auch Verfahren auf Basis schneller Fourier-Transformationen (FFT) oder Analyse-/Synthese-Systeme verwendet werden. Eine Erörterung solcher anderer Methoden ist in einem Paper mit dem Titel "Non-parametric techniques for pitch-scale and time scale modification of speech" von E. Moulines und J. Laroche, veröffentlicht in Speech Communication, Volume 16, pp. 175-205, 1995, enthalten.
- Wie im Vorstehenden erwähnt, mag es sein, dass das Verfahren 300 keine exakt an die Zielwiedergaberate angepasste apparente Wiedergaberate erzeugt, insbesondere über kurze Wiedergabezeitdauern. Das gleiche gilt möglicherweise für andere Methoden, welche in Verbindung mit der Erfindung verwendet können, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren. Typisch wird eine Abweichung der tatsächlichen apparenten Wiedergaberate von der Zielwiedergaberate über eine ausreichend lange Zeitspanne gesehen verschwinden oder wirkungslos werden. Wenn z. B. das Verfahren 300 zur Erzeugung eines modifizierten Audiodatensatzes verwendet wird, um die apparente Wiedergaberate einer audiovisuellen Wiedergabe zu variieren, wird die tatsächliche apparente Wiedergaberate typisch eine enge Annäherung an die Zielwiedergaberate zeigen für Perioden von einer halben Sekunde oder mehr, aber möglicherweise erhebliche Abweichungen liefern für Perioden von 30 Millisekunden oder dergleichen. Derartige kurzeitige Schwankungen sind für einen Benutzer typisch nicht wahrnehmbar. Daher kommt im Allgemeinen einem solchen "Tracking"-Fehler keine wesentliche Bedeutung zu.
- Falls gewünscht, kann die nach einem Verfahren in Einklang mit der Erfindung erzeugte apparente Wiedegaberate aber auch überwacht werden, wobei, wenn die apparente Wiedergaberate von der Zielwiedergaberate um mehr als einen vorbestimmten Betrag abweicht, die Zielwiedergaberate geeignet modifiziert werden kann, um die Wahrscheinlichkeit, dass die erzeugte apparente Wiedergaberate der spezifizierten Zielwiedergaberate enger angenähert ist, zu erhöhen. Wenn z. B. die nach einem Verfahren in Einklang mit der Erfindung erzeugte apparente Wiedergaberate kleiner ist die spezifizierte Zielwiedergaberate, kann die Zielwiedergaberate erhöht werden. Obschon die Größe der nachfolgend erzeugten apparenten Wiedergaberate gleich bleiben (oder sogar zurückgehen) kann, ist es wahrscheinlicher, dass die apparente Wiedergaberate anzusteigen beginnt. Die Zielwiedergaberate kann um einen beliebigen gewünschten Betrag modifiziert werden. Eine relativ große Modifikation der Zielwiedergaberate wird typisch die apparente Wiedergaberate relativ rasch mit der spezifizierten Zielwiedergaberate in Einklang bringen. Mit einer relativ kleinen Modifikation jedoch wird die apparente Wiedergaberate wahrscheinlich glatter angepasst als mit einer relativ großen Anpassung, wodurch die Anpassung für einen Beobachter der Wiedergabe transparenter wird. Die Modifikation der Zielwiedergaberate kann durchgeführt werden für eine Zeitdauer gemäß einem beliebigen geeigneten Kriterium, z. B. für eine spezifizierte Zeitdauer, bis die Abweichung der apparenten Wiedergaberate von der anfänglich spezifizierten Zielwiedergaberate kleiner ist als der vorbestimmte Betrag, bis die Abweichung der apparenten Wiedergaberate von der anfänglich spezifizierten Zielwiedergaberate kleiner ist als ein zweiter vorbestimmter Betrag, welcher kleiner ist als der erste vorbestimmte Betrag, oder bis die apparente Wiedergaberate gleich der anfänglich spezifizierten Zielwiedergaberate ist. Ferner kann die Zeitdauer, für die die Zielwiedergaberate modifiziert wird, von der Größe der auf die Zielwiedergaberate angewendeten Modifikation abhängen. Es können zahlreiche Wege beschritten werden zum Modifizieren der Zielwiedergaberate, um die Abweichung der apparenten Wiedergaberate von einer anfänglich spezifizierten Zielwiedergaberate zu minimieren oder zu eliminieren, wie für den Fachmann erkennbar, wobei diese Wege in den Bereich dieses Aspektes der Erfindung fallen.
- Wie im Vorstehenden unter Bezugnahme auf Schritt 104 des Verfahrens 100 (Fig. 1) angegeben, kann eine beliebige geeignete Methode zum Erzeugen eines modifizierten Videodatensatzes von einem modifizierten Audiodatensatz verwendet werden. So kann z. B., wie ebenfalls im Vorstehenden angemerkt, der Audiodatensatz in Audiosegmente unterteilt werden, welche die gleiche Dauer aufweisen wie ein Videoframe des Videodatensatzes. In Schritt 101 kann eine Korrespondenz zwischen Audiosegmenten und Videoframes etabliert werden, wobei z. B. jedes Audiosegment zu einem einzigen bestimmten Videoframe korrespondiert. Eine Korrespondenz zwischen den Audiodaten des modifizierten Audiodatensatzes und der Videoframes des originalen Videodatensatzes kann etabliert werden unter Verwendung der Korrespondenz zwischen dem originalen Audiodatensatz und dem originalen Videodatensatz und der Korrespondenz zwischen dem originalen und dem modifizierten Audiodatensatz. In Schritt 104 können die Audiodaten des modifizierten Audiodatensatzes zu Audiosegmenten gruppiert werden, welche die gleiche Dauer (das heißt Menge an Audiodaten) aufweisen, wie sie in den Audiosegmenten des originalen Audiodatensatzes gefunden wird. Basierend auf der Korrespondenz zwischen den Audiodaten des modifizierten Audiodatensatzes und den Videoframes des originalen Videodatensatzes korrespondieren demnach die Audiosegmente des modifizierte Audiodatensatzes - in Abhängigkeit von der Zielwiedergaberate - zu einem oder mehreren partiellen und oder kompletten Videoframes von dem originalen Videodatensatz. In Schritt 104 kann bzw. können für jedes Audiosegment in dem modifizierten Audiodatensatz der Eine oder die mehreren partiellen oder kompletten Videoframes von dem originalen Videodatensatz, welcher zu diesem Audiosegment korrespondiert bzw. korrespondieren, modifiziert werden, um einen einzelnen modifizierten Videoframe zu erzeugen, der zu diesem Audiosegment korrespondiert; die Sammlung dieser modifizierten Videoframes ist der modifizierte Videodatensatz.
- Die modifizierten Videoframes können in beliebiger geeigneter Weise erzeugt werden. Beispielsweise können Videoframes aus jeder der Gruppen von einem oder mehreren partiellen oder kompletten Videoframes, welche zu bestimmten Audiosegmenten des modifizierten Audiodatensatzes korrespondieren, eliminiert werden (Beschleunigung der Wiedergabe) bzw. diesen hinzugefügt werden (Verlangsamung der Wiedergabe). Oder, wenn die Größe des originalen Videodatensatzes reduziert werden soll, können Videoframes, welche zu einem Audiosegment des modifizierten Audiodatensatzes korrespondieren, gemischt werden, um einen einzelnen gemischten Videoframe zu erzeugen, der als Teil des modifizierten Videodatensatzes beibehalten wird. In ähnlicher Weise kann bzw. können in dem Fall, dass die Größe des originalen Videodatensatzes erhöht werden soll, ein oder mehrere Videoframes auf Basis von existierenden Videoframes synthetisiert und zu dem modifizierten Videodatensatz hinzugefügt werden. Eine Hybridversion dieser Ansätze (Hinzufügen oder Eliminieren von Videoframes und Mischen von Videoframes) kann ebenfalls Verwendung finden.
- Wenn Videoframes aus dem originalen Videodatensatz eliminiert oder diesem hinzugefügt werden sollen, kann es nützlich sein, die Korrespondenz zwischen Videoframes des originalen Videodatensatzes und Segmenten des modifizierten Audiodatensatzes zu modifizieren, so dass nur ganze Videoframes mit jedem Audiosegment assoziiert sind. Für eine Beschleunigung der Wiedergabe bedeut dies allgemein, dass ein oder mehrere Videoframes mit jedem Audiosegment des modifizierten Audiodatensatzes assoziiert ist bzw. sind, während für eine Verlangsamung der Wiedergabe dies allgemein bedeutet, dass null oder ein Videoframe mit jedem Audiosegment des modifizierten Audiodatensatzes assoziiert ist. Eine Implementierung dieses Ansatzes zur Beschleunigung der Wiedergabe ist im Vorstehenden in dem Beispiel dargestellt, welches der Erörterung der Methode 100 von Fig. 1 folgt. Das Eliminieren oder Hinzufügen von Videoframes kann auf Basis eines beliebigen gewünschten Kriteriums durchgeführt werden. Wenn beispielsweise Videoframes aus dem originalen Videodatensatz eliminiert werden, kann konsistent der erste oder der letzte Videoframe in jeder Gruppe als derjenige selektiert werden, der in dem modifizierten Videodatensatz beibehalten werden soll. Wenn Videoframes zu dem originalen Videodatensatz hinzugefügt werden, können Audiosegmente des modifizierten Audiodatensatzes, mit denen kein Videoframe assoziiert ist, mit dem Videoframe assoziiert werden, der mit dem unmittelbar vorhergehenden oder dem unmittelbar nachfolgenden Audiosegment assoziiert ist. Unabhängig davon, welcher Ansatz verwendet wird, wird die Selektion eines Videoframes aus jeder Gruppe von Videoframes bevorzugt konsistent gehandhabt, um die Qualität der audiovisuellen Wiedergabe, welche von den modifizierten Audio- und Videodatensätzen erzeugt wird, zu verbessern.
- Das Mischen oder Synthetisieren von Videoframes kann ebenfalls in beliebiger geeigneter Weise durchgeführt werden. Wenn z. B. mehr als ein Videoframe (insgesamt) mit einem Segment von dem modifizierten Audiodatensatz assoziiert ist, kann ein gemischter Videoframe erzeugt werden durch Gewichtung des Beitrags jedes Videoframes entsprechend dem Anteil der Dauer dieses Videoframes, der mit dem jeweiligen Audiosegment assoziiert ist. Wenn z. B. 3/4 der Dauer eines ersten Videoframes und 1/2 der Dauer eines zweiten Videoframes mit einem bestimmten Segment assoziiert sind, dann können der erste und der zweite Videoframe so kombiniert werden, dass der Inhalt des ersten Videoframes 60%, das heißt 0,75/(0,75 + 0,5) des Inhalts des gemischten Frames beiträgt, und dass der Inhalt des zweiten Videoframes 40%, das heißt 0,5/(0,75 + 0,5) des Inhalts des gemischten Frames beträgt. Oder, wenn die Korrespondenz zwischen Videoframes des originalen Videodatensatzes und Segmenten des modifizierten Audiodatensatzes so modifiziert wurde, dass nur ganze Videoframes mit jedem Audiosegment assoziiert sind, dann können die Videoframes, die zu dem Audiosegment korrespondieren, gemischt werden, um einen gemischten Videoframe zu erzeugen, der dann Teil des modifizierten Videodatensatzes wird. Videoframes können analog zu den oben geschriebenen Verfahren des Mischens synthetisiert werden.
- Es ist möglich, das Verfahren 300 (Fig. 3) zu modifizieren, so dass ferner ein modifizierter Videodatensatz auf Basis des mittels des oben beschriebenen Verfahrens erzeugten modifizierten Audiodatensatzes erzeugt wird. Wenn die nicht-überlappten Daten jedes Audiosegmentes des originalen Audiodatensatzes in Schritt 312 gespeichert werden (das heißt, wenn der modifizierte Audiodatensatz erzeugt wird), können diese Daten als neu für den modifizierten Audiodatensatz markiert werden. Wenn die als neu markierte Datenmenge die Länge eines Audiosegmentes überschreitet, wird eine Menge von Daten (die zeitlich früheren) gleich der Länge eines Audiosegmentes als alt markiert (diese als alt markierten Audiodaten repräsentieren ein Audiosegment in dem modifizierten Audiodatensatz). Der Rest der Audiodaten bleibt als neu markiert und wird im Folgenden mit anderen Audiodaten assoziiert, welche in Schritt 312 gespeichert werden. Sodann wird ein Videoframe von dem originalen Videodatensatz selektiert zwecks Korrespondenz mit dem neu bestimmten Audiosegment des modifizierten Audiodatensatzes. Bei einer Ausführungform, wenn die Zielwiedergaberate größer ist als Eins (Beschleunigung der Wiedergabe), kann derjenige Videoframe selektiert werden, welcher mit dem zweiten Segment des jüngst überlappten Paares von Segmenten assoziiert ist. Bei einer arideren Ausführungsform, wenn die Zielwiedergaberate kleiner ist als Eins (Verlangsamung der Wiedergabe), kann derjenige Videoframe selektiert werden, der mit dem ersten Segment des jüngst überlappten Paares von Segmenten assoziiert ist. Es können auch andere Wege beschritten werden, um den mit einem Segment des modifizierten Audiodatensatzes zu assoziierenden Videoframe zu selektieren. Allgemein ist das verwendete Verfahren von dem Wunsch diktiert, die bestmögliche Synchronisation zwischen der Audio- und Videowiedergabe nach Variation der apparenten Wiedergaberate zu erzielen.
- Es versteht sich, dass die Erfindung sich auch auf Verfahren zum Erzeugen eines modifizierten Videodatensatzes erstreckt, welche von den im Vorstehenden beschriebenen verschieden sind; die oben beschriebenen Verfahren stehen rein beispielhaft für die Möglichkeiten.
- Es wurden verschiedene Ausführungsformen der Erfindung beschrieben. Die Beschreibungen sind rein beispielhaft und sollen die Erfindung nicht begrenzen. Für den Fachmann wird daher ohne weiteres erkennbar sein, dass gewisse Modifikationen auf die im Vorstehenden beschriebene Erfindung angewendet werden können, ohne den Bereich der Ansprüche, wie im Nachfolgenden dargelegt, zu verlassen.
Claims (90)
1. Verfahren zur Verwendung mit einem audiovisuellen
Wiedergabesystem (200), worin ein originaler Satz von Audiodaten und ein in
Beziehung stehender originaler Satz von Videodaten zum Generieren
einer audiovisuellen Wiedergabe bei einer normalen Wiedergaberate
verwendet werden kann, wobei das Verfahren zum Variieren der
apparenten Wiedergaberate der audiovisuellen Wiedergabe gegenüber der
normalen Wiedergaberate befähigt, wobei das Verfahren die Schritte
umfasst:
Definieren (101) einer Korrespondenz zwischen dem originalen Satz von
Audiodaten und dem originalen Satz von Videodaten;
Bestimmen (102) einer Zielwiedergaberate oder -raten für die
audiovisuelle Wiedergabe;
Erzeugen (103) eines modifizierten Satzes von Audiodaten, basierend
auf der oder den Zielwiedergaberate/n und einer Wertung des Inhaltes
des originalen Satzes von Audiodaten, welcher zu dem originalen Satz
von Audiodaten korrespondiert; und
Erzeugen (104) eines modifizierten Satzes von Videodaten von dem
originalen Satz von Videodaten, basierend auf dem modifizierten Satz von
Audiodaten, der Korrespondenz zwischen dem modifizierten Satz von
Audiodaten und dem originalen Satz von Audiodaten und der
Korrespondenz zwischen dem originalen Satz von Audiodaten und dem
originalen Satz von Videodaten;
wobei der Schritt des Erzeugens eines modifizierten Satzes von
Audiodaten ferner die Schritte umfasst:
(i) Teilen (301) des originalen Satzes von Audiodaten in eine
Mehrzahl von Segmenten, wobei jedes Segment einen
zusammenhängenden Teil des Satzes von Audiodaten
repräsentiert, der während einer spezifizierten Zeitdauer auftritt, wobei
jedes Segment einem oder zwei anderen Segmenten
benachbart ist, derart, dass keine Lücken zwischen Segmenten
vorhanden sind und benachbarte Segmente nicht überlappen;
(ii) Selektieren (302) eines ersten Segmentes;
(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite
Segment dem ersten Segment temporär benachbart ist;
(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines
Endbereichs des ersten Segmentes mit einem Endbereich des
zweiten Segmentes, welches dem ersten Segment benachbart
ist, wobei der Endbereich des ersten Segmentes erste
Segmentüberlappungsdaten aufweist und der Endbereich des
zweiten Segmentes zweite Segmentüberlappungsdaten
aufweist;
(v) Identifizieren (312), als Teil des modifizierten Satzes von
Audiodaten, der Audiodaten von dem ersten Segment, welche
nicht Teil der ersten Segmentüberlappungsdaten sind;
(vi) Mischen (313) korrespondierender erster
Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten; und
(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen
Satz von Audiodaten vorhanden sind, welche nicht mit einem
benachbarten Segment überlappt worden sind, wobei:
in dem Fall, dass zusätzliche Segmente vorhanden sind, das
Verfahren ferner die Schritte umfasst:
Kombinieren (315) der gemischten Überlappungsdaten mit
den Audiodaten von dem zweiten Segment, welche nicht Teil
der zweiten Segmentüberlappungsdaten sind;
Selektieren (316) der kombinierten Daten als ein neues erstes
Segment; und
Selektieren (303) eines neuen zweiten Segmentes, welches
dem neuen ersten Segment temporär benachbart ist und nicht
zuvor als ein Segment selektiert worden ist;
Wiederholen der Schritte (i) bis (vii); und
in dem Fall, dass zusätzliche Segmente nicht vorhanden sind,
das Verfahren ferner den Schritt des Identifizierens (317), als
Teil des modifizierten Satzes von Audiodaten, der gemischten
Daten und der Audiodaten von dem zweiten Segment, welche
nicht Teil der zweiten Segmentüberlappungsdaten sind,
umfasst.
2. Verfahren nach Anspruch 1, wobei der Schritt des Definierens einer
Korrespondenz zwischen dem originalen Satz von Audiodaten und dem
originalen Satz von Videodaten ferner die Schritte umfasst:
Teilen des originalen Satzes von Videodaten in eine Mehrzahl von
Untereinheiten, wobei jede Untereinheit von Videodaten eine Zeitdauer
repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die durch jede
andere Untereinheit von Videodaten repräsentiert ist;
Teilen des originalen Satzes von Audiodaten in Eine Mehrzahl von
Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert, welche
annähernd zusammenfallend mit und im Wesentlichen gleich der Zeitdauer
einer korrespondierenden Untereinheit von Videodaten ist; und
Identifizieren korrespondierender Untereinheiten von Videodaten und
Segmente von Audiodaten.
3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei wenigstens eine
Zielwiedergaberate schneller ist als eine normale Wiedergaberate.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei wenigstens eine
Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.
5. Verfahren nach einem der voranstehenden Ansprüche, wobei die
Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.
6. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Bestimmens einer Zielwiedergaberate ferner den Schritt des
Bestimmens des Wertes einer Nominalzielwiedergaberate umfasst,
welche von einem Benutzer des audiovisuellen Wiedergabesystems
spezifiziert wird.
7. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Bestimmens einer Zielwiedergaberate ferner den Schritt des
Wertens der Audio- und/oder Videodaten zum automatischen Bestimmen
des Wertes der Zielwiedergaberate umfasst.
8. Verfahren nach Anspruch 7, wobei der Schritt des Wertens ferner die
Schritte umfasst:
Analysieren des originalen Satzes von Audiodaten; und
Berechnen der Zielwiedergaberate, basierend auf der Analyse des
originalen Satzes von Audiodaten.
9. Verfahren nach Anspruch 8, wobei:
der Schritt des Analysierens des originalen Satzes von Audiodaten
ferner den Schritt des Bestimmens der Betonung, mit der gesprochene
Teile der Audiodaten ausgesprochen werden, umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der
Zielwiedergaberate, basierend auf den relativen Betonungen der
gesprochenen Teile der Audiodaten, umfasst.
10. Verfahren nach Anspruch 9, wobei der Schritt des Bestimmens von
Betonung ferner den Schritt des Berechnens von Energietermen für die
gesprochenen Teile der Audiodaten umfasst.
11. Verfahren nach Anspruch 8, wobei:
der Schritt des Analysierens des originalen Satzes von Audiodaten
ferner den Schritt des Bestimmens der Sprechrate, bei der gesprochene
Teile der Audiodaten ausgesprochen werden, umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der
Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der
gesprochenen Teile der Audiodaten, umfasst.
12. Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens von
Sprechraten ferner den Schritt des Bestimmens spektraler Änderungen
in den gesprochenen Teilen der Audiodaten umfasst.
13. Verfahren nach einem der Ansprüche 8, 10 oder 12, wobei:
der Schritt des Analysierens des originalen Satzes von Audiodaten
ferner die Schritte umfasst:
Bestimmen der Betonung, mit der gesprochene Teile der Audiodaten
ausgesprochen werden;
Bestimmen der Sprechrate, bei der gesprochene Teile der Audiodaten
ausgesprochen werden; und
Kombinieren korrespondierender Betonungen und Sprechraten zum
Erzeugen von Audiospannungswerten für die gesprochenen Teile; und
der Schritt des Berechnens ferner den Schritt des Berechnens der
Zielwiedergaberate, basierend auf den Audiospannungswerten der
gesprochenen Teile der Audiodaten, umfasst.
14. Verfahren nach Anspruch 13, ferner umfassend den Schritt des
Bestimmens des Wertes einer Nominalzielwiedergaberate, welche von einem
Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird, wobei
der Schritt des Berechnens ferner den Schritt des Kombinierens der
Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen
der Zielwiedergaberate umfasst.
15. Verfahren nach Anspruch 7, wobei der Schritt des Wertens ferner den
Schritt umfasst:
Analysieren des originalen Satzes von Videodaten; und
Berechnen der Zielwiedergaberate, basierend auf der Analyse der
Videodaten.
16. Verfahren nach Anspruch 15, wobei:
der Schritt des Analysierens des originalen Satzes von Videodaten ferner
das Bestimmen der relativen Änderungsrate der Videodaten entlang
verschiedener Populations-basierter Dimensionen umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der
Zielwiedergaberate, basierend auf der Änderung in Werten der Daten
entlang der Populations-basierten Dimensionen, umfasst.
17. Verfahren nach Anspruch 15 oder Anspruch 16, wobei:
der Schritt des Analysierens des originalen Satzes von Videodaten ferner
umfasst:
Bestimmen von Teilen eines Videobildes, repräsentiert durch den
originalen Satz von Videodaten, welche sich rasch ändern; und
Bestimmen der Frequenz, mit welcher derartige rasche Änderungen
auftreten; und
der Schritt des Berechnens ferner den Schritt des Berechnens der
Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von
raschen Änderungen in dem Videobild, umfasst.
18. Verfahren nach Anspruch 17, wobei der Schritt des Berechnens ferner
das Etablieren einer Zielwiedergaberate für Zeitdauern, während derer
rasche Änderungen in dem Videobild auftreten, welche niedriger ist als
die Zielwiedergaberate während anderer Zeitdauern, umfasst.
19. Verfahren nach einem der Ansprüche 15 bis 18, wobei:
der Schritt des Analysierens des originalen Satzes von Videodaten ferner
das Verfolgen der Bewegung von Objekten innerhalb eines Videobildes,
repräsentiert durch den originalen Satz von Videodaten, umfasst; und
der Schritt des Berechnens ferner den Schritt des Berechnens der
Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem
Videobild, umfasst.
20. Verfahren nach Anspruch 19, wobei der Schritt des Berechnens ferner
das Etablieren einer Zielwiedergaberate für Zeitdauern, während derer
neue Objekte in dem Videobild erscheinen, welche niedriger ist als die
Zielwiedergaberate während anderer Zeitdauern, umfasst.
21. Verfahren nach einem der Ansprüche 7 bis 14, wobei der Schritt des
Wertens ferner die Schritte umfasst:
Durchführen einer ersten Analyse des originalen Satzes von Audiodaten;
Durchführen einer zweiten Analyse des originalen Satzes von
Audiodaten; und
Berechnen der Zielwiedergaberate, basierend auf der ersten und
zweiten Analyse der Audiodaten.
22. Verfahren nach einem der Ansprüche 7 oder 15 bis 20, wobei der Schritt
des Wertens ferner die Schritte umfasst:
Durchführen einer ersten Analyse des originalen Satzes von Videodaten;
Durchführen einer zweiten Analyse des originalen Satzes von
Videodaten;
Berechnen der Zielwiedergaberate, basierend auf der ersten und
zweiten Analyse der Videodaten.
23. Verfahren nach einem der Ansprüche 7 bis 22, wobei der Schritt des
Wertens ferner die Schritte umfasst:
Analysieren des originalen Satzes von Audiodaten; und
Analysieren des originalen Satzes von Videodaten; und
Berechnen der Zielwiedergaberate, basierend auf den Analysen der
Audio- und Videodaten.
24. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Erzeugens eines modifizierten Satzes von Audiodaten ferner den
Schritt des Analysierens des Inhalts der Audiodaten umfasst, wobei der
modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf
dem Inhalt der Audiodaten basierend erzeugt wird.
25. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Erzeugens eines modifizierten Satzes von Videodaten ferner die
Schritte umfasst:
Etablieren einer Korrespondenz zwischen dem modifizierten
Audiodatensatz und dem originalen Videodatensatz, basierend auf der
Korrespondenz zwischen dem modifizierten Audiodatensatz und dem originalen
Audiodatensatz und der Korrespondenz zwischen dem originalen
Audiodatensatz und dem originalen Videodatensatz;
Gruppieren der Audiodaten des modifizierten Audiodatensatzes in
Audiosegmente mit der gleichen Menge an Daten, wie in
Audiosegmenten des originalen Audiodatensatzes gefunden;
Identifizieren von einer oder mehreren partiellen oder vollständigen
Untereinheiten von Videodaten von dem originalen Videodatensatz,
welche zu jedem der Audiosegmente des modifizierten Audiodatensatzes
korrespondieren, basierend auf der Korrespondenz zwischen dem
modifizierten Audiodatensatz und dem originalen Videodatensatz; und
Modifizieren der Video-Frames in dem originalen Videodatensatz nach
Bedarf, um den modifizierten Videodatensatz so zu erzeugen, dass eine
Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des
modifizierten Audiodatensatzes und Video-Frames des modifizierten
Videodatensatzes vorliegt.
26. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Erzeugens eines modifizierten Satzes von Videodaten ferner den
Schritt des Eliminierens von Daten aus dem originalen Videodatensatz
umfasst.
27. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Erzeugens eines modifizierten Satzes von Videodaten ferner den
Schritt des Hinzufügens von Daten zu dem originalen Videodatensatz
umfasst.
28. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Erzeugens eines modifizierten Satzes von Videodaten ferner den
Schritt des Mischens von Daten von dem originalen Videodatensatz, so
dass der modifizierte Videodatensatz weniger Daten aufweist als der
originale Videodatensatz, umfasst.
29. Verfahren nach einem der voranstehenden Ansprüche, wobei der Schritt
des Erzeugens eines modifizierten Satzes von Videodaten ferner den
Schritt des Synthetisierens von Daten, basierend auf den Daten in dem
originalen Videodatensatz, so dass der modifizierte Videodatensatz mehr
Daten aufweist als der originale Videodatensatz, umfasst.
30. Verfahren nach einem der voranstehenden Ansprüche, ferner umfassend
die Schritte:
Generieren einer Audiowiedergabe von dem modifizierten Satz von
Audiodaten; und
Generieren einer Videowiedergabe von dem modifizierten Satz von
Videodaten.
31. System, welches zum Variieren der apparenten Wiedergaberate einer
audiovisuellen Wiedergabe gegenüber einer normalen Wiedergaberate,
bei der ein audiovisuelles Wiedergabesystem eine Wiedergabe von
einem originalen Satz von Audiodaten und einem in Beziehung
stehenden originalen Satz von Videodaten generieren kann, befähigt,
umfassend:
Mittel (201) zum Definieren einer Korrespondenz zwischen dem
originalen Satz von Audiodaten und dem originalen Satz von Videodaten;
Mittel (201) zum Bestimmen einer Zielwiedergaberate für eine
audiovisuelle Wiedergabe;
Mittel (201) zum Erzeugen eines modifizierten Satzes von Audiodaten,
basierend auf einer Zielwiedergaberate und einer Wertung des Inhaltes
des originalen Satzes von Audiodaten, welcher zu dem originalen Satz
von Audiodaten korrespondiert; und
Mittel (201) zum Erzeugen eines modifizierten Satzes von Videodaten
von dem originalen Satz von Videodaten, basierend auf dem
modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem
modifizierten Satz von Audiodaten und dem originalen Satz von Audiodaten
und der Korrespondenz zwischen dem originalen Satz von Audiodaten
und dem originalen Satz von Videodaten;
wobei die Mittel (201) zum Erzeugen eines modifizierten Satzes von
Audiodaten ferner Mittel umfassen zum:
(i) Teilen (301) des originalen Satzes vor Audiodaten in eine
Mehrzahl von Segmenten, wobei jedes Segment einen
zusammenhängenden Teil des Satzes von Audiodaten
repräsentiert, der während einer spezifizierten Zeitdauer auftritt,
wobei jedes Segment einem oder zwei anderen Segmenten
benachbart ist, derart, dass keine Lücken zwischen
Segmenten vorhanden sind und benachbarte Segmente nicht
überlappen;
(ii) Selektieren (302) eines ersten Segmentes;
(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite
Segment dem ersten Segment temporär benachbart ist;
(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines
Endbereichs des ersten Segmentes mit einem Endbereich des
zweiten Segmentes, welches dem ersten Segment
benachbart ist, wobei der Endbereich des ersten Segmentes erste
Segmentüberlappungsdaten aufweist und der Endbereich des
zweiten Segmentes zweite Segmentüberlappungsdaten
aufweist;
(v) Identifizieren (312), als Teil des modifizierten Satzes von
Audiodaten, der Audiodaten von dem ersten Segment,
weiche nicht Teil der ersten Segmentüberlappungsdaten sind;
(vi) Mischen (313) korrespondierender erster
Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten;
(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen
Satz von Audiodaten vorhanden sind, welche nicht mit einem
benachbarten Segment überlappt worden sind,
(viii) Durchführen - in dem Fall, dass zusätzliche Segmente
vorhanden sind - der folgenden Funktionen:
Kombinieren (315) der gemischten Überlappungsdaten mit
den Audiodaten von dem zweiten Segment, welche nicht Teil
der zweiten Segmentüberlappungsdaten sind;
Selektieren (316) der kombinierten Daten als ein neues
erstes Segment;
Selektieren (303) eines neuen zweiten Segmentes, welches
dem neuen ersten Segment temporär benachbart ist und
nicht zuvor als ein Segment selektiert worden ist; und
Wiederholen der mit den Mitteln nach (i) bis (vii)
durchgeführten Funktionen; und
(ix) Durchführen - in dem Fall, dass zusätzliche Segmente nicht
vorhanden sind - der Funktion des Identifizierens (317), als
Teil des modifizierten Satzes von Audiodaten, der gemischten
Daten und der Audiodaten von dem zweiten Segment, welche
nicht Teil der zweiten Segmentüberlappungsdaten sind.
32. System nach Anspruch 31, wobei die Mittel zum Definieren einer
Korrespondenz zwischen dem originalen Satz von Audiodaten und dem
originalen Satz von Videodaten ferner umfassen:
Mittel zum Teilen des originalen Satzes von Videodaten in eine Mehrzahl
von Untereinheiten, wobei jede Untereinheit von Videodaten eine
Zeitdauer repräsentiert, welche im Wesentlichen gleich der Zeitdauer ist, die
durch jede andere Untereinheit von Videodaten repräsentiert ist;
Mittel zum Teilen des originalen Satzes von Audiodaten in eine Mehrzahl
von Segmenten, wobei jedes Segment eine Zeitdauer repräsentiert,
welche annähernd zusammenfallend mit und im Wesentlichen gleich der
Zeitdauer einer korrespondierenden Untereinheit von Videodaten ist;
und
Mittel zum Identifizieren korrespondierender Untereinheiten von
Videodaten und Segmente von Audiodaten.
33. System nach Anspruch 31 oder Anspruch 32, wobei wenigstens eine
Zielwiedergaberate schneller ist als eine normale Wiedergaberate.
34. System nach einem der Ansprüche 31, 32 oder 33, wobei wenigstens
eine Zielwiedergaberate langsamer ist als eine normale Wiedergaberate.
35. System nach einem der Ansprüche 31 bis 34, wobei die
Zielwiedergaberate oder -raten eine Sequenz von Zielwiedergaberaten ist.
36. System nach einem der Ansprüche 31 bis 35, ferner umfassend:
Mittel (203) zum Generieren einer Audiowiedergabe von dem
modifizierten Satz von Audiodaten; und
Mittel (203) zum Generieren einer Videowiedergabe von dem
modifizierten Satz von Videodaten.
37. System nach einem der Ansprüche 31 bis 36, wobei die Mittel zum
Bestimmen einer Zielwiedergaberate ferner Mittel zum Werten der
Audio- und/oder Videodaten zum automatischen Bestimmen des Wertes
der Zielwiedergaberate umfassen.
38. System nach Anspruch 37, wobei die Mittel zum Werten ferner
umfassen:
Mittel zum Analysieren des originalen Satzes von Audiodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Analyse
des originalen Satzes von Audiodaten.
39. System nach Anspruch 38, wobei:
die Mittel zum Analysieren des originalen Satzes von Audiodaten ferner
Mittel zum Bestimmen der Betonung, mit der gesprochene Teile der
Audiodaten ausgesprochen werden, umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der
Zielwiedergaberate, basierend auf den relativen Betonungen der gesprochenen
Teile der Audiodaten, umfassen.
40. System nach Anspruch 39, wobei die Mittel zum Bestimmen von
Betonung ferner Mittel zum Berechnen von Energietermen für die
gesprochenen Teile der Audiodaten umfassen.
41. System nach Anspruch 38, wobei:
die Mittei zum Analysieren des originalen Satzes von Audiodaten ferner
Mittel zum Bestimmen der Sprechrate, bei der gesprochene Teile der
Audiodaten ausgesprochen werden, umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der
Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten der
gesprochenen Teile der Audiodaten, umfassen.
42. System nach Anspruch 41, wobei die Mittel zum Bestimmen von
Sprechraten ferner Mittel zum Bestimmen spektraler Änderungen in den
gesprochenen Teilen der Audiodaten umfassen.
43. System nach einem der Ansprüche 38, 40 oder 42, wobei:
die Mittel zum Analysieren des originalen Satzes von Audiodaten ferner
umfassen:
Mittel zum Bestimmen der Betonung, mit der gesprochene Teile der
Audiodaten ausgesprochen werden;
Mittel zum Bestimmen der Sprechrate, bei der gesprochene Teile der
Audiodaten ausgesprochen werden; und
Mittel zum Kombinieren korrespondierender Betonungen und
Sprechraten zum Erzeugen von Audiospannungswerten für die gesprochenen
Teile; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der
Zielwiedergaberate, basierend auf den Audiospannungswerten der gesprochenen
Teile der Audiodaten, umfassen.
44. System nach Anspruch 43, ferner umfassend Mittel (201, 204) zum
Bestimmen des Wertes einer Nominalzielwiedergaberate, welche von
einem Benutzer des audiovisuellen Wiedergabesystems spezifiziert wird,
wobei die Mittel zum Berechnen ferner Mittel zum Kombinieren der
Audiospannungswerte mit der Nominalzielwiedergaberate zum Erzeugen
der Zielwiedergaberate umfassen.
45. System nach Anspruch 37, wobei die Mittel zum Werten ferner
umfassen:
Mittel zum Analysieren des originalen Satzes von Videodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der Analyse
der Videodaten.
46. System nach Anspruch 45, wobei:
die Mittel zum Analysieren des originalen Satzes von Videodaten ferner
Mittel zum Bestimmen der relativen Änderungsrate der Videodaten
entlang verschiedener Populations-basierter Dimensionen umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der
Zielwiedergaberate, basierend auf der Änderung in Werten der Daten entlang der
Populations-basierten Dimensionen, umfassen.
47. System nach Anspruch 45 oder Anspruch 46, wobei:
die Mittel zum Analysieren des originalen Satzes von Videodaten ferner
umfassen:
Mittel zum Bestimmen von Teilen eines Videobildes, repräsentiert durch
den originalen Satz von Videodaten, welche sich rasch ändern; und
Mittel zum Bestimmen der Frequenz, mit welcher derartige rasche
Änderungen auftreten; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der
Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz von raschen
Änderungen in dem Videobild umfassen.
48. System nach Anspruch 47, wobei die Mittel zum Berechnen ferner Mittei
zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer
rasche Änderungen in dem Videobild auftreten, welche niedriger ist als
die Zielwiedergaberate während anderer Zeitdauern, umfassen.
49. System nach einem der Ansprüche 45 bis 48, wobei:
die Mittel zum Analysieren des originalen Satzes von Videodaten ferner
Mittel zum Verfolgen der Bewegung von Objekten innerhalb eines
Videobildes, repräsentiert durch den originalen Satz von Videodaten,
umfassen; und
die Mittel zum Berechnen ferner Mittel zum Berechnen der
Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in dem
Videobild, umfassen.
50. System nach Anspruch 49, wobei die Mittel zum Berechnen ferner Mittel
zum Etablieren einer Zielwiedergaberate für Zeitdauern, während derer
neue Objekte in dem Videobild erscheinen, welche niedriger ist als die
Zielwiedergaberate während anderer Zeitdauern, umfassen.
51. System nach einem der Ansprüche 37 bis 44, wobei die Mittel zum
Werten ferner umfassen:
Mittel zum Durchführen einer ersten Analyse des originalen Satzes von
Audiodaten;
Mittel zum Durchführen einer zweiten Analyse des originalen Satzes von
Audiodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der ersten
und zweiten Analyse der Audiodaten.
52. System nach einem der Ansprüche 37 oder 45 bis 50, wobei die Mittel
zum Werten ferner umfassen:
Mittel zum Durchführen einer ersten Analyse des originalen Satzes von
Videodaten;
Mittel zum Durchführen einer zweiten Analyse des originalen Satzes von
Videodaten;
Mittel zum Berechnen der Zielwiedergaberate, basierend auf der ersten
und zweiten Analyse der Videodaten.
53. System nach einem der Ansprüche 37 bis 52, wobei die Mittel zum
Werten ferner umfassen:
Mittel zum Analysieren des originalen Satzes von Audiodaten;
Mittel zum Analysieren des originalen Satzes von Videodaten; und
Mittel zum Berechnen der Zielwiedergaberate, basierend auf den
Analysen der Audio- und Videodaten.
54. System nach einem der Ansprüche 31 bis 53, wobei die Mittel zum
Erzeugen eines modifizierten Satzes von Audiodaten ferner Mittel zum
Analysieren des Inhalts der Audiodaten umfassen, wobei der
modifizierte Satz von Audiodaten außer auf der Zielwiedergaberate auf dem
Inhalt der Audiodaten basierend erzeugt wird.
55. System nach einem der Ansprüche 31 bis 54, wobei die Mittel zum
Erzeugen eines modifizierten Satzes von Videodaten ferner umfassen:
Mittel zum Etablieren einer Korrespondenz zwischen dem modifizierten
Audiodatensatz und dem originalen Videodatensatz, basierend auf der
Korrespondenz zwischen dem modifizierten Audiodatensatz und dem
originalen Audiodatensatz und der Korrespondenz zwischen dem
originalen Audiodatensatz und dem originalen Videodatensatz;
Mittel zum Gruppieren der Audiodaten des modifizierten
Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in
Audiosegmenten des originalen Audiodatensatzes gefunden;
Mittel zum Identifizieren von einer oder mehreren partiellen oder
vollständigen Untereinheiten von Videodaten von dem originalen
Videodatensatz, welche zu jedem der Audiosegmente des modifizierten
Audiodatensatzes korrespondieren, basierend auf der Korrespondenz
zwischen dem modifizierten Audiodatensatz und dem originalen
Videodatensatz; und
Mittel zum Modifizieren der Video-Frames in dem originalen
Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu erzeugen,
dass eine Eins-zu-Eins-Korrespondenz zwischen Audiosegmenten des
modifizierten Audiodatensatzes und Video-Frames des modifizierten
Videodatensatzes vorliegt.
56. System nach einem der Ansprüche 31 bis 55, wobei die Mittel zum
Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum
Eliminieren von Daten aus dem originalen Videodatensatz umfassen.
57. System nach einem der Ansprüche 31 bis 56, wobei die Mittel zum
Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum
Hinzufügen von Daten zu dem originalen Videodatensatz umfassen.
58. System nach einem der Ansprüche 31 bis 57, wobei die Mittel zum
Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum
Mischen von Daten von dem originalen Videodatensatz, so dass der
modifizierte Videodatensatz weniger Daten aufweist als der originale
Videodatensatz, umfassen.
59. System nach einem der Ansprüche 31 bis 58, wobei die Mittel zum
Erzeugen eines modifizierten Satzes von Videodaten ferner Mittel zum
Synthetisieren von Daten, basierend auf den Daten in dem originalen
Videodatensatz, so dass der modifizierte Videodatensatz mehr Daten
aufweist als der originale Videodatensatz, umfassen.
60. System nach einem der Ansprüche 31 bis 59, ferner umfassend:
Mittel (204), welche einen Benutzer zum Spezifizieren einer
Nominalzielwiedergaberate befähigen; und
Mittel (201 oder 204) zum Bestimmen des Wertes der
Nominalzielwiedergaberate.
61. Computerlesbares Medium, codiert mit einem oder mehreren
Computerprogrammen, welche zum Variieren der apparenten Wiedergaberate
einer audiovisuellen Wiedergabe gegenüber einer normalen
Wiedergaberate, bei der ein audiovisuelles Wiedergabesystem eine Wiedergabe
von einem originalen Satz von Audiodaten und einem in Beziehung
stehenden originalen Satz von Videodaten generieren kann, befähigen,
umfassend:
Instruktionen (101) zum Definieren einer Korrespondenz zwischen dem
originalen Satz von Audiodaten und dem originalen Satz von
Videodaten;
Instruktionen (102) zum Bestimmen einer Zielwiedergaberate für die
audiovisuelle Wiedergabe;
Instruktionen (103) zum Erzeugen eines modifizierten Satzes von
Audiodaten, basierend auf der Zielwiedergaberate und einer Wertung
des Inhaltes des originalen Satzes von Audiodaten, welcher zu dem
originalen Satz von Audiodaten korrespondiert; und
Instruktionen (104) zum Erzeugen eines modifizierten Satzes von
Videodaten von dem originalen Satz von Videodaten, basierend auf dem
modifizierten Satz von Audiodaten, der Korrespondenz zwischen dem
modifizierten Satz von Audiodaten und dem originalen Satz von
Audiodaten und der Korrespondenz zwischen dem originalen Satz von
Audiodaten und dem originalen Satz von Videodaten;
wobei die Instruktionen (102) zum Erzeugen eines modifizierten Satzes
von Audiodaten ferner Instruktionen umfassen zum:
(i) Teilen (301) des originalen Satzes von Audiodaten in eine
Mehrzahl von Segmenten, wobei jedes Segment einen
zusammenhängenden Teil des Satzes von Audiodaten
repräsentiert, der während einer spezifizierten Zeitdauer auftritt,
wobei jedes Segment einem oder zwei anderen Segmenten
benachbart ist, derart, dass keine Lücken zwischen
Segmenten vorhanden sind und benachbarte Segmente nicht
überlappen;
(ii) Selektieren (302) eines ersten Segmentes;
(iii) Selektieren (303) eines zweiten Segmentes, wobei das zweite
Segment dem ersten Segment temporär benachbart ist;
(iv) Überlappen (304, 305, 306, 307, 308, 309, 310, 311) eines
Endbereichs des ersten Segmentes mit einem Endbereich des
zweiten Segmentes, welches dem ersten Segment
benachbart ist, wobei der Endbereich des ersten Segmentes erste
Segmentüberlappungsdaten aufweist und der Endbereich des
zweiten Segmentes zweite Segmentüberlappungsdaten
aufweist;
(v) Identifizieren (312), als Teil des modifizierten Satzes von
Audiodaten, der Audiodaten von dem ersten Segment,
welche nicht Teil der ersten Segmentüberlappungsdaten sind;
(vi) Mischen (313) korrespondierender erster
Segmentüberlappungsdaten und zweiter Segmentüberlappungsdaten;
(vii) Bestimmen (314), ob zusätzliche Segmente in dem originalen
Satz von Audiodaten vorhanden sind, welche nicht mit einem
benachbarten Segment überlappt worden sind,
(viii) Durchführen - in dem Fall, dass zusätzliche Segmente
vorhanden sind - der folgenden Funktionen:
Kombinieren (315) der gemischten Überlappungsdaten mit
den Audiodaten von dem zweiten Segment, welche nicht Teil
der zweiten Segmentüberlappungsdaten sind;
Selektieren (316) der kombinierten Daten als ein neues
erstes Segment;
Selektieren (303) eines neuen zweiten Segmentes, welches
dem neuen ersten Segment temporär benachbart ist und
nicht zuvor als ein Segment selektiert worden ist; und
Wiederholen der Instruktionen (i) bis (vii); und
(ix) Durchführen - in dem Fall, dass zusätzliche Segmente nicht
vorhanden sind - der Funktion des Identifizierens (317), als
Teil des modifizierten Satzes von Audiodaten, der gemischten
Daten und der Audiodaten von dem zweiten Segment, welche
nicht Teil der zweiten Segmentüberlappungsdaten sind.
62. Computerlesbares Medium nach Anspruch 61, wobei die Instruktionen
zum Definieren einer Korrespondenz zwischen dem originalen Satz von
Audiodaten und dem originalen Satz von Videodaten ferner umfassen:
Instruktionen zum Teilen des originalen Satzes von Videodaten in eine
Mehrzahl von Untereinheiten, wobei jede Untereinheit von Videodaten
eine Zeitdauer repräsentiert, welche im Wesentlichen gleich der
Zeitdauer ist, die durch jede andere Untereinheit von Videodaten
repräsentiert ist;
Instruktionen zum Teilen des originalen Satzes von Audiodaten in eine
Mehrzahl von Segmenten, wobei jedes Segment eine Zeitdauer
repräsentiert, welche annähernd zusammenfallend mit und im Wesentlichen
gleich der Zeitdauer einer korrespondierenden Untereinheit von
Videodaten ist; und
Instruktionen zum Identifizieren korrespondierender Untereinheiten von
Videodaten und Segmente von Audiodaten.
63. Computerlesbares Medium nach Anspruch 61 oder Anspruch 62, wobei
wenigstens eine Zielwiedergaberate schneller ist als eine normale
Wiedergaberate.
64. Computerlesbares Medium nach einem der Ansprüche 61 bis 63, wobei
wenigstens eine Zielwiedergaberate langsamer ist als eine normale
Wiedergaberate.
65. Computerlesbares Medium nach einem der Ansprüche 61 bis 64, wobei
die Zielwiedergaberate oder -raten eine Sequenz von
Zielwiedergaberaten ist.
66. Computerlesbares Medium nach einem der Ansprüche 61 bis 65, wobei
die Instruktionen zum Bestimmen einer Zielwiedergaberate ferner
Instruktionen zum Bestimmen des Wertes einer
Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen Wiedergabesystems
spezifiziert wird, umfassen.
67. Computerlesbares Medium nach einem der Ansprüche 61 bis 66, wobei
die Instruktionen zum Bestimmen einer Zielwiedergaberate ferner
Instruktionen zum Werten der Audio- und/oder Videodaten zum
automatischen Bestimmen des Wertes der Zielwiedergaberate umfassen.
68. Computerlesbares Medium nach Anspruch 67, wobei die Instruktionen
zum Werten ferner umfassen:
Instruktionen zum Analysieren des originalen Satzes von Audiodaten;
und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der
Analyse des originalen Satzes von Audiodaten.
69. Computerlesbares Medium nach Anspruch 68, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Audiodaten
ferner Instruktionen zum Bestimmen der Betonung, mit der
gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen
der Zielwiedergaberate, basierend auf den relativen Betonungen der
gesprochenen Teile der Audiodaten, umfassen.
70. Computerlesbares Medium nach Anspruch 69, wobei die Instruktionen
zum Bestimmen von Betonung ferner Instruktionen zum Berechnen von
Energietermen für die gesprochenen Teile der Audiodaten umfassen.
71. Computerlesbares Medium nach Anspruch 68, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Audiodaten
ferner Instruktionen zum Bestimmen der Sprechrate, bei der
gesprochene Teile der Audiodaten ausgesprochen werden, umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen
der Zielwiedergaberate, basierend auf den relativen Geschwindigkeiten
der gesprochenen Teile der Audiodaten, umfassen.
72. Computerlesbares Medium nach Anspruch 71, wobei die Instruktionen
zum Bestimmen von Sprechraten ferner Instruktionen zum Bestimmen
spektraler Änderungen in den gesprochenen Teilen der Audiodaten
umfassen.
73. Computerlesbares Medium nach einem der Ansprüche 68, 70 oder 72,
wobei:
die Instruktionen zum Analysieren des originalen Satzes von Audiodaten
ferner umfassen:
Instruktionen zum Bestimmen der Betonung, mit der gesprochene Teile
der Audiodaten ausgesprochen werden;
Instruktionen zum Bestimmen der Sprechrate, bei der gesprochene
Teile der Audiodaten ausgesprochen werden; und
Instruktionen zum Kombinieren korrespondierender Betonungen und
Sprechraten zum Erzeugen von Audiospannungswerten für die
gesprochenen Teile; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen
der Zielwiedergaberate, basierend auf den Audiospannungswerten der
gesprochenen Teile der Audiodaten, umfassen.
74. Computerlesbares Medium nach Anspruch 73, ferner umfassend
Instruktionen zum Bestimmen des Wertes einer
Nominalzielwiedergaberate, welche von einem Benutzer des audiovisuellen
Wiedergabesystems spezifiziert wird, wobei die Instruktionen zum Berechnen ferner
Instruktionen zum Kombinieren der Audiospannungswerte mit der
Nominalzielwiedergaberate zum Erzeugen der Zielwiedergaberate
umfassen.
75. Computerlesbares Medium nach Anspruch 67, wobei die Instruktionen
zum Werten ferner umfassen:
Instruktionen zum Analysieren des originalen Satzes von Videodaten;
und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der
Analyse der Videodaten.
76. Computerlesbares Medium nach Anspruch 75, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Videodaten
ferner Instruktionen zum Bestimmen der relativen Änderungsrate der
Videodaten entlang verschiedener Populations-basierter Dimensionen
umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen
der Zielwiedergaberate, basierend auf der Änderung in Werten der
Daten entlang der Populations-basierten Dimensionen, umfassen.
77. Computerlesbares Medium nach Anspruch 75 oder Anspruch 76, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Videodaten
ferner umfassen:
Instruktionen zum Bestimmen von Teilen eines Videobildes,
repräsentiert durch den originalen Satz von Videodaten, welche sich rasch
ändern; und
Instruktionen zum Bestimmen der Frequenz, mit welcher derartige
rasche Änderungen auftreten; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen
der Zielwiedergaberate, basierend auf dem Auftreten und der Frequenz
von raschen Änderungen in dem Videobild, umfassen.
78. Computerlesbares Medium nach Anspruch 77, wobei die Instruktionen
zum Berechnen ferner Instruktionen zum Etablieren einer
Zielwiedergaberate für Zeitdauern, während derer rasche Änderungen in dem
Videobild auftreten, welche niedriger ist als die Zielwiedergaberate
während anderer Zeitdauern, umfassen.
79. Computerlesbares Medium nach einem der Ansprüche 75 bis 78, wobei:
die Instruktionen zum Analysieren des originalen Satzes von Videodaten
ferner Instruktionen zum Verfolgen der Bewegung von Objekten
innerhalb eines Videobildes, repräsentiert durch den originalen Satz von
Videodaten, umfassen; und
die Instruktionen zum Berechnen ferner Instruktionen zum Berechnen
der Zielwiedergaberate, basierend auf dem Erscheinen neuer Objekte in
dem Videobild, umfassen.
80. Computerlesbares Medium nach Anspruch 79, wobei die Instruktionen
zum Berechnen ferner Instruktionen zum Etablieren einer Zielwiedergaberate
für Zeitdauern, während derer neue Objekte in dem Videobild
erscheinen, welche niedriger ist als die Zielwiedergaberate während
anderer Zeitdauern, umfassen.
81. Computerlesbares Medium nach einem der Ansprüche 67 bis 74, wobei
die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Durchführen einer ersten Analyse des originalen
Satzes von Audiodaten;
Instruktionen zum Durchführen einer zweiten Analyse des originalen
Satzes von Audiodaten; und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der
ersten und zweiten Analyse der Audiodaten.
82. Computerlesbares Medium nach einem der Ansprüche 67 oder 75
bis 80, wobei die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Durchführen einer ersten Analyse des originaler
Satzes von Videodaten;
Instruktionen zum Durchführen einer zweiten Analyse des originalen
Satzes von Videodaten;
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf der
ersten und zweiten Analyse der Videodaten.
83. Computerlesbares Medium nach einem der Ansprüche 67 bis 82, wobei
die Instruktionen zum Werten ferner umfassen:
Instruktionen zum Analysieren des originalen Satzes von Audiodaten;
und
Instruktionen zum Analysieren des originalen Satzes von Videodaten;
und
Instruktionen zum Berechnen der Zielwiedergaberate, basierend auf den
Analysen der Audio- und Videodaten.
84. Computerlesbares Medium nach einem der Ansprüche 61 bis 83, wobei
die Instruktionen zum Erzeugen eines modifizierten Satzes von
Audiodaten ferner Instruktionen zum Analysieren des Inhalts der Audiodaten
umfassen, wobei der modifizierte Satz von Audiodaten außer auf der
Zielwiedergaberate auf dem Inhalt der Audiodaten basierend erzeugt
wird.
85. Computerlesbares Medium nach einem der Ansprüche 61 bis 84, wobei
die Instruktionen zum Erzeugen eines modifizierten Satzes von
Videodaten ferner umfassen:
Instruktionen zum Etablieren einer Korrespondenz zwischen dem
modifizierten Audiodatensatz und dem originalen Videodatensatz, basierend
auf der Korrespondenz zwischen dem modifizierten Audiodatensatz und
dem originalen Audiodatensatz und der Korrespondenz zwischen dem
originalen Audiodatensatz und dem originalen Videodatensatz;
Instruktionen zum Gruppieren der Audiodaten des modifizierten
Audiodatensatzes in Audiosegmente mit der gleichen Menge an Daten, wie in
Audiosegmenten des originalen Audiodatensatzes gefunden;
Instruktionen zum Identifizieren von einer oder mehreren partiellen
oder vollständigen Untereinheiten von Videodaten von dem originalen
Videodatensatz, welche zu jedem der Audiosegmente des modifizierten
Audiodatensatzes korrespondieren, basierend auf der Korrespondenz
zwischen dem modifizierten Audiodatensatz und dem originalen
Videodatensatz; und
Instruktionen zum Modifizieren der Video-Frames in dem originalen
Videodatensatz nach Bedarf, um den modifizierten Videodatensatz so zu
erzeugen, dass eine Eins-zu-Eins-Korrespondenz zwischen
Audiosegmenten des modifizierten Audiodatensatzes und Video-Frames des
modifizierten Videodatensatzes vorliegt.
86. Computerlesbares Medium nach einem der Ansprüche 61 bis 85, wobei
die Instruktionen zum Erzeugen eines modifizierten Satzes von
Videodaten ferner Instruktionen zum Eliminieren von Daten aus dem
originalen Videodatensatz umfassen.
87. Computerlesbares Medium nach einem der Ansprüche 61 bis 86, wobei
die Instruktionen zum Erzeugen eines modifizierten Satzes von
Videodaten ferner Instruktionen zum Hinzufügen von Daten zu dem originalen
Videodatensatz umfassen.
88. Computerlesbares Medium nach einem der Ansprüche 61 bis 87, wobei
Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten
ferner Instruktionen zum Mischen von Daten von dem originalen
Videodatensatz, so dass der modifizierte Videodatensatz weniger Daten
aufweist als der originale Videodatensatz, umfassen.
89. Computerlesbares Medium nach einem der Ansprüche 61 bis 88, wobei
Instruktionen zum Erzeugen eines modifizierten Satzes von Videodaten
ferner Instruktionen zum Synthetisieren von Daten, basierend auf den
Daten in dem originalen Videodatensatz, so dass der modifizierte
Videodatensatz mehr Daten aufweist als der originale Videodatensatz,
umfassen.
90. Computerlesbares Medium nach einem der Ansprüche 61 bis 89, ferner
umfassend:
Instruktionen zum Generieren einer Audiowiedergabe von dem
modifizierten Satz von Audiodaten; und
Instruktionen zum Generieren einer Videowiedergabe von dem
modifizierten Satz von Videodaten.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/760,769 US5893062A (en) | 1996-12-05 | 1996-12-05 | Variable rate video playback with synchronized audio |
PCT/US1997/023099 WO1998025405A2 (en) | 1996-12-05 | 1997-12-03 | Variable rate video playback with synchronized audio |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69719825D1 DE69719825D1 (de) | 2003-04-17 |
DE69719825T2 true DE69719825T2 (de) | 2003-12-18 |
Family
ID=25060139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69719825T Expired - Lifetime DE69719825T2 (de) | 1996-12-05 | 1997-12-03 | Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit |
Country Status (5)
Country | Link |
---|---|
US (6) | US5893062A (de) |
EP (1) | EP1057331B1 (de) |
AU (1) | AU5898398A (de) |
DE (1) | DE69719825T2 (de) |
WO (1) | WO1998025405A2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004039238A1 (de) * | 2004-08-12 | 2006-02-23 | AverMedia Technologies, Inc., Chung Ho | Verfahren und Vorrichtung zum Ausrüsten eines persönlichen digitalen Produkts mit Funktionen des Aufzeichnens und Anzeigens des digitalen Video/Audio-Multimedia |
Families Citing this family (118)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7382929B2 (en) * | 1989-05-22 | 2008-06-03 | Pixel Instruments Corporation | Spatial scan replication circuit |
AU5027796A (en) * | 1995-03-07 | 1996-09-23 | Interval Research Corporation | System and method for selective recording of information |
US5893062A (en) * | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
US6263507B1 (en) * | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
JPH10322673A (ja) * | 1997-05-15 | 1998-12-04 | Canon Inc | 通信装置及び方法及び記憶媒体 |
US8813137B2 (en) * | 1998-05-08 | 2014-08-19 | Qualcomm Incorporated | Apparatus and method for decoding digital image and audio signals |
US6349286B2 (en) * | 1998-09-03 | 2002-02-19 | Siemens Information And Communications Network, Inc. | System and method for automatic synchronization for multimedia presentations |
US6622171B2 (en) * | 1998-09-15 | 2003-09-16 | Microsoft Corporation | Multimedia timeline modification in networked client/server systems |
US6292454B1 (en) * | 1998-10-08 | 2001-09-18 | Sony Corporation | Apparatus and method for implementing a variable-speed audio data playback system |
US6374225B1 (en) * | 1998-10-09 | 2002-04-16 | Enounce, Incorporated | Method and apparatus to prepare listener-interest-filtered works |
US6342904B1 (en) * | 1998-12-17 | 2002-01-29 | Newstakes, Inc. | Creating a slide presentation from full motion video |
US6892351B2 (en) * | 1998-12-17 | 2005-05-10 | Newstakes, Inc. | Creating a multimedia presentation from full motion video using significance measures |
EP1057330B1 (de) * | 1998-12-23 | 2007-03-21 | Koninklijke Philips Electronics N.V. | Programmwiedergabeanlage |
US7302396B1 (en) * | 1999-04-27 | 2007-11-27 | Realnetworks, Inc. | System and method for cross-fading between audio streams |
US6625656B2 (en) * | 1999-05-04 | 2003-09-23 | Enounce, Incorporated | Method and apparatus for continuous playback or distribution of information including audio-visual streamed multimedia |
US6625655B2 (en) * | 1999-05-04 | 2003-09-23 | Enounce, Incorporated | Method and apparatus for providing continuous playback or distribution of audio and audio-visual streamed multimedia reveived over networks having non-deterministic delays |
AU5140200A (en) | 1999-05-26 | 2000-12-18 | Enounce, Incorporated | Method and apparatus for controlling time-scale modification during multi-media broadcasts |
US6934759B2 (en) * | 1999-05-26 | 2005-08-23 | Enounce, Inc. | Method and apparatus for user-time-alignment for broadcast works |
AU4200600A (en) | 1999-09-16 | 2001-04-17 | Enounce, Incorporated | Method and apparatus to determine and use audience affinity and aptitude |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US7155735B1 (en) | 1999-10-08 | 2006-12-26 | Vulcan Patents Llc | System and method for the broadcast dissemination of time-ordered data |
US7050110B1 (en) * | 1999-10-29 | 2006-05-23 | Intel Corporation | Method and system for generating annotations video |
US6757682B1 (en) | 2000-01-28 | 2004-06-29 | Interval Research Corporation | Alerting users to items of current interest |
US7302490B1 (en) | 2000-05-03 | 2007-11-27 | Microsoft Corporation | Media file format to support switching between multiple timeline-altered media streams |
US6718309B1 (en) * | 2000-07-26 | 2004-04-06 | Ssi Corporation | Continuously variable time scale modification of digital audio signals |
US7683903B2 (en) | 2001-12-11 | 2010-03-23 | Enounce, Inc. | Management of presentation time in a digital media presentation system with variable rate presentation capability |
US7242850B2 (en) * | 2001-02-23 | 2007-07-10 | Eastman Kodak Company | Frame-interpolated variable-rate motion imaging system |
US20020138593A1 (en) * | 2001-03-26 | 2002-09-26 | Novak Michael J. | Methods and systems for retrieving, organizing, and playing media content |
US6904566B2 (en) | 2001-03-26 | 2005-06-07 | Microsoft Corporation | Methods, systems and media players for rendering different media types |
US7272794B2 (en) | 2001-03-26 | 2007-09-18 | Microsoft Corporation | Methods, systems and media players for rendering different media types |
US7072908B2 (en) | 2001-03-26 | 2006-07-04 | Microsoft Corporation | Methods and systems for synchronizing visualizations with audio streams |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
AU2002307533B2 (en) * | 2001-05-10 | 2008-01-31 | Dolby Laboratories Licensing Corporation | Improving transient performance of low bit rate audio coding systems by reducing pre-noise |
US20030033147A1 (en) * | 2001-06-08 | 2003-02-13 | Recording For The Blind & Dyslexic Incorporated | Method and apparatus for coordinating text and audio events in a digital talking book |
GB0118575D0 (en) * | 2001-07-31 | 2001-09-19 | Koninl Philips Electronics Nv | Entertainment schedule adapter |
US8438004B2 (en) * | 2001-10-03 | 2013-05-07 | Hewlett-Packard Development Company L.P. | System and methods for language translation printing |
US20050188297A1 (en) * | 2001-11-01 | 2005-08-25 | Automatic E-Learning, Llc | Multi-audio add/drop deterministic animation synchronization |
US7130528B2 (en) * | 2002-03-01 | 2006-10-31 | Thomson Licensing | Audio data deletion and silencing during trick mode replay |
US7149412B2 (en) * | 2002-03-01 | 2006-12-12 | Thomson Licensing | Trick mode audio playback |
US7809241B2 (en) * | 2002-03-01 | 2010-10-05 | Thomson Licensing | Audio frequency scaling during video trick modes utilizing digital signal processing |
US6625387B1 (en) * | 2002-03-01 | 2003-09-23 | Thomson Licensing S.A. | Gated silence removal during video trick modes |
US20030185296A1 (en) * | 2002-03-28 | 2003-10-02 | Masten James W. | System for the capture of evidentiary multimedia data, live/delayed off-load to secure archival storage and managed streaming distribution |
US20040010330A1 (en) * | 2002-07-11 | 2004-01-15 | Ling Chen | Speed control of digital audio playback |
JP3973522B2 (ja) | 2002-09-19 | 2007-09-12 | 三洋電機株式会社 | コンテンツ編集装置 |
US7426470B2 (en) * | 2002-10-03 | 2008-09-16 | Ntt Docomo, Inc. | Energy-based nonuniform time-scale modification of audio signals |
US7457531B2 (en) * | 2002-10-16 | 2008-11-25 | Hasbro, Inc. | Low bandwidth image system |
US7375731B2 (en) * | 2002-11-01 | 2008-05-20 | Mitsubishi Electric Research Laboratories, Inc. | Video mining using unsupervised clustering of video content |
US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
US7739715B2 (en) * | 2003-06-24 | 2010-06-15 | Microsoft Corporation | Variable play speed control for media streams |
US6999922B2 (en) * | 2003-06-27 | 2006-02-14 | Motorola, Inc. | Synchronization and overlap method and system for single buffer speech compression and expansion |
US8340972B2 (en) * | 2003-06-27 | 2012-12-25 | Motorola Mobility Llc | Psychoacoustic method and system to impose a preferred talking rate through auditory feedback rate adjustment |
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
US7966034B2 (en) * | 2003-09-30 | 2011-06-21 | Sony Ericsson Mobile Communications Ab | Method and apparatus of synchronizing complementary multi-media effects in a wireless communication device |
US7725828B1 (en) * | 2003-10-15 | 2010-05-25 | Apple Inc. | Application of speed effects to a video presentation |
US7149973B2 (en) | 2003-11-05 | 2006-12-12 | Sonic Foundry, Inc. | Rich media event production system and method including the capturing, indexing, and synchronizing of RGB-based graphic content |
KR100547445B1 (ko) * | 2003-11-11 | 2006-01-31 | 주식회사 코스모탄 | 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법 |
US7454348B1 (en) | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
US7170545B2 (en) * | 2004-04-27 | 2007-01-30 | Polycom, Inc. | Method and apparatus for inserting variable audio delay to minimize latency in video conferencing |
US20060031879A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of news-related broadcasted or streamed multimedia content |
US20060031885A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of music-related broadcasted or streamed multimedia content |
US20060031916A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of broadcasted or streamed multimedia content |
US20050276270A1 (en) * | 2004-05-27 | 2005-12-15 | Rimas Buinevicius | System, method, and device for recording rich media data |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US20060212346A1 (en) * | 2005-03-21 | 2006-09-21 | Robert Brazell | Systems and methods for message media content synchronization |
US8799757B2 (en) * | 2005-07-01 | 2014-08-05 | Microsoft Corporation | Synchronization aspects of interactive multimedia presentation management |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US7822073B2 (en) * | 2005-11-03 | 2010-10-26 | George Mason Intellectual Properties, Inc. | Packet flow side channel |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US7647229B2 (en) * | 2006-10-18 | 2010-01-12 | Nokia Corporation | Time scaling of multi-channel audio signals |
US20080126095A1 (en) * | 2006-10-27 | 2008-05-29 | Gil Sideman | System and method for adding functionality to a user interface playback environment |
KR101334366B1 (ko) * | 2006-12-28 | 2013-11-29 | 삼성전자주식회사 | 오디오 배속 재생 방법 및 장치 |
US8428443B2 (en) * | 2007-03-12 | 2013-04-23 | At&T Intellectual Property I, L.P. | Systems and methods of providing modified media content |
US20080229200A1 (en) * | 2007-03-16 | 2008-09-18 | Fein Gene S | Graphical Digital Audio Data Processing System |
US8204359B2 (en) | 2007-03-20 | 2012-06-19 | At&T Intellectual Property I, L.P. | Systems and methods of providing modified media content |
US20090088249A1 (en) | 2007-06-14 | 2009-04-02 | Robert Kay | Systems and methods for altering a video game experience based on a controller type |
US8678896B2 (en) * | 2007-06-14 | 2014-03-25 | Harmonix Music Systems, Inc. | Systems and methods for asynchronous band interaction in a rhythm action game |
WO2010006054A1 (en) * | 2008-07-08 | 2010-01-14 | Harmonix Music Systems, Inc. | Systems and methods for simulating a rock and band experience |
US8843375B1 (en) * | 2008-09-29 | 2014-09-23 | Apple Inc. | User interfaces for editing audio clips |
US8026436B2 (en) * | 2009-04-13 | 2011-09-27 | Smartsound Software, Inc. | Method and apparatus for producing audio tracks |
US8533598B2 (en) * | 2009-04-30 | 2013-09-10 | Apple Inc. | Media editing with a segmented timeline |
US8449360B2 (en) * | 2009-05-29 | 2013-05-28 | Harmonix Music Systems, Inc. | Displaying song lyrics and vocal cues |
US8465366B2 (en) * | 2009-05-29 | 2013-06-18 | Harmonix Music Systems, Inc. | Biasing a musical performance input to a part |
US9981193B2 (en) | 2009-10-27 | 2018-05-29 | Harmonix Music Systems, Inc. | Movement based recognition and evaluation |
EP2494432B1 (de) | 2009-10-27 | 2019-05-29 | Harmonix Music Systems, Inc. | Auf gestik basierende benutzerschnittstelle |
US8874243B2 (en) | 2010-03-16 | 2014-10-28 | Harmonix Music Systems, Inc. | Simulating musical instruments |
US9358456B1 (en) | 2010-06-11 | 2016-06-07 | Harmonix Music Systems, Inc. | Dance competition game |
US8562403B2 (en) | 2010-06-11 | 2013-10-22 | Harmonix Music Systems, Inc. | Prompting a player of a dance game |
CA2802348A1 (en) | 2010-06-11 | 2011-12-15 | Harmonix Music Systems, Inc. | Dance game and tutorial |
US10324605B2 (en) | 2011-02-16 | 2019-06-18 | Apple Inc. | Media-editing application with novel editing tools |
EP2596626B8 (de) * | 2010-07-20 | 2018-11-21 | InterDigital Madison Patent Holdings | Verfahren zur inhaltspräsentation während eines trickmodusbetriebs |
US9024166B2 (en) | 2010-09-09 | 2015-05-05 | Harmonix Music Systems, Inc. | Preventing subtractive track separation |
US8533259B2 (en) * | 2011-01-27 | 2013-09-10 | Rhythm NewMediaInc. | Efficient real-time stitching of multimedia files |
US9251855B2 (en) | 2011-01-28 | 2016-02-02 | Apple Inc. | Efficient media processing |
US8621355B2 (en) | 2011-02-02 | 2013-12-31 | Apple Inc. | Automatic synchronization of media clips |
US11747972B2 (en) | 2011-02-16 | 2023-09-05 | Apple Inc. | Media-editing application with novel editing tools |
US9997196B2 (en) | 2011-02-16 | 2018-06-12 | Apple Inc. | Retiming media presentations |
US8839110B2 (en) | 2011-02-16 | 2014-09-16 | Apple Inc. | Rate conform operation for a media-editing application |
US8856283B2 (en) * | 2011-06-03 | 2014-10-07 | Apple Inc. | Playlists for real-time or near real-time streaming |
US8996389B2 (en) * | 2011-06-14 | 2015-03-31 | Polycom, Inc. | Artifact reduction in time compression |
US9437247B2 (en) | 2011-11-14 | 2016-09-06 | Apple Inc. | Preview display for multi-camera media clips |
JP5854208B2 (ja) * | 2011-11-28 | 2016-02-09 | 日本電気株式会社 | 多段高速再生のための映像コンテンツ生成方法 |
US20130336379A1 (en) * | 2012-06-13 | 2013-12-19 | Divx, Llc | System and Methods for Encoding Live Multimedia Content with Synchronized Resampled Audio Data |
US9014544B2 (en) | 2012-12-19 | 2015-04-21 | Apple Inc. | User interface for retiming in a media authoring tool |
US9607612B2 (en) * | 2013-05-20 | 2017-03-28 | Intel Corporation | Natural human-computer interaction for virtual personal assistant systems |
US10102285B2 (en) * | 2014-08-27 | 2018-10-16 | International Business Machines Corporation | Consolidating video search for an event |
KR102485575B1 (ko) * | 2015-12-03 | 2023-01-09 | 삼성디스플레이 주식회사 | 디스플레이 장치의 터치 감지 방법 및 디스플레이 장치 |
US10231001B2 (en) | 2016-05-24 | 2019-03-12 | Divx, Llc | Systems and methods for providing audio content during trick-play playback |
CN107690089A (zh) * | 2016-08-05 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、直播方法及装置 |
US9940968B2 (en) * | 2016-08-30 | 2018-04-10 | The Nielsen Company (Us), Llc | Methods and apparatus to perform speed-enhanced playback of recorded media |
US11132533B2 (en) * | 2017-06-07 | 2021-09-28 | David Scott Dreessen | Systems and methods for creating target motion, capturing motion, analyzing motion, and improving motion |
US11039177B2 (en) * | 2019-03-19 | 2021-06-15 | Rovi Guides, Inc. | Systems and methods for varied audio segment compression for accelerated playback of media assets |
US11102523B2 (en) | 2019-03-19 | 2021-08-24 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets by service providers |
US10708633B1 (en) | 2019-03-19 | 2020-07-07 | Rovi Guides, Inc. | Systems and methods for selective audio segment compression for accelerated playback of media assets |
CN110753201B (zh) * | 2019-11-12 | 2022-02-08 | 维沃移动通信有限公司 | 一种视频录制方法、装置、电子设备及存储介质 |
RU2759666C1 (ru) * | 2021-02-19 | 2021-11-16 | Общество с ограниченной ответственностью «ЯЛОС СТРИМ» | Система воспроизведения аудио-видеоданных |
Family Cites Families (268)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3884403A (en) | 1973-12-07 | 1975-05-20 | Robert A Brewer | Article carrying strap |
US3919475A (en) | 1974-10-09 | 1975-11-11 | Honeywell Inc | Head attached television |
US4033335A (en) | 1975-06-12 | 1977-07-05 | Wisconsin Alumni Research Foundation | Method and apparatus for multiplexing of physiological sensor signals with gamma ray camera data signals |
US4051534A (en) | 1976-10-27 | 1977-09-27 | Honeywell Inc. | Head attached television |
US4131919A (en) | 1977-05-20 | 1978-12-26 | Eastman Kodak Company | Electronic still camera |
US4260229A (en) | 1978-01-23 | 1981-04-07 | Bloomstein Richard W | Creating visual images of lip movements |
JPS54114920A (en) | 1978-02-28 | 1979-09-07 | Kokusai Denshin Denwa Co Ltd | Television signal adaptive forecasting encoding system |
US4782401A (en) | 1979-05-11 | 1988-11-01 | Nelson A. Faerber | Editing method and apparatus for commercials during video recording |
FR2462728A1 (fr) | 1979-07-30 | 1981-02-13 | Moviecam Kinematograph | Camera |
US4390904A (en) | 1979-09-20 | 1983-06-28 | Shelton Video Editors, Inc. | Automatic circuit and method for editing commercial messages from television signals |
US4283735A (en) | 1979-09-21 | 1981-08-11 | David Jagger | Method and apparatus for selectively deleting during video tape recording |
US4319286A (en) | 1980-01-07 | 1982-03-09 | Muntz Electronics, Inc. | System for detecting fades in television signals to delete commercials from recorded television broadcasts |
US4750052A (en) | 1981-02-13 | 1988-06-07 | Zenith Electronics Corporation | Apparatus and method for automatically deleting selected program intervals from recorded television broadcasts |
JPH0642740B2 (ja) | 1981-05-12 | 1994-06-01 | 富士写真フイルム株式会社 | 画像記録再生装置 |
US4965825A (en) | 1981-11-03 | 1990-10-23 | The Personalized Mass Media Corporation | Signal processing apparatus and methods |
EP0096705A1 (de) | 1981-12-19 | 1983-12-28 | CHARD, Frederick William | Verfahren und gerät an einem fernsehgerät zum redigieren einer fernsehsendung |
US5105285A (en) | 1982-03-19 | 1992-04-14 | Canon Kabushiki Kaisha | Image transmission system |
US4520404A (en) | 1982-08-23 | 1985-05-28 | Kohorn H Von | System, apparatus and method for recording and editing broadcast transmissions |
US4605973A (en) | 1982-08-23 | 1986-08-12 | Kohorn H Von | System, apparatus and method for recording and editing broadcast transmissions |
US4574354A (en) | 1982-11-19 | 1986-03-04 | Tektronix, Inc. | Method and apparatus for time-aligning data |
US4446997A (en) | 1983-01-26 | 1984-05-08 | Elliot Himberg | Convertible camera-supporting belt device |
US4527201A (en) | 1983-03-29 | 1985-07-02 | Panavision, Inc. | Zoom indicating apparatus for video camera or the like |
US4618895A (en) | 1983-08-31 | 1986-10-21 | Wright Bruce R | Video editing system |
US4526308A (en) | 1984-01-09 | 1985-07-02 | Dovey Dennis J | Camera support |
US4750053A (en) | 1984-02-02 | 1988-06-07 | Broadcast Advertisers Reports, Inc. | Method and system for enabling television commerical monitoring using a marking signal superimposed over an audio signal |
JPS60250784A (ja) | 1984-05-28 | 1985-12-11 | Fuji Photo Optical Co Ltd | 電子カメラ |
US4602297A (en) | 1985-01-22 | 1986-07-22 | Morris Reese | System for editing commercial messages from recorded television broadcasts |
US4600281A (en) | 1985-03-29 | 1986-07-15 | Bloomstein Richard W | Altering facial displays in cinematic works |
US4777537A (en) | 1985-10-21 | 1988-10-11 | Sony Corporation | Signal recording apparatus and method |
GB8528143D0 (en) | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
JPS62171267U (de) | 1986-04-18 | 1987-10-30 | ||
US4739398A (en) | 1986-05-02 | 1988-04-19 | Control Data Corporation | Method, apparatus and system for recognizing broadcast segments |
DE3628743C2 (de) | 1986-08-23 | 1994-05-11 | Grundig Emv | Einrichtung zum Aufzeichnen und schnellen Wiederauffinden von Videosignalabschnitten auf einem Magnetband |
US4843484A (en) | 1986-09-12 | 1989-06-27 | Pioneer Electronic Corporation | Information recording disc with composite index codes and its playback method |
US5040081A (en) | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
US4714184A (en) | 1987-03-13 | 1987-12-22 | Fotima International Ltd. | Camera carrier |
US4947265A (en) | 1987-06-11 | 1990-08-07 | Sony Corporation | Apparatus and method for recording or reproducing still video and audio information and having after recording editing capability |
US4930160A (en) | 1987-09-02 | 1990-05-29 | Vogel Peter S | Automatic censorship of video programs |
JP2565209B2 (ja) | 1987-12-28 | 1996-12-18 | ソニー株式会社 | テレビジヨン信号処理装置 |
US4913539A (en) | 1988-04-04 | 1990-04-03 | New York Institute Of Technology | Apparatus and method for lip-synching animation |
US4847543A (en) | 1988-04-08 | 1989-07-11 | Ultimatte Corporation | Motion control drive interface |
US5514861A (en) | 1988-05-11 | 1996-05-07 | Symbol Technologies, Inc. | Computer and/or scanner system mounted on a glove |
US5012335A (en) | 1988-06-27 | 1991-04-30 | Alija Cohodar | Observation and recording system for a police vehicle |
US5025394A (en) | 1988-09-09 | 1991-06-18 | New York Institute Of Technology | Method and apparatus for generating animated images |
US5109482A (en) | 1989-01-11 | 1992-04-28 | David Bohrman | Interactive video control system for displaying user-selectable clips |
JP2977829B2 (ja) | 1989-01-11 | 1999-11-15 | 株式会社東芝 | 動画像再生装置および動画像再生方法 |
JP2518683B2 (ja) | 1989-03-08 | 1996-07-24 | 国際電信電話株式会社 | 画像合成方法及びその装置 |
US5253066C1 (en) | 1989-06-01 | 2001-05-22 | United Video Properties Inc | Tv recording and viewing control system |
US4934821A (en) | 1989-06-26 | 1990-06-19 | Eastman Kodak Company | Technique for scanning a microfilm image moving at a variable speed |
US5701582A (en) | 1989-08-23 | 1997-12-23 | Delta Beta Pty. Ltd. | Method and apparatus for efficient transmissions of programs |
US5421031A (en) | 1989-08-23 | 1995-05-30 | Delta Beta Pty. Ltd. | Program transmission optimisation |
US5249289A (en) | 1989-09-28 | 1993-09-28 | International Business Machines Corporation | System and method for rebuilding edited digital audio files |
JP3225356B2 (ja) | 1989-11-29 | 2001-11-05 | コニカ株式会社 | スチルビデオカメラ |
US5012334B1 (en) | 1990-01-29 | 1997-05-13 | Grass Valley Group | Video image bank for storing and retrieving video image sequences |
JPH03252287A (ja) | 1990-02-28 | 1991-11-11 | Victor Co Of Japan Ltd | 動画像圧縮装置 |
US5136655A (en) | 1990-03-26 | 1992-08-04 | Hewlett-Pacard Company | Method and apparatus for indexing and retrieving audio-video data |
JP2958048B2 (ja) | 1990-05-16 | 1999-10-06 | シャープ株式会社 | テレビジョン画像処理装置 |
JPH0427280A (ja) | 1990-05-22 | 1992-01-30 | Canon Inc | カメラ一体型ビデオレコーダ装置 |
US5477331A (en) | 1990-09-14 | 1995-12-19 | Canon Kabushiki Kaisha | Image recording apparatus with index information recording feature |
US5177796A (en) | 1990-10-19 | 1993-01-05 | International Business Machines Corporation | Image data processing of correlated images |
JPH04207788A (ja) | 1990-11-30 | 1992-07-29 | Sony Corp | 画像信号符号化装置及び方法 |
JPH04209384A (ja) | 1990-11-30 | 1992-07-30 | Sharp Corp | 磁気テープ記録/再生装置 |
US5305400A (en) | 1990-12-05 | 1994-04-19 | Deutsche Itt Industries Gmbh | Method of encoding and decoding the video data of an image sequence |
US5172281A (en) | 1990-12-17 | 1992-12-15 | Ardis Patrick M | Video transcript retriever |
US5253275A (en) | 1991-01-07 | 1993-10-12 | H. Lee Browne | Audio and video transmission and receiving system |
US5684514A (en) | 1991-01-11 | 1997-11-04 | Advanced Interaction, Inc. | Apparatus and method for assembling content addressable video |
US5317730A (en) | 1991-01-11 | 1994-05-31 | International Business Machines Corporation | System for modifying persistent database based upon set of data elements formed after selective insertion or deletion |
JPH04250436A (ja) | 1991-01-11 | 1992-09-07 | Pioneer Electron Corp | 撮像装置 |
US5187571A (en) | 1991-02-01 | 1993-02-16 | Bell Communications Research, Inc. | Television system for displaying multiple views of a remote location |
US5430835A (en) | 1991-02-15 | 1995-07-04 | Sierra On-Line, Inc. | Method and means for computer sychronization of actions and sounds |
US5241428A (en) | 1991-03-12 | 1993-08-31 | Goldwasser Eric P | Variable-delay video recorder |
CA2057961C (en) | 1991-05-06 | 2000-06-13 | Robert Paff | Graphical workstation for integrated security system |
US5185667A (en) | 1991-05-13 | 1993-02-09 | Telerobotics International, Inc. | Omniview motionless camera orientation system |
US5265180A (en) | 1991-06-13 | 1993-11-23 | Intel Corporation | Method of encoding a sequence of images of a digital motion video signal |
US5182641A (en) | 1991-06-17 | 1993-01-26 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Composite video and graphics display for camera viewing systems in robotics and teleoperation |
DE69222580T2 (de) | 1991-07-15 | 1998-04-16 | Hitachi Ltd | Bildkoder-Dekoder und Telekonferenzendstellengerät |
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
US5488409A (en) | 1991-08-19 | 1996-01-30 | Yuen; Henry C. | Apparatus and method for tracking the playing of VCR programs |
US5524193A (en) | 1991-10-15 | 1996-06-04 | And Communications | Interactive multimedia annotation method and apparatus |
JPH05145818A (ja) | 1991-11-21 | 1993-06-11 | Sony Corp | 撮像装置 |
US5689648A (en) | 1992-01-31 | 1997-11-18 | Raychem Corporation | Method and apparatus for publication of information |
US6208805B1 (en) | 1992-02-07 | 2001-03-27 | Max Abecassis | Inhibiting a control function from interfering with a playing of a video |
US5396287A (en) | 1992-02-25 | 1995-03-07 | Fuji Photo Optical Co., Ltd. | TV camera work control apparatus using tripod head |
KR100206261B1 (ko) | 1992-02-28 | 1999-07-01 | 윤종용 | 디지탈 vtr의 영상신호 대역 압축장치 |
CA2132515C (en) | 1992-03-20 | 2006-01-31 | Glen William Auty | An object monitoring system |
JPH0756652B2 (ja) | 1992-03-24 | 1995-06-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 動画像のフレーム列の検索 |
US5999173A (en) | 1992-04-03 | 1999-12-07 | Adobe Systems Incorporated | Method and apparatus for video editing with video clip representations displayed along a time line |
US5467288A (en) | 1992-04-10 | 1995-11-14 | Avid Technology, Inc. | Digital audio workstations providing digital storage and display of video information |
US5436653A (en) | 1992-04-30 | 1995-07-25 | The Arbitron Company | Method and system for recognition of broadcast segments |
US5692661A (en) | 1992-05-22 | 1997-12-02 | Kellerman; Theodore J. | Sports harness for a portable radio/cassette player |
US5295089A (en) | 1992-05-28 | 1994-03-15 | Emilio Ambasz | Soft, foldable consumer electronic products |
US5262856A (en) | 1992-06-04 | 1993-11-16 | Massachusetts Institute Of Technology | Video image compositing techniques |
US5703795A (en) | 1992-06-22 | 1997-12-30 | Mankovitz; Roy J. | Apparatus and methods for accessing information relating to radio and television programs |
JPH0678307A (ja) | 1992-07-06 | 1994-03-18 | Sanyo Electric Co Ltd | リモートコントロール装置及び電子機器制御システム |
US5404316A (en) | 1992-08-03 | 1995-04-04 | Spectra Group Ltd., Inc. | Desktop digital video processing system |
DE69322470T2 (de) | 1992-08-12 | 1999-07-15 | International Business Machines Corp., Armonk, N.Y. | System und Verfahren zur Lokalisierung von Videosegmentübergängen |
DE69327220T2 (de) | 1992-10-09 | 2000-06-21 | Sony Corp., Tokio/Tokyo | Erzeugung und Aufzeichnung von Bildern |
US5396583A (en) | 1992-10-13 | 1995-03-07 | Apple Computer, Inc. | Cylindrical to planar image mapping using scanline coherence |
US5420801A (en) * | 1992-11-13 | 1995-05-30 | International Business Machines Corporation | System and method for synchronization of multimedia streams |
US5329320A (en) | 1992-12-03 | 1994-07-12 | Aharon Yifrach | TV receiver and buffer system therefor |
EP0605045B1 (de) | 1992-12-29 | 1999-03-31 | Laboratoires D'electronique Philips S.A.S. | Bildverarbeitungsverfahren und -vorrichtung zum Erzeugen eines Bildes aus mehreren angrenzenden Bildern |
JP3382276B2 (ja) | 1993-01-07 | 2003-03-04 | キヤノン株式会社 | 電子機器及びその制御方法 |
US5333091B2 (en) | 1993-01-08 | 1996-12-17 | Arthur D Little Enterprises | Method and apparatus for controlling a videotape player to automatically scan past recorded commercial messages |
US5377051A (en) | 1993-01-13 | 1994-12-27 | Hitachi America, Ltd. | Digital video recorder compatible receiver with trick play image enhancement |
FR2700908B1 (fr) | 1993-01-26 | 1995-02-24 | Thomson Consumer Electronics | Récepteur de télévision à mémoire tampon. |
US5406626A (en) | 1993-03-15 | 1995-04-11 | Macrovision Corporation | Radio receiver for information dissemenation using subcarrier |
US5590195A (en) | 1993-03-15 | 1996-12-31 | Command Audio Corporation | Information dissemination using various transmission modes |
US5440348A (en) | 1993-04-16 | 1995-08-08 | Avid Technology, Inc. | Method and user interface for creating, specifying and adjusting motion picture transitions |
WO1994026061A1 (en) | 1993-04-29 | 1994-11-10 | Michael Friedland | Hands free video camera system |
US5343251A (en) | 1993-05-13 | 1994-08-30 | Pareto Partners, Inc. | Method and apparatus for classifying patterns of television programs and commercials based on discerning of broadcast audio and video signals |
EP0625857B1 (de) | 1993-05-19 | 1998-06-24 | ALCATEL BELL Naamloze Vennootschap | Videoserver |
US5416310A (en) | 1993-05-28 | 1995-05-16 | Symbol Technologies, Inc. | Computer and/or scanner system incorporated into a garment |
GB2278907A (en) | 1993-06-08 | 1994-12-14 | Vinten Group Plc | Manual control system for camera mountings |
US5438423C1 (en) | 1993-06-25 | 2002-08-27 | Grass Valley Us Inc | Time warping for video viewing |
US5384703A (en) | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
US5608839A (en) | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
JPH09506217A (ja) | 1993-10-20 | 1997-06-17 | ヴィデオコンファレンスィング システムズ インコーポレイテッド | 適応型テレビ会議システム |
US5886739A (en) | 1993-11-01 | 1999-03-23 | Winningstad; C. Norman | Portable automatic tracking video recording system |
US5473379A (en) | 1993-11-04 | 1995-12-05 | At&T Corp. | Method and apparatus for improving motion compensation in digital video coding |
US5438357A (en) | 1993-11-23 | 1995-08-01 | Mcnelley; Steve H. | Image manipulating teleconferencing system |
US5828786A (en) | 1993-12-02 | 1998-10-27 | General Instrument Corporation | Analyzer and methods for detecting and processing video data types in a video data stream |
US5467271A (en) | 1993-12-17 | 1995-11-14 | Trw, Inc. | Mapping and analysis system for precision farming applications |
JPH07219970A (ja) | 1993-12-20 | 1995-08-18 | Xerox Corp | 加速フォーマットでの再生方法及び再生装置 |
US5436542A (en) | 1994-01-28 | 1995-07-25 | Surgix, Inc. | Telescopic camera mount with remotely controlled positioning |
JPH07264452A (ja) | 1994-02-03 | 1995-10-13 | Samsung Electron Co Ltd | カメラ一体型の磁気記録再生装置およびその方法 |
US5592626A (en) | 1994-02-07 | 1997-01-07 | The Regents Of The University Of California | System and method for selecting cache server based on transmission and storage factors for efficient delivery of multimedia information in a hierarchical network of servers |
US5537151A (en) | 1994-02-16 | 1996-07-16 | Ati Technologies Inc. | Close caption support with timewarp |
DE4408131A1 (de) | 1994-03-10 | 1995-07-06 | Otto Marchner | Vorrichtung zur lediglich zeitversetzten Videowiedergabe von Betrachtungslücken während noch laufenden Fernsehsendungen |
US5623173A (en) | 1994-03-18 | 1997-04-22 | Lucent Technologies Inc. | Bus structure for power system |
CA2144795A1 (en) | 1994-03-18 | 1995-09-19 | Homer H. Chen | Audio visual dubbing system and method |
JPH07274049A (ja) | 1994-03-30 | 1995-10-20 | Sony Corp | 機能情報用メモリを備えた電子機器 |
US5524051A (en) | 1994-04-06 | 1996-06-04 | Command Audio Corporation | Method and system for audio information dissemination using various modes of transmission |
US5793971A (en) | 1994-04-25 | 1998-08-11 | Sony Corporation | Video signal output apparatus having near video-on-demand function |
US5583652A (en) | 1994-04-28 | 1996-12-10 | International Business Machines Corporation | Synchronized, variable-speed playback of digitally recorded audio and video |
US6069621A (en) | 1994-05-10 | 2000-05-30 | Schupak; Donald | Distributed computer system for providing audio, video, and information signals to plural modules throughout a home |
US5550754A (en) | 1994-05-13 | 1996-08-27 | Videoptic Research | Teleconferencing camcorder |
US5796426A (en) | 1994-05-27 | 1998-08-18 | Warp, Ltd. | Wide-angle image dewarping method and apparatus |
US5635982A (en) | 1994-06-27 | 1997-06-03 | Zhang; Hong J. | System for automatic video segmentation and key frame extraction for video sequences having both sharp and gradual transitions |
US5606359A (en) | 1994-06-30 | 1997-02-25 | Hewlett-Packard Company | Video on demand system with multiple data sources configured to provide vcr-like services |
US5613909A (en) | 1994-07-21 | 1997-03-25 | Stelovsky; Jan | Time-segmented multimedia game playing and authoring system |
US5546145A (en) | 1994-08-30 | 1996-08-13 | Eastman Kodak Company | Camera on-board voice recognition |
JPH0879685A (ja) | 1994-08-31 | 1996-03-22 | Sony Corp | ニア・ビデオ・オン・デマンドシステムにおけるプログラム再生装置 |
US5613032A (en) | 1994-09-02 | 1997-03-18 | Bell Communications Research, Inc. | System and method for recording, playing back and searching multimedia events wherein video, audio and text can be searched and retrieved |
JPH0879626A (ja) | 1994-09-05 | 1996-03-22 | Sony Corp | ビデオ装置 |
US5805156A (en) | 1994-09-19 | 1998-09-08 | Intel Corporation | Automated media capturing system |
US5598352A (en) * | 1994-09-30 | 1997-01-28 | Cirrus Logic, Inc. | Method and apparatus for audio and video synchronizing in MPEG playback systems |
US5575443A (en) | 1994-10-04 | 1996-11-19 | Honeycutt; Jay W. | Quick release accessory mount on a bicycle |
US5920842A (en) | 1994-10-12 | 1999-07-06 | Pixel Instruments | Signal synchronization |
US5594498A (en) | 1994-10-14 | 1997-01-14 | Semco, Inc. | Personal audio/video surveillance system |
US5835667A (en) | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
US5664227A (en) * | 1994-10-14 | 1997-09-02 | Carnegie Mellon University | System and method for skimming digital audio/video data |
US5612742A (en) | 1994-10-19 | 1997-03-18 | Imedia Corporation | Method and apparatus for encoding and formatting data representing a video program to provide multiple overlapping presentations of the video program |
US5926205A (en) | 1994-10-19 | 1999-07-20 | Imedia Corporation | Method and apparatus for encoding and formatting data representing a video program to provide multiple overlapping presentations of the video program |
US5614940A (en) | 1994-10-21 | 1997-03-25 | Intel Corporation | Method and apparatus for providing broadcast information with indexing |
US5687095A (en) * | 1994-11-01 | 1997-11-11 | Lucent Technologies Inc. | Video transmission rate matching for multimedia communication systems |
EP0713331B1 (de) | 1994-11-17 | 2001-03-14 | Canon Kabushiki Kaisha | Kamerasteuervorrichtung und -Verfahren |
US5822493A (en) | 1994-11-17 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Real-time image recording/producing method and apparatus and video library system |
US5758257A (en) | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
JP3392967B2 (ja) | 1994-12-27 | 2003-03-31 | ペンタックス株式会社 | スチルビデオカメラ |
US5774498A (en) | 1994-12-28 | 1998-06-30 | Sony Corporation | Data transmitting apparatus and method of same |
JP3472659B2 (ja) | 1995-02-20 | 2003-12-02 | 株式会社日立製作所 | 映像供給方法および映像供給システム |
AU5027796A (en) | 1995-03-07 | 1996-09-23 | Interval Research Corporation | System and method for selective recording of information |
JPH08249348A (ja) | 1995-03-13 | 1996-09-27 | Hitachi Ltd | 映像検索方法および装置 |
IT1279171B1 (it) | 1995-03-17 | 1997-12-04 | Ist Trentino Di Cultura | Sistema di riconoscimento di parlato continuo |
US5703655A (en) | 1995-03-24 | 1997-12-30 | U S West Technologies, Inc. | Video programming retrieval using extracted closed caption data which has been partitioned and stored to facilitate a search and retrieval process |
JP3315555B2 (ja) | 1995-04-07 | 2002-08-19 | キヤノン株式会社 | カメラ制御装置 |
US5729741A (en) | 1995-04-10 | 1998-03-17 | Golden Enterprises, Inc. | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions |
US5666159A (en) | 1995-04-24 | 1997-09-09 | Eastman Kodak Company | Electronic camera system with programmable transmission capability |
US5838874A (en) | 1995-05-08 | 1998-11-17 | Kabushiki Kaisha Toshiba | Audiovisual encoding system with a reduced number of audio encoders |
US5572261A (en) | 1995-06-07 | 1996-11-05 | Cooper; J. Carl | Automatic audio to video timing measurement device and method |
US5682597A (en) | 1995-06-15 | 1997-10-28 | International Business Machines Corporation | Hybrid video-on-demand based on a near-video-on-demand system |
US5724646A (en) | 1995-06-15 | 1998-03-03 | International Business Machines Corporation | Fixed video-on-demand |
JPH0916457A (ja) | 1995-06-28 | 1997-01-17 | Fujitsu Ltd | マルチメディアデータ検索システム |
US5539483A (en) | 1995-06-30 | 1996-07-23 | At&T Corp. | Panoramic projection apparatus |
US5742517A (en) | 1995-08-29 | 1998-04-21 | Integrated Computer Utilities, Llc | Method for randomly accessing stored video and a field inspection system employing the same |
WO1997010564A1 (en) * | 1995-09-15 | 1997-03-20 | Interval Research Corporation | A method of compressing a plurality of video images |
US5694474A (en) | 1995-09-18 | 1997-12-02 | Interval Research Corporation | Adaptive filter for signal processing and method therefor |
US5721823A (en) | 1995-09-29 | 1998-02-24 | Hewlett-Packard Co. | Digital layout method suitable for near video on demand system |
US5751336A (en) | 1995-10-12 | 1998-05-12 | International Business Machines Corporation | Permutation based pyramid block transmission scheme for broadcasting in video-on-demand storage systems |
JPH09121358A (ja) | 1995-10-25 | 1997-05-06 | Matsushita Electric Ind Co Ltd | 画像符号化及び復号化装置と方法 |
US5768640A (en) | 1995-10-27 | 1998-06-16 | Konica Corporation | Camera having an information recording function |
US5678793A (en) | 1995-10-30 | 1997-10-21 | Hill; Gregory Hill | Bracket for mounting a hand holdable appliance or the like |
US5717869A (en) | 1995-11-03 | 1998-02-10 | Xerox Corporation | Computer controlled display system using a timeline to control playback of temporal data representing collaborative activities |
US6282362B1 (en) | 1995-11-07 | 2001-08-28 | Trimble Navigation Limited | Geographical position/image digital recording and display system |
US6118925A (en) | 1995-11-14 | 2000-09-12 | Hitachi Denshi Kabushiki Kaisha | Method of and system for confirming program materials to be broadcasted and then broadcasting the program materials, and recording medium having recorded therein a procedure for implementing the method |
US5726660A (en) | 1995-12-01 | 1998-03-10 | Purdy; Peter K. | Personal data collection and reporting system |
US5752113A (en) | 1995-12-22 | 1998-05-12 | Borden; John | Panoramic indexing camera mount |
US5740037A (en) | 1996-01-22 | 1998-04-14 | Hughes Aircraft Company | Graphical user interface system for manportable applications |
US5758181A (en) | 1996-01-22 | 1998-05-26 | International Business Machines Corporation | Method and system for accelerated presentation of segmented data |
US5936659A (en) | 1996-01-31 | 1999-08-10 | Telcordia Technologies, Inc. | Method for video delivery using pyramid broadcasting |
US6061056A (en) | 1996-03-04 | 2000-05-09 | Telexis Corporation | Television monitoring system with automatic selection of program material of interest and subsequent display under user control |
WO1997033433A1 (en) | 1996-03-04 | 1997-09-12 | Matsushita Electric Industrial Co., Ltd. | Image selecting/displaying apparatus |
US5778181A (en) | 1996-03-08 | 1998-07-07 | Actv, Inc. | Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments |
US5774664A (en) | 1996-03-08 | 1998-06-30 | Actv, Inc. | Enhanced video programming system and method for incorporating and displaying retrieved integrated internet information segments |
US5791907A (en) | 1996-03-08 | 1998-08-11 | Ramshaw; Bruce J. | Interactive medical training system |
US5826206A (en) | 1996-03-12 | 1998-10-20 | Training Inovations Group, Llc | Debriefing systems and methods for retrieving and presenting multiple datastreams with time indication marks in time synchronism |
US5880788A (en) | 1996-03-25 | 1999-03-09 | Interval Research Corporation | Automated synchronization of video image sequences to new soundtracks |
US6240555B1 (en) | 1996-03-29 | 2001-05-29 | Microsoft Corporation | Interactive entertainment system for presenting supplemental interactive content together with continuous video programs |
US6025837A (en) | 1996-03-29 | 2000-02-15 | Micrsoft Corporation | Electronic program guide with hyperlinks to target resources |
US5831662A (en) | 1996-04-04 | 1998-11-03 | Hughes Electronics Corporation | Near on-demand digital information delivery system and method using signal fragmentation and sequencing to reduce average bandwidth and peak bandwidth variability |
US5737009A (en) | 1996-04-04 | 1998-04-07 | Hughes Electronics | On-demand digital information delivery system and method using signal fragmentation and linear/fractal sequencing. |
US6404811B1 (en) | 1996-05-13 | 2002-06-11 | Tektronix, Inc. | Interactive multimedia system |
US6141693A (en) | 1996-06-03 | 2000-10-31 | Webtv Networks, Inc. | Method and apparatus for extracting digital data from a video stream and using the digital data to configure the video stream for display on a television set |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
US6160950A (en) | 1996-07-18 | 2000-12-12 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for automatically generating a digest of a program |
US5928327A (en) | 1996-08-08 | 1999-07-27 | Wang; Pong-Sheng | System and process for delivering digital data on demand |
US5892536A (en) | 1996-10-03 | 1999-04-06 | Personal Audio | Systems and methods for computer enhanced broadcast monitoring |
US20020120925A1 (en) | 2000-03-28 | 2002-08-29 | Logan James D. | Audio and video program recording, editing and playback systems using metadata |
US20030093790A1 (en) | 2000-03-28 | 2003-05-15 | Logan James D. | Audio and video program recording, editing and playback systems using metadata |
US5946050A (en) | 1996-10-04 | 1999-08-31 | Samsung Electronics Co., Ltd. | Keyword listening device |
US5974235A (en) | 1996-10-31 | 1999-10-26 | Sensormatic Electronics Corporation | Apparatus having flexible capabilities for analysis of video information |
US6172675B1 (en) | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US5893062A (en) | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
US6263507B1 (en) | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
US6005564A (en) | 1996-12-05 | 1999-12-21 | Interval Research Corporation | Display pause with elastic playback |
US5917542A (en) | 1997-02-18 | 1999-06-29 | Eastman Kodak Company | System and method for digital image capture and transmission |
US6061055A (en) | 1997-03-21 | 2000-05-09 | Autodesk, Inc. | Method of tracking objects with an imaging device |
US5749010A (en) | 1997-04-18 | 1998-05-05 | Mccumber Enterprises, Inc. | Camera support |
US6243725B1 (en) | 1997-05-21 | 2001-06-05 | Premier International, Ltd. | List building system |
JP3528524B2 (ja) | 1997-07-10 | 2004-05-17 | ソニー株式会社 | 記録再生装置および記録再生方法、並びに記録媒体 |
US6624846B1 (en) | 1997-07-18 | 2003-09-23 | Interval Research Corporation | Visual user interface for use in controlling the interaction of a device with a spatial region |
US20020031331A1 (en) | 1997-08-12 | 2002-03-14 | Index Systems, Inc. | Apparatus and methods for voice titles |
US6360234B2 (en) | 1997-08-14 | 2002-03-19 | Virage, Inc. | Video cataloger system with synchronized encoders |
US5768648A (en) | 1997-09-05 | 1998-06-16 | Roy Isaia | Camera mount for controlled and steady rolling movement |
US6961954B1 (en) | 1997-10-27 | 2005-11-01 | The Mitre Corporation | Automated segmentation, information extraction, summarization, and presentation of broadcast news |
US6072542A (en) | 1997-11-25 | 2000-06-06 | Fuji Xerox Co., Ltd. | Automatic video segmentation using hidden markov model |
US5940004A (en) | 1997-12-18 | 1999-08-17 | Fulton; John G. | Personal recovery system |
US6272231B1 (en) | 1998-11-06 | 2001-08-07 | Eyematic Interfaces, Inc. | Wavelet-based facial motion capture for avatar animation |
US6018359A (en) | 1998-04-24 | 2000-01-25 | Massachusetts Institute Of Technology | System and method for multicast video-on-demand delivery system |
US6163510A (en) | 1998-06-30 | 2000-12-19 | International Business Machines Corporation | Multimedia search and indexing system and method of operation using audio cues with signal thresholds |
US6366296B1 (en) | 1998-09-11 | 2002-04-02 | Xerox Corporation | Media browser using multimodal analysis |
US6452969B1 (en) | 1998-09-28 | 2002-09-17 | Thomson Licensing S.A. | Transform domain inverse motion compensation having fractional pel accuracy |
US6317039B1 (en) | 1998-10-19 | 2001-11-13 | John A. Thomason | Wireless video audio data remote system |
US6993787B1 (en) | 1998-10-29 | 2006-01-31 | Matsushita Electric Industrial Co., Ltd. | Providing VCR functionality for data-centered video multicast |
US7024678B2 (en) | 1998-11-30 | 2006-04-04 | Sedna Patent Services, Llc | Method and apparatus for producing demand real-time television |
US6297845B1 (en) | 1998-12-29 | 2001-10-02 | International Business Machines Corporation | System and method of in-service testing of compressed digital broadcast video |
US6934461B1 (en) | 1999-01-05 | 2005-08-23 | Interval Research Corporation | Low attention recording, with particular application to social recording |
US6825875B1 (en) | 1999-01-05 | 2004-11-30 | Interval Research Corporation | Hybrid recording unit including portable video recorder and auxillary device |
US6236395B1 (en) | 1999-02-01 | 2001-05-22 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
US7454777B1 (en) | 1999-03-01 | 2008-11-18 | Sony Corporation | Satellite system/internet system with display option palette with multiple filtering options |
US6934759B2 (en) | 1999-05-26 | 2005-08-23 | Enounce, Inc. | Method and apparatus for user-time-alignment for broadcast works |
US6502139B1 (en) | 1999-06-01 | 2002-12-31 | Technion Research And Development Foundation Ltd. | System for optimizing video on demand transmission by partitioning video program into multiple segments, decreasing transmission rate for successive segments and repeatedly, simultaneously transmission |
US6986156B1 (en) | 1999-06-11 | 2006-01-10 | Scientific Atlanta, Inc | Systems and methods for adaptive scheduling and dynamic bandwidth resource allocation management in a digital broadband delivery system |
US6868452B1 (en) | 1999-08-06 | 2005-03-15 | Wisconsin Alumni Research Foundation | Method for caching of media files to reduce delivery cost |
US7143431B1 (en) | 1999-08-06 | 2006-11-28 | Wisconsin Alumni Research Foundation | Method for reduced bandwidth for on-demand data streaming using mini-clusters |
US7155735B1 (en) | 1999-10-08 | 2006-12-26 | Vulcan Patents Llc | System and method for the broadcast dissemination of time-ordered data |
US20020157103A1 (en) | 2000-01-07 | 2002-10-24 | Deyang Song | Method for digital media playback in a broadcast network |
KR100317303B1 (ko) | 2000-01-10 | 2001-12-22 | 구자홍 | 방송 프로그램 녹화 및 재생시 a/v와 데이터간 동기화장치 |
WO2001052541A1 (en) | 2000-01-14 | 2001-07-19 | Nds Limited | Advertisements in an end-user controlled playback environment |
US6701528B1 (en) | 2000-01-26 | 2004-03-02 | Hughes Electronics Corporation | Virtual video on demand using multiple encrypted video segments |
US6622305B1 (en) | 2000-02-25 | 2003-09-16 | Opentv, Inc. | System and method for displaying near video on demand |
US20040123324A1 (en) | 2000-03-07 | 2004-06-24 | Sazzad Sharif M. | Methods and apparatus for providing video services such as Video-on-Demand, news and advertising services |
JP2001306581A (ja) | 2000-04-18 | 2001-11-02 | Sony Corp | ミドルウェアおよびミドルウェアを用いたメディアデータ視聴機器 |
US7194186B1 (en) | 2000-04-21 | 2007-03-20 | Vulcan Patents Llc | Flexible marking of recording data by a recording unit |
US7266771B1 (en) | 2000-04-21 | 2007-09-04 | Vulcan Patents Llc | Video stream representation and navigation using inherent data |
KR100547317B1 (ko) | 2000-07-14 | 2006-01-26 | 엘지전자 주식회사 | 인덱스 정보의 추출과 검색이 동시에 가능한 녹화/재생장치 |
TWI230858B (en) | 2000-12-12 | 2005-04-11 | Matsushita Electric Ind Co Ltd | File management method, content recording/playback apparatus and content recording program |
MY147018A (en) | 2001-01-04 | 2012-10-15 | Thomson Licensing Sa | A method and apparatus for acquiring media services available from content aggregators |
US20020170068A1 (en) | 2001-03-19 | 2002-11-14 | Rafey Richter A. | Virtual and condensed television programs |
US20020159750A1 (en) | 2001-04-26 | 2002-10-31 | Koninklijke Philips Electronics N.V. | Method for segmenting and indexing TV programs using multi-media cues |
US7055103B2 (en) | 2001-08-28 | 2006-05-30 | Itzhak Lif | Method of matchmaking service |
US20030149574A1 (en) | 2002-02-05 | 2003-08-07 | Rudman Daniel E. | Method for providing media consumers with total choice and total control |
US7130528B2 (en) | 2002-03-01 | 2006-10-31 | Thomson Licensing | Audio data deletion and silencing during trick mode replay |
KR100447200B1 (ko) | 2002-07-30 | 2004-09-04 | 엘지전자 주식회사 | Pvr 지원 비디오 디코딩 시스템 |
US20060031916A1 (en) | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of broadcasted or streamed multimedia content |
US20060031879A1 (en) | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of news-related broadcasted or streamed multimedia content |
US20060053470A1 (en) | 2004-04-30 | 2006-03-09 | Vulcan Inc. | Management and non-linear presentation of augmented broadcasted or streamed multimedia content |
US20060031885A1 (en) | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of music-related broadcasted or streamed multimedia content |
-
1996
- 1996-12-05 US US08/760,769 patent/US5893062A/en not_active Expired - Lifetime
-
1997
- 1997-12-03 WO PCT/US1997/023099 patent/WO1998025405A2/en active IP Right Grant
- 1997-12-03 DE DE69719825T patent/DE69719825T2/de not_active Expired - Lifetime
- 1997-12-03 AU AU58983/98A patent/AU5898398A/en not_active Abandoned
- 1997-12-03 EP EP97954563A patent/EP1057331B1/de not_active Expired - Lifetime
-
1999
- 1999-01-28 US US09/239,455 patent/US6360202B1/en not_active Expired - Lifetime
-
2002
- 2002-01-07 US US10/041,867 patent/US6728678B2/en not_active Expired - Lifetime
-
2004
- 2004-02-20 US US10/783,627 patent/US7480446B2/en not_active Expired - Fee Related
-
2008
- 2008-11-04 US US12/264,414 patent/US8238722B2/en not_active Expired - Fee Related
-
2012
- 2012-08-07 US US13/568,219 patent/US20120321276A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004039238A1 (de) * | 2004-08-12 | 2006-02-23 | AverMedia Technologies, Inc., Chung Ho | Verfahren und Vorrichtung zum Ausrüsten eines persönlichen digitalen Produkts mit Funktionen des Aufzeichnens und Anzeigens des digitalen Video/Audio-Multimedia |
Also Published As
Publication number | Publication date |
---|---|
US8238722B2 (en) | 2012-08-07 |
US20040170385A1 (en) | 2004-09-02 |
US5893062A (en) | 1999-04-06 |
AU5898398A (en) | 1998-06-29 |
US7480446B2 (en) | 2009-01-20 |
US20020059074A1 (en) | 2002-05-16 |
EP1057331A2 (de) | 2000-12-06 |
US6728678B2 (en) | 2004-04-27 |
WO1998025405A2 (en) | 1998-06-11 |
US20120321276A1 (en) | 2012-12-20 |
US20090097823A1 (en) | 2009-04-16 |
US6360202B1 (en) | 2002-03-19 |
EP1057331B1 (de) | 2003-03-12 |
DE69719825D1 (de) | 2003-04-17 |
WO1998025405A3 (en) | 1998-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69719825T2 (de) | Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit | |
DE69230324T2 (de) | Verfahren zur Zeitskalenmodifikation von Signalen | |
DE69513541T2 (de) | Verfahren zum Detektieren von durch Kamarabewegungen verursachte Szenenänderungen | |
DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
DE602004006206T2 (de) | System und Verfahren zur hochqualitativen Verlängerung und Verkürzung eines digitalen Audiosignals | |
DE60127274T2 (de) | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen | |
AT507588B1 (de) | Verfahren zum bearbeiten von audio-daten in eine verdichtete version | |
DE60009827T2 (de) | Zeitskalenmodifikation eines audiosignals | |
DE69719270T2 (de) | Sprachsynthese unter Verwendung von Hilfsinformationen | |
DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
DE69615832T2 (de) | Sprachsynthese mit wellenformen | |
DE60002483T2 (de) | Skalierbares kodierungsverfahren für hochqualitätsaudio | |
DE60225400T2 (de) | Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals | |
DE3687915T2 (de) | Änderung von Gesichtsausdrücken in der Kinematographie. | |
DE19753453B4 (de) | System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer | |
DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
DE69800717T2 (de) | Kodierung von tonrastern mit verstärkungregelungswörtern | |
DE69836472T2 (de) | Tonverarbeitungsverfahren, tonprozessor und aufzeichnungs-/wiedergabevorrichtung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE19743662A1 (de) | Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms | |
DE602004000656T2 (de) | Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text | |
DE2854601A1 (de) | Ton-synthesizer und verfahren zur ton-aufbereitung | |
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
EP1212751B1 (de) | Verfahren zur unterdrückung von störrauschen in einem signalfeld | |
DE3037276A1 (de) | Tonsynthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |