WO2013187796A1 - Method for automatically editing digital video files - Google Patents
Method for automatically editing digital video files Download PDFInfo
- Publication number
- WO2013187796A1 WO2013187796A1 PCT/RU2013/000121 RU2013000121W WO2013187796A1 WO 2013187796 A1 WO2013187796 A1 WO 2013187796A1 RU 2013000121 W RU2013000121 W RU 2013000121W WO 2013187796 A1 WO2013187796 A1 WO 2013187796A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- video
- digital
- editing
- tag
- metadata
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000000463 material Substances 0.000 claims abstract description 71
- 239000012634 fragment Substances 0.000 claims abstract description 54
- 238000013515 script Methods 0.000 claims description 46
- 238000009434 installation Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000003287 optical effect Effects 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 4
- 238000005286 illumination Methods 0.000 claims description 4
- 241001465754 Metazoa Species 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims description 2
- 238000002922 simulated annealing Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000844 transformation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 230000001020 rhythmical effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000004026 adhesive bonding Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000012467 final product Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011900 installation process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 235000003913 Coccoloba uvifera Nutrition 0.000 description 1
- 206010011971 Decreased interest Diseases 0.000 description 1
- 240000008976 Pterocarpus marsupium Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000009133 cooperative interaction Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
Definitions
- the purpose of editing should be to create less material.
- interframe editing The combination of individual fragments of the source material in a certain sequence is called interframe editing. It is important to note that
- connection points of individual fragments of the video material with any arbitrarily chosen rhythm, including, for example, coinciding with the rhythm of the musical work superimposed on the video material, although it will improve the overall perception of the mounted material, but, as a rule, it will not allow achieving the desired result, that is, perceiving it as a whole, consistent, harmonious, with its own focus.
- rhythmic interframe editing techniques there are other interframe editing techniques, as well as intraframe editing, including such techniques as camera movement during shooting in axes perpendicular and / or parallel to the camera’s optical axis, changing the focal length in the camera’s lens, changing the angle between optical plane of the camera lens and the plane of the scene being shot, changing the relative position of the optical plane, the focal plane, and the focal point of the camera lens, changing the angular field of the object camera, changing the relative aperture (aperture) of the camera lens, as well as various combinations of the above techniques, carried out in order to capture certain objects or groups of objects in the space and time of the scene being shot.
- interframe editing techniques including such techniques as camera movement during shooting in axes perpendicular and / or parallel to the camera’s optical axis, changing the focal length in the camera’s lens, changing the angle between optical plane of the camera lens and the plane of the scene being shot, changing the relative position of the optical plane, the focal plane, and the focal point of the camera lens, changing the
- intraframe editing is impossible, it is only possible to imitate some of its effects.
- the above factors of intraframe editing should be linked with each other and with factors of interframe editing in order to improve the perception of video material.
- the rhythm may affect the perception of the video material.
- Editing an amateur mobile video has its own specificity that distinguishes it from editing material of other categories (for example, such as professional reportage video, professional art video, or amateur non-mobile video).
- the intraframe editing techniques used at the shooting stage are pre-aligned with the interframe editing techniques, which will later be applied to the material. This is expressed, inter alia, in the absence of semantic voids in the material (when nothing significant for the viewer happens in the frame); immediately after turning on the camera and a few seconds before turning off a few seconds "for gluing" when the camera is not moves, and shooting is on, or dialing - when the optical plane shifts sharply with respect to the scene plane to achieve the effect of blurring the image, after which shooting stops immediately.
- Amateur material is more spontaneous, lack of pre-planned selection of video fragments with the necessary factors for intraframe editing, lack of gaps for connecting fragments, the presence of semantic voids, the presence of extremely complex spontaneous camera movements, hand shake, etc., which significantly complicates the installation task professional quality standards.
- amateur material shot on the camera of a mobile phone or smartphone (hereinafter - amateur mobile video) has its own
- the disk space of a mobile device is, on average, less than the disk space of a video camera or camera, which the user has an idea about, so amateur material shot by him on a stationary camera will be on average longer than the material shot on a mobile phone.
- the mobile phone has features not provided by the stationary camera. So, the phone can embed in the video material information about the geographical coordinates of the place where this video was shot. Some modern cameras that have the function of shooting video also have this feature. But the phone at the same time, in the presence of a built-in accelerometer, can embed information on the spatial orientation of the device when shooting in the video material, in addition to information about geographical coordinates. Currently, stationary cameras with similar functions are not manufactured.
- a mobile phone is not only the most common means of capturing a mobile video, but also the most common means of storing and viewing videos. Considering the disk limitations noted above space (memory size), this imposes its limitations not only on the duration of the source material, but also on the duration of the final installation result.
- a mobile phone as a video viewer, does not provide sufficient viewing comfort, having a small screen and requiring the device to be kept on weight. In this regard, the viewer's ability to concentrate on the contents of the mobile video is limited, loss of interest in what is happening occurs in 2-3 minutes, due to which a rare mobile video exceeds the specified value by
- He-mobile video is usually much longer in time.
- video editing solutions currently on the market can be divided into three groups.
- First one the largest group is professional digital non-linear editing tools (Avid Media Composer, Apple Final Cut Pro, Adobe Premiere Pro).
- the software products of this group use the latest available technologies, demanding on hardware and user skills.
- the solutions of this group are based on the interface concept of timeline, “time line” (publication US5999173, class IPC Gl 1B27 / 02, published 07.12.19,99), that is, a visual representation of the length of time corresponding to the mounted video film, consisting of several tracks containing audio or video information, as well as indications of various transformations (filters and effects) of this information.
- time line publication US5999173, class IPC Gl 1B27 / 02, published 07.12.19,99
- the timeline is converted by the editing program into a finished video.
- the second group includes solutions that allow non-linear digital editing for an unprofessional user who has a certain level of training and has the hardware level corresponding to the average level of a home multimedia computer (Windows MovieMaker, Corel VideoStudio, Pinnacle Studio, Kino).
- the power of modern mobile phones is enough for mobile software to exist in this group (for example, there are programs for the Apple iPhone platform
- ReelDirector iMovie, Splice
- a solution at this level provides the ability to edit video and overlay multiple audio tracks using the simplest timeline-based interface and a number of predefined filters and effects with limited settings.
- platforms of this type are often difficult for a person who does not have sufficient knowledge and skills.
- the functioning of the software of this group is due to the fact that the user indicates which video clips and music from the sets should be used in the process of automatically creating a movie, determines the duration of the output video file, selects one of several proposed design styles, and if necessary assigns the simplest effects (frame change, color correction , etc.)
- the installation process itself is carried out automatically, that is, the software itself selects which parts of the material should be included the final product, and the choice is usually made
- the user can influence
- transition points in video correspond to the moments of the frame change or a significant change in the shooting conditions (illumination, color palette). Audio Transition Points
- Mobile software of this category for example, the HighLightCam and Flixlab programs, in fact, are client parts of the client-server software, because for editing video material is uploaded to the server where it is processed.
- the key to their functioning is the constant availability of a high-speed Internet channel.
- Videolicious program performs installation locally, but despite the prostate of its use, even in comparison with HighLightCam and Flixlab, the quality of the final product deteriorates.
- main purpose of Videolicious is the installation of commercials for advertising a local business, which narrows the scope of its application. All the mobile applications discussed above are distinguished by a low speed of operation, which is reflected in the fact that the user is forced to wait for the installation process to complete, and only then look at the resulting product. This approach is incompatible with the requirement of instant customer satisfaction, which is expected by the consumer of mobile
- one of the first implementations of the installation script idea was a thematic template, which is designed to help novice movie editors quickly perform work on creating a video that perpetuates memory in particular of significant occasions, such as a birthday.
- the template for each of these cases will be configured with predefined frames that are annotated with descriptions of events that may occur during the indicated cases (US7352952, class MP Gl 1B27 / 031, published on April 1, 2008).
- this method does not automatically create a movie.
- the user must upload the video to each cell and ensure that the selection requirements of the cells are respected.
- there is no synchronization with music There is no synchronization with music.
- the absence of a randomization element leads to the fact that the generated video files are too uniform.
- Pat. No. US2005 / 0217462 contains a description of a method that actually has many similarities with the mounting script. However, in the specified method
- cell durations are set in percent, and for each duration
- a template based on an already recorded music video is devoid of many of the above disadvantages (publication US7716572B2, cl. MnKG06F 17/00, publ. 1 May 1, 2010). Since the original video is usually created by specialists, if the user observes the size and nature of the camera’s movement, the final video will most likely produce a positive effect. However, in this implementation, only information about the time between gluings is stored, and a high level of user involvement in the process is required in order to achieve such an effect. In addition, fragments of the original music video remain in the final product, which greatly reduces the applicability of such a solution.
- the device and method for the production of audiovisual materials proposes to extract data from user video and audio.
- the specified metadata extraction has been described extensively and, in fact, was implemented at the time of publication in several products.
- the algorithm does not imply synchronization of video and audio based on the extracted metadata.
- the technical result of the claimed method for the automatic installation of digital video files is that the claimed method should be implemented locally on a mobile device using only its computing resources, while taking into account the specific features of mobile amateur video, and also allow viewing modified video files instantly, without delay in preliminary calculations . In this case, the claimed method must take into account
- the claimed method should ensure that the video files are more compact both in terms of byte size and in terms of duration than the original video materials. Additionally, the claimed method should ensure the receipt of video files that are perceived as whole, complete works with unique characteristics, comfortable for viewing, which are the best from the point of view of influencing the viewer “presentation” of the event, as well as allowing the viewer to view the event when viewing.
- the technical result is achieved by the fact that in the method of automatically editing digital video files, they create a digital editing smart script in the form of a digital data file that serves as a virtual representation of the editing time a line that defines the sequence in which video clips of a certain duration with certain characteristics are connected (mounted) with each other, and with audio clips of a certain duration with certain
- characteristics include in the digital editing smart script information about the sequence, durations and relative start time of the mounted video and audio segments, information about the sequence, types, durations and relative start time of conversions of the potential content of the video and audio segments, filters and effects, as well as information about masks metadata imposed on the mounted video and audio segments, and thus narrow the range of video and audio materials that can be mounted in a sequence second digital mounting smart scenario; create video material by capturing images on the built-in camera of a mobile phone or portable digital camera; save video material on a mobile phone, portable digital camera, portable file transfer device, computer device or DVD-ROM; create a list of the mentioned video materials for editing, for
- extract metadata from the aforementioned video material including auxiliary metadata about the place and date of shooting, GPS coordinates, the direction of movement of the objects in relation to the plane of the camera lens or the optical axes of the camera, the direction of movement of the camera relative to the recorded scene, about the type
- auxiliary metadata introduce additional metadata about the video material; save metadata, auxiliary and additional metadata in the form of a set of digital data files, select video fragments so that the duration of the video fragment meets the requirements of the slot for U2013 / 000121 the duration of the fragment, while maximizing the assessment of the correspondence of the metadata of the selected fragment of the video material to the mask of the video tag of the smart script, assembly
- a digital editing smart script is created in the form of an xml file, and this includes a set of special tags, each of which has its own parameters for the duration and relative start time, counted from the first millisecond smart -scenario, in addition, each tag has an indication of the type of tag, including video tag, audio tag, effect tag or meta tag, also each tag has tag-specific tag parameters and predefined tag values, or expression an event or algorithm by which the value of a tag parameter is calculated based on the values
- the mentioned tags may include links to existing fragments of audio and video materials.
- Metadata from the video material perform: automatic recognition of types of camera movement, object movement in the frame, plan, including, but not limited to, the middle plan, close-up and general plan, plan objects, including, but not limited to, the types of "man”, “animal” , “Landscape”, “interior”, “exterior”, and / or perform
- the technical result is achieved in that the selection of a fragment of the video material for its placement in the video tag of the smart script is carried out by at least one of the following methods:
- the technical result is achieved by the fact that digital editing smart scripts, metadata, auxiliary and additional metadata, digital video files are stored on a computer device or portable file transfer device, or mobile phone, or digital camera, and then transferred via communication networks to another a computer device or portable file transfer device, or a mobile phone, or a digital camera.
- FIG. 1 and 2 show a diagram for creating an assembly smart script
- FIG. 3 to 5 show a method for extracting metadata from video materials
- FIG. 6 shows a method for adding user metadata
- FIG. 7 shows a method for selecting material
- FIG. 8 shows a method for defining timing
- FIG. 9 shows a method for placing video fragments in video tags
- FIG. 10 and 1 1 show a method of mounting audio files into a video file
- FIG. 12 shows a method of adding effects to a video file.
- the main step of the claimed method is to create a smart script.
- the smart script is a time line equal in time to the planned duration of the video file.
- the first step in creating a new smart script is to determine timing.
- Timeline is a metaphor for a unit of video material in terms of time span, successive change of various audio fragments, successive change of various video fragments, with simultaneous audio and video component.
- An infinite number of video files can be created on the basis of one timeline, provided that there is an infinite number of video fragments such that many video clips are larger than many video files.
- tags are reserved words (hereinafter referred to as tags), assigning different values to their parameters. There are required and optional parameters.
- the duration of the impact of tags on the timeline is determined by a special duration parameter, its value is set in milliseconds.
- the beginning of the tag impact is determined by the offset parameter, which sets the start point of the tag as the offset in milliseconds relative to the start of the timeline. These two parameters are required for all tags.
- the tag duration cannot exceed the total timeline of the timeline.
- the base tag, and at the same time the structural unit of the timeline, is the video slot tag.
- the video slot tag determines the sequence and duration of video clips.
- the total duration of the video slot tags cannot be less than the timing of the editing script.
- the audio slot tag defines the sequence and duration of audio fragments of a material.
- the video slot and audio slot tags are structural for the timeline, which means that the beginning and end of any other tag on the timeline must match the beginning and / or end of the action of at least one audio and / or video slot. At the same time, the beginning and end of the video or audio slot, in turn, do not have to coincide with the beginning and / or end of other tags, i.e. multiple audio and / or video slots can be grouped by any tag.
- a tag parameter can contain a numeric or string value, as well as a fragment of the interpreted code, the interpretation of which results in a numeric or string value.
- Some string values are keywords for the interpreter, that is, they have a reserved meaning, understandable in the context of operations of transforming user material by the algorithm.
- Tags can describe various image and sound parameters:
- Each segment of the editing script can contain any number of any tags.
- tags "close-up” and “medium plan” means that a plan corresponding to any of the tags may equally fall into the segment.
- the task is to combine the factors of interframe, intraframe, and vertical editing into a single system that interacts with the audience in the rhythmic, metric, tonal, and associative-intellectual aspects, and creates a predetermined psycho-emotional effect.
- Metadata is extracted in the background, immediately after launching the application and at any time when the processor of the mobile device is not busy with the calculation of the material, thereby achieving the effect of "instant editing".
- the user's material in addition to video materials (1 1) and audio materials (12), the user's material, as a rule, already contains auxiliary metadata, for example, the date - information about the shooting time (13), which the algorithm can also use.
- auxiliary metadata for example, the date - information about the shooting time (13), which the algorithm can also use.
- the definition of the place where the video was filmed is often used - geotagging (14).
- the user’s original video may also contain other data that can be used (for example, data characterizing the spatial position of the device at the time of video recording).
- a program in a mobile communication device can recognize various types of objects in the frame, for example, faces, streets, and a number of other images that are present on the video (15,16,17,18). So one way to extract metadata is a video analysis algorithm, based on which tags can be assigned to user data.
- the program can determine the direction of movement in the frame. For example, in FIG. Figure 5 shows a panorama from left to right, and the program, analyzing the corresponding video fragment, assigns the “panorama from left to right” tag to this fragment.
- the user can independently enter additional metadata characterizing it.
- additional parameters in “out” and “in” out points, which will allow the algorithm to assemble a better quality video. For example, he marks a fragment from 0:00:00 to 0:01:15 as a “close-up” (23). From 0:01: 15 to 0:02:17 (25) he marks it as an “average plan”. From 0:02:17 to 0:03: 1 1 he marks it as a “general plan” (26).
- Metadata may overlap with other metadata, for example, in the close up (23) and middle (25) metadata, in each case there are people on the user's video, and he can mark that these are people. Thus, this metadata intersects both middle (25) and close up (29).
- mutually exclusive tags cannot be assigned to the user video, because they characterize what is already actually in the video, and not what could potentially be there, as is the case with the editing script.
- each segment of the editing smart script has certain metadata formalized in the form of tags: size, additional parameters, etc.
- the algorithm summarizes the lengths of all metadata of the user's materials and checks the sufficiency of the material based on the requirements specified by the length tags of the smart script. For example, timing is considered separately for all close-ups, all general plans, all middle plans (see Fig. 8, in which (31) - editing script, (32) - clips, (34) - tags in clips, (33) - main audio track, (35) - list of tags, (36) - number of turns on each tag, (37) - number of seconds, how many clips with this tag are used in the editing script).
- the algorithm refers to the first video tag from the tags (39) of the mounting smart script (38), and checks which other tags (39) affect the timeline during this video tag. From these, a set of required tags and a set of optional tags (39) are assembled, which is a subset of the set of all optional tags (39) of a segment and can be generated by random selection or more complex algorithms.
- the user video also contains various metadata tags defined by the algorithm or entered by the user. Some tags may contain weight, or the probabilistic part, for example, is noted by the degree of confidence in the recognized image, or the specific ratio of images of this type in the plan.
- the selection of a user video fragment for placement in the editing smart script segment is carried out stochastically, taking into account the maximization of the matching of the user video fragment tags to the script tags (40). If such a fragment is found, then the fragment (45) is marked in the source material of the user (44), which is set to the time line in the editing script (39) - in order to no longer use this fragment for editing and avoid repeating plans.
- the material (see Fig. 9) is selected in such a way as to capture the mixes at the beginning and end, that is, mix the sound at the beginning and end (51 - mix).
- the tag indicates how many seconds you need to mix the sound (52). Accordingly, the audio track changes: in addition to the main audio track (50), the algorithm also uses an audio track from the user's source material (51).
- each selected fragment (53) is marked as already used. If the search engine shown in FIG. 9, finds the plan (54), which in the region (55) intersects with (53), then this plan is not valid. And the plan (56), which does not intersect with any other fragment, is valid, and it can be used to create a timeline from this material.
- the claimed method is implemented locally on a mobile device using only its computing resources, and at the same time, all the specific features of mobile amateur video are taken into account, and it is also possible to view modified video files instantly, without delay in preliminary calculations.
- the claimed method takes into account the patterns of perception of the footage used in professional editing, allows mass reuse, does not require any qualifications or special knowledge from the user, and also allows the user to quickly and flexibly select the level of manual intervention in the process of processing the material, taking into account the desire and of opportunities.
- the claimed method fully ensures the production of video files more compact both in terms of byte size and in terms of duration than the original video materials.
- the claimed method provides video files that are perceived as whole, complete works with unique characteristics, comfortable for viewing, which are the best from the point of view of influencing the viewer “presentation” of the event, as well as allowing the viewer to view the event when viewing.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
The proposed invention relates to the field of color television signal processing in combination with recording, and specifically to the field of automatic and semi-automatic systems for editing digital movies from material filmed by a mobile phone camera. A method for automatically editing digital video files in which a digital editing smart-screenplay is created in the form of a digital data file and then, with the help thereof, user video fragments are processed and a video file is created.
Description
СПОСОБ АВТОМАТИЧЕСКОГО МОНТАЖА ЦИФРОВЫХ ВИДЕОФАЙЛОВ METHOD FOR AUTOMATIC INSTALLATION OF DIGITAL VIDEO FILES
Область применения Application area
I I
Предложенное изобретение относится к области обработки цветовых The proposed invention relates to the field of color processing
i i
телевизионных сигналов в сочетании с записью, в частности к области систем television signals in combination with recording, in particular to the field of systems
1 one
автоматического и полуавтоматического монтажа цифровых фильмов из материала, f automatic and semi-automatic editing of digital films from material, f
снятого камерой мобильного телефона. shot camera mobile phone.
Предпосылки создания изобретения BACKGROUND OF THE INVENTION
Одним из последствий широкого распространения смартфонов, имеющих в комплекте видеокамеры высокого разрешения а также возможность доступа к высокоскоростному интернету, стало появление большого количества так называемого «мобильного видео», которое, в том числе, состоит из отснятого пользователем видеоматериала. Согласно статистике, в 201 1 году количество проданных смартфонов превысило 1 миллиард (http://www.smartinsights.com/digital-marketing-strategy- alerts/mobile-marketing-statistics/), при этом каждый второй пользователь смартфона использует его для просмотра, и примерно каждый пятый - для записи видео (20,2% в США, 26,1% - в Европе, 15,8% - в Японии (http://mobithinking.com/mobile-marketing- tools/latest-mobile-stats)). Только на один из основных интернет-сервисов, предоставляющих услугу по размещению (хостингу) видеоконтента (как профессионального, так и любительского) (www.youtube.com) пользователями загружается около 48 часов новых видеороликов в минуту, которые просматриваются тремя миллиардами человек в день - что сделало этот сайт третьим в мире (после Google.com и Facebook.com) по количеству посещений
1 One of the consequences of the widespread use of smartphones with high-resolution video cameras as well as the ability to access high-speed Internet has been the emergence of a large number of so-called “mobile video”, which, among other things, consists of video footage shot by the user. According to statistics, in 201 1 the number of smartphones sold exceeded 1 billion (http://www.smartinsights.com/digital-marketing-strategy- alerts / mobile-marketing-statistics /), and every second smartphone user uses it to view , and approximately every fifth - for video recording (20.2% in the USA, 26.1% in Europe, 15.8% in Japan (http://mobithinking.com/mobile-marketing- tools / latest-mobile -stats)). Only on one of the main Internet services providing video hosting (hosting) services (both professional and amateur) (www.youtube.com) users upload about 48 hours of new videos per minute that are watched by three billion people a day - what made this site the third in the world (after Google.com and Facebook.com) by the number of visits one
(http://searchenginewatchxom/article/2073962/New-YouTube-Statistics-48-Hours-of-Video- Uploaded-Per-Minute-3-Billion-Views-Per-Day). Благодаря портативности, приемлемому качеству видеофайлов и возможности рассылки, смартфон все чаще становится предпочтительным (по сравнению с любительской видеокамерой) устройством для видеозаписи повседневных событий. (http: // searchenginewatchxom / article / 2073962 / New-YouTube-Statistics-48-Hours-of-Video-Uploaded-Per-Minute-3-Billion-Views-Per-Day). Due to portability, acceptable quality of video files and the possibility of distribution, the smartphone is increasingly becoming the preferred (compared to an amateur video camera) device for recording everyday events.
Тем не менее, несмотря на очевидные достоинства (более точная передача изображения, динамика) есть несколько причин, по которым видеосъемка на мобильные устройства менее популярна по сравнению с фотографированием. В частности, отснятое видео занимает больше места на мобильном устройстве, не всегда бывает качественным (как по изображению, так и по звуку), требует больше времени для просмотра, и не каждому хватает терпения дождаться интересного момента. Поэтому пользовательское видео нуждается в редактировании. Указанное редактирование должно осуществляться, по возможности, на самом мобильном устройстве, поскольку процесс передачи видео занимает время, и требует определенных усилий и квалификации пользователя. Nevertheless, despite the obvious advantages (more accurate image transmission, dynamics), there are several reasons why video shooting on mobile devices is less popular compared to photographing. In particular, the captured video takes up more space on the mobile device, it is not always high-quality (both in image and sound), it takes more time to watch, and not everyone has the patience to wait for an interesting moment. Therefore, a custom video needs to be edited. The specified editing should be carried out, if possible, on the mobile device itself, since the video transfer process takes time and requires certain efforts and user skills.
Целью редактирования должно быть создание материала меньшего по The purpose of editing should be to create less material.
длительности, чем исходный материал, и обладающего большим потенциалом duration than the source material, and with great potential
психоэмоционального воздействия на зрителя в части восприятия этого нового материала psychoemotional impact on the viewer in terms of perception of this new material
I I
как цельного, последовательного, характеризующегося направленностью, выделяющей его среди других подобных материалов. Это новое качество достигается в ходе процесса, называемого среди профессиональных пользователей "монтаж", и заключающегося в рекомбинации исходной последовательности кадров в видеоматериале с целью as a whole, consistent, characterized by a focus that sets it apart from other similar materials. This new quality is achieved through a process called “editing” among professional users, which consists in recombining the original sequence of frames in the video material with the aim of
сокращения длиннот, расстановки акцентов, ритмизации и структурирования length reduction, emphasis, rhythmization and structuring
последовательности кадров. В 1917 году русский режиссер Лев Кулешов написал о монтаже так: «Для того, чтобы сделать картину, режиссер должен скомпоновать отдельные снятые куски, беспорядочные и несвязные, в одно целое и сопоставить отдельные моменты в наиболее выгодной, цельной и ритмической последовательности,
также, как ребенок составляет из отдельных, разбросанных кубиков с буквами целое слово или фразу». Ключевые для отрасли работы Кулешова (1907, 1929, в которых sequence of frames. In 1917, the Russian director Lev Kuleshov wrote about the editing as follows: “In order to make a picture, the director must put together the individual pieces taken, erratic and incoherent, into a single whole and juxtapose individual moments in the most advantageous, integral and rhythmic sequence, just like a child makes up a whole word or phrase from separate, scattered cubes with letters. ” Key for the industry work Kuleshov (1907, 1929, in which
рассматриваются так называемые "эффект Кулешова" и "географический эксперимент Кулешова"), Дзиги Вертова, Всеволода Пудовкина и Сергея Эйзенштейна подчеркивали важность осмысленного сочетания в монтаже системы метрических, ритмических, тональных, и ассоциативно-интеллектуальных приемов. the so-called “Kuleshov effect” and “Kuleshov geographical experiment” are considered), Dzigi Vertov, Vsevolod Pudovkin and Sergei Eisenstein emphasized the importance of a meaningful combination in the installation of a system of metric, rhythmic, tonal, and associative-intellectual techniques.
Соединение отдельных фрагментов исходного материала в определенной последовательности называется межкадровым монтажом. Важно отметить, что The combination of individual fragments of the source material in a certain sequence is called interframe editing. It is important to note that
синхронизация точек соединения отдельных фрагментов видеоматериала с любым произвольно выбранным ритмом, в том числе, например, совпадающим с ритмом наложенного на видеоматериал музыкального произведения, хотя и улучшит общее восприятие смонтированного материала, но, как правило, не позволит добиться желаемого результата, то есть восприятия его как цельного, непротиворечивого, гармоничного, обладающего собственной направленностью. synchronization of the connection points of individual fragments of the video material with any arbitrarily chosen rhythm, including, for example, coinciding with the rhythm of the musical work superimposed on the video material, although it will improve the overall perception of the mounted material, but, as a rule, it will not allow achieving the desired result, that is, perceiving it as a whole, consistent, harmonious, with its own focus.
Помимо ритмических приемов межкадрового монтажа, существуют и другие приемы межкадрового монтажа, а также монтаж внутрикадровый, включающий такие приемы, как движение камеры во время съемки в осях, перпендикулярных и/или параллельных оптической оси камеры, изменение фокусного расстояния в объективе камеры, изменение угла между оптической плоскостью объектива камеры и плоскостью снимаемой сцены, изменение взаимного положения оптической плоскости, фокальной плоскости, и фокальной точки объектива камеры, изменение углового поля объектива камеры, изменение относительного отверстия (диафрагмы) объектива камеры, а также различные комбинации вышеприведенных приемов, осуществляемых с целью захвата в пространство и время снимаемой сцены определенных объектов, или групп объектов. In addition to rhythmic interframe editing techniques, there are other interframe editing techniques, as well as intraframe editing, including such techniques as camera movement during shooting in axes perpendicular and / or parallel to the camera’s optical axis, changing the focal length in the camera’s lens, changing the angle between optical plane of the camera lens and the plane of the scene being shot, changing the relative position of the optical plane, the focal plane, and the focal point of the camera lens, changing the angular field of the object camera, changing the relative aperture (aperture) of the camera lens, as well as various combinations of the above techniques, carried out in order to capture certain objects or groups of objects in the space and time of the scene being shot.
Очевидно, на этапе межкадрового монтажа внутрикадровый монтаж осуществить невозможно, возможно только имитировать некоторые его эффекты. Вышеперечисленные
факторы внутрикадрового монтажа должны быть увязаны между собой и с факторами межкадрового монтажа с целью улучшения восприятия видеоматериала. Например, факторами, влияющими на восприятие видеоматериала, могут выступать ритм Obviously, at the stage of interframe editing, intraframe editing is impossible, it is only possible to imitate some of its effects. The above factors of intraframe editing should be linked with each other and with factors of interframe editing in order to improve the perception of video material. For example, the rhythm may affect the perception of the video material.
чередования в соединяемых фрагментах крупностей, типов движения камеры, особых типов кадров (например, лон-шотс) и эффектов (например, стоп-кадр). alternating in the connected fragments of sizes, types of camera movement, special types of frames (for example, short shots) and effects (for example, freeze frame).
Указанные факторы межкадрового и внутрикадрового монтажа должны быть кроме того увязаны, с одной стороны, с содержательной стороной монтируемых сцен, а с другой - со звуковым сопровождением этих сцен. Организация совместного взаимодействия факторов визуального и аудиального монтажа называется вертикальный монтаж. Таким образом, необходимым и достаточным условием восприятия аудиовизуального The indicated factors of interframe and intraframe editing should also be linked, on the one hand, with the content side of the scenes being mounted, and on the other, with the sound accompaniment of these scenes. The organization of the joint interaction of factors of visual and audio editing is called vertical editing. Thus, a necessary and sufficient condition for the perception of audiovisual
произведения как цельного является согласованная работа многих элементов визуального и звукового монтажа, при условии, что воздействия остальных элементов не являются взаимно противоречащими, с восприятием зрителя в аспектах ритмическом, метрическом, тональном и ассоциативно-интеллектуальном. works as a whole is the coordinated work of many elements of visual and sound editing, provided that the effects of the remaining elements are not mutually contradictory, with the perception of the viewer in aspects of rhythmic, metric, tonal and associative-intellectual.
Монтаж любительского мобильного видео имеет свою специфику, отличающую его от монтажа материала других категорий (например, таких, как профессиональное репортажное видео, профессиональное художественное видео, или любительское не- мобильное видео). Editing an amateur mobile video has its own specificity that distinguishes it from editing material of other categories (for example, such as professional reportage video, professional art video, or amateur non-mobile video).
Прежде всего, есть отличия между категориями профессионального и First of all, there are differences between the categories of professional and
любительского видеоматериала. Материал, относящийся к категории профессионального видео, снимается с учетом того, что в дальнейшем он будет смонтирован. Таким образом, используемые на этапе съемки приемы внутрикадрового монтажа заранее увязываются с приемами межкадрового монтажа, которые в дальнейшем будут применены к материалу. Это выражается, в том числе, в отсутствии смысловых пустот в материале (когда в кадре не происходит ничего значимого для зрителя); сразу после включения камеры и за несколько секунд до выключения нескольких секунд "для склейки", когда камера не
двигается, а съемка идет, или наборот - когда оптическая плоскость резко смещается по отношению к плоскости сцены для достижения эффекта смазывания изображения, после чего съемка немедленно прекращается. В сознательном создании материала, обладающего наибольшим разнообразием в отношении приемов внутрикадрового монтажа, когда план межкадрового монтажа неопределен (в случае репортажной съемке), или, напротив, в создании видеоматериала, использующего строго определенные приемы внутрикадрового монтажа, когда план внутрикадрового монтажа имеется заранее (например, в формате нарисованных заранее раскадровок, которые часто используются при съемках amateur footage. Material related to the category of professional video is removed taking into account the fact that in the future it will be mounted. Thus, the intraframe editing techniques used at the shooting stage are pre-aligned with the interframe editing techniques, which will later be applied to the material. This is expressed, inter alia, in the absence of semantic voids in the material (when nothing significant for the viewer happens in the frame); immediately after turning on the camera and a few seconds before turning off a few seconds "for gluing" when the camera is not moves, and shooting is on, or dialing - when the optical plane shifts sharply with respect to the scene plane to achieve the effect of blurring the image, after which shooting stops immediately. In the conscious creation of material with the greatest variety in terms of intraframe editing techniques, when the interframe editing plan is uncertain (in the case of sequential shooting), or, on the contrary, in the creation of video material using strictly defined intraframe editing techniques when there is an intraframe editing plan (for example, in the format of pre-drawn storyboards that are often used when shooting
художественного кино). feature film).
Любительский материал отличается большей спонтанностью, отсутствием заранее спланированного подбора фрагментов видео с нужными факторами внутрикадрового монтажа, отсутствием промежутков для соединения фрагментов, наличием смысловых пустот, наличием чрезвычайно сложных спонтанных движений камеры, дрожанием рук, и т.п., что существенно осложняет задачу монтажа по профессиональным стандартам качества. Amateur material is more spontaneous, lack of pre-planned selection of video fragments with the necessary factors for intraframe editing, lack of gaps for connecting fragments, the presence of semantic voids, the presence of extremely complex spontaneous camera movements, hand shake, etc., which significantly complicates the installation task professional quality standards.
Вместе с тем, любительский материал, снятый на камеру мобильного телефона или смартфона (далее - любительское мобильное видео), имеет и свою собственную At the same time, amateur material shot on the camera of a mobile phone or smartphone (hereinafter - amateur mobile video) has its own
специфику по сравнению с любительским видео, снятым на стационарную видеокамеру или цифровой фотоаппарат. В основном эти отличия вызваны тем, что вопервых функция видеосъемки является не первостепенной для мобильных устройств, что сказывается на их технических возможностях в этом отношении; вовторых мобильные устройства постоянно сопровождают современного пользователя, всегда находясь в его распоряжении, в отличии от стационарных устройств, специально предназначенных для съемки. specificity compared to amateur videos shot on a stationary video camera or digital camera. Basically, these differences are caused by the fact that for the first time the video shooting function is not paramount for mobile devices, which affects their technical capabilities in this regard; secondly, mobile devices constantly accompany the modern user, always being at his disposal, in contrast to stationary devices specially designed for shooting.
С точки зрения содержания, любительское мобильное видео более сфокусировано на какое-либо событие, так как пользователь всегда имеет под рукой устройство для съемки, и включает его только тогда, когда складывается подходящая ситуация. Если же
U2013/000121 пользователь специально берет отдельную камеру, он сделает материал менее From the point of view of content, amateur mobile video is more focused on any event, since the user always has a device for shooting at hand, and turns it on only when a suitable situation develops. If U2013 / 000121 the user specifically takes a separate camera, he will make the material less
насыщенным событийным содержимым и потребует при монтаже дополнительных усилий по отсечению ненужного материала. Свою роль играет и то, что дисковое пространство мобильного устройства в среднем меньше, чем дисковое пространство видеокамеры или фотоаппарата, о чем пользователь имеет представление, поэтому снятый им на стационарную камеру любительский материал будет в среднем длиннее материала, снятого на мобильный телефон. saturated event content and will require additional installation efforts to cut off unnecessary material. The role is played by the fact that the disk space of a mobile device is, on average, less than the disk space of a video camera or camera, which the user has an idea about, so amateur material shot by him on a stationary camera will be on average longer than the material shot on a mobile phone.
С точки зрения технологии съемки и хранения материала, распространены модели стационарных камер, которые при съемке не всегда заводят новый файл при нажатии на кнопку, запуска съемки материала, а дописывают материал в конец уже существующего, открытого в данный момент файла (если в данный момент есть открытый файл). В дальнейшем это приводит к необходимости перед монтажом разрезать длинные файлы на более короткие клипы, то есть добавляется дополнительная стадия обработки материала, которая в силу особенностей технологии съемки мобильного видеоматериала не требуется при монтаже последнего. From the point of view of the technology of shooting and storing material, stationary camera models are common, which when shooting do not always start a new file when you press a button, start shooting material, and add material to the end of an existing file that is currently open (if there is currently open file). In the future, this leads to the need to cut long files into shorter clips before editing, that is, an additional stage of processing the material is added, which, due to the peculiarities of the technology for shooting mobile video material, is not required when editing the latter.
Кроме того, объективы современных любительских стационарных камер отличаются большой сложностью и предоставляют возможности, полностью In addition, the lenses of modern amateur stationary cameras are very complex and provide opportunities that are completely
соответствующие возможностям профессиональных камер. В руках пользователя- непрофессионала эти возможности являются недостатком, так как частым является одновременное использование всех приемов внутрикадрового монтажа, несогласованных между собой, что впоследствии существенно осложняет задачу межкадрового монтажа. Объективы камер мобильных телефонов в настоящее время предоставляют только самые базовые возможности, как правило, ограниченные "цифровым зумом", т.е. имитацией на уровне программного обеспечения камеры эффекта изменения фокусного расстояния между линзами камеры, а также программной имитацией различных светофильтров. Это приводит к тому, что в аспекте внутрикадрового монтажа снимаемое на мобильный
телефон видео проще, чем видео, снимаемое на стационарную камеру. Отдельные файлы более однородны с точки зрения применяемых в них приемов. А это значит, что упрощается задача классификации и распознавания таких приемов, первоначальной сортировки материала, так как часть сортировки, фактически, выполняет сам corresponding to the capabilities of professional cameras. In the hands of a non-professional user, these capabilities are a drawback, since it is often the simultaneous use of all intraframe editing techniques that are inconsistent with each other, which subsequently significantly complicates the task of interframe editing. Mobile phone camera lenses currently provide only the most basic features, usually limited to "digital zoom", i.e. simulation at the camera software level of the effect of changing the focal length between the camera lenses, as well as software simulation of various filters. This leads to the fact that in the aspect of intraframe editing, filmed on a mobile Phone video is easier than video shot on a stationary camera. Individual files are more homogeneous in terms of the techniques used in them. This means that the task of classifying and recognizing such techniques, the initial sorting of the material, is simplified, since the sorting part, in fact, is performed by
пользователь, подстраиваясь под ограничения своего аппарата. user, adjusting to the limitations of his device.
Свою специфику налагает также способ удержания мобильного телефона при съемке. Все современные форматы видео разрабатывались с учетом того, что снимаемая сцена вписывается в прямоугольник длинной стороной параллельный горизонту. Дизайн стационарных камер, как правило, затрудняет съемку в другой ориентации (с короткой стороной параллельной горизонту). В свою очередь, дизайн телефонов как правило предполагает съемку в произвольной ориентации, как вертикальной, так и The method of holding a mobile phone while shooting also imposes its specificity. All modern video formats were developed taking into account the fact that the scene being shot fits into a rectangle with a long side parallel to the horizon. The design of stationary cameras, as a rule, makes it difficult to shoot in a different orientation (with the short side parallel to the horizon). In turn, the design of phones usually involves shooting in an arbitrary orientation, both vertical and
горизонтальной. Однако в процессе монтажа снятые в различной ориентации материалы необходимо выровнять по ориентации. Это специфическая проблема, характерная для мобильного видео. horizontal. However, during installation, materials shot in different orientations must be aligned in orientation. This is a specific problem specific to mobile video.
Вместе с тем, мобильный телефон имеет возможности, не предоставляемые стационарной камерой. Так, телефон может встроить в видеоматериал информацию о географических координатах места, где это видео было снято. Некоторые современные фотоаппараты, которые имеют функцию съемки видео, также обладают такой возможностью. Но телефон при этом, при наличии встроенного акселерометра, может встроить в видеоматериал информацию о пространственной ориентации устройства при съемке, дополнительно к информации о географических координатах. В данное время стационарные камеры с подобными функциями не изготавливаются. However, the mobile phone has features not provided by the stationary camera. So, the phone can embed in the video material information about the geographical coordinates of the place where this video was shot. Some modern cameras that have the function of shooting video also have this feature. But the phone at the same time, in the presence of a built-in accelerometer, can embed information on the spatial orientation of the device when shooting in the video material, in addition to information about geographical coordinates. Currently, stationary cameras with similar functions are not manufactured.
Иными являются также требования к формату материала, получающегося в процессе монтажа. Мобильный телефон является не только самым распространенным средством съемки мобильного видео, но также самым распространенным средством хранения и просмотра видео. С учетом отмеченных выше ограничений по дисковому
пространству (объему памяти), это налагает свои ограничения не только на длительность исходного материала, но также на длительность конечного результата монтажа. К тому же, мобильный телефон, как средство просмотра видео, не обеспечивает достаточного комфорта при просмотре, обладая маленьким экраном и требуя удержания устройства на весу. В связи с этим возможности у зрителя по концентрации внимания на содержимом мобильного видео ограничены, утрата интереса к происходящему наступает на 2-3 минуте, из за чего редкое мобильное видео превышает указанное значение по Other are also the requirements for the format of the material obtained during the installation process. A mobile phone is not only the most common means of capturing a mobile video, but also the most common means of storing and viewing videos. Considering the disk limitations noted above space (memory size), this imposes its limitations not only on the duration of the source material, but also on the duration of the final installation result. In addition, a mobile phone, as a video viewer, does not provide sufficient viewing comfort, having a small screen and requiring the device to be kept on weight. In this regard, the viewer's ability to concentrate on the contents of the mobile video is limited, loss of interest in what is happening occurs in 2-3 minutes, due to which a rare mobile video exceeds the specified value by
длительности. He-мобильное видео как правило намного более длиннее по времени. duration. He-mobile video is usually much longer in time.
Таким образом, в настоящее время на рынке присутствуют пользователи, имеющие потребность в монтаже большого количества мобильного видео. Для преобразования материала используются различные способы монтажа. Использование способов монтажа спонтанно или фрагментарно не позволяет добиться необходимого качества Thus, currently there are users on the market who need to install a large number of mobile video. Various methods of installation are used to convert the material. The use of installation methods spontaneously or fragmentarily does not allow to achieve the required quality
преобразования материала. Для полного освоения техник монтажа непрофессиональному пользователю необходимо затратить немало времени и усилий. material conversion. To fully master the installation techniques, an unprofessional user needs to spend a lot of time and effort.
Традиционно потребность пользователя в монтаже удовлетворялась путем использования умений профессионального режиссера монтажа. Профессиональный монтаж осуществляется вручную, с использованием программного обеспечения, персоналом, подготовка которого сочетает элементы подготовки инженера и художника, а также включает длительную практику и развитие. В связи со сложностью подготовки таких специалистов, осуществить вручную монтаж всего существующего в настоящее время пользовательского видео невозможно. Кроме того, его невозможно осуществлять непосредственно на мобильном устройстве. Традиционной альтернативой ручному монтажу является использование автоматических или полуавтоматических способов монтажа. Traditionally, the user's need for editing was satisfied by using the skills of a professional editing director. Professional installation is carried out manually, using software, by personnel, the preparation of which combines the elements of training an engineer and an artist, and also includes long-term practice and development. Due to the complexity of training such specialists, it is impossible to manually edit all currently existing user videos. In addition, it cannot be carried out directly on a mobile device. A traditional alternative to manual installation is the use of automatic or semi-automatic installation methods.
В соответствии с вышеизложенным, решения для редактирования видео, существующие в настоящее время на рынке, можно разделить на три группы. Первая,
наиболее многочисленная группа, это профессиональные инструменты цифрового нелинейного монтажа (Avid Media Composer, Apple Final Cut Pro, Adobe Premiere Pro). Программные продукты этой группы используют последние доступные технологии, требовательны к аппаратному обеспечению и квалификации пользователя. В основе решений этой группы находится интерфейсная концепция таймлайн, "временной линии" (публикация US5999173, кл. МПК Gl 1В27/02, опубл. 07.12.19,99 г.), то есть визуальная репрезентация отрезка времени, соответствующего монтируемому видеофильму, состоящего из нескольких дорожек, содержащих аудио или видеоинформацию, а также указания на различные преобразования (фильтры и эффекты) этой информации. На этапе рендеринга таймлайн конвертируется программой монтажа в готовый видеофильм. In accordance with the foregoing, video editing solutions currently on the market can be divided into three groups. First one the largest group is professional digital non-linear editing tools (Avid Media Composer, Apple Final Cut Pro, Adobe Premiere Pro). The software products of this group use the latest available technologies, demanding on hardware and user skills. The solutions of this group are based on the interface concept of timeline, “time line” (publication US5999173, class IPC Gl 1B27 / 02, published 07.12.19,99), that is, a visual representation of the length of time corresponding to the mounted video film, consisting of several tracks containing audio or video information, as well as indications of various transformations (filters and effects) of this information. At the rendering stage, the timeline is converted by the editing program into a finished video.
Возможности, предоставляемые программным обеспечением этого уровня, ограничены только квалификацией пользователя, требования к которой чрезвычайно высоки. The capabilities provided by software at this level are limited only by the user's qualifications, the requirements for which are extremely high.
Требования, предъявляемые к аппаратному обеспечению этого уровня настолько высоки, что реализация подобных систем на мобильных устройствах в настоящее время выходит за рамки текущих достижений технологии. The requirements for hardware at this level are so high that the implementation of such systems on mobile devices currently goes beyond the current technological advances.
Во вторую группу входят решения, позволяющие осуществлять нелинейный цифровой монтаж непрофессиональному пользователю, обладающему определенным уровнем подготовки и имеющему аппаратное обеспечение уровня, соответствующего среднему уровню домашнего мультимедийного компьютера (Windows MovieMaker, Corel VideoStudio, Pinnacle Studio, Kino). Мощности современных мобильных телефонов достаточно для того, чтобы в этой группе существовало также мобильное программное обеспечение (например, для платформы Apple iPhone существуют программы The second group includes solutions that allow non-linear digital editing for an unprofessional user who has a certain level of training and has the hardware level corresponding to the average level of a home multimedia computer (Windows MovieMaker, Corel VideoStudio, Pinnacle Studio, Kino). The power of modern mobile phones is enough for mobile software to exist in this group (for example, there are programs for the Apple iPhone platform
ReelDirector, iMovie, Splice). Как правило, решение этого уровня предоставляет возможность редактировать видео и накладывать несколько звуковых дорожек, используя простейший интерфейс на основе timeline и ряд предустановленных фильтров и эффектов
с ограниченными возможностями настроек. Однако, платформы такого типа часто сложны для человека не обладающего достаточными знаниями и навыками. ReelDirector, iMovie, Splice). Typically, a solution at this level provides the ability to edit video and overlay multiple audio tracks using the simplest timeline-based interface and a number of predefined filters and effects with limited settings. However, platforms of this type are often difficult for a person who does not have sufficient knowledge and skills.
Также на рынке существует третья группа решений, обеспечивающих возможность автоматического или полуавтоматического монтажа с минимальным вовлечением в процесс пользователя (настольные приложения muvee reveal, muvee autoProducer, Apple iMovie, CineMagic Roxio Easy Media Creator). Часто такие возможности предоставляют некоторые продукты из второй группы (например, настольные приложения Pinnacle Studio, Corel VideoStudio, Windows MovieMaker). Функционирование программного обеспечения этой группы осуществляется за счет того, что пользователь указывает какие видеоклипы и музыка из наборов должны использоваться в процессе автоматического создания фильма, определяет длительность выходного видеофайла, выбирает один из нескольких предложенных стилей оформления, при необходимости назначает простейшие эффекты (смена кадра, цветокоррекция, и т.п.) Сам процесс монтажа осуществляется автоматически, то есть программное обеспечение само выбирает какие части материала должны войти в конечный продукт, причем выбор как правило осуществляется Also on the market there is a third group of solutions that provide the possibility of automatic or semi-automatic installation with minimal involvement in the user process (desktop applications muvee reveal, muvee autoProducer, Apple iMovie, CineMagic Roxio Easy Media Creator). Often, some products from the second group provide such opportunities (for example, Pinnacle Studio, Corel VideoStudio, Windows MovieMaker desktop applications). The functioning of the software of this group is due to the fact that the user indicates which video clips and music from the sets should be used in the process of automatically creating a movie, determines the duration of the output video file, selects one of several proposed design styles, and if necessary assigns the simplest effects (frame change, color correction , etc.) The installation process itself is carried out automatically, that is, the software itself selects which parts of the material should be included the final product, and the choice is usually made
случайным образом, в некоторых случаях пользователь может влиять на randomly, in some cases, the user can influence
предпочтительность того или иного материала, помечая его определенным образом. the preference of a particular material, marking it in a certain way.
Следует отметить, что с точки зрения технологии, точки приложения усилий производителей этого программного обеспечения сосредоточены, главным образом, в двух сегментах: распознавание точек перехода (transition points) в видео и аудио. Точки перехода в видео соответствуют моментам смены кадра или существенного изменения условий съемки (освещенность, цветовая палитра). Точки перехода в аудио It should be noted that from the point of view of technology, the points of application of efforts of manufacturers of this software are concentrated mainly in two segments: recognition of transition points in video and audio. The transition points in the video correspond to the moments of the frame change or a significant change in the shooting conditions (illumination, color palette). Audio Transition Points
формализуются как ритмически выделенные фрагменты (сильные/слабые доли), или фрагменты, в которых меняется тональность музыкального произведения, или фрагменты отмеченные сменой других характеристик. В соответствии с некоторыми особенностями монтажа, совмещение точек перехода в аудио и видео иногда может создавать
позитивный художественный эффект, который и воплощают производители указанного программного обеспечения. , formalized as rhythmically selected fragments (strong / weak beats), or fragments in which the tonality of a musical work changes, or fragments marked by a change in other characteristics. In accordance with some editing features, combining transition points in audio and video can sometimes create positive artistic effect, which is embodied by the manufacturers of this software. ,
Однако как было показано выше, простого сопоставления точек перехода в аудио и видео недостаточно для создания аудиовизуального произведения с соблюдением законов монтажа. However, as shown above, simply comparing the transition points in audio and video is not enough to create an audiovisual work in compliance with the editing laws.
Мобильное программное обеспечение этой категории, например, программы HighLightCam и Flixlab по сути, являются клиентскими частями клиент-серверного программного обеспечения, поскольку для монтажа видеоматериал загружается на сервер, где происходит его обработка. Таким образом, для их функционирования ключевым является постоянное наличие быстродействующего канала сети Интернет. Mobile software of this category, for example, the HighLightCam and Flixlab programs, in fact, are client parts of the client-server software, because for editing video material is uploaded to the server where it is processed. Thus, the key to their functioning is the constant availability of a high-speed Internet channel.
Программа Videolicious выполняет монтаж локально, но несмотря на простату ее использования даже по сравнению с HighLightCam и Flixlab, ухудшается качество конечного продукта. Кроме того, основное назначение Videolicious - это монтаж роликов для рекламы локального бизнеса, что сужает сферу ее применения. Все рассмотренные выше мобильные приложения отличает низкая скорость работы, что выражается в том, что пользователь вынужден ждать завершения процесса монтажа, и только потом смотреть на полученный продукт. Такой подход несовместим с требованием мгновенного удовлетворения потребительских нужд, чего ожидает потребитель мобильных The Videolicious program performs installation locally, but despite the prostate of its use, even in comparison with HighLightCam and Flixlab, the quality of the final product deteriorates. In addition, the main purpose of Videolicious is the installation of commercials for advertising a local business, which narrows the scope of its application. All the mobile applications discussed above are distinguished by a low speed of operation, which is reflected in the fact that the user is forced to wait for the installation process to complete, and only then look at the resulting product. This approach is incompatible with the requirement of instant customer satisfaction, which is expected by the consumer of mobile
приложений. applications.
Предшествующий уровень техники State of the art
Приведенные ниже патентные документы содержат описание способов создания видеофайлов с помощью монтажного шаблона или сценария. Такой сценарий содержит таймлайн, разбитый на виртуальные ячейки. В каждую ячейку может быть помещен фрагмент видео. Такая реализация способа вполне доступна, поскольку все программы профессионального и полупрофессионального монтажа позволяют сохранять подобные монтажные структуры в постоянной памяти компьютера в формате xml. Однако для
автоматического монтажа одной такой структуры недостаточно, поэтому различные реализации предлагают свои дополнения. The following patent documents describe how to create video files using an editing template or script. Such a scenario contains a timeline, divided into virtual cells. A fragment of the video can be placed in each cell. Such an implementation of the method is quite accessible, since all professional and semi-professional installation programs allow you to save such installation structures in the computer’s permanent memory in xml format. However for automatic installation of one such structure is not enough, so various implementations offer their own additions.
Хронологически одной из первых реализаций идеи монтажного сценария стала тематический шаблон, который предназначен для оказания помощи начинающим редакторам видео фильмов быстро выполнять работу по созданию видео, которое увековечивает память в частности о знаменательных случаях, например, о дне рождения. Шаблон для каждого из таких случаев будет настроен с предопределенными кадрами, которые аннотированны с описаниями событий, которые могут возникнуть во время указанных случаев (US7352952, кл. МП Gl 1В27/031, опубл. 01.04.2008 г.). Однако данный способ не подразумевает автоматического создания ролика. Пользователь должен сам загружать видео в каждую ячейку и следить за тем, чтобы соблюдались отборочные требования ячеек. Кроме того, отсутствует синхронизация с музыкой. Отсутствие элемента рандомизации приводит к тому, что генерируемые видеофайлы слишком однообразны. Chronologically, one of the first implementations of the installation script idea was a thematic template, which is designed to help novice movie editors quickly perform work on creating a video that perpetuates memory in particular of significant occasions, such as a birthday. The template for each of these cases will be configured with predefined frames that are annotated with descriptions of events that may occur during the indicated cases (US7352952, class MP Gl 1B27 / 031, published on April 1, 2008). However, this method does not automatically create a movie. The user must upload the video to each cell and ensure that the selection requirements of the cells are respected. In addition, there is no synchronization with music. The absence of a randomization element leads to the fact that the generated video files are too uniform.
Pat. No. US2005/0217462 содержит описание способа, фактически имеющего многие сходные черты с монтажным сценарием. Однако в указанном способе Pat. No. US2005 / 0217462 contains a description of a method that actually has many similarities with the mounting script. However, in the specified method
длительности ячеек задаются в процентах, причем для каждой длительности cell durations are set in percent, and for each duration
устанавливается минимальное и максимальное значение. Это связано с тем, что монтаж делается под выбранную пользователем музыку, и алгоритм должен найти в указанном промежутке таймлайна момент для склейки кадров, совмещенный с ритмическим фактором. Поскольку предлагаемый в настоящем документе смарт-сценарий делается на основе заранее подобранного музыкального материала, необходимости в подобного рода нечеткости нет. Вместе с тем, нечеткость в данном случае может помешать созданию цельного впечатления, для которого важна согласованная работа всех элементов: minimum and maximum values are set. This is due to the fact that the installation is done for the music selected by the user, and the algorithm must find in the specified timeline interval a moment for gluing frames combined with the rhythmic factor. Since the smart script proposed in this document is based on pre-selected musical material, there is no need for this kind of fuzziness. At the same time, fuzziness in this case can prevent the creation of an integral impression, for which the coordinated work of all elements is important:
ритмических, тональных, и т.п. Этот недостаток становится еще более значимым с учетом
того, что материал в ячейки отбирают случайным образом, не учитывая существенные особенности (крупности, направления панорамирования, и т п) rhythmic, tonal, etc. This drawback becomes even more significant given the fact that the material in the cells is randomly selected, not taking into account the essential features (size, pan direction, etc.)
Шаблон на основе уже снятого музыкального видео лишен многих указанных выше недостатков (публикация US7716572B2, кл. MnKG06F 17/00, опубл. 1 1.05.2010 г. ). Поскольку исходное видео, как правило создано специалистами, то при соблюдении пользователем крупностей и характера движения камеры конечное видео будет, скорее всего, производить положительный эффект. Однако в данной реализации сохраняют только информацию о времени между склейками, при этом требуется высокий уровень вовлечения пользователя в процесс для того чтобы достичь такого эффекта. Кроме того, в конечном продукте остаются фрагменты исходного музыкального видео, что сильно сужает область применимости такого решения. A template based on an already recorded music video is devoid of many of the above disadvantages (publication US7716572B2, cl. MnKG06F 17/00, publ. 1 May 1, 2010). Since the original video is usually created by specialists, if the user observes the size and nature of the camera’s movement, the final video will most likely produce a positive effect. However, in this implementation, only information about the time between gluings is stored, and a high level of user involvement in the process is required in order to achieve such an effect. In addition, fragments of the original music video remain in the final product, which greatly reduces the applicability of such a solution.
Многие реализации пытаются избежать указанных выше недостатков путем вытекающего набора дескрипторов или непосредственно из пользовательского видео, или предлагая пользователю установить дескрипторы самостоятельно, и учета этой Many implementations try to avoid the above drawbacks by deriving a set of descriptors either directly from the user video, or by inviting the user to set the descriptors on their own, and by taking this
информации в процессе производства. В частности, устройство и способ для производства аудиовизуальных материалов (публикация US8006186, кл. МПК Gl 1В27/034, опубл. 22.12.2000 г.) предлагает извлекать данные из пользовательского видео и аудио. Однако, указанное извлечение метаданных описано широко и, фактически, было реализовано на момент публикации в нескольких продуктах. Кроме того, алгоритм не предполагает синхронизации видео и аудио на основании извлеченных метаданных. information in the production process. In particular, the device and method for the production of audiovisual materials (publication US8006186, class IPC Gl 1B27 / 034, publ. 12/22/2000) proposes to extract data from user video and audio. However, the specified metadata extraction has been described extensively and, in fact, was implemented at the time of publication in several products. In addition, the algorithm does not imply synchronization of video and audio based on the extracted metadata.
Существующие в настоящий момент решения сопряжены с рядом компромиссов, и выбор любой альтернативы не ведет к результату, удовлетворяющему всем приведенным выше требованиям. Попытки полной автоматизации монтажа ведут либо к чрезмерной схематизации процесса, либо к чрезмерной рандомизации, в обоих случаях - к отсутствию гибкости, к упрощению конечного результата, что противоречит задаче улучшения качества презентации. Отказ от автоматизации требует вмешательства пользователя, что,
0121 в свою очередь, предполагает наличие у такого пользователя специфических The existing solutions are fraught with a number of compromises, and the choice of any alternative does not lead to a result that satisfies all the above requirements. Attempts to fully automate the installation lead either to excessive schematization of the process, or to excessive randomization, in both cases to a lack of flexibility, to simplification of the final result, which contradicts the task of improving the quality of the presentation. Rejecting automation requires user intervention, which, 0121, in turn, assumes that such a user has specific
профессиональных навыков. А это противоречит задаче обеспечения массовости решения. Кроме того, все существующие решения не учитывают в полной мере специфики мобильного видеоматериала. professional skills. And this contradicts the task of ensuring mass decision. In addition, all existing solutions do not fully take into account the specifics of mobile video material.
Краткое описание изобретения SUMMARY OF THE INVENTION
Техническим результатом заявленного способа автоматического монтажа цифровых видеофайлов является то, что заявленный способ должен реализовываться локально на мобильном устройстве, используя только его вычислительные ресурсы, и при этом учитывать специфические черты мобильного любительского видео, а также позволять просматривать видоизмененные видеофайлы мгновенно, без задержки на предварительные вычисления. При этом заявленный способ должен учитывать The technical result of the claimed method for the automatic installation of digital video files is that the claimed method should be implemented locally on a mobile device using only its computing resources, while taking into account the specific features of mobile amateur video, and also allow viewing modified video files instantly, without delay in preliminary calculations . In this case, the claimed method must take into account
закономерности восприятия видеоряда, используемые в профессиональном монтаже, позволять массовое многократное использование, не требовать от пользователя какой- либо квалификации и специальных знаний, а также позволять пользователю быстро и гибко выбирать уровень ручного вмешательства в процесс обработки материала с учетом желания и возможностей. Кроме того, заявленный способ должен обеспечивать получение видеофайлов более компактных как в отношении байтового размера, так и в отношении длительности, чем исходные видеоматериалы. Дополнительно заявленный способ должен обеспечивать получение видеофайлов, воспринимаемых как целые, завершенные произведения с уникальными характерными чертами, комфортных для просмотра, являющихся лучшей с точки зрения воздействия на зрителя «презентацией» события, а также позволяющих зрителю при просмотре составить представление о событии. the patterns of perception of the footage used in professional editing allow mass reuse, do not require any qualifications and special knowledge from the user, and also allow the user to quickly and flexibly select the level of manual intervention in the material processing process taking into account desires and possibilities. In addition, the claimed method should ensure that the video files are more compact both in terms of byte size and in terms of duration than the original video materials. Additionally, the claimed method should ensure the receipt of video files that are perceived as whole, complete works with unique characteristics, comfortable for viewing, which are the best from the point of view of influencing the viewer “presentation” of the event, as well as allowing the viewer to view the event when viewing.
Технический результат достигается тем, что в способе автоматического монтажа цифровых видеофайлов, создают, цифровой монтажный смарт-сценарий в форме цифрового файла данных, служащего виртуальным представлением монтажной тайм-
линии, задающего последовательность, в которой видеофрагменты определенной длительности с определенными характеристиками соединяются (монтируются) между собой, и с аудиофрагментами определенной длительности с определенными The technical result is achieved by the fact that in the method of automatically editing digital video files, they create a digital editing smart script in the form of a digital data file that serves as a virtual representation of the editing time a line that defines the sequence in which video clips of a certain duration with certain characteristics are connected (mounted) with each other, and with audio clips of a certain duration with certain
характеристиками; включают в цифровой монтажный смарт-сценарий информацию о последовательности, длительностях и относительном времени начала монтируемых видео- и аудиосегментов, информацию о последовательности, видах, длительностях и относительном времени начала преобразований потенциального содержимого видео- и аудиосегментов, фильтров и эффектов, а также информацию о масках метаданных, налагаемых на монтируемые видео- и аудиосегменты, и сужают таким образом круг видео и аудиоматериалов, которые могут быть смонтированы в последовательности, задаваемой цифровым монтажным смарт-сценарием; создают видеоматериал посредством фиксации изображений на встроенную камеру мобильного телефона или портативную цифровую камеру; сохраняют видеоматериал на мобильном телефоне, портативной цифровой камере, портативном устройстве транспортировки файлов, компьютерном устройстве или DVD-диске; создают список упомянутых видеоматериалов для монтажа, для characteristics; include in the digital editing smart script information about the sequence, durations and relative start time of the mounted video and audio segments, information about the sequence, types, durations and relative start time of conversions of the potential content of the video and audio segments, filters and effects, as well as information about masks metadata imposed on the mounted video and audio segments, and thus narrow the range of video and audio materials that can be mounted in a sequence second digital mounting smart scenario; create video material by capturing images on the built-in camera of a mobile phone or portable digital camera; save video material on a mobile phone, portable digital camera, portable file transfer device, computer device or DVD-ROM; create a list of the mentioned video materials for editing, for
использования в качестве исходных материалов для монтажа цифрового видеофайла; извлекают метаданные из вышеупомянутого видеоматериала, включая вспомогательные метаданные о месте и дате съемки, gps-координатах, направлении движения объектов съемки по отношению к плоскости линзы камеры или оптическим осям камеры, направления движения камеры по отношению к фиксируемой сцене, о типе use as source materials for editing a digital video file; extract metadata from the aforementioned video material, including auxiliary metadata about the place and date of shooting, GPS coordinates, the direction of movement of the objects in relation to the plane of the camera lens or the optical axes of the camera, the direction of movement of the camera relative to the recorded scene, about the type
зафиксированных объектов, о направлении вектора съемки, об освещенности и цветовой насыщенности сцены, о звуковом фоне сцены в них, при этом метаданные не fixed objects, about the direction of the shooting vector, about the illumination and color saturation of the scene, about the sound background of the scene in them, while the metadata is not
ограничивают вспомогательными метаданными; вводят дополнительные метаданные о видеоматериале; сохраняют метаданные, вспомогательные и дополнительные метаданные в форме набора цифровых файлов данных, выбирают фрагменты видеоматериалы таким образом, чтобы длительность видеофрагмента соответствовала требованиям слота к
U2013/000121 длительности фрагмента, и при этом максимизировалась оценка соответствия метаданных выбранного фрагмента видеоматериала маске видеотега смартсценария, сборки limited to auxiliary metadata; introduce additional metadata about the video material; save metadata, auxiliary and additional metadata in the form of a set of digital data files, select video fragments so that the duration of the video fragment meets the requirements of the slot for U2013 / 000121 the duration of the fragment, while maximizing the assessment of the correspondence of the metadata of the selected fragment of the video material to the mask of the video tag of the smart script, assembly
цифрового фильма из фрагментов цифровых видеофайлов, монтируемых в соответствии с метаданными и монтажными инструкциями, извлекаемыми из цифрового монтажного сценария; размещают упомянутые фрагменты видеоматериала в каждом видеотеге упомянутого смартсценария; сохраняют полученный цифровой видеофайл. a digital film from fragments of digital video files mounted in accordance with the metadata and installation instructions extracted from the digital editing script; placing said video fragments in each video tag of said smart script; save the received digital video file.
Кроме того, технический результат достигается тем, что в указанном способе создают цифровой монтажный смарт-сценарий в форме xml-файла, при этом включают в него набор специальных тегов, каждый из которых имеет собственные параметры длительности и относительного времени начала, отсчитываемого с первой милисекунды смарт-сценария, кроме того, каждый тег имеет указание типа тега, в том числе, видеотег, аудиотег, тег-эффект или метатег, также каждый тег имеет специфические для типа тега параметры тега и предустановленные значения тега, или выражение, или алгоритм посредством которого вычисляют значение параметра тега на основе значений In addition, the technical result is achieved by the fact that in the specified method, a digital editing smart script is created in the form of an xml file, and this includes a set of special tags, each of which has its own parameters for the duration and relative start time, counted from the first millisecond smart -scenario, in addition, each tag has an indication of the type of tag, including video tag, audio tag, effect tag or meta tag, also each tag has tag-specific tag parameters and predefined tag values, or expression an event or algorithm by which the value of a tag parameter is calculated based on the values
параметров других тегов смартсценария и входной информации, задаваемой на этапе монтажа. При этом в упомянутые теги могут включать ссылки на уже существующие фрагменты аудио- и видеоматериалов. parameters of other smartscript tags and input information specified at the installation stage. Moreover, the mentioned tags may include links to existing fragments of audio and video materials.
Кроме того, технический результат достигается тем, что при извлечении In addition, the technical result is achieved by the fact that when removing
метаданных из видеоматериала выполняют: автоматическое распознавание типов движения камеры, движения объекта в кадре, плана, включая, но не ограничивая, средний план, крупный план и общий план, объектов плана, включая, но не ограничивая, типами «человек», «животное», «пейзаж», «интерьер», «экстерьер», и/или выполняют metadata from the video material perform: automatic recognition of types of camera movement, object movement in the frame, plan, including, but not limited to, the middle plan, close-up and general plan, plan objects, including, but not limited to, the types of "man", "animal" , "Landscape", "interior", "exterior", and / or perform
автоматическое распознавания человеческой речи и других звуков, звучащих в кадре, преобразуют упомянутые звуков в соответствующий текст, и выделяют ключевые слова; и/или извлекают специальных для данного формата цифрового видеофайла теги, включая, но не ограничивая геотэгами, датой создания цифрового видеофайла.
1 automatic recognition of human speech and other sounds in the frame, convert the mentioned sounds into the corresponding text, and highlight keywords; and / or retrieving tags specific to the digital video file format, including, but not limited to geotags, the date the digital video file was created. one
Кроме того, технический результат достигается тем, что для ввода дополнительных метаданных выполняют, по меньшей мере, одно из следующих действий: In addition, the technical result is achieved by the fact that to enter additional metadata, at least one of the following is performed:
• предъявление пользователю списка ключевых слов для выбора пользователем тех ключевых слов, которые, наилучшим образом описывают содержимое видеоматериала или его отдельных фрагментов; • presenting to the user a list of keywords for the user to select those keywords that best describe the contents of the video material or its individual fragments;
• предъявление пользователю иерархии тематических категорий для помещения пользователем каждого, нескольких, или всех видеоматериалов в одну или несколько предъявленных категорий; • presentation to the user of a hierarchy of thematic categories for placement by the user of each, several, or all video materials in one or more of the presented categories;
• предъявление пользователю формы ввода для произвольных ключевых слов, описывающих содержимое видеоматериалов; • presentation to the user of an input form for arbitrary keywords describing the contents of the video materials;
• предъявление пользователю инструкций и рекомендуемой последовательности действий при создании видеоматериалов, в виде текста, звука или изображений, в том числе, текста, звука и изображений, транслируемых пользователю в момент создания им цифрового видеоматериала; • providing the user with instructions and the recommended sequence of actions when creating video materials, in the form of text, sound or images, including text, sound and images transmitted to the user at the time of creation of the digital video material;
• регистрацию положения плоскости линзы камеры в трехмерном пространстве, осуществляемую во время съемки цифрового видеофайла путем записи выходной информации датчиков положения в пространстве, встроенных в устройство съемки видеофайлов, включая, но не ограничивая мобильными телефонами или цифровыми камерами. • registration of the position of the plane of the camera lens in three-dimensional space, carried out during the shooting of the digital video file by recording the output information of the position sensors in space, built-in device for shooting video files, including, but not limited to mobile phones or digital cameras.
Кроме того, технический результат достигается тем, что выбор фрагмента видеоматериала для его размещения в видеотеге смартсценария осуществляют, по меньшей мере, одним из следующих способов: In addition, the technical result is achieved in that the selection of a fragment of the video material for its placement in the video tag of the smart script is carried out by at least one of the following methods:
• случайным выбором одной части цифрового видеофайла из всех частей цифрового видеофайла, которые отвечают по своим параметрам упомянутым требованиям слота; • random selection of one part of a digital video file from all parts of a digital video file that meet the above requirements of the slot in terms of its parameters;
• выбором нужной части цифрового видеофайла;
• выбором из подмножества фрагментов видеоматериалов такого, который • selection of the desired part of the digital video file; • the choice of a subset of fragments of video material such that
максимизирует соответствие задаваемым требованиям с использованием хорошо известных процедур нахождения локального максимума в n-мерной плоскости, включая, но не ограничивая способы генетического поиска, градиентного спуска и имитации отжига. maximizes compliance with specified requirements using well-known procedures for finding a local maximum in the n-dimensional plane, including, but not limited to methods of genetic search, gradient descent, and simulated annealing.
Кроме того, технический результат достигается тем, что цифровые монтажные смарт-сценарии, метаданные, вспомогательные и дополнительные метаданные, цифровые видеофайлы сохраняют на компьютерное устройство или портативное устройство транспортировки файлов, или мобильный телефон, или цифровую камеру, а затем передают по сетям связи на другое компьютерное устройство или портативное устройство транспортировки файлов, или мобильный телефон, или цифровую камеру. In addition, the technical result is achieved by the fact that digital editing smart scripts, metadata, auxiliary and additional metadata, digital video files are stored on a computer device or portable file transfer device, or mobile phone, or digital camera, and then transferred via communication networks to another a computer device or portable file transfer device, or a mobile phone, or a digital camera.
Краткое описание чертежей Brief Description of the Drawings
Заявленное изобретение поясняется при помощи чертежей представленных на фиг. The claimed invention is illustrated using the drawings shown in FIG.
1 - 12. 1 - 12.
При этом на фиг. 1 и 2 показана схема создания монтажного смарт-сценария; Moreover, in FIG. 1 and 2 show a diagram for creating an assembly smart script;
на фиг. 3 - 5 показан способ извлечения метаданных из видеоматериалов; in FIG. 3 to 5 show a method for extracting metadata from video materials;
на фиг. 6 показан способ добавления метаданных пользователем; in FIG. 6 shows a method for adding user metadata;
на фиг. 7 показан способ отбора материала; in FIG. 7 shows a method for selecting material;
на фиг. 8 показан способ задания хронометража; in FIG. 8 shows a method for defining timing;
на фиг. 9 показан способ размещения фрагментов видеоматериала в видеотегах; на фиг. 10 и 1 1 показан способ монтажа аудио файлов в видео файл; in FIG. 9 shows a method for placing video fragments in video tags; in FIG. 10 and 1 1 show a method of mounting audio files into a video file;
на фиг. 12 показан способ добавления эффектов в видеофайл. in FIG. 12 shows a method of adding effects to a video file.
Раскрытие изобретения
Основным этапом заявленного способа является создание смарт-сценария. Структурно смарт-сценарий представляет собой тайм-линию, равную по хронометражу планируемой длительности видеофайла. Первым действием в создании нового смартсценария является опреление хронометража. Disclosure of invention The main step of the claimed method is to create a smart script. Structurally, the smart script is a time line equal in time to the planned duration of the video file. The first step in creating a new smart script is to determine timing.
Таймлиния является метафорой единицы видеоматериала в аспектах временной протяженности, последовательной смены различных аудио- фрагментов, последовательной смены различных видео фрагментов, при одновременности аудио- и видео- составляющей. Timeline is a metaphor for a unit of video material in terms of time span, successive change of various audio fragments, successive change of various video fragments, with simultaneous audio and video component.
На основе одной таймлинии может быть создано бесконечное множество видеофайлов, при условии что имеется бесконечное множество видеофрагментов такое, что множество видеофрагментов больше, чем множество видеофайлов. An infinite number of video files can be created on the basis of one timeline, provided that there is an infinite number of video fragments such that many video clips are larger than many video files.
Вдоль таймлинии режиссер располагает различные зарезервированные слова (называемые далее теги), присваивая их параметрам различные значения. Существуют обязательные и необязательные параметры. Длительность воздействия тегов на таймлинии определяется специальным параметром длительности, его значение устанавливается в милисекундрах. Начало воздействия тега определяется параметром смещения, устанавливающим точку старта тега как смещение в милисекундах относительно начала таймлинии. Эти два параметра обязательны для всех тегов. Длительность тега не может превышать общий хронометраж таймлинии. Базовым тегом, и одновременно структурной единицей таймлинии является тег видеослот. Тег видеослот определяет последовательность и длительности видеофрагментов. Along the timeline, the director arranges various reserved words (hereinafter referred to as tags), assigning different values to their parameters. There are required and optional parameters. The duration of the impact of tags on the timeline is determined by a special duration parameter, its value is set in milliseconds. The beginning of the tag impact is determined by the offset parameter, which sets the start point of the tag as the offset in milliseconds relative to the start of the timeline. These two parameters are required for all tags. The tag duration cannot exceed the total timeline of the timeline. The base tag, and at the same time the structural unit of the timeline, is the video slot tag. The video slot tag determines the sequence and duration of video clips.
Суммарная длительность тегов видеослота не может быть меньше хронометража монтажного сценария. Аналогично ему, тег аудиослот определяет последовательность и длительности аудиофрагментов материала. The total duration of the video slot tags cannot be less than the timing of the editing script. Similarly, the audio slot tag defines the sequence and duration of audio fragments of a material.
Теги видеослот и аудиослот являются структурными для таймлинии, что означает что начало и конец действия любого другого тега на таймлинии должно совпадать с
началом и/или концом действия хотя бы одного аудио и/или видеослота. При этом, начало и конец видео или аудиослота, в свою очередь, не обязательно должны совпадать с началом и/или концом других тегов, т.е. несколько аудио и/или видеослотов могут быть сгруппированы каким-либо тегом. The video slot and audio slot tags are structural for the timeline, which means that the beginning and end of any other tag on the timeline must match the beginning and / or end of the action of at least one audio and / or video slot. At the same time, the beginning and end of the video or audio slot, in turn, do not have to coincide with the beginning and / or end of other tags, i.e. multiple audio and / or video slots can be grouped by any tag.
Параметр тега может содержать числовое или строковое значение, а также фрагмент интерпретируемого кода, результатом интерпретации которого является числовое или строковое значение. Некоторые строковые значения являются ключевыми словами для интерпретатора, то есть, имеют зарезервированный смысл, понятный в контексте операций преобразований материала пользователя алгоритмом. A tag parameter can contain a numeric or string value, as well as a fragment of the interpreted code, the interpretation of which results in a numeric or string value. Some string values are keywords for the interpreter, that is, they have a reserved meaning, understandable in the context of operations of transforming user material by the algorithm.
Теги могут описывать различные параметры изображения и звука: Tags can describe various image and sound parameters:
• вид плана и характер движения камеры/объектов: крупность плана, направления и скорость движения камеры, и т.д. • view of the plan and the nature of the movement of the camera / objects: size of the plan, direction and speed of the camera, etc.
• характеристики плана с содержательной стороны - ключевые слова "люди", "ландшафт", и т.п. • characteristics of the plan on the content side - the keywords "people", "landscape", etc.
• физические характеристики изображения, которые могут быть получены путем анализа изображения хорошо известными алгоритмами: освещенность, спектр, и т.п.. • physical characteristics of the image, which can be obtained by analyzing the image by well-known algorithms: illumination, spectrum, etc.
• дополнительные характеристики, генерируемые устройством съемки в момент съемки, если такие возможности предоставляются устройством и/или форматом видео (к таким характеристикам могут относиться, например, дата, координаты GPS, данные встроенного акселерометра, и т.п.) • additional characteristics generated by the shooting device at the time of shooting, if such capabilities are provided by the device and / or video format (such characteristics may include, for example, date, GPS coordinates, data of the built-in accelerometer, etc.)
• любые ритмические или высотно-динамические характеристики аудиодорожки. • any rhythmic or altitude-dynamic characteristics of the audio track.
Каждый сегмент монтажного сценария может содержать любое количество любых тегов. В дальнейшем при обработке пользовательского видео наличие двух взаимноисключающих тегов в одном сегменте (например, теги "крупный план" и
"средний план") означает, что в сегмент с равной вероятностью может попасть план, соответствующий любому из тегов. Each segment of the editing script can contain any number of any tags. In the future, when processing a custom video, the presence of two mutually exclusive tags in one segment (for example, tags "close-up" and “medium plan”) means that a plan corresponding to any of the tags may equally fall into the segment.
При создании смарт-сценария можно исходить из различных предпосылок. Задачей является объединение факторов межкадрового, внутрикадрового и вертикального монтажа в единую систему, взаимодействующую со зрителем в ритмическом, метрическом, тональном, и ассоциативно-интеллектуальном аспектах, и создающую заранее заданный психоэмоциональный эффект. When creating a smart script, you can proceed from various premises. The task is to combine the factors of interframe, intraframe, and vertical editing into a single system that interacts with the audience in the rhythmic, metric, tonal, and associative-intellectual aspects, and creates a predetermined psycho-emotional effect.
Затем данные пользователя обрабатываются и создаются метаданные, необходимые смарт-сценарию для монтажа. Метаданные извлекают в фоновом режиме, сразу после запуска приложения и в любой момент, когда процессор мобильного устройства не занят расчетом материала, чем достигается эффект "мгновенного монтажа". Then the user data is processed and the metadata necessary for the smart script for editing is created. Metadata is extracted in the background, immediately after launching the application and at any time when the processor of the mobile device is not busy with the calculation of the material, thereby achieving the effect of "instant editing".
Помимо видеоматериалов (1 1) и аудиоматериалов (12), материал пользователя, как правило, уже содержит вспомогательные метаданные, например, дату - информацию о времени съемки (13), которую алгоритм также может использовать. Кроме того, в каждом видеофрагменте часто используется определение места, где был снят видеоматериал - геотэггинг (14). В исходном видео пользователя также могут содержаться и другие данные, которые могут быть использованы (например, данные, характеризующие пространственное положение устройства в момент записи видео). In addition to video materials (1 1) and audio materials (12), the user's material, as a rule, already contains auxiliary metadata, for example, the date - information about the shooting time (13), which the algorithm can also use. In addition, in each video clip, the definition of the place where the video was filmed is often used - geotagging (14). The user’s original video may also contain other data that can be used (for example, data characterizing the spatial position of the device at the time of video recording).
Используя известные из уровня техники алгоритмы, их комбинации и усовершенствования с учетом возможностей современной цифровой техники (например, подобные описанным в Determining Optical Flow, Berthold К.Р. Horn, Brian G. Rhunck и An incremental network for on-line unsupervised classification and topology learning Shen Furaoa и Osamu Hasegawa) программа в мобильном устройстве связи может распознавать в кадре различные типы объектов, например, лица, улицы, и ряд других образов, которые присутствуют на видео (15,16,17,18). Таким образом, одним из способов извлечения
метаданных является анализ видео алгоритмом, по итогам которого пользовательским данным могут назначаться теги. Using algorithms known from the prior art, their combinations and improvements, taking into account the capabilities of modern digital technology (for example, similar to those described in Determining Optical Flow, Berthold K.R. Horn, Brian G. Rhunck and An incremental network for on-line unsupervised classification and topology learning Shen Furaoa and Osamu Hasegawa) a program in a mobile communication device can recognize various types of objects in the frame, for example, faces, streets, and a number of other images that are present on the video (15,16,17,18). So one way to extract metadata is a video analysis algorithm, based on which tags can be assigned to user data.
Помимо распознавания лиц, улиц и прочих образов, имеющихся в кадре, программа может определять направление движения в кадре. Например, на фиг. 5 изображена панорама слева направо, и программа, анализируя соответствующий фрагмент видео, назначает данному фрагменту тег «панорама слева направо». In addition to recognizing faces, streets and other images that are in the frame, the program can determine the direction of movement in the frame. For example, in FIG. Figure 5 shows a panorama from left to right, and the program, analyzing the corresponding video fragment, assigns the “panorama from left to right” tag to this fragment.
Передавая на вход алгоритма видеофрагмент, пользователь может самостоятельно ввести дополнительные метаданные, характеризующие его. На исходном видео он может разметить точками «входа» и «выхода» (in - out) дополнительные параметры, которые позволят алгоритму собрать ролик лучшего качества. Например, он маркирует фрагмент от 0:00:00 до 0:01 : 15 как «крупный план» (23). С 0:01 : 15 до 0:02: 17 (25) он маркирует его как «средний план». С 0:02: 17 по 0:03: 1 1 он маркирует его как «общий план» (26). Некоторые метаданные могут пересекаться с другими метаданными, например, в метаданных close up (23) и middle (25), в каждом случае на видео пользователя присутствуют люди, и он может пометить, что это - люди. Таким образом, эти метаданные пересекаются и с middle (25), и с close up (29). При этом, в отличие от монтажного сценария, для пользовательского видео не могут назначаться взаимоисключающие теги, поскольку они характеризуют то, что уже фактически есть в видео, а не то, что потенциально может там быть, как в случае с монтажным сценарием. By transmitting a video fragment to the input of the algorithm, the user can independently enter additional metadata characterizing it. In the original video, he can mark additional parameters in “out” and “in” out points, which will allow the algorithm to assemble a better quality video. For example, he marks a fragment from 0:00:00 to 0:01:15 as a “close-up” (23). From 0:01: 15 to 0:02:17 (25) he marks it as an “average plan”. From 0:02:17 to 0:03: 1 1 he marks it as a “general plan” (26). Some metadata may overlap with other metadata, for example, in the close up (23) and middle (25) metadata, in each case there are people on the user's video, and he can mark that these are people. Thus, this metadata intersects both middle (25) and close up (29). At the same time, in contrast to the editing script, mutually exclusive tags cannot be assigned to the user video, because they characterize what is already actually in the video, and not what could potentially be there, as is the case with the editing script.
Если пользователь имеет фрагмент видео, который он бы хотел получить в ролике со звуком, и если такую возможность предоставляет монтажный смарт-сценарий, пользователь может пометить этот фрагмент как «использовать со звуком» (27), (28). Соответственно, в монтаж будет браться этот фрагмент видео вместе со звуковой дорожкой.
Можно использовать и другие способы приема метаданных от пользователя: информация об изображенных на видео лицах, объектах, содержательные и эмоциональные характеристики в виде обыкновенных слов, и т.п. If the user has a fragment of the video that he would like to receive in the clip with sound, and if the editing smart script provides such an opportunity, the user can mark this fragment as “use with sound” (27), (28). Accordingly, this video fragment along with the audio track will be taken into editing. You can use other methods of receiving metadata from the user: information about the persons depicted on the video, objects, meaningful and emotional characteristics in the form of ordinary words, etc.
Далее определяют видео, снятое в вертикальной ориентации, и обрезают его таким образом, чтобы оставшийся фрагмент помещался в прямоугольник стандартной формы. При желании пользователь может самостоятельно указать, какая часть вертикально- ориентированного видео должна быть передана для монтажа. Кроме того, на этом этапе пользователь вручную может обрезать исходный материал, сократив хронометраж материала, переданного для монтажа. Next, determine the video, shot in a vertical orientation, and crop it so that the remaining fragment is placed in a rectangle of standard shape. If desired, the user can independently specify which part of the vertically oriented video should be transmitted for editing. In addition, at this stage, the user can manually trim the source material, reducing the timing of the material transferred for installation.
Как было описано ранее, каждый сегмент монтажного смарт-сценария имеет определенные метаданные, формализованые в виде тэгов: крупность, дополнительные параметры и т.д. На первом этапе алгоритм суммирует значения длин всех метаданных материалов пользователя и проверяет достаточность материала исходя из требований, задаваемых тегами длинны смарт-сценария. Например, отдельно считается хронометраж для всех крупных планов, всех общих планов, всех средних планов (см. фиг. 8, на которой (31) - монтажный сценарий, (32) - клипы, (34) - тэги в клипах, (33) - основной аудиотрек, (35) - список тэгов, (36) - количество включений каждого тэга, (37) - количество секунд, сколько клипы с данным тэгом используются в монтажном сценарии). As described earlier, each segment of the editing smart script has certain metadata formalized in the form of tags: size, additional parameters, etc. At the first stage, the algorithm summarizes the lengths of all metadata of the user's materials and checks the sufficiency of the material based on the requirements specified by the length tags of the smart script. For example, timing is considered separately for all close-ups, all general plans, all middle plans (see Fig. 8, in which (31) - editing script, (32) - clips, (34) - tags in clips, (33) - main audio track, (35) - list of tags, (36) - number of turns on each tag, (37) - number of seconds, how many clips with this tag are used in the editing script).
Пример автоматического монтажа цифровых видеофайлов. Алгоритм обращается к первому видеотегу из тегов (39) монтажного смарт-сценария (38), и проверяет, какие еще теги (39), воздействуют на таймлайн на протяжении этого видеотега. Из них собирается набор обязательных тэгов и набор опциональных тегов (39), который является подмножеством набора всех опциональных тегов (39) сегмента и может быть сформирован методом случайного выбора или более сложными алгоритмами. An example of automatic editing of digital video files. The algorithm refers to the first video tag from the tags (39) of the mounting smart script (38), and checks which other tags (39) affect the timeline during this video tag. From these, a set of required tags and a set of optional tags (39) are assembled, which is a subset of the set of all optional tags (39) of a segment and can be generated by random selection or more complex algorithms.
Видео пользователя также содержит различные тэги метаданных, определенные алгоритмом или введенные пользователем. Некоторые теги могут содержать весовую, или
вероятностную, часть, например, отмечают степень уверенности в распознанном образе, или удельное соотношение образов данного типа в плане. The user video also contains various metadata tags defined by the algorithm or entered by the user. Some tags may contain weight, or the probabilistic part, for example, is noted by the degree of confidence in the recognized image, or the specific ratio of images of this type in the plan.
Выбор фрагмента пользовательского видео для помещения в сегмент монтажный смарт-сценарий осуществляется стохастически, с учетом максимизации соответствия тегов фрагмента пользовательского видео тегам сценария (40). Если такой фрагмент найден, то в исходном материале пользователя (44) отмечается фрагмент (45), который поставлен на тайм-линию в монтажном сценарии (39) - для того, чтобы в дальнейшем больше не использовать этот фрагмент для монтажа и избежать повтора планов. The selection of a user video fragment for placement in the editing smart script segment is carried out stochastically, taking into account the maximization of the matching of the user video fragment tags to the script tags (40). If such a fragment is found, then the fragment (45) is marked in the source material of the user (44), which is set to the time line in the editing script (39) - in order to no longer use this fragment for editing and avoid repeating plans.
Если в исходном монтажном сценарии есть тэг звуковой эффект с параметром промежуточного шума - использование звука - то материал (см. фиг. 9) подбирается таким образом, чтобы захватить еще и миксы по началу и концу, то есть замиксовать звук по началу и концу (51 - микс). В тэге указывается, на какое количество секунд нужно замиксовать звук (52). Соответственно, звуковая дорожка меняется: помимо основного аудиотрека (50) алгоритм также использует аудиотрек из исходного материала пользователя (51). If in the initial editing script there is a sound effect tag with an intermediate noise parameter - use of sound - then the material (see Fig. 9) is selected in such a way as to capture the mixes at the beginning and end, that is, mix the sound at the beginning and end (51 - mix). The tag indicates how many seconds you need to mix the sound (52). Accordingly, the audio track changes: in addition to the main audio track (50), the algorithm also uses an audio track from the user's source material (51).
Для того, чтобы исключить повтор материала, каждый выбранный фрагмент (53) маркируется как уже использованный. Если поисковик, который представлен на фиг. 9, находит план (54), который в области (55) пересекается с (53), то этот план не является валидным. А план (56), не пересекающийся ни с каким другим фрагментом, является валидным, и его можно использовать при создании тайм-лайна из этого материала. In order to avoid duplication of material, each selected fragment (53) is marked as already used. If the search engine shown in FIG. 9, finds the plan (54), which in the region (55) intersects with (53), then this plan is not valid. And the plan (56), which does not intersect with any other fragment, is valid, and it can be used to create a timeline from this material.
В монтажном сценарии возможны такие включения, как «обработка материала пользователя», например, на фиг. 12 в монтажном сценарии (57) с аудиодорожкой (59) и с использованным аудио пользователя (60), встретился тэг "черное и белое" (61). Программа обрабатывает материал пользователя в соответствии с этим тэгом, в данном случае - делает его черно-белым. Параметр "скорость = 0" означает что при монтаже на всем протяжении действия этого тега должен присутствовать стоп-кадр (62) .
В монтажном сценарии возможно использование титров (58), которые пользователь может изменять по своему желанию. Если в монтажном сценарии встречается такой план, то у пользователя всегда есть возможность поменять текст, который есть в этом фрагменте монтажного сценария. In an editing scenario, such inclusions as “processing of user material” are possible, for example, in FIG. 12 in the editing script (57) with an audio track (59) and with the user's audio (60), the tag “black and white” (61) was encountered. The program processes the user's material in accordance with this tag, in this case - makes it black and white. The parameter "speed = 0" means that during installation throughout the action of this tag there should be a freeze frame (62). In the editing scenario, it is possible to use captions (58), which the user can change as he wishes. If such a plan is encountered in the editing script, then the user always has the opportunity to change the text that is in this fragment of the editing script.
Хотя с учетом вышеприведенного описания может быть сделан только один вариант реализации заявленного способа, специалист сведущий в данном направлении техники может реализовать различные варианты способа на основе вышеприведенного описания. Although, taking into account the above description, only one embodiment of the claimed method can be made, one skilled in the art can implement various variants of the method based on the above description.
Таким образом, как следует из приведенного выше описания заявленный способ реализуется локально на мобильном устройстве, используя только его вычислительные ресурсы, и при этом учитываются все специфические черты мобильного любительского видео, а также образуется возможность просматривать видоизмененные видеофайлы мгновенно, без задержки на предварительные вычисления. При этом заявленный способ учитывает закономерности восприятия видеоряда, используемые в профессиональном монтаже, позволяет массовое многократное использование, не требует от пользователя какой-либо квалификации и специальных знаний, а также позволяет пользователю быстро и гибко выбирать уровень ручного вмешательства в процесс обработки материала с учетом желания и возможностей. Кроме того, заявленный способ полностью обеспечивает получение видеофайлов более компактных как в отношении байтового размера, так и в отношении длительности, чем исходные видеоматериалы. Кроме того, заявленный способ обеспечивает получение видеофайлов, воспринимаемых как целые, завершенные произведения с уникальными характерными чертами, комфортных для просмотра, являющихся лучшей с точки зрения воздействия на зрителя «презентацией» события, а также позволяющих зрителю при просмотре составить представление о событии.
Thus, as follows from the above description, the claimed method is implemented locally on a mobile device using only its computing resources, and at the same time, all the specific features of mobile amateur video are taken into account, and it is also possible to view modified video files instantly, without delay in preliminary calculations. Moreover, the claimed method takes into account the patterns of perception of the footage used in professional editing, allows mass reuse, does not require any qualifications or special knowledge from the user, and also allows the user to quickly and flexibly select the level of manual intervention in the process of processing the material, taking into account the desire and of opportunities. In addition, the claimed method fully ensures the production of video files more compact both in terms of byte size and in terms of duration than the original video materials. In addition, the claimed method provides video files that are perceived as whole, complete works with unique characteristics, comfortable for viewing, which are the best from the point of view of influencing the viewer “presentation” of the event, as well as allowing the viewer to view the event when viewing.
Claims
1. Способ автоматического монтажа цифровых видеофайлов, в котором 1. A method for automatically editing digital video files, in which
создают, цифровой монтажный смарт-сценарий в форме цифрового файла данных, служащего виртуальным представлением монтажной тайм-линии, задающего create a digital montage smart script in the form of a digital data file that serves as a virtual representation of the montage time line defining
последовательность, в которой видеофрагменты определенной длительности с the sequence in which video clips of a certain duration with
определенными характеристиками соединяются (монтируются) между собой, и с аудиофрагментами определенной длительности с определенными характеристиками; включают в цифровой монтажный смарт-сценарий информацию о by certain characteristics they are connected (mounted) among themselves, and with audio fragments of a certain duration with certain characteristics; include digital editing smart script information about
последовательности, длительностях и относительном времени начала монтируемых видео- и аудиосегментов, информацию о последовательности, видах, длительностях и относительном времени начала преобразований потенциального содержимого видео- и аудиосегментов, фильтров и эффектов, а также информацию о масках метаданных, налагаемых на монтируемые видео- и аудиосегменты, и сужают таким образом круг видео и аудиоматериалов, которые могут быть смонтированы в последовательности, задаваемой цифровым монтажным смарт-сценарием; sequence, durations and relative start time of mounted video and audio segments, information about the sequence, types, durations and relative start time of transformations of potential contents of video and audio segments, filters and effects, as well as information about metadata masks superimposed on mounted video and audio segments , and thus narrow the range of video and audio materials that can be mounted in the sequence specified by the digital editing smart script;
создают видеоматериал посредством фиксации изображений на встроенную камеру мобильного телефона или портативную цифровую камеру; create video material by capturing images on the built-in camera of a mobile phone or portable digital camera;
сохраняют видеоматериал на мобильном телефоне, портативной цифровой камере, портативном устройстве транспортировки файлов, компьютерном устройстве или DVD- диске; save video material on a mobile phone, portable digital camera, portable file transfer device, computer device or DVD;
создают список упомянутых видеоматериалов для монтажа, для использования в качестве исходных материалов для монтажа цифрового видеофайла; create a list of the mentioned video materials for editing, for use as source materials for editing a digital video file;
извлекают метаданные из вышеупомянутого видеоматериала, включая extract metadata from the aforementioned video material, including
вспомогательные метаданные о месте и дате съемки, gps-координатах, направлении движения объектов съемки по отношению к плоскости линзы камеры или оптическим осям камеры, направления движения камеры по отношению к фиксируемой сцене, о типе
зафиксированных объектов, о направлении вектора съемки, об освещенности и цветовой насыщенности сцены, о звуковом фоне сцены в них, при этом метаданные не auxiliary metadata about the location and date of shooting, GPS coordinates, the direction of movement of the objects of the shooting relative to the plane of the camera lens or the optical axes of the camera, the direction of movement of the camera relative to the fixed scene, about the type fixed objects, about the direction of the shooting vector, about the illumination and color saturation of the scene, about the sound background of the scene in them, while the metadata is not
ограничивают вспомогательными метаданными; limited to auxiliary metadata;
вводят дополнительные метаданные о видеоматериале; introduce additional metadata about the video material;
сохраняют метаданные, вспомогательные и дополнительные метаданные в форме набора цифровых файлов данных; save metadata, auxiliary and additional metadata in the form of a set of digital data files;
выбирают фрагменты видеоматериалы таким образом, чтобы длительность видеофрагмента соответствовала требованиям слота к длительности фрагмента, и при этом максимизировалась оценка соответствия метаданных выбранного фрагмента видеоматериала маске видеотега смартсценария, сборки цифрового фильма из фрагментов цифровых видеофайлов, монтируемых в соответствии с метаданными и монтажными инструкциями, извлекаемыми из цифрового монтажного сценария; fragments of video material are selected in such a way that the duration of the video fragment matches the slot requirements for the fragment duration, while maximizing the compliance of the metadata of the selected fragment of the video material with the smart script video tag mask, assembling a digital film from fragments of digital video files mounted in accordance with the metadata and editing instructions extracted from the digital editing script;
размещают упомянутые фрагменты видеоматериала в каждом видеотеге place said fragments of video material in each video tag
упомянутого смарт-сценария; the mentioned smart script;
сохраняют полученный цифровой видеофайл. save the received digital video file.
2. Способ по п.1, в котором создают цифровой монтажный смарт-сценарий в форме xml-файла, при этом включают в него набор специальных тегов, каждый из которых имеет собственные параметры длительности и относительного времени начала, отсчитываемого с первой милисекунды смарт-сценария, кроме того, каждый тег имеет указание типа тега, в том числе, видеотег, аудиотег, тег-эффект или метатег, также каждый тег имеет специфические для типа тега параметры тега и предустановленные значения тега, или выражение, или алгоритм посредством которого вычисляют значение параметра тега на основе значений параметров других тегов смартсценария и входной информации, задаваемой на этапе монтажа. 2. The method according to claim 1, in which they create a digital editing smart script in the form of an xml file, and include a set of special tags, each of which has its own parameters for the duration and relative start time, counted from the first millisecond of the smart script in addition, each tag has an indication of the type of tag, including video tag, audio tag, effect tag or meta tag, also each tag has tag specific parameters and preset tag values, or an expression or algorithm by which to calculate the value of the tag parameter based on the parameter values of other smart script tags and the input information specified at the installation stage.
3. Способ по п.2, в котором в упомянутые теги включают ссылки на уже 3. The method according to claim 2, in which the mentioned tags include links to already
существующие фрагменты аудио- и видеоматериалов.
existing fragments of audio and video materials.
4. Способ по п.1, в котором при извлечении метаданных из видеоматериала выполняют: 4. The method according to claim 1, in which when extracting metadata from the video material perform:
автоматическое распознавание типов движения камеры, движения automatic recognition of types of camera movement, movement
объекта в кадре, плана, включая, но не ограничивая, средний план, the object in the frame, the plan, including, but not limited to, the average plan,
крупный план и общий план, объектов плана, включая, но не ограничивая, типами «человек», «животное», «пейзаж», «интерьер», «экстерьер», и/или выполняют автоматическое распознавания человеческой речи и других звуков, звучащих в кадре, преобразуют упомянутые звуков в соответствующий текст, и выделяют ключевые слова; и/или a close-up and general plan of objects of the plan, including, but not limited to, the types of “man”, “animal”, “landscape”, “interior”, “exterior”, and / or perform automatic recognition of human speech and other sounds that sound in frame, the mentioned sounds are transformed into the corresponding text, and keywords are highlighted; and / or
извлекают специальных для данного формата цифрового видеофайла теги, включая, но не ограничивая геотэгами, датой создания цифрового видеофайла. retrieve tags specific to the digital video file format, including, but not limited to geotags, the date the digital video file was created.
4. Способ по п.1 , в котором для ввода дополнительных метаданных выполняют, по меньшей мере, одно из следующих действий: 4. The method according to claim 1, in which at least one of the following steps is performed to enter additional metadata:
предъявление пользователю списка ключевых слов для выбора пользователем тех ключевых слов, которые, наилучшим образом описывают содержимое видеоматериала или его отдельных фрагментов; presenting to the user a list of keywords for the user to select those keywords that best describe the contents of the video material or its individual fragments;
предъявление пользователю иерархии тематических категорий для помещения пользователем каждого, нескольких, или всех видеоматериалов в одну или несколько предъявленных категорий; presentation to the user of a hierarchy of thematic categories for the user to place each, several, or all video materials in one or more of the presented categories;
предъявление пользователю формы ввода для произвольных ключевых слов, описывающих содержимое видеоматериалов; presentation to the user of an input form for arbitrary keywords describing the contents of the video materials;
предъявление пользователю инструкций и рекомендуемой последовательности действий при создании видеоматериалов, в виде текста, звука или изображений, в том числе, текста, звука и изображений, транслируемых пользователю в момент создания им цифрового видеоматериала;
регистрацию положения плоскости линзы камеры в трехмерном пространстве, осуществляемую во время съемки цифрового видеофайла путем записи выходной информации датчиков положения в пространстве, встроенных в устройство съемки видеофайлов, включая, но не ограничивая мобильными телефонами или цифровыми камерами. providing the user with instructions and the recommended sequence of actions when creating video materials, in the form of text, sound or images, including text, sound and images transmitted to the user at the time of creation of the digital video material; registration of the position of the plane of the camera lens in three-dimensional space, carried out during the shooting of a digital video file by recording the output information of the position sensors in space, built-in device for shooting video files, including, but not limited to mobile phones or digital cameras.
5. Способ по п.1 , в котором выбор фрагмента видеоматериала для его размещения в видеотеге смартсценария осуществляют, по меньшей мере, одним из следующих способов: 5. The method according to claim 1, in which the selection of a fragment of the video material for its placement in the video tag of the smart script is carried out by at least one of the following methods:
случайным выбором одной части цифрового видеофайла из всех частей цифрового видеофайла, которые отвечают по своим параметрам упомянутым требованиям слота; выбором нужной части цифрового видеофайла; a random selection of one part of the digital video file from all parts of the digital video file that meet the specified requirements of the slot in terms of their parameters; selecting the desired part of the digital video file;
выбором из подмножества фрагментов видеоматериалов такого, который максимизирует соответствие задаваемым требованиям с использованием хорошо известных процедур нахождения локального максимума в n-мерной плоскости, включая, но не ограничивая способы генетического поиска, градиентного спуска и имитации отжига. selecting from a subset of fragments of video material such that maximizes compliance with the given requirements using well-known procedures for finding a local maximum in the n-dimensional plane, including, but not limited to methods of genetic search, gradient descent, and simulated annealing.
6. Способ по п.1 , в котором цифровые монтажные смарт-сценарии, метаданные, вспомогательные и дополнительные метаданные, цифровые видеофайлы сохраняют на компьютерное устройство или портативное устройство транспортировки файлов, или мобильный телефон, или цифровую камеру, а затем передают по сетям связи на другое компьютерное устройство или портативное устройство транспортировки файлов, или мобильный телефон, или цифровую камеру.
6. The method according to claim 1, in which digital editing smart scripts, metadata, auxiliary and additional metadata, digital video files are stored on a computer device or portable file transfer device, or mobile phone, or digital camera, and then transmitted over communication networks to another computer device or portable file transfer device, or mobile phone, or digital camera.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2011151305 | 2011-12-15 | ||
RU2011151305 | 2011-12-15 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013187796A1 true WO2013187796A1 (en) | 2013-12-19 |
Family
ID=49758514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/RU2013/000121 WO2013187796A1 (en) | 2011-12-15 | 2013-02-14 | Method for automatically editing digital video files |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2013187796A1 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017204679A1 (en) * | 2016-05-27 | 2017-11-30 | Ooo "Проект Видеосервис" | Method for automatically creating video content taking into account the preferences of a user |
CN111432289A (en) * | 2020-04-10 | 2020-07-17 | 深圳市年代丰华智能科技有限公司 | Video generation method based on video adjustment |
CN115134646A (en) * | 2022-08-25 | 2022-09-30 | 荣耀终端有限公司 | Video editing method and electronic equipment |
CN115484400A (en) * | 2021-06-16 | 2022-12-16 | 荣耀终端有限公司 | Video data processing method and electronic equipment |
CN118828054A (en) * | 2024-09-18 | 2024-10-22 | 成都索贝数码科技股份有限公司 | A method and system for auxiliary editing of broadcast and television news videos |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040027369A1 (en) * | 2000-12-22 | 2004-02-12 | Peter Rowan Kellock | System and method for media production |
US20050217462A1 (en) * | 2004-04-01 | 2005-10-06 | Thomson J Keith | Method and apparatus for automatically creating a movie |
US20070162855A1 (en) * | 2006-01-06 | 2007-07-12 | Kelly Hawk | Movie authoring |
US7716572B2 (en) * | 2006-07-14 | 2010-05-11 | Muvee Technologies Pte Ltd. | Creating a new music video by intercutting user-supplied visual data with a pre-existing music video |
-
2013
- 2013-02-14 WO PCT/RU2013/000121 patent/WO2013187796A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040027369A1 (en) * | 2000-12-22 | 2004-02-12 | Peter Rowan Kellock | System and method for media production |
US20050217462A1 (en) * | 2004-04-01 | 2005-10-06 | Thomson J Keith | Method and apparatus for automatically creating a movie |
US20070162855A1 (en) * | 2006-01-06 | 2007-07-12 | Kelly Hawk | Movie authoring |
US7716572B2 (en) * | 2006-07-14 | 2010-05-11 | Muvee Technologies Pte Ltd. | Creating a new music video by intercutting user-supplied visual data with a pre-existing music video |
Non-Patent Citations (1)
Title |
---|
EKSLER A.: "Liubitelskii videomontazh v Movie Maker", 14 February 2007 (2007-02-14), Retrieved from the Internet <URL:http://www.exler.ru/expromt/14-02-2007.htm> [retrieved on 20130916] * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017204679A1 (en) * | 2016-05-27 | 2017-11-30 | Ooo "Проект Видеосервис" | Method for automatically creating video content taking into account the preferences of a user |
CN111432289A (en) * | 2020-04-10 | 2020-07-17 | 深圳市年代丰华智能科技有限公司 | Video generation method based on video adjustment |
CN111432289B (en) * | 2020-04-10 | 2022-05-13 | 深圳运动加科技有限公司 | Video generation method based on video adjustment |
CN115484400A (en) * | 2021-06-16 | 2022-12-16 | 荣耀终端有限公司 | Video data processing method and electronic equipment |
CN115484400B (en) * | 2021-06-16 | 2024-04-05 | 荣耀终端有限公司 | Video data processing method and electronic device |
CN115134646A (en) * | 2022-08-25 | 2022-09-30 | 荣耀终端有限公司 | Video editing method and electronic equipment |
CN118828054A (en) * | 2024-09-18 | 2024-10-22 | 成都索贝数码科技股份有限公司 | A method and system for auxiliary editing of broadcast and television news videos |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789478B2 (en) | System and method of providing recommendations of moments of interest within video clips post capture | |
US11468914B2 (en) | System and method of generating video from video clips based on moments of interest within the video clips | |
US9940970B2 (en) | Video remixing system | |
JP5092000B2 (en) | Video processing apparatus, method, and video processing system | |
CN101356800B (en) | Content imaging apparatus | |
CN111083138B (en) | Short video production system, method, electronic device and readable storage medium | |
US9430115B1 (en) | Storyline presentation of content | |
US20100223128A1 (en) | Software-based Method for Assisted Video Creation | |
JP4510718B2 (en) | Image output apparatus and control method thereof | |
JP2000350159A (en) | Video image edit system | |
CN103535023A (en) | Video summary including a particular person | |
JP2008312061A (en) | Image processor, image processing method, and program | |
CN110992993A (en) | Video editing method, video editing apparatus, terminal, and readable storage medium | |
JP2010232814A (en) | Video editing program, and video editing device | |
WO2018050021A1 (en) | Virtual reality scene adjustment method and apparatus, and storage medium | |
WO2013187796A1 (en) | Method for automatically editing digital video files | |
CN104410924B (en) | A kind of multimedia titles display methods and device | |
JP6043753B2 (en) | Content reproduction system, server, portable terminal, content reproduction method, program, and recording medium | |
KR101843025B1 (en) | System and Method for Video Editing Based on Camera Movement | |
Iseli et al. | The Aesthetics and Perception of Documentary Film: A mixed methods approach and its implications for Artistic Research | |
WO2022239281A1 (en) | Image processing device, image processing method, and program | |
KR20180001541A (en) | System for Providing Studio Device Control Sequence Sharing Service and Method thereof | |
JP6110731B2 (en) | Command input recognition system by gesture | |
KR20170143076A (en) | System for Providing Studio Device Control Sequence Sharing Service and Method thereof | |
US20160127807A1 (en) | Dynamically determined audiovisual content guidebook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13803955 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13803955 Country of ref document: EP Kind code of ref document: A1 |