H.262/MPEG-2 Parte 2
H.262/MPEG-2 Parte 2 | |
---|---|
Status | |
À força | |
Ano de início | |
1995 | |
Primeira publicação | |
Maio de 1996 | |
Última versão | |
ISO/IEC 13818-2:2013 Outubro 2013 | |
Organização | |
ITU-T, ISO/IEC JTC 1 | |
Committee | |
ITU-T Study Group 16, VCEG, MPEG | |
Padrões base | |
H.261, MPEG-2 | |
Padrões relacionados | |
H.222.0, H.263, H.264, H.265, H.266, ISO/IEC 14496-2 | |
Domínio | |
Compressão de vídeo | |
Licença | |
Patentes expiradas[1] | |
Website | |
https://www.itu.int/rec/T-REC-H.262 | |
H.262[2] ou MPEG-2 Part 2 (formalmente conhecido como ITU-T Recommendation H.262 e ISO/IEC 13818-2,[3] também conhecido como MPEG-2 Video) é um formato de codificação de vídeo padronizado e mantido em conjunto pelo ITU-T Study Group 16 Video Coding Experts Group (VCEG) e ISO/IEC Moving Picture Experts Group (MPEG), e desenvolvido com o envolvimento de muitas empresas. É a segunda parte do padrão ISO/IEC MPEG-2. Os documentos Recomendação ITU-T H.262 e ISO/IEC 13818-2 são idênticos.
O padrão está disponível por uma taxa da ITU-T[2] e ISO. O vídeo MPEG-2 é muito semelhante ao MPEG-1, mas também fornece suporte para vídeo entrelaçado (uma técnica de codificação usada em sistemas de televisão analógicos NTSC, PAL e SECAM). O vídeo MPEG-2 não é otimizado para baixas taxas de bits (por exemplo, menos de 1 Mbit/s), mas supera um pouco o MPEG-1 em taxas de bits mais altas (por exemplo, 3 Mbit/s e acima), embora não por uma grande margem, a menos que o vídeo seja entrelaçado. Todos os decodificadores de vídeo MPEG-2 em conformidade com os padrões também são totalmente capazes de reproduzir fluxos de vídeo MPEG-1.[4]
História
[editar | editar código-fonte]O processo de aprovação ISO/IEC foi concluído em novembro de 1994.[5] A primeira edição foi aprovada em julho de 1995[6] e publicada pela ITU-T[2] e ISO/IEC em 1996.[7] Didier LeGall da Bellcore presidiu o desenvolvimento do padrão[8] e Sakae Okubo da NTT foi o coordenador da ITU-T e presidiu os acordos sobre seus requisitos.[9]
A tecnologia foi desenvolvida com contribuições de várias empresas. A Hyundai Electronics (agora SK Hynix) desenvolveu o primeiro decodificador MPEG-2 SAVI (Sistema/Áudio/Vídeo) em 1995.[10]
A maioria das patentes que mais tarde foram declaradas num fundo de patentes como essenciais para a implementação da norma vieram de três empresas: Sony (311 patentes), Thomson (198 patentes) e Mitsubishi Electric (119 patentes).[11]
Em 1996, foi ampliado por duas emendas para incluir o registro de identificadores de direitos autorais e o Perfil 4:2:2.[2][12] A ITU-T publicou essas emendas em 1996 e a ISO em 1997.[7]
Existem também outras alterações publicadas posteriormente pela ITU-T e ISO/IEC.[2][13] A edição mais recente da norma foi publicada em 2013 e incorpora todas as alterações anteriores.[3]
Edições
[editar | editar código-fonte]Edição | Data de lançamento | Última alteração | Norma ISO/IEC | Recomendação ITU-T |
---|---|---|---|---|
Primeira edição | 1995 | 2000 | ISO/IEC 13818-2:1996[7] | H.262 (07/95) |
Segunda edição | 2000 | 2010[2][14] | ISO/IEC 13818-2:2000[15] | H.262 (02/00) |
Terceira edição | 2013 | ISO/IEC 13818-2:2013[3] | H.262 (02/12), incorporando a Emenda 1 (03/13) |
Codificação de vídeo
[editar | editar código-fonte]Amostragem de imagem
[editar | editar código-fonte]Uma câmera HDTV com amostragem de 8 bits gera um fluxo de vídeo bruto de 25 × 1920 × 1080 × 3 = 155.520.000 bytes por segundo para vídeo de 25 quadros por segundo (usando o formato de amostragem 4:4:4). Esse fluxo de dados deve ser compactado se a TV digital for para caber na largura de banda dos canais de TV disponíveis e se os filmes forem para caber em DVDs. A compactação de vídeo é prática porque os dados nas imagens são frequentemente redundantes no espaço e no tempo. Por exemplo, o céu pode ser azul na parte superior de uma imagem e esse céu azul pode persistir quadro após quadro. Além disso, devido à maneira como o olho funciona, é possível excluir ou aproximar alguns dados de imagens de vídeo com pouca ou nenhuma degradação perceptível na qualidade da imagem.
Um truque comum (e antigo) para reduzir a quantidade de dados é separar cada "quadro" completo de vídeo em dois "campos" na transmissão/codificação: o "campo superior", que são as linhas horizontais ímpares, e o "campo inferior", que são as linhas pares. Na recepção/decodificação, os dois campos são exibidos alternadamente com as linhas de um campo intercaladas entre as linhas do campo anterior; esse formato é chamado de vídeo entrelaçado. A taxa de campo típica é de 50 (Europa/PAL) ou 59,94 (EUA/NTSC) campos por segundo, correspondendo a 25 (Europa/PAL) ou 29,97 (América do Norte/NTSC) quadros inteiros por segundo. Se o vídeo não for entrelaçado, ele é chamado de vídeo de varredura progressiva e cada imagem é um quadro completo. O MPEG-2 suporta ambas as opções.
A televisão digital requer que essas imagens sejam digitalizadas para que possam ser processadas por hardware de computador. Cada elemento da imagem (um pixel) é então representado por um número luma e dois números chroma. Eles descrevem o brilho e a cor do pixel (veja YCbCr). Assim, cada imagem digitalizada é inicialmente representada por três matrizes retangulares de números.
Outra prática comum para reduzir a quantidade de dados a serem processados é subamostrar os dois planos de croma (após filtragem passa-baixa para evitar aliasing). Isso funciona porque o sistema visual humano resolve melhor os detalhes de brilho do que os detalhes de matiz e saturação das cores. O termo 4:2:2 é usado para vídeo com o croma subamostrado por uma proporção de 2:1 horizontalmente, e 4:2:0 é usado para vídeo com o croma subamostrado por 2:1 verticalmente e horizontalmente. O vídeo que tem luma e croma na mesma resolução é chamado de 4:4:4 . O documento MPEG-2 Video considera todos os três tipos de amostragem, embora 4:2:0 seja de longe o mais comum para vídeo de consumidor, e não haja "perfis" definidos de MPEG-2 para vídeo 4:4:4 (veja abaixo para mais discussões sobre perfis).
Embora a discussão abaixo nesta seção descreva geralmente a compressão de vídeo MPEG-2, há muitos detalhes que não são discutidos, incluindo detalhes envolvendo campos, formatos de crominância, respostas a mudanças de cena, códigos especiais que rotulam as partes do bitstream e outras informações. Além dos recursos para lidar com campos para codificação entrelaçada, o vídeo MPEG-2 é muito semelhante ao vídeo MPEG-1 (e até mesmo bastante semelhante ao padrão H.261 anterior), então toda a descrição abaixo se aplica igualmente bem ao MPEG-1.
I-frames, P-frames, e B-frames
[editar | editar código-fonte]O MPEG-2 inclui três tipos básicos de quadros codificados: quadros intracodificados (quadros I), quadros codificados preditivamente (quadros P) e quadros codificados preditivamente bidirecionalmente (quadros B).
Um quadro I é uma versão comprimida separadamente de um único quadro não comprimido (bruto). A codificação de um quadro I aproveita a redundância espacial e a incapacidade do olho de detectar certas mudanças na imagem. Ao contrário dos quadros P e B, os quadros I não dependem de dados nos quadros anteriores ou seguintes e, portanto, sua codificação é muito semelhante à forma como uma fotografia estática seria codificada (aproximadamente semelhante à codificação de imagem JPEG). Resumidamente, o quadro bruto é dividido em blocos de 8 pixels por 8 pixels. Os dados em cada bloco são transformados pela transformada discreta de cosseno (DCT). O resultado é uma matriz 8×8 de coeficientes que têm valores numéricos reais. A transformada converte variações espaciais em variações de frequência, mas não altera as informações no bloco; se a transformada for computada com precisão perfeita, o bloco original pode ser recriado exatamente aplicando a transformada inversa de cosseno (também com precisão perfeita). A conversão de inteiros de 8 bits para coeficientes de transformação de valor real na verdade expande a quantidade de dados usados neste estágio do processamento, mas a vantagem da transformação é que os dados da imagem podem então ser aproximados pela quantização dos coeficientes. Muitos dos coeficientes de transformação, geralmente os componentes de frequência mais alta, serão zero após a quantização, que é basicamente uma operação de arredondamento. A penalidade desta etapa é a perda de algumas distinções sutis em brilho e cor. A quantização pode ser grosseira ou fina, conforme selecionado pelo codificador. Se a quantização não for muito grosseira e alguém aplicar a transformação inversa à matriz após ela ser quantizada, obtém-se uma imagem que parece muito semelhante à imagem original, mas não é exatamente a mesma. Em seguida, a matriz de coeficientes quantizada é ela própria comprimida. Normalmente, um canto da matriz 8×8 de coeficientes contém apenas zeros após a quantização ser aplicada. Começando no canto oposto da matriz, então ziguezagueando pela matriz para combinar os coeficientes em uma sequência, então substituindo códigos de comprimento de execução por zeros consecutivos naquela sequência, e então aplicando a codificação de Huffman a esse resultado, reduz-se a matriz a uma quantidade menor de dados. São esses dados codificados por entropia que são transmitidos ou que são colocados em DVDs. No receptor ou no tocador, todo o processo é revertido, permitindo que o receptor reconstrua, com uma aproximação próxima, o quadro original.
O processamento de quadros B é similar ao de quadros P, exceto que os quadros B usam a imagem em um quadro de referência subsequente, bem como a imagem em um quadro de referência precedente. Como resultado, os quadros B geralmente fornecem mais compressão do que os quadros P. Os quadros B nunca são quadros de referência em vídeo MPEG-2.
Normalmente, cada 15º quadro ou mais é transformado em um quadro I. Quadros P e quadros B podem seguir um quadro I como este, IBBPBPBBPBB(I), para formar um Grupo de Imagens (GOP); no entanto, o padrão é flexível sobre isso. O codificador seleciona quais imagens são codificadas como quadros I, P e B.
Macroblocos
[editar | editar código-fonte]Os quadros P fornecem mais compressão do que os quadros I porque eles aproveitam os dados em um quadro I ou quadro P anterior – um quadro de referência. Para gerar um quadro P, o quadro de referência anterior é reconstruído, assim como seria em um receptor de TV ou DVD player. O quadro que está sendo comprimido é dividido em macroblocos de 16 pixels por 16 pixels. Então, para cada um desses macroblocos, o quadro de referência reconstruído é pesquisado para encontrar uma área de 16 por 16 que corresponda de perto ao conteúdo do macrobloco que está sendo comprimido. O deslocamento é codificado como um "vetor de movimento". Frequentemente, o deslocamento é zero, mas se algo na imagem estiver se movendo, o deslocamento pode ser algo como 23 pixels para a direita e 4 pixels e meio para cima. Em MPEG-1 e MPEG-2, os valores do vetor de movimento podem representar deslocamentos inteiros ou deslocamentos meio inteiros. A correspondência entre as duas regiões geralmente não será perfeita. Para corrigir isso, o codificador pega a diferença de todos os pixels correspondentes das duas regiões e, nessa diferença do macrobloco, então calcula o DCT e as sequências de valores de coeficiente para as quatro áreas 8×8 no macrobloco 16×16, conforme descrito acima. Esse "resíduo" é anexado ao vetor de movimento e o resultado é enviado ao receptor ou armazenado no DVD para cada macrobloco sendo compactado. Às vezes, nenhuma correspondência adequada é encontrada. Então, o macrobloco é tratado como um macrobloco I-frame.
Perfis e níveis de vídeo
[editar | editar código-fonte]O vídeo MPEG-2 suporta uma ampla gama de aplicações, desde dispositivos móveis até edição HD de alta qualidade. Para muitas aplicações, é irrealista e muito caro suportar o padrão inteiro. Para permitir que tais aplicações suportem apenas subconjuntos dele, o padrão define perfis e níveis.
Um perfil define conjuntos de recursos como imagens B, vídeo 3D, formato chroma, etc. O nível limita a memória e o poder de processamento necessários, definindo taxas de bits máximas, tamanhos de quadros e taxas de quadros.
Um aplicativo MPEG especifica então as capacidades em termos de perfil e nível. Por exemplo, um reprodutor de DVD pode dizer que suporta até o perfil principal e o nível principal (frequentemente escrito como MP@ML). Isso significa que o reprodutor pode reproduzir qualquer fluxo MPEG codificado como MP@ML ou menos.
As tabelas abaixo resumem as limitações de cada perfil e nível, embora existam restrições não listadas aqui.[2]:Anexo E Observe que nem todas as combinações de perfil e nível são permitidas, e os modos escaláveis modificam as restrições de nível.
Abbr. | Nome | Tipos de codificação de imagem | Formato Chroma | Modos escaláveis | Precisão Intra DC |
---|---|---|---|---|---|
SP | Perfil simples (Simple profile) | I, P | 4:2:0 | nenhum | 8, 9, 10 |
MP | Perfil principal (Main profile) | I, P, B | 4:2:0 | nenhum | 8, 9, 10 |
SNR | Perfil escalável SNR (SNR Scalable profile) | I, P, B | 4:2:0 | SNR[a] | 8, 9, 10 |
Espacial (Spatial) | Perfil escalável espacialmente (Spatially Scalable profile) | I, P, B | 4:2:0 | SNR,[a] spatial[b] | 8, 9, 10 |
HP | De alto perfil (High-profile) | I, P, B | 4:2:2 or 4:2:0 | SNR,[a] spatial[b] | 8, 9, 10, 11 |
422 | Perfil 4:2:2 (4:2:2 profile) | I, P, B | 4:2:2 or 4:2:0 | nenhum | 8, 9, 10, 11 |
MVP | Perfil multivisualização (Multi-view profile) | I, P, B | 4:2:0 | Temporal[c] | 8, 9, 10 |
- ↑ a b c A escalabilidade SNR envia as diferenças de domínio de transformação para um nível de quantização mais baixo de cada bloco, aumentando a qualidade e a taxa de bits quando ambos os fluxos são combinados. Um fluxo principal pode ser recriado sem perdas.
- ↑ a b A escalabilidade espacial codifica a diferença entre os fluxos HD e SD ampliados, que é combinada com o SD para recriar o fluxo HD. A O fluxo principal não pode ser recriado sem perdas.
- ↑ A escalabilidade temporal insere quadros extras entre cada quadro base, para aumentar a taxa de quadros ou adicionar um ponto de vista 3D. Este é o único perfil MPEG-2 que permite referências de quadros adaptáveis, um recurso proeminente do H.264/AVC. Um fluxo principal pode ser recriado sem perdas somente se referências estendidas não forem usadas.
Abbr. | Nome | Taxas de quadros (Hz) |
Resolução máxima | Amostras de luminância máxima por segundo (aproximadamente altura x largura x taxa de quadros) |
Taxa de bits máxima MP@ (Mbit/s) | |
---|---|---|---|---|---|---|
horizontal | vertical | |||||
LL | Nível baixo (Low Level) | 23.976, 24, 25, 29.97, 30 | 352 | 288 | 3,041,280 | 4 |
ML | Nível principal (Main Level) | 23.976, 24, 25, 29.97, 30 | 720 | 576 | 10,368,000, exceto em alto perfil: a restrição é 14,475,600 para 4:2:0 e 11,059,200 for 4:2:2 | 15 |
H-14 | Alta 1440 (High 1440) | 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 | 1440 | 1152 | 47,001,600, exceto em alto perfil: a restrição é 62,668,800 para 4:2:0 | 60 |
HL | Alto nível (High Level) | 23.976, 24, 25, 29.97, 30, 50, 59.94, 60 | 1920 | 1152 | 62,668,800, exceto em alto perfil: a restrição é 83,558,400 para 4:2:0 | 80 |
Algumas combinações comuns de Perfil/Nível MPEG-2 são apresentadas abaixo, com limites máximos específicos observados:
Perfil @ Nível | Resolução (px) | Taxa de quadros máx. (Hz) | Amostragem | Taxa de bits (Mbit/s) | Exemplo de aplicação |
---|---|---|---|---|---|
SP@LL | 176 × 144 | 15 | 4:2:0 | 0.096 | Aparelhos sem fio |
SP@ML | 352 × 288 | 15 | 4:2:0 | 0.384 | PDAs |
320 × 240 | 24 | ||||
MP@LL | 352 × 288 | 30 | 4:2:0 | 4 | Decodificadores (STB) |
MP@ML | 720 × 480 | 30 | 4:2:0 | 15 | DVD (9.8 Mbit/s), SD DVB (15 Mbit/s) |
720 × 576 | 25 | ||||
MP@H-14 | 1440 × 1080 | 30 | 4:2:0 | 60 | HDV (25 Mbit/s) |
1280 × 720 | 30 | ||||
MP@HL | 1920 × 1080 | 30 | 4:2:0 | 80 | ATSC (18.3 Mbit/s), SD DVB (31 Mbit/s), HD DVB (50.3 Mbit/s) |
1280 × 720 | 60 | ||||
422P@ML | 720 × 480 | 30 | 4:2:2 | 50 | Sony IMX (somente I), Contribuição de transmissão ((somente I&P) |
720 × 576 | 25 | ||||
422P@H-14 | 1440 × 1080 | 30 | 4:2:2 | 80 | |
422P@HL | 1920 × 1080 | 30 | 4:2:2 | 300 | Sony MPEG HD422 (50 Mbit/s), Canon XF Codec (50 Mbit/s), gravador Convergent Design Nanoflash (até 160 Mbit/s) |
1280 × 720 | 60 |
Aplicações
[editar | editar código-fonte]Algumas aplicações estão listadas abaixo.
- DVD-Video – um formato de vídeo de consumidor de definição padrão. Usa subamostragem de cor 4:2:0 e taxa de dados de vídeo variável de até 9,8 Mbit/s.
- MPEG IMX – um formato de gravação de vídeo profissional de definição padrão. Usa compressão intraframe, subamostragem de cor 4:2:2 e taxa de dados de vídeo constante selecionável pelo usuário de 30, 40 ou 50 Mbit/s.
- HDV – um formato de gravação de vídeo de alta definição baseado em fita. Usa subamostragem de cor 4:2:0 e taxa de dados total de 19,4 ou 25 Mbit/s.
- XDCAM – uma família de formatos de gravação de vídeo sem fita, que, em particular, inclui formatos baseados em MPEG-2 Parte 2. São eles: definição padrão MPEG IMX (veja acima), alta definição MPEG HD, alta definição MPEG HD422. MPEG IMX e MPEG HD422 empregam subamostragem de cor 4:2:2, MPEG HD emprega subamostragem de cor 4:2:0. A maioria dos subformatos usa taxa de dados de vídeo constante selecionável de 25 a 50 Mbit/s, embora também haja um modo de taxa de bits variável com taxa de dados máxima de 18 Mbit/s.
- Codec XF – um formato profissional de gravação de vídeo sem fita, semelhante ao MPEG HD e MPEG HD422, mas armazenado em um arquivo contêiner diferente.
- HD DVD – formato de vídeo de alta definição para o consumidor que não existe mais.
- Blu-ray Disc – formato de vídeo de alta definição para o consumidor.
- TV transmitida – em alguns países, o MPEG-2 Parte 2 é usado para transmissão digital em alta definição. Por exemplo, o ATSC especifica vários formatos de varredura (480i, 480p, 720p, 1080i, 1080p) e taxas de quadro/campo em subamostragem de cor 4:2:0, com taxa de dados de até 19,4 Mbit/s por canal.
- TV a cabo digital
- TV via satélite
Titulares de patentes
[editar | editar código-fonte]As seguintes organizações detêm patentes para a tecnologia de vídeo MPEG-2, conforme listado em MPEG LA. Todas essas patentes estão expiradas nos EUA e na maioria dos outros territórios.[1]
Organização | Patentes[16] |
---|---|
Sony Corporation | 311 |
Thomson Licensing | 198 |
Mitsubishi Electric | 119 |
Philips | 99 |
GE Technology Development, Inc. | 75 |
Panasonic Corporation | 55 |
CIF Licensing, LLC | 44 |
JVC Kenwood | 39 |
Samsung Electronics | 38 |
Alcatel Lucent (incluindo Multimedia Patent Trust) | 33 |
Cisco Technology, Inc. | 13 |
Toshiba Corporation | 9 |
Columbia University | 9 |
LG Electronics | 8 |
Hitachi | 7 |
Orange S.A. | 7 |
Fujitsu | 6 |
Robert Bosch GmbH | 5 |
General Instrument | 4 |
British Telecommunications | 3 |
Canon Inc. | 2 |
KDDI Corporation | 2 |
Nippon Telegraph and Telephone (NTT) | 2 |
ARRIS Technology, Inc. | 2 |
Sanyo Electric | 1 |
Sharp Corporation | 1 |
Hewlett Packard Enterprise Company | 1 |
- ↑ a b «MPEG-2 patent expiration opens door for royalty-free use». TechRepublic. 15 de fevereiro de 2018. Consultado em 3 de setembro de 2024
- ↑ a b c d e f g «H.262 : Information technology – Generic coding of moving pictures and associated audio information: Video». ITU-T Website. International Telecommunication Union – Telecommunication Standardization Sector (ITU-T). Fevereiro de 2000. Consultado em 3 de setembro de 2024
- ↑ a b c ISO. «ISO/IEC 13818-2:2013 – Information technology – Generic coding of moving pictures and associated audio information: Video». ISO. Consultado em 3 de setembro de 2024
- ↑ The Moving Picture Experts Group. «MPEG-2 Video». Consultado em 3 de setembro de 2024. Cópia arquivada em 25 de março de 2019 – via mpeg.chiariglione.org
- ↑ P.N. Tudor (Dezembro de 2005). «MPEG-2 Video compression». Consultado em 3 de setembro de 2024. Cópia arquivada em 10 de janeiro de 2008
- ↑ H.262 (07/95) Information Technology – Generic Coding of Moving Picture and Associated Audio Information: Video, ITU, consultado em 3 de setembro de 2024
- ↑ a b c ISO. «ISO/IEC 13818-2:1996 – Information technology – Generic coding of moving pictures and associated audio information: Video». ISO. Consultado em 3 de setembro de 2024
- ↑ «Didier LeGall, Executive Vice President». Ambarella Inc. Consultado em 3 de setembro de 2024. Cópia arquivada em 5 de fevereiro de 2016
- ↑ «Sakae Okubo». ITU. Consultado em 3 de setembro de 2024
- ↑ «History: 1990s». SK Hynix. Consultado em 3 de setembro de 2024. Arquivado do original em 5 de fevereiro de 2021
- ↑ «MPEG-2 Patent List» (PDF). MPEG LA. Consultado em 3 de setembro de 2024. Cópia arquivada (PDF) em 8 de agosto de 2019
- ↑ Leonardo Chiariglione – Convenor (Outubro de 2000). «Short MPEG-2 description». Consultado em 3 de setembro de 2024. Cópia arquivada em 26 de janeiro de 2013
- ↑ a b MPEG. «MPEG standards». chiariglione.org. Consultado em 3 de setembro de 2024. Cópia arquivada em 26 de janeiro de 2013
- ↑ ISO. «ISO/IEC 13818-2:2000/Amd 3 – New level for 1080@50p/60p». Consultado em 3 de setembro de 2024
- ↑ ISO. «ISO/IEC 13818-2:2000 – Information technology – Generic coding of moving pictures and associated audio information: Video». ISO. Consultado em 3 de setembro de 2024
- ↑ «MPEG-2 Patent List» (PDF). MPEG LA. Consultado em 16 de julho de 2021
Ligações externas
[editar | editar código-fonte]- Official MPEG web site
- MPEG-2 Video Encoding (H.262) – The Library of Congress