【视频编解码·学习笔记】1. 视频压缩、编码初步认知

一、视频信号的表示方法：RGB与YUV

在数字格式的视频信号中，组成视频的基本结构是一帧帧连续而相关联的图像。组成每一帧图像的基本结构是成平面紧密排列的像素，每个像素代表图像中的一个彩色的点。为了使得像素以彩色表示，每一个像素由颜色的三基色取不同的分量构成：

R:Red——红色分量；
G:Green——绿色分量；
B:Blue——蓝色分量；

使用这种方式表示彩色图像的方式为RGB颜色空间。RGB颜色空间常用于显示器系统。通过这种形式表示的图像，每个像素的每一个颜色分量用1个字节表示，则可以表示256×256×256种不同的颜色。在常见的图像格式中，如位图（bmp）格式以RGB形式保存数据。

在实际的编解码等视频处理的过程中，YUV格式比RGB格式更为常用。在YUV格式中，一个像素由亮度分量和色度分量表示，每一个像素由一个亮度分量Y和两个色度分量U/V组成。亮度分量可以与色度分量一一对应，也可以对色度分量进行采样，即色度分量的总量少于亮度分量。

在YUV中之所以采用这样的方式，主要是因为人的感官对亮度信息的敏感度远高于对色度信息。因此相对于其他像素格式，YUV的最大优势是可以适当降低色度分量的采样率，并保证不对图像造成太大影响。而且，使用这种方式还可以兼容黑白和彩色显示设备。对于黑白显示设备，只需要去除色度分量，只显示亮度分量即可。

在YUV中常见的色度采样方式有4:4:4、4:2:2和4:2:0等，如下图所示：

二、视频压缩编码

为什么需要对视频编码？

对于视频数据而言，视频编码的最主要目的是数据压缩。这是因为动态图像的像素形式表示数据量极为巨大，存储空间和传输带宽完全无法满足保存和传输的需求。例如，图像的每个像素的三个颜色分量RGB各需要一个字节表示，那么每一个像素至少需要3字节，分辨率1280×720的图像的大小为2.76M字节。

如果对于同样分辨率的视频，如果帧率为25帧/秒，那么传输所需的码率将达到553Mb/s！如果对于更高清的视频，如1080P、4k、8k视频，其传输码率更是惊人。这样的数据量，无论是存储还是传输都无法承受。因此，对视频数据进行压缩称为了必然之选。

视频信息为什么可以被压缩？

视频信息之所以存在大量可以被压缩的空间，是因为其中本身就存在大量的数据冗余。其主要类型有：

时间冗余：视频相邻的两帧之间内容相似，存在运动关系
空间冗余：视频的某一帧内部的相邻像素存在相似性
编码冗余：视频中不同数据出现的概率不同
视觉冗余：观众的视觉系统对视频中不同的部分敏感度不同
针对这些不同类型的冗余信息，在各种视频编码的标准算法中都有不同的技术专门应对，以通过不同的角度提高压缩的比率。

视频压缩编码的基本技术？

为了专门处理视频信息中的多种冗余，视频压缩编码采用了多种技术来提高视频的压缩比率。其中常见的有预测编码、变换编码和熵编码等。

1.预测编码
预测编码可以用于处理视频中的时间和空间域的冗余。视频处理中的预测编码主要分为两大类：帧内预测和帧间预测。
帧内预测：预测值与实际值位于同一帧内，用于消除图像的空间冗余；帧内预测的特点是压缩率相对较低，然而可以独立解码，不依赖其他帧的数据；通常视频中的关键帧都采用帧内预测。

帧间预测：帧间预测的实际值位于当前帧，预测值位于参考帧，用于消除图像的时间冗余；帧间预测的压缩率高于帧内预测，然而不能独立解码，必须在获取参考帧数据之后才能重建当前帧。

通常在视频码流中，I帧全部使用帧内编码，P帧/B帧中的数据可能使用帧内或者帧间编码。

2.变换编码
目前主流的视频编码算法均属于有损编码，通过对视频造成有限而可以容忍的损失，获取相对更高的编码效率。而造成信息损失的部分即在于变换量化这一部分。在进行量化之前，首先需要将图像信息从空间域通过变换编码变换至频域，并计算其变换系数供后续的编码。

在视频编码算法中通常使用正交变换进行变换编码，常用的正交变换方法有：离散余弦变换(DCT)、离散正弦变换(DST)、K-L变换等。

3.熵编码
视频编码中的熵编码方法主要用于消除视频信息中的统计冗余。由于信源中每一个符号出现的概率并不一致，这就导致使用同样长度的码字表示所有的符号会造成浪费。通过熵编码，针对不同的语法元素分配不同长度的码元，可以有效消除视频信息中由于符号概率导致的冗余。

在视频编码算法中常用的熵编码方法有变长编码和算术编码等，具体来说主要有上下文自适应的变长编码(CAVLC)和上下文自适应的二进制算术编码(CABAC)。

三、主流视频编码标准的发展

长期以来，视频编码标准主要由两个国际组织负责制定：国际电信联盟ITU-T和国际标准化组织ISO。目前影响力最强的视频编码标准基本均出自这两个组织。
不同标准组织制定的视频编码标准的发展如下图所示：

下面挑几个重要的简单介绍：

MPEG-1标准

MPEG-1是国际标准化组织ISO下属的移动图像专家组负责制定的早期视频压缩标准，主要用于视频信息的存储、广播电视和网络传输应用。其中在VCD中保存的视频信息便使用MPEG-1标准进行压缩，其码率越为1.2~1.5Mb/s。

MPEG-1标准所支持的图像类型与H.263类似，支持I、B、P帧类型

I帧：帧内编码帧，采用帧内编码，可作为P/B帧的参考帧；
P帧：前向预测帧，采用帧间编码，以I/P帧作为参考帧；
B帧：双向预测帧，参考前后两个方向的参考帧；
在码流的结构上，MPEG-1采用了与H.261类似的分层码流结构。MPEG-1相比于H.261增加了条带层，每一个宏块所有的编码操作只能在一个条带内实现，条带层可以有效防止编码错误在一帧内扩散。MPEG-1标准的码流结构如下图所示：

MPEG-4标准

MPEG-4是ISO与1999年颁布的视频编码标准。同前任的MPEG-1和MPEG-2相比，MPEG-4更注重多媒体系统的交互性、灵活性和可扩展性。MPEG-4的标准编号为ISO-14496，也包括多个部分，如系统、视觉信息、音频、一致性等。

MPEG-4中最为显著的特点是采用了基于对象的编码。在MPEG-4中，一个视频对象主要定义为画面中分割出来的不同物体，每个物体由三类信息描述：运动信息、轮廓信息和纹理信息。MPEG-4通过编码这三类信息来实现对视频对象的编码。