音视频开发入门（音视频开发入门项目）

网友投稿 618 2022-12-22

本篇文章给大家谈谈音视频开发入门，以及音视频开发入门项目对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享音视频开发入门的知识，其中也会对音视频开发入门项目进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、Android -- 音视频基础知识
2、Android音视频开发-入门(三):使用 Camera API 采集NV21数据
3、音视频入门-音频压缩技术(二)
4、入门音视频书籍推荐
5、音视频开发三大就业方向

Android -- 音视频基础知识

帧，是视频的一个基本概念，表示一张画面，如上面的翻页动画书中的一页，就是一帧。一个视频就是由许许多多帧组成的。

帧率，即单位时间内帧的数量，单位为：帧/秒或fps（frames per second）。一秒内包含多少张图片，图片越多，画面越顺滑，过渡越自然。帧率的一般以下几个典型值：

24/25 fps：1秒 24/25 帧，一般的电影帧率。

30/60 fps：1秒 30/60 帧，游戏的帧率，30帧可以接受，60帧会感觉更加流畅逼真。

85 fps以上人眼基本无法察觉出来了，所以更高的帧率在视频里没有太大意义。

这里我们只讲常用到的两种色彩空间。

RGB的颜色模式应该是我们最熟悉的一种，在现在的电子设备中应用广泛。通过R G B三种基础色，可以混合出所有的颜色。

这里着重讲一下YUV，这种色彩空间并不是我们熟悉的。这是一种亮度与色度分离的色彩格式。

早期的电视都是黑白的，即只有亮度值，即Y。有了彩色电视以后，加入了UV两种色度，形成现在的YUV，也叫YCbCr。

Y：亮度，就是灰度值。除了表示亮度信号外，还含有较多的绿色通道量。

U：蓝色通道与亮度的差值。

V：红色通道与亮度的差值。

音频数据的承载方式最常用的是脉冲编码调制，即 PCM 。

在自然界中，声音是连续不断的，是一种模拟信号，那怎样才能把声音保存下来呢？那就是把声音数字化，即转换为数字信号。

我们知道声音是一种波，有自己的振幅和频率，那么要保存声音，就要保存声音在各个时间点上的振幅。

而数字信号并不能连续保存所有时间点的振幅，事实上，并不需要保存连续的信号，就可以还原到人耳可接受的声音。

根据奈奎斯特采样定理：为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。

根据以上分析，PCM的采集步骤分为以下步骤：

采样率，即采样的频率。

上面提到，采样率要大于原声波频率的2倍，人耳能听到的最高频率为20kHz，所以为了满足人耳的听觉要求，采样率至少为40kHz，通常为44.1kHz，更高的通常为48kHz。

采样位数，涉及到上面提到的振幅量化。波形振幅在模拟信号上也是连续的样本值，而在数字信号中，信号一般是不连续的，所以模拟信号量化以后，只能取一个近似的整数值，为了记录这些振幅值，采样器会采用一个固定的位数来记录这些振幅值，通常有8位、16位、32位。

位数越多，记录的值越准确，还原度越高。

最后就是编码了。由于数字信号是由0，1组成的，因此，需要将幅度值转换为一系列0和1进行存储，也就是编码，最后得到的数据就是数字信号：一串0和1组成的数据。

整个过程如下：

声道数，是指支持能不同发声（注意是不同声音）的音响的个数。单声道：1个声道
双声道：2个声道
立体声道：默认为2个声道
立体声道（4声道）：4个声道

码率，是指一个数据流中每秒钟能通过的信息量，单位bps（bit per second）

码率 = 采样率 * 采样位数 * 声道数

这里的编码和上面音频中提到的编码不是同个概念，而是指压缩编码。

我们知道，在计算机的世界中，一切都是0和1组成的，音频和视频数据也不例外。由于音视频的数据量庞大，如果按照裸流数据存储的话，那将需要耗费非常大的存储空间，也不利于传送。而音视频中，其实包含了大量0和1的重复数据，因此可以通过一定的算法来压缩这些0和1的数据。

特别在视频中，由于画面是逐渐过渡的，因此整个视频中，包含了大量画面/像素的重复，这正好提供了非常大的压缩空间。

因此，编码可以大大减小音视频数据的大小，让音视频更容易存储和传送。

视频编码格式有很多，比如H26x系列和MPEG系列的编码，这些编码格式都是为了适应时代发展而出现的。

其中，H26x（1/2/3/4/5）系列由ITU（International Telecommunication Union）国际电传视讯联盟主导

MPEG（1/2/3/4）系列由MPEG（Moving Picture Experts Group, ISO旗下的组织）主导。

当然，他们也有联合制定的编码标准，那就是现在主流的编码格式H264，当然还有下一代更先进的压缩编码标准H265。

H264是目前最主流的视频编码标准，所以我们后续的文章中主要以该编码格式为基准。

H264由ITU和MPEG共同定制，属于MPEG-4第十部分内容。

我们已经知道，视频是由一帧一帧画面构成的，但是在视频的数据中，并不是真正按照一帧一帧原始数据保存下来的（如果这样，压缩编码就没有意义了）。

H264会根据一段时间内，画面的变化情况，选取一帧画面作为完整编码，下一帧只记录与上一帧完整数据的差别，是一个动态压缩的过程。

在H264中，三种类型的帧数据分别为

I帧：帧内编码帧。就是一个完整帧。

P帧：前向预测编码帧。是一个非完整帧，通过参考前面的I帧或P帧生成。

B帧：双向预测内插编码帧。参考前后图像帧编码生成。B帧依赖其前最近的一个I帧或P帧及其后最近的一个P帧。

全称：Group of picture。指一组变化不大的视频帧。

GOP的第一帧成为关键帧：IDR

IDR都是I帧，可以防止一帧解码出错，导致后面所有帧解码出错的问题。当解码器在解码到IDR的时候，会将之前的参考帧清空，重新开始一个新的序列，这样，即便前面一帧解码出现重大错误，也不会蔓延到后面的数据中。

DTS全称：Decoding Time Stamp。标示读入内存中数据流在什么时候开始送入解码器中进行解码。也就是解码顺序的时间戳。

PTS全称：Presentation Time Stamp。用于标示解码后的视频帧什么时候被显示出来。

前面我们介绍了RGB和YUV两种图像色彩空间。H264采用的是YUV。

YUV存储方式分为两大类：planar 和 packed。

planar如下：

packed如下：

上面说过，由于人眼对色度敏感度低，所以可以通过省略一些色度信息，即亮度共用一些色度信息，进而节省存储空间。因此，planar又区分了以下几种格式：YUV444、 YUV422、YUV420。

YUV 4:4:4采样，每一个Y对应一组UV分量。

YUV 4:2:2采样，每两个Y共用一组UV分量。

YUV 4:2:0采样，每四个Y共用一组UV分量。

其中，最常用的就是YUV420。

YUV420属于planar存储方式，但是又分两种类型：

YUV420P：三平面存储。数据组成为YYYYYYYYUUVV（如I420）或YYYYYYYYVVUU（如YV12）。

YUV420SP：两平面存储。分为两种类型YYYYYYYYUVUV（如NV12）或YYYYYYYYVUVU（如NV21）

原始的PCM音频数据也是非常大的数据量，因此也需要对其进行压缩编码。

和视频编码一样，音频也有许多的编码格式，如：WAV、MP3、WMA、APE、FLAC等等，音乐发烧友应该对这些格式非常熟悉，特别是后两种无损压缩格式。

但是，我们今天的主角不是他们，而是另外一个叫AAC的压缩格式。

AAC是新一代的音频有损压缩技术，一种高压缩比的音频压缩算法。在MP4视频中的音频数据，大多数时候都是采用AAC压缩格式。

AAC格式主要分为两种：ADIF、ADTS。

ADIF：Audio Data Interchange Format。音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始，不需进行在音频数据流中间开始的解码，即它的解码必须在明确定义的开始处进行。这种格式常用在磁盘文件中。

ADTS：Audio Data Transport Stream。音频数据传输流。这种格式的特征是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

ADIF数据格式：

ADTS 一帧数据格式（中间部分，左右省略号为前后数据帧）：

AAC内部结构也不再赘述，可以参考AAC 文件解析及解码流程

细心的读者可能已经发现，前面我们介绍的各种音视频的编码格式，没有一种是我们平时使用到的视频格式，比如：mp4、rmvb、avi、mkv、mov...

没错，这些我们熟悉的视频格式，其实是包裹了音视频编码数据的容器，用来把以特定编码标准编码的视频流和音频流混在一起，成为一个文件。

例如：mp4支持H264、H265等视频编码和AAC、MP3等音频编码。

我们在一些播放器中会看到，有硬解码和软解码两种播放形式给我们选择，但是我们大部分时候并不能感觉出他们的区别，对于普通用户来说，只要能播放就行了。

那么他们内部究竟有什么区别呢？

在手机或者PC上，都会有CPU、GPU或者解码器等硬件。通常，我们的计算都是在CPU上进行的，也就是我们软件的执行芯片，而GPU主要负责画面的显示（是一种硬件加速）。

所谓软解码，就是指利用CPU的计算能力来解码，通常如果CPU的能力不是很强的时候，一则解码速度会比较慢，二则手机可能出现发热现象。但是，由于使用统一的算法，兼容性会很好。

硬解码，指的是利用手机上专门的解码芯片来加速解码。通常硬解码的解码速度会快很多，但是由于硬解码由各个厂家实现，质量参差不齐，非常容易出现兼容性问题。

MediaCodec 是Android 4.1(api 16)版本引入的编解码接口，是所有想在Android上开发音视频的开发人员绕不开的坑。

由于Android碎片化严重，虽然经过多年的发展，Android硬解已经有了很大改观，但实际上各个厂家实现不同，还是会有一些意想不到的坑。

相对于FFmpeg，Android原生硬解码还是相对容易入门一些，所以接下来，我将会从MediaCodec入手，讲解如何实现视频的编解码，以及引入OpenGL实现对视频的编辑，最后才引入FFmpeg来实现软解，算是一个比较常规的音视频开发入门流程吧。

音视频开发入门（音视频开发入门项目）

Android音视频开发-入门(三):使用 Camera API 采集NV21数据

做过Android开发的人一般都知道，有两种方法能够做到这一点：SufaceView、TextureView。

Android 中Google支持的Camera Preview CallBack的YUV常用格式有两种：一种是NV21，一种是YV12,Android一般默认使用的是YCbCR_420_sp(NV21)

音视频入门-音频压缩技术(二)

音频压缩技术是保证信号在听觉不失真的前提下，对音频数据信号进行尽可能大的压缩

压缩的主要方法就是去除采集到的冗余信息，所谓冗余信息就是超出人耳听觉范围的音频信号和被遮蔽掉的音频信号

遮蔽的音频信号包括频域遮蔽和时域遮蔽

熵编码：哈夫曼编码、算术编码、香农编码

常见的音频编码器包括：OPUS（文件小、压缩率高）、AAC（运用最广泛的音频编码器，IOS、Android 嵌入式）Ogg、Speex（解决了回音消除，在AAC之前比较受欢迎的音频编码器）、iLBC、AMR、G.711
编解码器总结：不同的场景使用的音频编码器可能不一样，一般情况下，AAC在直播系统中使用比较广泛、OPUS是比较新的编码器，WebRTC默认使用的是OPUS音频编码器、固话使用的是G.711系列

AAC(Advanced Audio Coding)由Fraunhofer IIS、杜比实验室、ATT、Sony等公司共同开发、目前是取代MP3格式
最开始是基于MPEG-2的音频解码技术，MPEG-4标准出现后，AAC重新集成其特性，加入了SBR技术和PS技术
目前常用的规格有：AAC LC、AAC HE V1和AAC HE V2

AAC LC：（LOW Complexity）低复杂度规格，码流是128K,音质好
AAC HE V1:AAC LC + SBR(Spectral Band Replication),其核心思想是按频谱分保存，低频编码保存主要成分，高频单独放大编码保存音质
码率在64K左右
AAC HE V2:AAC LC + SBR + PS（Parametric Stereo）其核心思想是双声道中的声音存在某种相似性，只需要存储一个声道的全部信息，然后，花很少的字节用描述另一个声道在不同的地方

这种格式的特性是可以确定找到这个音频数据的开始，只能从头开始解码，不能从音频数据流的中间开始，这种格式常用在磁盘文件中

这种格式的特性是每一帧都有一个同步字，所以可以在音频流的任意位置开始解码，它类似于数据流格式

ADTS由7/9个字节组成 ADTS格式查询

-i:输入的多媒体文件
-vn：v表示的是video ，n表示的no 意思是过滤掉视频数据
-c:a : c表示的是codecs编码器，a表示的是audio，也就是指定的音频编码器
-ar：表示的是音频的采样率
-channels：声道数
-profile:对fdk-aac编码器设置了参数，对应的是a，也就是对音频的参数
最后3.aac也就是输出的aac格式的文件名称

入门音视频书籍推荐

《视频基础技术》华中科技大学出版社
本书讲述了视频技术领域中的基本原理、基本技术和系统。适当介绍了当前研究与开发的热点。内容包括了光、彩色和视觉特性；固体摄像器件与光电成像原理，逐行扫描与隔行扫描以及视频图像信号的分析；现行彩色电视制式、黑白电视摄像机、彩色电视摄像机和高清晰度电视摄像机；视频信号的各种传输方法：地面开路无线传输、同轴电缆与光纤传输、微波传输与卫星传输；视频终端与图像显示；接收机的组成原理、平板显示技术；数字视频标准及其几种应用：MPEG—1、MPEG—2、VCD、DVD、DVB-S、DVB-C、DVB-T等。本书内容丰富，取材广泛，概念清楚，理论分析深入浅出，注重实用。本书是高等学校电子信息类专业及相近专业的主干课程教材。也可供在视频技术、图像处理与通信、电视工程技术、影视技术、多媒体技术等领域从事研究、开发、生产及维护的科技人员阅读参考。

音视频开发三大就业方向

音视频开发音视频开发入门，无论音视频开发入门你做iOS/Android/Qt客户端，还是嵌入式linux,服务器开发。最后可分为三大就业方向：

1 流媒体网络通讯开发
流媒体网络通讯开发岗位占70%～ 80%，就业，集中在芯片，安防，数字电视，广告，行车记录仪，车载系统，智能家居，楼宇对讲，视频会议....大部分从业者吃饭靠这个领域。需要掌握音视频开发入门的是unix操作系统，网络socket通讯, 音视频基础,264/265基础，编解码,FFmpeg,常见的网络通讯协议TCP/UDP/RTMP/RTSP/RTP/HLS,当然还有WebRTC. 为什么大部分就业岗位都在这个领域，因为这个领域百花齐放，大量的硬件公司，各行各业，光一个跟摄像头相关的安防产业年产值就是几万亿，只要有摄像头的地方，就需要软件开发者，而且薪水还不错，入门者大部分年薪30W+。年薪50W，百万级的程序员也有，主要研究音视频流媒体领域的应用。

2 数字图像处理
音视频图像处理岗位，占大约20%+。主要集中在视频剪辑，特效，医疗，教育领域. 最近几年新兴的VR/AR领域。需要掌握的主要是音视频开发基础，FFmpeg, 重点是OpenGL/ES，会大量使用OpenGL/ES去写一些轻量级的渲染引擎。你可以把它看作一个精简版的游戏渲染引擎。这个领域有些特殊，容易跟互联网结合，一些软件容易形成垄断，比如视频剪辑领域，就那么三四个玩家。垄断了80%以上的份额。Finalcut pro , premire, Davinci.. 形成垄断的行业，绝大多数利润会向头部集中，也就不需要那么多就业，细分领域不多。

当然，这个领域也有自己的一些优势，比如比流媒体容易学习一些。未来十年前景也非常好。可以快速上手。c c++基础好，精通OpenGL/FFmpeg，可以轻松上年薪50W+.

3 AI
小于5% 其实AI本来应该发展很迅猛的，但受限于MYZ，疫情，芯片严重缺货。终端，边缘计算领域，这几年还没发展起来。这个领域需要部分音视频基础 opencv，tensorflow，机器学习，深度学习...

总结

三大方向，基础都差不多。c/c++ unix操作系统，网络通讯.

最后每个人的发展侧重点不一样，有的做网络通讯比较多，有的做数字图像处理… 计算机领域的知识很庞大，就一个音视频这么小的一个领域，你就只能做其中一个点，比如专注网络通讯流媒体，专注图像处理。都是十年磨一剑的领域，想通吃，就准备花大量的时间研究学习，熬夜。甚至准备进ICU，腰椎间盘突出... 所以即使在音视频开发领域，最后选择一个自己喜欢的方向依然重要。

有的人在做iOS,有的人在做安卓，有的人在做嵌入式linux，还有的人在做PC/Qt开发。

到最后你发现都大同小异。

无论你做什么，人一辈子，要做到终身学习，每天学习。

每天进步一点点。日积月累，才能有所成就。关于音视频开发入门和音视频开发入门项目的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。音视频开发入门的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于音视频开发入门项目、音视频开发入门的信息别忘了在本站进行查找喔。

标签：计算机程序模拟解析

暂时没有评论，来抢沙发吧~

音视频开发入门（音视频开发入门项目）

Android -- 音视频基础知识

Android音视频开发-入门(三):使用 Camera API 采集NV21数据

音视频入门-音频压缩技术(二)

入门音视频书籍推荐

音视频开发三大就业方向

最近发表

更多内容

推荐文章

解决方案

热评文章