音视频开发框架（音视频开源框架）-FinClip官网

音视频开发框架（音视频开源框架）

网友投稿 1728 2022-12-22

本篇文章给大家谈谈音视频开发框架，以及音视频开源框架对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享音视频开发框架的知识，其中也会对音视频开源框架进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、基于java音视频开发的框架有哪些？
2、Flutter浪潮下的音视频研发探索
3、华为HMS Core 6.0全球上线
4、一、音视频基础知识
5、如何快速学习音视频开发?
6、短视频软件开发，软件架构是什么样的？

基于java音视频开发的框架有哪些？

很多框架都可以音视频开发框架，比如我公司用音视频开发框架的zego即构的音视频SDK框架音视频开发框架，它支持Java、React Native、JavaScript 、Swift、Electron、Flutter等多种语言框架。很多都是通用的音视频开发框架，接入也快速，接口全面开放

音视频开发框架（音视频开源框架）

Flutter浪潮下的音视频研发探索

文/陈炉军

整理/LiveVideoStack
大家好，我是阿里巴巴闲鱼事业部的陈炉军，本次分享的主题是Flutter浪潮下的音视频研发探索，主要内容是针对闲鱼APP在当下流行的跨平台框架Flutter的大规模实践，介绍其在音视频领域碰到的一些困难以及解决方案。
分享内容主要分为四个方面，首先会对Flutter有一个简单介绍以及选择Flutter作为跨平台框架的原因，其次会介绍Flutter中与音视频关系非常大的外接纹理概念，以及对它做出的一些优化。之后会对闲鱼在音视频实践过程中碰到的一些Flutter问题提出了一些解决方案——TPM音视频框架。最后是闲鱼Flutter多媒体开源组件的介绍。

Flutter
Flutter是一个跨平台框架，以往的做法是将音频、视频和网络这些模块都下沉到C++层或者ARM层，在其上封装成一个音视频的SDK，供UI层的PC、iOS和Android调用。

而Flutter做为一个UI层的跨平台框架，顾名思义就是在UI层也实现了一个跨平台开发。可以预想的是未Flutter发展的好的话，会逐渐变为一个从底层到UI层的一个全链路的跨平台开发，技术人员分别负责SDK和UI层的开发。
在Flutter之前已经有很多跨平台UI解决方案，那为什么选择Flutter呢？

我们主要考虑性能和跨平台的能力。

以往的跨平台方案比如Weex，ReactNative，Cordova等等因为架构的原因无法满足性能要求，尤其是在音视频这种性能要求几乎苛刻的场景。

而诸如Xamarin等，虽然性能可以和原生App一致，但是大部分逻辑还是需要分平台实现。
我们可以看一下，为什么Flutter可以实现高性能：

原生的native组件渲染以IOS为例，苹果的UIKit通过调用平台自己的绘制框架QuaztCore来实现UI的绘制，图形绘制也是调用底层的API,比如OpenGL、Metal等。

而Flutter也是和原生API逻辑一致，也是通过调用底层的绘制框架层SKIA实现UI层。这样相当于Flutter他自己实现了一套UI框架，提供了一种性能超越原生API的跨平台可能性。
但是我们说一个框架最终性能怎样，其实取决于设计者和开发者。至于现在到底是一个什么状况：

在闲鱼的实践中，我们发现在正常的开发没有特意的去优化UI代码的情况下，在一些低端机上，Flutter界面的流畅性是比Native界面要好的。

虽然现在闲鱼某些场景下会有卡顿闪退等情况，但是这是一个新事物发展过程中的必然问题，我们相信未来性能肯定不会成为限制Flutter发展的瓶颈的。
在闲鱼实践Flutter的过程中，混合栈和音视频是其中比较难解决的两个问题，混合栈是指一个APP在Flutter过程中不可能一口气将所有业务全部重写为Flutter，所以这是一个逐步迭代的过程，这期间原生native界面与Flutter界面共存的状态就称之为混合栈。闲鱼在混合栈上也有一些比较好的输出，例如FlutterBoost。

外接纹理
在讲音视频之前需要简要介绍一下外接纹理的概念，我们将它称之为是Flutter和Frame之间的桥梁。
Flutter渲染一帧屏幕数据首先要做的是，GPU发出的VC信号在Flutter的UI线程，通过AOT编译的机器码结合当前Dart Runtime，生成Layer Tree UI树，Layer Tree上每一个叶子节点都代表了当前屏幕上所需要渲染的每一个元素，包含了这些元素渲染所需要的内容。将Layer Tree抛给GPU线程，在GPU线程内调用Skia去完成整个UI的渲染过程。Layer Tree中有PictureLayer和TextureLayer两个比较重要的节点。PictureLayer主要负责屏幕图片的渲染，Flutter内部实现了一套图片解码逻辑，在IO线程将图片读取或者从网络上拉取之后，通过解码能够在IO线程上加载出纹理，交给GPU线程将图片渲染到屏幕上。但是由于音视频场景下系统API太过繁多，业务场景过于复杂。Flutter没有一套逻辑去实现跨平台的音视频组件，所以说Flutter提出了一种让第三方开发者来实现音视频组件的方式，而这些音视频组件的视频渲染出口，就是TextureLayer。

在整个Layer Tree渲染的过程中，TextureLayer的数据纹理需要由外部第三方开发者来指定，可以把视频数据和播放器数据送到TextureLayer里，由Flutter将这些数据渲染出来。
TextureLayer渲染过程：首先判断Layer是否已经初始化，如果没有就创建一个Texture，然后将Texture Attach到一个SufaceTexture上。

这个SufaceTexture是音视频的native代码可以获取到的对象，通过这个对象创建的Suface，我们可以将视频数据、摄像头数据解码放到Suface中，然后Flutter端通过监听SufaceTexture的数据更新就可以顺利把刚才创建的数据更新到它的纹理中，然后再将纹理交给SKIA渲染到屏幕上。
然而我们如果需要用Flutter实现美颜，滤镜，人脸贴图等等功能，就需要将视频数据读取出来，更新到纹理中，再将GPU纹理经过美颜滤镜处理后生成一个处理后的纹理。按Flutter提供的现有能力，必须先将纹理中的数据从GPU读出到CPU中，生成Bitmap后再写入Surface中，这样在Flutter中才能顺利的更新到视频数据，这样做对系统性能的消耗很大。
通过对Flutter渲染过程分析，我们知道Flutter底层需要渲染的数据就是GPU纹理，而我们经过美颜滤镜处理完成以后的结果也是GPU纹理，如果可以将它直接交给Flutter渲染，那就可以避免GPU-CPU-GPU这样的无用循环。这样的方法是可行的，但是需要一个条件，就是OpenGL上下文共享。

OpenGL
在说上下文之前，得提到一个和上线文息息相关的概念：线程。

Flutter引擎启动后会启动四个线程：

第一个线程是UI线程，这是Flutter自己定义的UI线程，主要负责GPU发出的VSync信号时候用当前Dart编译的机器码和当前运行环境创建出Layer Tree。

还有就是IO线程和GPU线程。和大部分OpenGL处理解决方案中一样，Flutter也采取一个线程责资源加载，一部分负责资源渲染这种思路。

两个线程之间纹理共享有两种方式。一种是EGLImage(IOS是 CVOpenGLESTextureCache)。一种是OpenGL Share Context。Flutter通过Share Context来实现纹理共享，将IO线程的Context和GPU线程的Context进行Share，放到同一个Share Group下面，这样两个线程下资源是互相可见可以共享的。

Platform线程是主线程，Flutter中有一个很奇怪的设定，GPU线程和主线程共用一个Context。并且在主线程也有很多OpenGL 操作。

这样的设计会给音视频开发带来很多问题，后面会详细说。
音视频端美颜处理完成的OpenGL纹理能够让Flutter直接使用的条件就是Flutter的上下文需要和平台音视频相关的OpenGL上下文处在一个Share Group下面。

由于Flutter主线程的Context就是GPU的Context，所以在音视频端主线程中有一些OpenGL操作的话，很有可能使Flutter整个OpenGL被破坏掉。所以需要将所有的OpenGL操作都限制在子线程中。

通过上述这两个条件的处理，我们就可以在没有增加GPU消耗的前提下实现美颜和滤镜等等功能。

TPM
在经过demo验证之后，我们将这个方案应用到闲鱼音视频组件中，但改造过程中发现了一些问题。

上图是摄像头采集数据转换为纹理的一段代码，其中有两个操作：首先是切进程，将后面的OpenGL操作都切到cameraQueue中。然后是设置一次上下文。然后这种限制条件或者说是潜规则往往在开发过程中容易被忽略的。而这个条件一旦忽略后果就是出现一些莫名其妙的诡异问题极难排查。因此我们就希望能抽象出一套框架，由框架本身实现线程的切换、上下文和模块生命周期等的管理，开发者接入框架以后只需要安心实现自己的算法，而不需要关心这些潜规则还有其他一些重复的逻辑操作。
在引入Flutter之前闲鱼的音视频架构与大部分音视频逻辑一样采用分层架构：

1：底层是一些独立模块

2：SDK层是对底层模块的封装

3：最上层是UI层。

引入Flutter之后，通过分析各个模块的使用场景，我们可以得出一个假设或者说是抽象：音视频应用在终端上可以归纳为视频帧解码之后视频数据帧在各个模块之间流动的过程，基于这种假设去做Flutter音视频框架的抽象。

咸鱼Flutter多媒体开源组件
整个Flutter音视频框架抽象分为管线和数据的抽象、模块的抽象、线程统一管理和上下文同一管理四部分。
管线，其实就是视频帧流动的管道。数据，音视频中涉及到的数据包括纹理、Bit Map以及时间戳等。结合现有的应用场景我们定义了管线流通数据以Texture为主数据，同时可以选择性的添加Bit Map等作为辅助数据。这样的数据定义方式，避免重复的创建和销毁纹理带来的性能开销以及多线程访问纹理带来的一些问题。也满足一些特殊模块对特殊数据的需求。同时也设计了纹理池来管理管线中的纹理数据。
模块：如果把管线和数据比喻成血管和血液，那框架音视频的场景就可以比喻成器官，我们根据模块所在管线的位置抽象出采集、处理和输出三个基类。这三个基类里实现了刚才说的线程切换，上下文切换，格式转换等等共同逻辑，各个功能模块通过集成自这些基类，可以避免很多重复劳动。
线程：每一个模块初始化的时候，初始化函数就会去线程管理的模块去获取自己的线程，线程管理模块可以决定给初始化函数分配新的线程或者已经分配过其他模块的线程。

这样有三个好处：

一是可以根据需要去决定一个线程可以挂载多少模块，做到线程间的负载均衡。第二，多线程并发式能够保证模块内的OpenGL操作是在当前线程内而不会跑到主线程去，彻底避免Flutter的OpenGL 环境被破坏。第三，多线程并行可以充分利用CPU多核架构，提升处理速度。
从Flutter端修改Flutter引擎将Context取出后，根据Context创建上下文的统一管理模块，每一个模块在初始化的时候会获取它的线程，获取之后会调用上下文管理模块获取自己的上下文。这样可以保证每一个模块的上下文都是与Flutter的上下文进行Share的，每个模块之间资源都是共享可见的，Flutter和音视频native之间也是互相共享可见的。
基于上述框架如果要实现一个简单的场景，比如画面实时预览和滤镜处理功能，

1：需要选择功能模块，功能模块包括摄像头模块、滤镜处理模块和Flutter画面渲染模块，

2：需要配置模块参数，比如采集分辨率、滤镜参数和前后摄像头设置等，

3：在创建视频管线后使用已配置的参数创建模块

4：最后管线搭载模块，开启管线就可以实现这样简单的功能。
上图为整个功能实现的代码和结构图。
结合上述音视频框架，闲鱼实现了Flutter多媒体开源组件。

组要包含四个基本组件分别是：

1：视频图像拍摄组件

2：播放器组件

3：视频图像编辑组件

4：相册选择组件

现在这些组件正在走内部开源流程。预计9月份，相册和播放器会实现开源。

后续展望和规划
1：实现开头所说的从底层SDK到UI的全链路的跨端开发。目前底层框架层和模块层都是各个平台各自实现，反而是Flutter的UI端进行了跨平台的统一，所以后续会将底层也按照音视频常用做法把逻辑下沉到C++层，尽可能的实现全链路跨平台。

2：第二部分内容为开源共建，闲鱼开源的内容不仅包括拍摄、编辑组件，还包括了很多底层模块，希望有开发者在基于Flutter开发音视频应用时可以充分利用闲鱼开源出的音视频模块能力，搭建APP框架，开发者只要去负责实现特殊需求模块就可以，尽可能的减少重复劳动。

华为HMS Core 6.0全球上线

【2021年7月15日】HMS Core 6.0于今日正式在华为开发者联盟官网上线，为应用开发者带来了多项全新的开放能力，并对已有的特性及服务进行了升级。目前，用户设备内置的HMS Core 6.0 APK已全面完成更新升级，开发者可登录华为开发者联盟官网-使用各项服务。

HMS Core 6.0将华为在媒体应用、图形渲染、网络加速等多个优势领域的先进技术进一步开放。在媒体领域，新增了多媒体管线服务（AV Pipeline Kit），通过音视频开发框架及视频超分、声音事件检测等插件，帮助开发者解决音视频应用开发难、功耗压力大的痛点。在图形领域开放了3D建模能力（3D Modeling Kit），为开发者提供基于AI技术的物体建模、材质制作等能力，用户仅需普通RGB相机，通过手机便可高效生成3D模型，让电商类、动画制作类App瞬间获得趣味交互，目前该能力支持Android全平台。

此外，在现有的图形计算服务（CG Kit）中，业界首次在移动端实现了基于体渲染技术的动态光影雾效“体积雾”，助力手游提升室内场景画面的真实感和表现力。该特性也已面向Android所有支持Vulkan的设备开放。

在华为领先的通信领域，Network Kit升级了AI网络环境预测，可基于业务的网络访问规律、以及差异化网络需求，进行网络参数调优，让应用的网络时延降低超过20%。

HMS Core 6.0还开放了包括会员、视频剪辑、音频剪辑等多项服务，开发者可以登录华为开发者联盟官网查看更多详细信息。

作为华为软硬件和云端开放能力的合集，HMS Core始终以开发者为中心，不断将华为优势的核心技术及能力开放给更多开发者，为跨平台、跨设备的应用提供了一致性的优质体验。HMS Core支持包括Web应用、快应用，以及Android、HarmonyOS等的应用和服务开发，同时也支持在平板、智慧屏、智能手表及车机等设备调用。此外，HMS Core还支持丰富的第三方开发框架，如React Native、Cordova等。

一、音视频基础知识

视频编码指音视频开发框架的就是通过特定的压缩技术，将某个视频格式文件转换成另一种视频格式的文件的方式。

视频流传输中最重要的编解码标准有国际电联的H.261、H.263、H.264和国际标准化组织运动图像专家组的MPEG系列标准。

MPEG系列：（由ISO[国际标准化组织]下属的MPEG[运动图像开发专家组]开发）视频编码方面主要是MPEG1(VCD)、MPEG2(DVD)、 MPEG4、MPEG4 AVC（正热门）。音频编码方面主要是MPEG Audio Layer 1/2、MPEG Audio Layer 3(MP3) 、 MPEG-2AAC、 MPEG-4 AAC等。

H.26X系列：（由 ITU[国际电传视讯联盟]主导，侧重网络传输，只有视频编码） H.261、H.262、H.263、H.263+、H.263++、H.264(与MPEG4 AVC 合作的结晶)

常见的音频编码格式有AAC、MP3、AC3
MP3：是一种音频压缩技术，它被设计用来大幅度地降低音频数据量。将音乐以1:10 甚至1:12的压缩率，压缩成容量较小的文件，而对于大多数的用户来说，重放的音质于最初不压缩的音频相比没有明显下降。 MP3的特点是，利用人耳对高频信号不敏感的特性，将时域波形信号转换成频域信号，并划分成多个频段，对不同的频段使用不同的压缩率，对高频信号使用大压缩率（甚至忽略信号），对低频信号使用小压缩率，保证信号不失真。这样一来就相当于抛弃人耳基本听不到的高频声音，只保留能听到的低频部分，从而将声音用1:10甚至1:12的压缩率压缩。

AAC：一种专门为声音数据设计的文件压缩格式，与MP3不同，它采用音视频开发框架了全新的算法进行编码，更加高效，具有更高的”性价比“，在感觉声音在没有明显降低的前提下，可使文件更加小巧。AAC的优点是，相对于MP3，AAC的音质更加文件更小。AAC缺点是，AAC是属于有损压缩格式，与时下流行的APE、FLAC等无损压缩格式相比音质存在本质上的差距。

AC3：有损音频编码格式。被广泛应用与5.1声道。AC3普及程度很高，唱片、电影院。AC3提供的环绕声系统由5个全频域声道和1个超低音声道组成。

MediaPlayer：播放控制

MediaCodec：音视频编解码

OMX：多媒体部分采用的编解码标准

StageFright：它是一个框架，替代之前的OpenCore，主要是做音视频开发框架了一个OMX层，仅仅对OpenCore的omx-component部分做了引用。StageFright是在MediaPlayerService这一层加入的，和OpenCore是并列的。StageFright在Android 中是以共享库的形式存在的（libstegefright.so）,其中model----NuPlayer/AwesomePlayer可以用来播放音视频。

AudioTrack ：音频播放。

VLC ： Video LAN Client，是一款自由、开源的跨平台多媒体播放器及框架。

FFmpeg ：多媒体解决方案，不是多媒体框架，广泛用于音视频开发中。

GStreamer ：一套构建流媒体应用的开源多媒体框架。

是用于测量显示帧数的量度。所谓的测量单位为每秒显示的帧数。每秒显示帧数或者帧率表示图形处理器处理场时每秒能够更新的次数。30fps就是可以接受的，60fps则可以明显提升交互感和逼真感，但超过75fps就不容易察觉有明显的流畅度提升了。如果帧率超过屏幕刷新率，则会浪费图像的处理能力。

刷新率是指屏幕每秒画面被刷新的次数，刷新率分为垂直刷新率和水平刷新率，一般提到的刷新率通常是指垂直刷新率。垂直刷新率表示屏幕上图像每秒重绘多少次，也就是每秒屏幕刷新的次数，以Hz为单位。刷新率越高，图像就越稳定，图像显示就越自然清晰，对眼睛的影响也越小。达到80Hz以上的刷新率就可以完全消除图像闪烁和抖动感。

编码的目的是压缩数据量，采用编码算法压缩冗余数据。（MPEG、H.26X）

把编码后的音视频数据以一定格式封装到一个容器中，封装格式有mkv、avi、ts等。

码率也就是比特率，比特率是单位时间播放连续的媒体（如压缩后的音频或视频）的比特数量。比特率越高，带宽消耗得越多。比特（bit）0或1

文件大小（b） = 码率（b/s） * 时长（s）

视频质量和码率、编码算法都有关系。

DTS：即 Decode Time Stamp,主要是用于标示读入内存中比特率在什么时候开始送入解码器中进行解码

PTS：即Presentation Time Stamp,主要用于度量解码后的视频帧什么时候被显示出来

常见的视频帧有I、P、B帧等

I 帧表示关键帧，可以理解为这一帧画面的完整保留，解码时只需要本帧数据就可以完成（因为包含完整画面）

P 帧表示的是这一帧和之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

B 帧是双向差别帧，也就是B帧记录的是本帧和前后帧的差别，通过前后画面数据与本帧数据的叠加取得最终的画面。B帧压缩率高，但解码时CPU比较吃力。

音频帧的概念没有那么清晰，跟音频编码格式相关，它是各个编码标准自己实现的。

PCM（未经编码的音频数据）来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放，比如采样率为44.1kHz,采样进度为16位的音频，你可以算出比特率是4410016kb/s,每秒的音频数据是固定的4410016/8字节。

AMR 帧比较简单，它规定每20ms的音频为一帧，每一帧音频都是独立的，有可能采用不同的编码算法以及不同的编码参数。

MP3帧较复杂，包含更多信息，比如采样率、比特率等各种参数。音频数据帧个数由文件大小和帧长决定，每一帧的长度可能不固定，也可能固定，由比特率决定，每一帧又分为帧头和数据实体两部分，帧头记录了MP3的比特率、采样率、版本等信息，每一帧之间相互独立。

表示可以将模拟信号分成多少个等级，量化精度越高，音乐的声压振幅越接近原音乐。量化精度的单位是bit(比特) 。也可以理解为一个采样点用多少比特表示（8/16/24/32bit）。CD--16bit ， DVD--24bit。

每秒音频采样点个数（8000/44100Hz）,采样单位用Hz表示。

声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或者回放时相应的扬声器数量。单声道、立体声道、4声道、5.1声道、7.1声道等。

如何快速学习音视频开发?

很多开发者都知道音视频开发这个概念，音视频开发不仅需要掌握图像、音频、视频的基础知识，并且还需要掌握如何对它们进行采集、渲染、处理、传输等一系列的开发和应用，因此，音视频开发是一门涉及到很多内容的领域。

短视频软件开发，软件架构是什么样的？

你好，很高兴为你解答这个问题。关于短视频软件开发，软件架构应该包含这些：

短视频app的架构：整套短视频APP主要由安卓端，iOS 端，Web 管理后台四端组成；

主要涉及的开发语言有：PHP，objective-c，Java；

主要涉及到的服务有：Redis和Mysql；Redis 主要用于数据缓存，存储小视频系统运行中常用的动态数据（如点赞时的效果）Mysql 主要用于系统数据的存储如存储图片、视频等

短视频app的视频产生端：首先要进行音视频数据内容采集（拍摄视频），然后进行视频编辑（加美颜、萌颜、特效和音乐），合成视频，编码视频并上传到云存储中；

服务端：云存储把视频存起来，对视频进行统一转码、管理、分析、视频审核；

播放端: 用户观看短视频时，终端会向服务端发起请求，请求播放短视频，服务端收到请求后迅速响应并加速视频的传输，将视频呈现在用户眼前。

希望这个答案能够帮助到你。

关于音视频开发框架和音视频开源框架的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。音视频开发框架的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于音视频开源框架、音视频开发框架的信息别忘了在本站进行查找喔。

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

1728 2022-12-22

音视频开发框架（音视频开源框架）

基于java音视频开发的框架有哪些？

Flutter浪潮下的音视频研发探索

华为HMS Core 6.0全球上线

一、音视频基础知识

如何快速学习音视频开发?

短视频软件开发，软件架构是什么样的？

最近发表

更多内容

推荐文章

解决方案

热评文章