音视频开发 sdk(音视频开发 社区)

网友投稿 1072 2022-12-22

本篇文章给大家谈谈音视频开发 sdk,以及音视频开发 社区对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享音视频开发 sdk的知识,其中也会对音视频开发 社区进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

ZEGO即构webrtc实时音视频SDK支持php吗?

ZEGO即构webrtc实时音视频SDK支持php接入,即构只有4行代码,30分钟在APP、Web和小程序等应用内实现视频通话、语音通话,互动直播功能。【点击免费试用,0成本启动】
ZEGO即构webrtc实时音视频SDK还支持Java、React Native、JavaScript 、Swift、Electron、Flutter等多种语言框架。即构的实时音视频SDK能够为开发者提供便捷接入、高清流畅、多平台互通、低延迟、高并发的音视频服务,提供支持多种硬编、多种软编,可以适应一对多、多对多的实时音视频互动,例如秀场直播,视频会议等场景。PHP是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法学习了C语言,吸纳Java和Perl多个语言的特色发展出自己的特色语法,并根据它们的长项持续改进提升自己,PHP同时支持面向对象和面向过程的开发,使用上非常灵活。
想要了解更多关于这方面的相关信息,推荐咨询ZEGO即构科技。2022年4月28日,即构科技携手互联网出海服务平台扬帆出海、互联网出海企业WebEye,共同举办《音视频社交出海新风口》线上直播活动。即构科技泛娱乐社交玩法2.0以及最新的技术方案已经在市场上得到成功的验证,未来希望能通过即构的行业沉淀,与客户一同推动行业升级,并且在未来的行业热点上持续提供实实在在可落地的解决方案。

视频第三方sdk哪个比较好用?

SDK的中文名叫“软件开发工具包”(本文中将之简称为软件包或软件开发包),它被开发出来是为了减少程序员工作量的,有公司开发出某种软件的某一功能,把它封装成SDK(比如美颜SDK就是能够实现美颜功能的SDK),出售给其他公司做开发用,其他公司如果想要给软件开发出某种功能,但又不想从头开始搞开发,可以付钱省事。
说到API和SDK,很多朋友容易把他们弄混,所以我们在这里把它们放在一起说:
1、 仔细的解释
你可以把SDK想象成一个虚拟的程序包,在这个程序包中有一份做好的软件功能,这份程序包几乎是全封闭的,只有一个小小接口可以联通外界,这个接口就是API。
如果我们现在短视频中增加某个功能(比如美颜、萌颜、云存储)但又不想自己亲手去做这个功能,我们可以选择使用这个“SDK”软件包,我们把我们的程序连接上API接口,就可以使用SDK软件包里的功能了。
2、 简洁的解释
重新梳理一下就是:
SDK=放着你想要的软件功能的软件包
API=SDK上唯一的接口
如果你想在自己的短视频app上开发一些SDK软件包中已有的功能,你可以把自己的短视频软件与SDK包上的API接口连接起来,以获得开发包中的功能。
3、 形象的解释
有一杯饮料,它的名字叫做“SDK”。饮料上插着吸管,吸管的名字叫“API”。我们把你的嘴唇叫做“短视频软件”如果你想让SDK饮料杯里的饮料进到你嘴里(让软件拥有SDK中的功能),你必须通过API这根吸管来实现(通过API连接你的软件和SDK软件开发包),否则你就喝不到饮料。
SDK可以分为系统SDK和应用SDK.所谓的系统SDK是为特定的软件包,软件框架,硬件平台,操作系统等应用时所使用的开发工具集合.而应用SDK则是基于系统SDK开发的独立于具体业务而具有特定功能的集合。
内容准确完整,一个优秀的SDK开发人员在编写文档前会做充分的接口场景调用验证,已保证内容的准确和完整。
易读易用,SDK开发人员作为文档的第一个读者和使用者,在使用文档过程中应该有意识的降低自己的姿态,时常假想一个很low的开发者在阅读自己文档时候的样子,通过积极阅读和不断改进确保一个不是很擅长编程的开发者也能使用我们的SDK。
精简文档,一个优秀的SDK开发人员会通过减少重复、避免冗余、整洁代码等措施来精简文档的内容,同时这也减少了文档的维护成本。
更新日志,文档
描述清楚相对上个版本的所有变更(优化项酌情考虑是否添加)。
SDK开发中,需要尽量避免依赖第三方库,使用通用的Android SDK自带的官方库能满足需求即可,以免引起不必要的冲突。
或者三方库不要放到lib包下,默认打包进去封装过程中的aar二次打包问题;
比如,不要为了一个简单的JSON数据转换就引入Fastjson 、Gson之类的第三方json解析转换库。
如果确实因为项目需要,要引入一些开源库,可以通过源码集成的形式引入,再更改一下包名,避免集成冲突。

比较好的音视频通话SDK有哪些?

音视频SDK开发包,支持多终端,提供多种音视频应用场景系统解决方案,适用于开发双录能力平台、互联网金融、远程视频开户、智能设备、远程医疗、在线教育、应急指挥、视频会议、即时通讯等实时云通讯技术应用。。。声网 SDK,,,,在业内评价好,口碑也不错,该产品 已经赋能社交直播、在线教育、IoT、AR/VR、金融、保险、医疗、企业协作等 10 余行业,共计 100 多种场景。

Flutter浪潮下的音视频研发探索

文/陈炉军

整理/LiveVideoStack
大家好,我是阿里巴巴闲鱼事业部的陈炉军,本次分享的主题是Flutter浪潮下的音视频研发探索,主要内容是针对闲鱼APP在当下流行的跨平台框架Flutter的大规模实践,介绍其在音视频领域碰到的一些困难以及解决方案。
分享内容主要分为四个方面,首先会对Flutter有一个简单介绍以及选择Flutter作为跨平台框架的原因,其次会介绍Flutter中与音视频关系非常大的外接纹理概念,以及对它做出的一些优化。之后会对闲鱼在音视频实践过程中碰到的一些Flutter问题提出了一些解决方案——TPM音视频框架。最后是闲鱼Flutter多媒体开源组件的介绍。

Flutter
Flutter是一个跨平台框架,以往的做法是将音频、视频和网络这些模块都下沉到C++层或者ARM层,在其上封装成一个音视频的SDK,供UI层的PC、iOS和Android调用。

而Flutter做为一个UI层的跨平台框架,顾名思义就是在UI层也实现了一个跨平台开发。可以预想的是未Flutter发展的好的话,会逐渐变为一个从底层到UI层的一个全链路的跨平台开发,技术人员分别负责SDK和UI层的开发。
在Flutter之前已经有很多跨平台UI解决方案,那为什么选择Flutter呢?

我们主要考虑性能和跨平台的能力。

以往的跨平台方案比如Weex,ReactNative,Cordova等等因为架构的原因无法满足性能要求,尤其是在音视频这种性能要求几乎苛刻的场景。

而诸如Xamarin等,虽然性能可以和原生App一致,但是大部分逻辑还是需要分平台实现。
我们可以看一下,为什么Flutter可以实现高性能:

原生的native组件渲染以IOS为例,苹果的UIKit通过调用平台自己的绘制框架QuaztCore来实现UI的绘制,图形绘制也是调用底层的API,比如OpenGL、Metal等。

而Flutter也是和原生API逻辑一致,也是通过调用底层的绘制框架层SKIA实现UI层。这样相当于Flutter他自己实现了一套UI框架,提供了一种性能超越原生API的跨平台可能性。
但是我们说一个框架最终性能怎样,其实取决于设计者和开发者。至于现在到底是一个什么状况:

在闲鱼的实践中,我们发现在正常的开发没有特意的去优化UI代码的情况下,在一些低端机上,Flutter界面的流畅性是比Native界面要好的。

虽然现在闲鱼某些场景下会有卡顿闪退等情况,但是这是一个新事物发展过程中的必然问题,我们相信未来性能肯定不会成为限制Flutter发展的瓶颈的。
在闲鱼实践Flutter的过程中,混合栈和音视频是其中比较难解决的两个问题,混合栈是指一个APP在Flutter过程中不可能一口气将所有业务全部重写为Flutter,所以这是一个逐步迭代的过程,这期间原生native界面与Flutter界面共存的状态就称之为混合栈。闲鱼在混合栈上也有一些比较好的输出,例如FlutterBoost。

外接纹理
在讲音视频之前需要简要介绍一下外接纹理的概念,我们将它称之为是Flutter和Frame之间的桥梁。
Flutter渲染一帧屏幕数据首先要做的是,GPU发出的VC信号在Flutter的UI线程,通过AOT编译的机器码结合当前Dart Runtime,生成Layer Tree UI树,Layer Tree上每一个叶子节点都代表了当前屏幕上所需要渲染的每一个元素,包含了这些元素渲染所需要的内容。将Layer Tree抛给GPU线程,在GPU线程内调用Skia去完成整个UI的渲染过程。Layer Tree中有PictureLayer和TextureLayer两个比较重要的节点。PictureLayer主要负责屏幕图片的渲染,Flutter内部实现了一套图片解码逻辑,在IO线程将图片读取或者从网络上拉取之后,通过解码能够在IO线程上加载出纹理,交给GPU线程将图片渲染到屏幕上。但是由于音视频场景下系统API太过繁多,业务场景过于复杂。Flutter没有一套逻辑去实现跨平台的音视频组件,所以说Flutter提出了一种让第三方开发者来实现音视频组件的方式,而这些音视频组件的视频渲染出口,就是TextureLayer。

在整个Layer Tree渲染的过程中,TextureLayer的数据纹理需要由外部第三方开发者来指定,可以把视频数据和播放器数据送到TextureLayer里,由Flutter将这些数据渲染出来。
TextureLayer渲染过程:首先判断Layer是否已经初始化,如果没有就创建一个Texture,然后将Texture Attach到一个SufaceTexture上。

这个SufaceTexture是音视频的native代码可以获取到的对象,通过这个对象创建的Suface,我们可以将视频数据、摄像头数据解码放到Suface中,然后Flutter端通过监听SufaceTexture的数据更新就可以顺利把刚才创建的数据更新到它的纹理中,然后再将纹理交给SKIA渲染到屏幕上。
然而我们如果需要用Flutter实现美颜,滤镜,人脸贴图等等功能,就需要将视频数据读取出来,更新到纹理中,再将GPU纹理经过美颜滤镜处理后生成一个处理后的纹理。按Flutter提供的现有能力,必须先将纹理中的数据从GPU读出到CPU中,生成Bitmap后再写入Surface中,这样在Flutter中才能顺利的更新到视频数据,这样做对系统性能的消耗很大。
通过对Flutter渲染过程分析,我们知道Flutter底层需要渲染的数据就是GPU纹理,而我们经过美颜滤镜处理完成以后的结果也是GPU纹理,如果可以将它直接交给Flutter渲染,那就可以避免GPU-CPU-GPU这样的无用循环。这样的方法是可行的,但是需要一个条件,就是OpenGL上下文共享。

OpenGL
在说上下文之前,得提到一个和上线文息息相关的概念:线程。

Flutter引擎启动后会启动四个线程:

第一个线程是UI线程,这是Flutter自己定义的UI线程,主要负责GPU发出的VSync信号时候用当前Dart编译的机器码和当前运行环境创建出Layer Tree。

还有就是IO线程和GPU线程。和大部分OpenGL处理解决方案中一样,Flutter也采取一个线程责资源加载,一部分负责资源渲染这种思路。

两个线程之间纹理共享有两种方式。一种是EGLImage(IOS是 CVOpenGLESTextureCache)。一种是OpenGL Share Context。Flutter通过Share Context来实现纹理共享,将IO线程的Context和GPU线程的Context进行Share,放到同一个Share Group下面,这样两个线程下资源是互相可见可以共享的。

Platform线程是主线程,Flutter中有一个很奇怪的设定,GPU线程和主线程共用一个Context。并且在主线程也有很多OpenGL 操作。

这样的设计会给音视频开发带来很多问题,后面会详细说。
音视频端美颜处理完成的OpenGL纹理能够让Flutter直接使用的条件就是Flutter的上下文需要和平台音视频相关的OpenGL上下文处在一个Share Group下面。

由于Flutter主线程的Context就是GPU的Context,所以在音视频端主线程中有一些OpenGL操作的话,很有可能使Flutter整个OpenGL被破坏掉。所以需要将所有的OpenGL操作都限制在子线程中。

通过上述这两个条件的处理,我们就可以在没有增加GPU消耗的前提下实现美颜和滤镜等等功能。

TPM
在经过demo验证之后,我们将这个方案应用到闲鱼音视频组件中,但改造过程中发现了一些问题。

上图是摄像头采集数据转换为纹理的一段代码,其中有两个操作:首先是切进程,将后面的OpenGL操作都切到cameraQueue中。然后是设置一次上下文。然后这种限制条件或者说是潜规则往往在开发过程中容易被忽略的。而这个条件一旦忽略后果就是出现一些莫名其妙的诡异问题极难排查。因此我们就希望能抽象出一套框架,由框架本身实现线程的切换、上下文和模块生命周期等的管理,开发者接入框架以后只需要安心实现自己的算法,而不需要关心这些潜规则还有其他一些重复的逻辑操作。
在引入Flutter之前闲鱼的音视频架构与大部分音视频逻辑一样采用分层架构:

1:底层是一些独立模块

2:SDK层是对底层模块的封装

3:最上层是UI层。

引入Flutter之后,通过分析各个模块的使用场景,我们可以得出一个假设或者说是抽象:音视频应用在终端上可以归纳为视频帧解码之后视频数据帧在各个模块之间流动的过程,基于这种假设去做Flutter音视频框架的抽象。

咸鱼Flutter多媒体开源组件
整个Flutter音视频框架抽象分为管线和数据的抽象、模块的抽象、线程统一管理和上下文同一管理四部分。
管线,其实就是视频帧流动的管道。数据,音视频中涉及到的数据包括纹理、Bit Map以及时间戳等。结合现有的应用场景我们定义了管线流通数据以Texture为主数据,同时可以选择性的添加Bit Map等作为辅助数据。这样的数据定义方式,避免重复的创建和销毁纹理带来的性能开销以及多线程访问纹理带来的一些问题。也满足一些特殊模块对特殊数据的需求。同时也设计了纹理池来管理管线中的纹理数据。
模块:如果把管线和数据比喻成血管和血液,那框架音视频的场景就可以比喻成器官,我们根据模块所在管线的位置抽象出采集、处理和输出三个基类。这三个基类里实现了刚才说的线程切换,上下文切换,格式转换等等共同逻辑,各个功能模块通过集成自这些基类,可以避免很多重复劳动。
线程:每一个模块初始化的时候,初始化函数就会去线程管理的模块去获取自己的线程,线程管理模块可以决定给初始化函数分配新的线程或者已经分配过其他模块的线程。

这样有三个好处:

一是可以根据需要去决定一个线程可以挂载多少模块,做到线程间的负载均衡。第二,多线程并发式能够保证模块内的OpenGL操作是在当前线程内而不会跑到主线程去,彻底避免Flutter的OpenGL 环境被破坏。第三,多线程并行可以充分利用CPU多核架构,提升处理速度。
从Flutter端修改Flutter引擎将Context取出后,根据Context创建上下文的统一管理模块,每一个模块在初始化的时候会获取它的线程,获取之后会调用上下文管理模块获取自己的上下文。这样可以保证每一个模块的上下文都是与Flutter的上下文进行Share的,每个模块之间资源都是共享可见的,Flutter和音视频native之间也是互相共享可见的。
基于上述框架如果要实现一个简单的场景,比如画面实时预览和滤镜处理功能,

1:需要选择功能模块,功能模块包括摄像头模块、滤镜处理模块和Flutter画面渲染模块,

2:需要配置模块参数,比如采集分辨率、滤镜参数和前后摄像头设置等,

3:在创建视频管线后使用已配置的参数创建模块

4:最后管线搭载模块,开启管线就可以实现这样简单的功能。
上图为整个功能实现的代码和结构图。
结合上述音视频框架,闲鱼实现了Flutter多媒体开源组件。

组要包含四个基本组件分别是:

1:视频图像拍摄组件

2:播放器组件

3:视频图像编辑组件

4:相册选择组件

现在这些组件正在走内部开源流程。预计9月份,相册和播放器会实现开源。

后续展望和规划
1:实现开头所说的从底层SDK到UI的全链路的跨端开发。目前底层框架层和模块层都是各个平台各自实现,反而是Flutter的UI端进行了跨平台的统一,所以后续会将底层也按照音视频常用做法把逻辑下沉到C++层,尽可能的实现全链路跨平台。

2:第二部分内容为开源共建,闲鱼开源的内容不仅包括拍摄、编辑组件,还包括了很多底层模块,希望有开发者在基于Flutter开发音视频应用时可以充分利用闲鱼开源出的音视频模块能力,搭建APP框架,开发者只要去负责实现特殊需求模块就可以,尽可能的减少重复劳动。

实时语音视频SDK使用FEC,PLC,ARQ实现超低延迟

要在语音视频SDK中实现超低延迟,实时的语音视频传输机制是必不可少的,而FEC和ARQ的智能结合是实时语音视频传输机制的基石。
在语音社交、视频社交、游戏语音和互动直播等领域,关于在语音视频实时传输中实现低延迟这个议题,已经有不少的文章提出各种方案。绝大部分方案的思路都是“优化”,比如说,优化编码、推流、传输和播放等各个环节。
愚以为,要在实时语音视频传输中获得超低延迟,是不能单靠挖空心思去“优化”的,而是要依靠实时的传输机制。就像高铁和火车有着本质的区别一样,火车不管如何优化,也只是跑得更快的火车,永远达不到高铁的速度。没有一套实时的传输机制,再怎么在各个环节“优化”,也无法获得真正超低的延迟。
即构的实时语音视频通讯架构图
要实现超低延迟,信道QoS十分关键。首先要选择合适的网络传输协议,采用基于UDP的私有协议还是标准RTMP协议?然后根据网络环境采用合适的QoS技术,采用FEC,ARQ,还是双管齐下? 如果采用FEC和ARQ双管齐下,那么一套智能的QoS策略就必不可少。没有任何一种QoS技术能解决所有问题,实时语音视频传输机制必须是多种QoS技术的有机结合。
协议的选择

如果是视频直播SDK,一般会选择RTMP协议,因为要能够普遍兼容CDN分发网络,从而向围观的广大用户进行直播。如果是音频社交SDK、视频社交SDK或者游戏语音SDK,一般会选择RTP/RTCP协议(或者类RTP的私有协议),因为不需要通过CDN网络向围观用户广播媒体流。是否要考虑兼容CDN网络,是语音视频通话SDK和视频直播SDK的重大区别。
RTMP协议是基于TCP协议的,RTP协议或者私有协议是基于UDP协议的,因此RTMP协议和RTP协议之争,本质就是TCP协议和UDP协议之争。
TCP协议的特点

1) 是通用的IP网络协议,不是为实时媒体传输而设计的,在弱网网络环境下延迟会增大。

2) 有内嵌的ARQ,但没有FEC,不允许开发者对ARQ策略进行控制,不能实现FEC。

3) 不是从实时语音视频的角度进行设计的,更多考虑网络传输的公平性,内嵌的传输控制策略比较温和。

UDP协议的特点

1) 适合实时语音视频通讯,允许端到端全链条进行信道策略控制,在弱网环境下可控性更强。

2) 延迟时间的大小取决于丢包时候的ARQ和FEC策略,允许开发者深度控制ARQ和FEC策略。

3) 适合设计实时语音视频的通讯机制,根据网络状况自适应地选取ARQ和FEC策略,以及调整传输码率和报文的数量。
在网络环境好的情况下,只要语音视频编解码器相同,RTMP协议和基于UDP的私有协议的传输效率是相当的,都可以实现低延迟、不卡顿和高品质的实时通讯效果。

在网络环境较差的情况下,特别是在跨网甚至跨国的情况下,基于UDP的私有协议对端到端全链条可控,包括流控码控、ARQ、FEC和抖动缓冲等,对抗恶劣网络环境会更有保障。
信道保护

IP网络是“尽力而为”地提供数据传输服务的,尽最大的可能性来发送报文,但对时延、可靠性等性能概不负责效果,传输的数据出错是避免不了的,因此对信道进行保护是必须的。
信道QoS技术主要包括前向纠错FEC,丢包重传ARQ和混合型ARQ。这几种算法都是成熟的技术,在最基础的算法上又衍生出多个变种,而且在实现的过程中也可以进行定制化。
在FEC和ARQ的基础上,为了更好地适应弱网环境,需要让码率自动适应网络环境的波动,这样能够更好地保障实时语音视频通话的可用性和流畅性。
信道QoS的三大措施
前向纠错FEC

FEC全称是Forward Error Correction,中文翻译为前向纠错,是一种通过增加冗余数据对丢失的数据包进行恢复的信道编码算法。具体地说,由发送端对原始数据进行FEC编码,生成冗余奇偶校验数据包,原始数据和冗余数据包合并称作FEC数据块,原始数据包和冗余数据包的数量比例是固定的。发送端发送FEC数据块。接收端接收到FEC数据块后,通过冗余数据包和原始数据包来恢复出丢失或者出错的数据包。
FEC编解码算法推荐使用比较成熟的RS(Reeds-Solomon)算法、Raptor算法和Tornado算法。使用FEC编码算法的时候要根据丢包率(PLR, Packet Lost Rate)来设置冗余度。
下面使用RS的一个例子来说明FEC编解码算法的使用方法。
因为在一个FEC数据块中,原始数据包的个数和冗余数据包的个数的比例是固定的,所以很容易根据丢包的个数和冗余包的个数来判断是否能够全部恢复丢失的数据包。RS (n, k)表示通过RS算法把k个原始数据包进行编码,生成(n-k)个冗余数据包,总共是一个包含有n个数据包的FEC数据块。假设丢失了m个数据包,如果m<=(n-k),那么RS算法可以完全恢复丢失的数据包音视频开发 sdk;如果m(n-k),那么RS算法就无法恢复丢失的数据包,这时候就要进行发送请求要求重传丢失的数据包。
下图展示了通过RS(6,4)进行丢包恢复的过程。发送端有4个原始数据包,通过RS算法编码生成2个冗余包,形成了一个拥有6个数据包的FEC数据块。RS算法最多能够恢复2个丢失的数据包。发送端把FEC数据块发出去,在传输过程中第2号原始数据包丢失了。接收端接收到FEC数据块以后,通过r1冗余包把已经丢失的第2号原始数据包恢复出来。
RS(6,4)算法恢复出丢失的数据包
使用前向纠错FEC算法,优点是数据包只需要传输一次,传输延迟不会受到RTT(Round Trip Time)的影响,不会增加额外的延迟时间;缺点是需要增加冗余数据包,降低了传输信道的利用率。总的来说是一种“空间换时间”的策略。
下文将会综合对FEC和ARQ的特点进行全面对比。
丢包重传ARQ

ARQ全称Automatic Repeat reQuest,中文意译为丢包重传,是一种通过重传关键数据包来纠错的信道保护算法。
具体地来说,发送端给每一个数据包都植入顺序号码和时间戳,顺序号码代表被发送数据包的顺序,允许接收端可以通过监测顺序号码来发现丢包事件;时间戳代表语音视频数据包解码的时间点。发送端发送数据包后,如果接收端没有收到,接收端将会通过RTCP/TCP信道发送一个重传请求。发送端维护一个缓冲队列,当收到重传请求的时候将会重传数据包。接收端也会维护一个缓冲队列,等待尚未收到的数据包以及对已经收到的数据包进行排序。在解码的deadline到来之前,接收端把缓冲区的数据包交给解码器进行解码。在解码deadline的时间点,接收端要么已经收齐了预期的数据包,要么已经决定放弃继续等待。
传统的丢包重传ARQ包括以下三种音视频开发 sdk

1)Stop-and-wait ARQ,也就是停止等待的ARQ,发送端发送数据包后就停止并等待接收端的确认消息,在收到确认消息之前,信道处于空闲状态。

2)Go-Back-N ARQ, 也就是退回N步的ARQ,发送端不需等待接收端的确认,不停地发送数据包,直到收到接收端的重传请求。发送端除了重传被要求重传的数据包以外,还会把该数据包时间戳后面已经被接收端成功接收到的一批数据包全部重传一遍。

3)Selective Repeat ARQ,也就是选择性重传的ARQ,发送端不需等待接收端的确认,不停地发送数据包;接收端只会有选择性地对关键的数据包要求重传,而发送端只重传被要求重传的数据包。
第一种和第二种ARQ效率比较低下,第三种ARQ相对来说效率比较高。目前主流的丢包重传算法大部分是第三种ARQ的变种或者定制化版本。
选择性重传ARQ的优越性在于它能确定哪些关键的数据包需要重传,从而大大地提高重传的效率,降低造成重传风暴的风险。比如说,在出现花屏的时候,请求发送端立即编码视频关键帧发送过来,避免长时间花屏无法刷新的现象。选择要重传的数据包的算法十分关键,这里必须要有比较谨慎的策略,不能任何丢失的数据包都要求重传,那样就相当于又走了TCP协议内嵌ARQ模块的老路,必然引入不可控的延时。
选择性重传的ARQ要考虑实时性,要估算计划要重传数据包到达的时间(以RTT的倍数来估算),如果数据包预期的到达时间在解码的deadline之前,就要求重传,如果在deadline之后,就放弃重传。下面通过一个例子来说明选择性重传的ARQ这个实时策略。
下图展示了选择性重传的ARQ的实时策略音视频开发 sdk

1)发送端发送#1、#2和#3三个数据包,数据包#2丢失了;

2)N倍RTT<数据包#2解码deadline, N=2,判断可以接受重传2次;

3)接收端通过RTCP/TCP信道请求重传;

4)发送端重传,数据包#2再次丢失;

5)接收端通过RTCP/TCP信道请求重传;

6)发送端重传,数据包#2成功到达;

7)接收端把#1、#2和#3三个数据包排序,交给解码器解码。
选择性重传ARQ考虑RTT和编码deadline等实时因素

如果在2次以内能重传成功,那么就可以缩短接收端的缓冲时间,在解码deadline之前把数据包排序并交给解码器解码。如果在2次内不能重传成功,那么就放弃继续重传。因此,接收端总能维持解码的时间t<=解码deadline,维持了传输的实时性。
使用选择性重传的ARQ算法,优点是只需要有选择性地传输关键的数据包,不会明显增加额外的带宽,带宽利用率十分高;缺点是需要请求和重传,增加了传输延迟时间。总的来说是一种“时间换空间”的策略。
下表对FEC和ARQ的特点进行综合对比。
FEC

ARQ

触发方式

前向

后验

算法复杂度

相对复杂

相对简单

延迟时间

一次单向的传输时间

不受RTT长度的影响

N倍RTT的传输时间

会引入额外延迟时间

信道利用率

通过参数设置冗余率

会降低信道的利用率

额外数据量很少

信道利用率很高

适用情况

随机丢包和拥塞丢包

跨国跨海RTT比较大的情形

突发性丢包和持续丢包

国内RTT比较小的情形

不适用情况

突发性丢包,特别是短时间内

拥塞丢包,RTT比较高但延迟要比较低的情形

FEC和ARQ的特点对比

码率自适应ABC

ABC全称Adaptive Bit-rate Control,中文意译为码率自适应,是服务端和推流端协作控制码率来自动适应网络环境变化的技术。码率自适应的目的是为了对抗弱网环境。在网络好的情况下,适当提高码率,提高语音视频的质量和降低延迟;在网络差的情况下,适当降低码率,保障语音视频通话的可用性和流畅性,适当牺牲音画质量。
码率自适应包含了带宽估算和码率控制音视频开发 sdk

1)带宽估算,服务端和推流端协作完成,推流端把网络环境统计信息上报给服务端,服务端通过带宽估算算法估计出当前带宽。

2)推流端按照估算出来的带宽进行推流,如果网络情况良好(没有检测到网络拥塞)则持续的地提高码率,试探网络带宽的上限,直到出现网络拥塞为止。

3)当网络拥塞出现的时候,推流端降低码率来保障可用性和流畅性,直到网络拥塞缓解为止。

4)当网络拥塞缓解的时候,转到#2。
整个过程可以类比成驾驶汽车过程中控制方向盘的方法,偏左了就往右边调整一点,偏右了就往左边调整一点,来来回回的微调让驾驶处于安全和顺畅的状态。码率自适应也是一样的道理。
错误隐藏PLC

PLC全称Packet Lost Concealment, 意译为错误隐藏,应用于实时语音通话的场景。语音数据包的丢失会造成语音的歪曲。为了减少语音数据包丢失造成对语音通话质量的伤害,错误隐藏PLC算法通过前一个语音数据包和后一个语音数据包的相关性来“推测出”当前丢失的语音数据包,从而“隐藏”了信道传输所造成的错误。错误隐藏PLC算法在接收端进行,不需要发送端参与。
智能QoS

上面介绍了信道保护的各种QoS算法。没有哪一种算法能够解决所有问题,也不是把所有算法一起混着用就能实现通讯机制。如何综合使用这些算法对信道进行保护从而达到实时的效果?这里需要一套智能的QoS策略,既要能对抗网络损伤,又要能保持媒体数据传输的实时性。
混合FECARQ

FEC和ARQ各有各的优点和缺点。FEC虽然不会增加额外的延迟,但是会增加额外的带宽成本。ARQ虽然算法相对简单而且几乎不增加带宽成本,但是会增加额外的延迟。因此,一般的做法是把FEC和ARQ混着通过智能的策略来使用,也就是混合型HARQ(Hybrid ARQ)。

混合型HARQ的智能策略要充分考虑网络情况,也就是要根据RTT和PLR的数值来智能地决定使用FEC还是ARQ,还是两者一起使用,哪个用多一点哪个用少一点?。

下图是笔者和团队在工作经验中总结,仅供参考。
即构的智能HARQ策略

上图中有三块区域,代表两个极端情形和一个中间情形:

1)较弱网络的极端情形:在RTT250ms或者PLR10%, 网络延迟特别大或者丢包率特别高的情况下(蓝白色区域),不使用ARQ而使用FEC,因为在延迟大或者丢包多的弱网情况下,ARQ可能会进一步加大延迟。

2)较好网络的极端情形:在RTT<70ms或者PLR<3%,网络延迟很小并且丢包率比较低的情况下(深蓝色区域),适合使用ARQ,如果对成本不敏感,可以适当使用FEC。

3)中间的情形:在(RTT<=250ms而且PLR<=10%)的前提下,RTT=70ms或者PLR=3%的情况,可以根据成本和体验的考虑,智能地选择使用FEC和ARQ的权重。

语音数据可以适当地通过PLC来恢复,可以减低延迟时间和带宽成本。另外,由于语音数据比起视频数据小好多,与其通过FEC和ARQ复杂的算法处理,还不如在适当的网络情况下,在一定的时间间隔内发送两次同样的语音数据包,从而达到用冗余数据纠错的效果。
带宽估算

无论是码率自适应、FEC还是ARQ,都要依赖带宽估算算法来工作。码率自适应根据带宽估算的结果来自动调节码率;FEC和ARQ根据带宽估算的结果来分配冗余数据所占的带宽。

发送端和服务端协同对网络带宽进行检测和估算,发送端把网络带宽的统计信息上报给服务端,服务端把网络带宽的估算结果反馈给发送端。当然,也可以完全在推送端进行带宽估算。
除了带宽估算以外,网络拥塞探测对码率自适应也十分关键。比较传统的网络拥塞探测算法是根据网络丢包率来探测网络拥塞的。然而,当发生较大规模丢包的时候才提示网络拥塞,网络拥塞已经发生了,这时候才来调整码率已经太晚了。

拿地震预报举例子。如果等到发现桌子电灯摇晃的时候才“预报”说有地震,“预报”的时机太晚了。如果发现老鼠或者飞禽逃走等异常情况,或者探测到地震波,就真正做到预报地震。
现代的网络拥塞算法也是力求做到预报拥塞的效果。一般的做法是,发送端发送一些探测数据包,接收端监控数据包的延迟时间和缓冲队列长度。当探测数据包经过网络拥塞节点的时候,延迟时间会变长而且不稳定。如果发现探测数据包的延迟时间变大或者出现异常波动,或者缓冲队列变长了,那么网络拥塞很可能将要出现,相应地可以降低码率来适应网络情况的变化。另外,也有通过滤波器来进行网络拥塞预测,当滤波器的某些特征超过一定的阈值,就预示网络拥塞将要发生。
带宽分配

码率自适应ABC模块估算出带宽以后,发送端把带宽分配给原始数据包、FEC校验包和ARQ重传包,这里需要一个智能的带宽分配策略。带宽分配策略是根据网络情况,包括RTT和PLR等因素,来给原始数据包和冗余数据包分配带宽。冗余数据包的带宽分配得越多,QoS信道保护算法的纠错能力就越强,然而原始数据包就相应分配得越少,语音视频的质量也就相对降低。相对而言,冗余数据包的带宽分配得越少,QoS信道保护算法的纠错能力就越弱,然而原始数据包的带宽分配越多,语音视频的质量也就相对得到保障。因此,智能的带宽分配策略是要在语音视频的质量和QoS信道保护算法的纠错能力之间寻找平衡点。

一般来说,带宽分配的策略可以按照下面的方法进行:

1)总共的带宽由码率自适应ABC模块估算得出;

2)丢包重传ARQ的重传数据包所占带宽根据RTT和PLR估算得出;

3)前向纠错FEC的校验数据包所占带宽根据RTT,ARQ恢复后的PLR,和总共的带宽估算得出;

4)原始数据包所占的带宽根据ARQ、FEC和总共的带宽计算得出。

下面是一个例子,展示随着RTT和PLR的增加,如何在原始数据包、ARQ和FEC之间分配带宽。
智能的带宽分配策略示例

上图中左边的坐标系中,纵坐标是带宽,横坐标是RTT。在RTT比较小的网络情况下,ARQ分配的带宽比较多,不采用FEC;在RTT比较大的情况下,FEC分配的带宽比较多,不采用ARQ。不管使用ARQ还是FEC冗余数据包进行信道保护,原始语音视频数据所占的带宽都要适当牺牲。
上图中右边的坐标系中,纵坐标是带宽,横坐标是PLR。在PLR比较小的网络情况下,ARQ和FEC冗余包分配的带宽都比较小,甚至没有;在PLR比较大的网络情况下,逐渐给ARQ和FEC增加带宽来增强数据纠错能力,原始语音视频数据所占的带宽也相应降低。
结语

实时语音视频通话要获得超低延迟,不能仅仅依靠在各个环节不断地优化,而是要通过FEC、ARQ和码率自适应构建实时通讯机制。在这个基础上,还要充分考虑网络情况、实时要求和成本因素,以及需要大量经验数据的支撑(比如说,PLR和RTT的关键阈值等)。要比较妥善的做到上面的要求,对语音视频技术团队绝对是一个严峻的考验。如果要选择第三方的语音视频SDK,上述的技术要求也可以成为语音视频SDK的选型标准。

android 实现实时语音功能选择接入哪个音视频sdk好?

可以考虑接入即构科技的音视频sdk,他们的音视频sdk平台兼容性强,可覆盖 iOS、Android、Windows、macOS、Web、小程序并支持平台间互通,支持 32 路实时音视频互动,能够为开发者提供便捷接入、高清流畅、低延迟、高并发的音视频服务,而且4 行代码极速接入, 30 分钟内即可构建完毕。 关于音视频开发 sdk和音视频开发 社区的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 音视频开发 sdk的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于音视频开发 社区、音视频开发 sdk的信息别忘了在本站进行查找喔。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:车联网智能车载终端怎么用(车载智能互联怎么使用)
下一篇:前端框架软件(前端开发框架技术)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~