音视频跨端开发（音视频开发基础）

网友投稿 509 2023-01-24

本篇文章给大家谈谈音视频跨端开发，以及音视频开发基础对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享音视频跨端开发的知识，其中也会对音视频开发基础进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、Flutter浪潮下的音视频研发探索
2、如何快速学习音视频开发?
3、客户端开发的成长思考
4、从事「音视频领域」开发工作有前途吗？

Flutter浪潮下的音视频研发探索

文/陈炉军

整理/LiveVideoStack
大家好，我是阿里巴巴闲鱼事业部的陈炉军，本次分享的主题是Flutter浪潮下的音视频研发探索，主要内容是针对闲鱼APP在当下流行的跨平台框架Flutter的大规模实践，介绍其在音视频领域碰到的一些困难以及解决方案。
分享内容主要分为四个方面，首先会对Flutter有一个简单介绍以及选择Flutter作为跨平台框架的原因，其次会介绍Flutter中与音视频关系非常大的外接纹理概念，以及对它做出的一些优化。之后会对闲鱼在音视频实践过程中碰到的一些Flutter问题提出了一些解决方案——TPM音视频框架。最后是闲鱼Flutter多媒体开源组件的介绍。

Flutter
Flutter是一个跨平台框架，以往的做法是将音频、视频和网络这些模块都下沉到C++层或者ARM层，在其上封装成一个音视频的SDK，供UI层的PC、iOS和Android调用。

而Flutter做为一个UI层的跨平台框架，顾名思义就是在UI层也实现了一个跨平台开发。可以预想的是未Flutter发展的好的话，会逐渐变为一个从底层到UI层的一个全链路的跨平台开发，技术人员分别负责SDK和UI层的开发。
在Flutter之前已经有很多跨平台UI解决方案，那为什么选择Flutter呢？

我们主要考虑性能和跨平台的能力。

以往的跨平台方案比如Weex，ReactNative，Cordova等等因为架构的原因无法满足性能要求，尤其是在音视频这种性能要求几乎苛刻的场景。

而诸如Xamarin等，虽然性能可以和原生App一致，但是大部分逻辑还是需要分平台实现。
我们可以看一下，为什么Flutter可以实现高性能：

原生的native组件渲染以IOS为例，苹果的UIKit通过调用平台自己的绘制框架QuaztCore来实现UI的绘制，图形绘制也是调用底层的API,比如OpenGL、Metal等。

而Flutter也是和原生API逻辑一致，也是通过调用底层的绘制框架层SKIA实现UI层。这样相当于Flutter他自己实现了一套UI框架，提供了一种性能超越原生API的跨平台可能性。
但是我们说一个框架最终性能怎样，其实取决于设计者和开发者。至于现在到底是一个什么状况：

在闲鱼的实践中，我们发现在正常的开发没有特意的去优化UI代码的情况下，在一些低端机上，Flutter界面的流畅性是比Native界面要好的。

虽然现在闲鱼某些场景下会有卡顿闪退等情况，但是这是一个新事物发展过程中的必然问题，我们相信未来性能肯定不会成为限制Flutter发展的瓶颈的。
在闲鱼实践Flutter的过程中，混合栈和音视频是其中比较难解决的两个问题，混合栈是指一个APP在Flutter过程中不可能一口气将所有业务全部重写为Flutter，所以这是一个逐步迭代的过程，这期间原生native界面与Flutter界面共存的状态就称之为混合栈。闲鱼在混合栈上也有一些比较好的输出，例如FlutterBoost。

外接纹理
在讲音视频之前需要简要介绍一下外接纹理的概念，我们将它称之为是Flutter和Frame之间的桥梁。
Flutter渲染一帧屏幕数据首先要做的是，GPU发出的VC信号在Flutter的UI线程，通过AOT编译的机器码结合当前Dart Runtime，生成Layer Tree UI树，Layer Tree上每一个叶子节点都代表了当前屏幕上所需要渲染的每一个元素，包含了这些元素渲染所需要的内容。将Layer Tree抛给GPU线程，在GPU线程内调用Skia去完成整个UI的渲染过程。Layer Tree中有PictureLayer和TextureLayer两个比较重要的节点。PictureLayer主要负责屏幕图片的渲染，Flutter内部实现了一套图片解码逻辑，在IO线程将图片读取或者从网络上拉取之后，通过解码能够在IO线程上加载出纹理，交给GPU线程将图片渲染到屏幕上。但是由于音视频场景下系统API太过繁多，业务场景过于复杂。Flutter没有一套逻辑去实现跨平台的音视频组件，所以说Flutter提出了一种让第三方开发者来实现音视频组件的方式，而这些音视频组件的视频渲染出口，就是TextureLayer。

在整个Layer Tree渲染的过程中，TextureLayer的数据纹理需要由外部第三方开发者来指定，可以把视频数据和播放器数据送到TextureLayer里，由Flutter将这些数据渲染出来。
TextureLayer渲染过程：首先判断Layer是否已经初始化，如果没有就创建一个Texture，然后将Texture Attach到一个SufaceTexture上。

这个SufaceTexture是音视频的native代码可以获取到的对象，通过这个对象创建的Suface，我们可以将视频数据、摄像头数据解码放到Suface中，然后Flutter端通过监听SufaceTexture的数据更新就可以顺利把刚才创建的数据更新到它的纹理中，然后再将纹理交给SKIA渲染到屏幕上。
然而我们如果需要用Flutter实现美颜，滤镜，人脸贴图等等功能，就需要将视频数据读取出来，更新到纹理中，再将GPU纹理经过美颜滤镜处理后生成一个处理后的纹理。按Flutter提供的现有能力，必须先将纹理中的数据从GPU读出到CPU中，生成Bitmap后再写入Surface中，这样在Flutter中才能顺利的更新到视频数据，这样做对系统性能的消耗很大。
通过对Flutter渲染过程分析，我们知道Flutter底层需要渲染的数据就是GPU纹理，而我们经过美颜滤镜处理完成以后的结果也是GPU纹理，如果可以将它直接交给Flutter渲染，那就可以避免GPU-CPU-GPU这样的无用循环。这样的方法是可行的，但是需要一个条件，就是OpenGL上下文共享。

OpenGL
在说上下文之前，得提到一个和上线文息息相关的概念：线程。

Flutter引擎启动后会启动四个线程：

第一个线程是UI线程，这是Flutter自己定义的UI线程，主要负责GPU发出的VSync信号时候用当前Dart编译的机器码和当前运行环境创建出Layer Tree。

还有就是IO线程和GPU线程。和大部分OpenGL处理解决方案中一样，Flutter也采取一个线程责资源加载，一部分负责资源渲染这种思路。

两个线程之间纹理共享有两种方式。一种是EGLImage(IOS是 CVOpenGLESTextureCache)。一种是OpenGL Share Context。Flutter通过Share Context来实现纹理共享，将IO线程的Context和GPU线程的Context进行Share，放到同一个Share Group下面，这样两个线程下资源是互相可见可以共享的。

Platform线程是主线程，Flutter中有一个很奇怪的设定，GPU线程和主线程共用一个Context。并且在主线程也有很多OpenGL 操作。

这样的设计会给音视频开发带来很多问题，后面会详细说。
音视频端美颜处理完成的OpenGL纹理能够让Flutter直接使用的条件就是Flutter的上下文需要和平台音视频相关的OpenGL上下文处在一个Share Group下面。

由于Flutter主线程的Context就是GPU的Context，所以在音视频端主线程中有一些OpenGL操作的话，很有可能使Flutter整个OpenGL被破坏掉。所以需要将所有的OpenGL操作都限制在子线程中。

通过上述这两个条件的处理，我们就可以在没有增加GPU消耗的前提下实现美颜和滤镜等等功能。

TPM
在经过demo验证之后，我们将这个方案应用到闲鱼音视频组件中，但改造过程中发现了一些问题。

上图是摄像头采集数据转换为纹理的一段代码，其中有两个操作：首先是切进程，将后面的OpenGL操作都切到cameraQueue中。然后是设置一次上下文。然后这种限制条件或者说是潜规则往往在开发过程中容易被忽略的。而这个条件一旦忽略后果就是出现一些莫名其妙的诡异问题极难排查。因此我们就希望能抽象出一套框架，由框架本身实现线程的切换、上下文和模块生命周期等的管理，开发者接入框架以后只需要安心实现自己的算法，而不需要关心这些潜规则还有其他一些重复的逻辑操作。
在引入Flutter之前闲鱼的音视频架构与大部分音视频逻辑一样采用分层架构：

1：底层是一些独立模块

2：SDK层是对底层模块的封装

3：最上层是UI层。

引入Flutter之后，通过分析各个模块的使用场景，我们可以得出一个假设或者说是抽象：音视频应用在终端上可以归纳为视频帧解码之后视频数据帧在各个模块之间流动的过程，基于这种假设去做Flutter音视频框架的抽象。

咸鱼Flutter多媒体开源组件
整个Flutter音视频框架抽象分为管线和数据的抽象、模块的抽象、线程统一管理和上下文同一管理四部分。
管线，其实就是视频帧流动的管道。数据，音视频中涉及到的数据包括纹理、Bit Map以及时间戳等。结合现有的应用场景我们定义了管线流通数据以Texture为主数据，同时可以选择性的添加Bit Map等作为辅助数据。这样的数据定义方式，避免重复的创建和销毁纹理带来的性能开销以及多线程访问纹理带来的一些问题。也满足一些特殊模块对特殊数据的需求。同时也设计了纹理池来管理管线中的纹理数据。
模块：如果把管线和数据比喻成血管和血液，那框架音视频的场景就可以比喻成器官，我们根据模块所在管线的位置抽象出采集、处理和输出三个基类。这三个基类里实现了刚才说的线程切换，上下文切换，格式转换等等共同逻辑，各个功能模块通过集成自这些基类，可以避免很多重复劳动。
线程：每一个模块初始化的时候，初始化函数就会去线程管理的模块去获取自己的线程，线程管理模块可以决定给初始化函数分配新的线程或者已经分配过其他模块的线程。

这样有三个好处：

一是可以根据需要去决定一个线程可以挂载多少模块，做到线程间的负载均衡。第二，多线程并发式能够保证模块内的OpenGL操作是在当前线程内而不会跑到主线程去，彻底避免Flutter的OpenGL 环境被破坏。第三，多线程并行可以充分利用CPU多核架构，提升处理速度。
从Flutter端修改Flutter引擎将Context取出后，根据Context创建上下文的统一管理模块，每一个模块在初始化的时候会获取它的线程，获取之后会调用上下文管理模块获取自己的上下文。这样可以保证每一个模块的上下文都是与Flutter的上下文进行Share的，每个模块之间资源都是共享可见的，Flutter和音视频native之间也是互相共享可见的。
基于上述框架如果要实现一个简单的场景，比如画面实时预览和滤镜处理功能，

1：需要选择功能模块，功能模块包括摄像头模块、滤镜处理模块和Flutter画面渲染模块，

2：需要配置模块参数，比如采集分辨率、滤镜参数和前后摄像头设置等，

3：在创建视频管线后使用已配置的参数创建模块

4：最后管线搭载模块，开启管线就可以实现这样简单的功能。
上图为整个功能实现的代码和结构图。
结合上述音视频框架，闲鱼实现了Flutter多媒体开源组件。

组要包含四个基本组件分别是：

1：视频图像拍摄组件

2：播放器组件

3：视频图像编辑组件

4：相册选择组件

现在这些组件正在走内部开源流程。预计9月份，相册和播放器会实现开源。

后续展望和规划
1：实现开头所说的从底层SDK到UI的全链路的跨端开发。目前底层框架层和模块层都是各个平台各自实现，反而是Flutter的UI端进行了跨平台的统一，所以后续会将底层也按照音视频常用做法把逻辑下沉到C++层，尽可能的实现全链路跨平台。

2：第二部分内容为开源共建，闲鱼开源的内容不仅包括拍摄、编辑组件，还包括了很多底层模块，希望有开发者在基于Flutter开发音视频应用时可以充分利用闲鱼开源出的音视频模块能力，搭建APP框架，开发者只要去负责实现特殊需求模块就可以，尽可能的减少重复劳动。

音视频跨端开发（音视频开发基础）

如何快速学习音视频开发?

很多开发者都知道音视频开发这个概念音视频跨端开发，音视频开发不仅需要掌握图像、音频、视频音视频跨端开发的基础知识音视频跨端开发，并且还需要掌握如何对它们进行采集、渲染、处理、传输等一系列的开发和应用，因此，音视频开发是一门涉及到很多内容的领域。

客户端开发的成长思考

作为客户端开发程序员，首当其冲就是完成业务迭代，服务好产品用户和业务团队。服务好产品用户是业务团队存在的价值，服务好业务团队是客户端开发存在的价值。业务发展要考虑变现，要考虑增长，要考虑留存等等，最终落地的环节往往需要客户端开发来实现。
除了业务迭代，根据业务特色和客户端开发团队特点，会围绕高效研发体系和稳定研发质量不断做优化，也有的会尝试跨端能力建设、新技术探索落地。在更大一点的公司还会关注团队的技术影响力输出，以及不可忽视的安全和合规能力。
为了更好的衡量客户端质量，往往会用卡顿、卡死、crash等基础指标来评估质量，同时也会不断做包大小优化、启动优化、磁盘和流量监控、流畅度优化、cpu和电量优化等等来提升基础体验。同时还要关注研发过程中的效率提升，比如说研发流程优化、编译优化、自动化测试等等。
客户端能做的事情非常多，有服务于用户的业务方向，也有保障质量的基础方向，还有提供各种通用能力的中台方向，还有从事各种跨端建设、音视频处理、网络建设等等。从供需关系来看，智能手机的市场规模是客户端开发岗位需求的天花板，全球接近40亿的智能手机就是客户端开发这个行业的未来保障。至于脉脉“客三消”理论鼓吹的大前端取代客户端开发，是典型的杞人忧天。从事过客户端开发的程序员都知道客户端原生Native开发是不可能被跨端的技术完全取代。RN、flutter等是在某些特定环境下会有不错应用收益，但不管是交互体验、研发体验，各项性能指标都比不上原生开发语言。

客户端开发是移动互联网快速发展的产物，本身也有一些从事的风险点，从我的经历来看，主要有以下问题：

客户端的很多日常工作是需求开发，需求开发主要是由各种业务逻辑、各类界面的实现。最常见的现象是一年经验用三年，三年经验用十年。由于客户端所见即所得的特点，很多开发者在度过前期的上手期之后，就一直重复使用类似的思考模式去解决问题。如果没有环境压迫，也没有自己主动去思考突破，会在日复一日的劳作中迷失成长。时间较长之后，往往会陷入能力增长的瓶颈期。

客户端开发的求职者和招聘者之间，现在有一种相互矛盾的现象：求职者感觉外面客户端开发的需求量在不断的变少，招聘者一直在苦恼招不到人。
客户端开发的岗位减少是由于移动互联网的基建越来越成熟，相比流量成本和维护成本都更高的App，很多小公司选择使用了更加便捷的小程序、公众号、抖音短视频等等大公司提供的基础平台，导致了客户端开发的岗位需求量在不断减少。
招聘者苦恼的是招聘不到优秀的开发者，由于互联网行业常年有长期唱衰客户端开发的现象（从以前的PC开发到现在是移动端开发），再加上最近几年兴起的算法岗位和数据分析岗位竞争，越来越少的优秀毕业生投身到客户端的这个行业上，导致优秀的开发者供不应求。

“中年危机”是悬在程序员头上的达摩克里斯之剑，这不仅仅是客户端开发会面临的问题，这是所有大龄程序员都必须面对的互联网从业现状。由于前面提到的互联网基建成熟带来了的客户端岗位需求减少问题，客户端开发在中年危机这个问题显得更有压力。
但是如果觉得从事前端开发或者后台开发就不用面对中年危机，就是太过于乐观了。设想一下，一个公司为了节省成本都不做App了，他还会去招一个40的前端开发或者后端开发吗？
互联网行业在快速发展，薪酬待遇也在不断提升，这也带来源源不断的新人。当一个新人和老人能力相差不大时，性价比更高的新人往往更容易胜出。想要避免中年危机，唯有不断锻炼自己的能力，思考自己的不足之处，提升自己在市场的竞争力。

根据自己的粗浅认知，我觉得有下面几个方向可以努力。

大部分公司的官方回答永远是弹性工作制，事情干完就可以走。但是事情永远不可能做完，事情可以做完的公司还有市场竞争力？
我的看法是顺应潮流，合理安排时间。优先完成工作的事情，然后利用多余时间来进行学习。尽量不要把工作安排的满满当当，这样疲于奔命会让生活非常疲惫；也不要夸大工作难度、浑水摸鱼，摸鱼是对自己最大的不负责。按公司提倡的工作时间，合理安排工期，如果还有一些时间可以放松下心态，花点时间学习和成长。

可以从下面几个方向去探索：

学习如何从重复工作中学习和成长是必须的，因为再新的工作也会变成旧的工作。
学习的方向可以是做事、技术、思考、规划、团队等等，找一个当下最需要成长的能力开始锻炼。合理使用环境的压力，形成自己的学习和成长动力；偏技术侧需要自己拆分目标，逐步实现目标，这是非常重要的自驱力。
成长的过程很简单，制定目标，实现目标。目标需要有一定的量化标准，模棱两可让目标变得不可触碰。制定目标也要考虑目标的指引作用，对个人而言，目标描述的过程会比结果更加重要。
努力学习换来好结果，好结果继而激励产生进步动力，建立一个良好的正向反馈循环。

一个职业的未来，要看行业的发展前景。移动互联网的发展规模，注定客户端在短期内仍然是刚需。至于长期发展之后，移动互联网被新的时代取代，那么也会有新的岗位延伸出来，到时再紧跟时代潮流即可。
另外要把业务和技术分开，技术只是一个工具。在前期确实需要积累客户端的知识和相关技术，但是随着时间的推移，慢慢会接触更多的知识。不要给自己设限制，在适当的时机技术栈可以扩大到后端。假如某个人只做某一个模块，那么也需要去接触这个模块的前因后果，数据的产生消费。眼界如果局限在客户端，那么只能知其然不知其所以然。重点是在于人，人才是解决问题的核心，具体的技术只是工具。

从事「音视频领域」开发工作有前途吗？

在互联网的职业发展中，特别重要的是具备可迁移专业能力。

你可能是一个很厉害的程序员，但是你的专业能力相对垂直和冷门，刚好不是行业内最需要的，很可能在薪资、职业发展方面难以获得提升。人的时间和精力是有限的，大多数人都不可能在各个方面样样精通。在人才市场上，我们应该把自己看成商品，企业购买商品，是为了满足特定的需求，因为我们具备相应的专业能力。如果你希望能够抗周期，在各种环境下能够被需要，你所具备的专业能力就应该符合行业整体的需求背景，这样也就具备了行业内的可迁移专业能力。什么是可迁移专业能力呢？我们所具备的专业能力里，那些即使脱离了当前的公司、也能够在其它地方用到的能力，具有很强的适应性。

换个角度，这样的能力本身也符合行业内的通用需求，当你在各个公司之间换工作的时候，可以跨公司、跨行业被人认可。在互联网研发领域，音视频能力就是一种可迁移专业能力。在疫情背景下，所有人和人之间接触式的业务都在承受压力，任何需要当面接触的业务，都越来越难做了，而那些帮助人们减少接触的非接触式业务迎来了巨大机会。音视频就是非接触式业务环境下的基础能力。有没有发现大家现在越来越习惯线上开会？以前好像开会不见面就觉得别扭，现在是能线上就线上，各种企业线上协作的场景里，音视频等不可避免。

直播电商越来越火，而线下的商场去的人比以前更少了。如电竞场景，今年中国电竞团队夺冠时的火热，预示着接下来电竞直播等还有很大需求。还有全真互联网等新概念，背后也需要很多音视频的基础能力。音视频相关岗位的整体薪资比较高。如果掌握了音视频的开发能力，对于增强自己的职业壁垒非常有用。现在市场上音视频的人才仍然比较紧缺，薪资比较高。大家在增强自己职业能力的时候，可以以薪资作为指南针。老板如果能够少给钱，一定是不愿意多付出工资的，之所以薪资高，就是因为市场上的企业都在争夺这方面的人才。掌握这样的可迁移专业能力，在各个企业之间转换都会更容易。例如，我们可以看到招聘网站上的职位薪资范围，音视频的产品经理、程序员、运维等等，普遍薪资会更高一些：很多公司都很重视音视频业务，例如腾讯。在腾讯2021年第二季度业绩报告中写道：「凭藉云基础设施、PaaS及SaaS技术，我们助力公共服务及传统行业实现数字化。我们在技术及产品开发上的提升，吸引了更多的客户采用我们的平台及软件服务其中，视频化趋势为我们的视频云解决方案提供了更多的机会。根据国际数据公司（IDC）的数据，我们的视频云解决方案收入在中国排名第一。」为什么专门提到音视频呢？也是因为音视频在当前各个行业背景下的基础作用，让腾讯将这一块列为重点。当你在腾讯会议里开会的时候，在玩王者荣耀时，在唱全民 K 歌时，背后其实就是腾讯云音视频的支持，这背后需要强大的技术能力和产品能力。

基于这些能力，开发者可以快速构建诸如在线 K 歌、语音社交、在线会议和线上办公等各种场景里的应用。通过 PaaS，未来对于元宇宙、云游戏等也可以快速做出支持。现在，腾讯云音视频解决方案市场份额保持在30%以上（《2021上半年中国音视频解决方案系列追踪报告》），特别是在泛娱乐、电商、在线教育等细分赛道上是第佼佼者。腾讯云音视频在高清化、交互式、沉浸式赛道上都表现不错，开源了国内首个H.266/VVC播放器，推出了整合TRTC实时音视频通信网络、IM即时通信网络、CDN流媒体分发网络的音视频通信基础网络——RT-ONE，还构建了丰富完善的PaaS及aPaaS产品系列。如何开始学习音视频的开发技术呢？最好的方式是直接先去腾讯云的网站上，在文档中心里浏览一下。在这里面，提供了整体的架构和丰富的示例：还有专门的新手指引：这里面的文档特别全，相关的内容都在里面了。往往最贴近业内第一线的资源才是最及时有效的，腾讯云音视频的内容很有价值。建议大家可以先以这里为起点，多了解相关的应用场景，寻找自己所在的行业领域能够应用的音视频技术的结合点。疫情期间培养的用户习惯，让协商协作和娱乐音视频变成了刚性需求，接下来还会有更多企业需要音视频相关的能力，具备这些能力，可以在市场上具备更强的竞争力。关于音视频跨端开发和音视频开发基础的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。音视频跨端开发的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于音视频开发基础、音视频跨端开发的信息别忘了在本站进行查找喔。

标签：程序方法算法配置管理

暂时没有评论，来抢沙发吧~

音视频跨端开发（音视频开发基础）

Flutter浪潮下的音视频研发探索

如何快速学习音视频开发?

客户端开发的成长思考

从事「音视频领域」开发工作有前途吗？

最近发表

更多内容

推荐文章

解决方案

热评文章