微前端架构如何改变企业的开发模式与效率提升
794
2022-09-30
使用百度飞桨EasyDL实现AI文章自动分类
前言
为了降低人工成本,提升效率,选择用AI来帮助做工作,会有非常好的效果。但是通过自己组建AI算法团队来满足这个需求的话,不免有点成本飙升。为了拥有一套自己的AI工具,那么我们今天介绍一款低成本AI工具“百度飞桨EasyDL”,来实现自动分类。
开始
需求说明
开发一个汽车资讯网站,需要对资讯快速分发,快速分类,快速推送到不同的专栏下。如果用人力来做的话,人力成本高、效率低。那么随着我来一起搞一个便宜的AI助手吧。
步骤一:
步骤二:
选择单标签(说明:因为每篇文章需推送到一个专栏而非多个,因此,文章标题与专栏是一一对应关系,即每篇文章仅打上一个专栏的标签即可)
步骤三:
数据准备
明确需要发布的专栏名称。在该汽车资讯网站中,专栏包括汽车改装、新车测评、自驾游记、买车中心。针对各个专栏名称,收集该专栏下的常见推文标题,一个专栏下收集30-50个标题名称。例如,自驾游记专栏对应的标题:二月最后一个周末带我的Q7京西游,汽车改装专栏对应的标题:自己动手改房车大功告成。形成可上传到EasyDL进行训练的数据,您可以导入原始数据后使用EasyDL的标注工具完成标注,这里的原始数据要求为:Excel/txt的单列数据(如下图):
也可以先将训练数据处理好后再上传到EasyDL。如果您是将训的训练数据,上传后即可发起训练,如下图:
提示:如果您上传原始数据,也可通过平台内置的标注工具进行快速标注,如下图:
在标注量较大的情况下,您可以开启上图右上角的智能标注功能,您只需要标注30%的文本,剩余的70%文本平台为自动打上标签,提高您的标注效率。
步骤四
模型训练
选择算法时,在对时延没有特殊要求的情况下,建议您可以使用高精度算法进行训练,优势是可以使用较少的数据集也能获得高精度效果。 在选择筛选指标时,如没有特殊要求,也可以默认选择精度和召回平衡的策略,使用平台默认值即可。 为测试平台模型效果,您可以选择开启自定义测试集,即测试集为不同于训练集的数据,您可以在该数据集下看模型效果,如不开启,则平台会自动将训练数据中抽出部分数据作为测试集展示模型效果。
步骤五
模型部署 模型训练完毕后,如您对模型效果满意,可以选择公有云部署,在接口地址中输入自定义名称,如下图:
步骤六
效果优化 当模型训练完毕后,可通过模型评估报告查看效果,从报告中四个标签的训练精度表现看,新车评测、买车中心的准确率较低,如下图:
追溯原因,在前期数据准备时,该两个标签的数据量过少。例如,下图中买车中心仅有15条数据,所以,需要对该标签下的数据进行补充,同时,在买车中心下,发现标题有两种不同的风格,每个风格的数据仅有10条也会影响训练精度,因此,扣充的粒度是买车中心标签下每个风格标题的数据量进行扩充,至少保证30-50条。
总结
如上几步就可以让你快速拥有一个自己的AI助手,还不快来动动你的小手么。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~