深入理解机器学习——类别不平衡学习（Imbalanced Learning）：样本采样技术-[人工采样技术之SMOTE采样法及Borderline-SMOTE采样法]-FinClip官网

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：样本采样技术-[人工采样技术之SMOTE采样法及Borderline-SMOTE采样法]

网友投稿 1393 2022-11-16

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：样本采样技术-[人工采样技术之SMOTE采样法及Borderline-SMOTE采样法]

针对随机采样技术的缺点，人们陆续开发出了一些更为高级的采样算法，这类算法均或多或少地利用了样本的局部先验分布信息，并利用这些信息，通过人工干预的方式来移除多数类样本或添加人工合成的少数类样本，从而达到了提升分类性能的目的。在此，我们将此类算法统称为“人工采样技术”。本文及后续文章将对此类技术中最具代表性的五种算法做展开介绍。

SMOTE（Synthetic Minority Oversampling Technique）算法于2002年为Chawla等人所提出，主要用于解决ROS采样法易于陷入过适应的问题。不同于ROS算法，SMOTE算法不再简单地复制少数类样本，而是通过一定策略生成大量新样本的方式来谋求训练样本集类分布的平衡。当然，为了保证样本原始分布不被严重破坏，必须确定某种规则来保证新生成样本的合理性。一般而言，抛除噪声的因素不谈，我们所常见的样本集在属性空间中往往都存在以下特性：某类样本往往趋于出现在同类样本附近，即同类样本的邻域区间当中。

从上图中不难看出，采用SMOTE算法所新生成的样本往往都出现在少数类的决策空间内，从而足以保证其合理性。此外，新生成的样本与原始样本不再是简单的覆盖关系，这就可以保证经SMOTE算法处理后的训练集可近似逼近原始少数类样本训练集的分布，从而在一定程度上避免后期所训练的分类器出现过适应的现象。SMOTE算法的基本流程如下：

由于涉及大量的近邻关系运算，其时间复杂度过高当少数类样本中含有较多噪声信息时，SMOTE算法会受其干扰，将噪声信息进一步传播，从而影响到分类的性能由于每轮主样本的选取是完全随机的，故当少数类样本数较少时，可能会造成各原始少数类样本被选作主样本的频次差较大，从而偏离原始的样本分布。

Borderline-SMOTE采样法

Han等人注意到对分类面起决定作用的往往是那些处于分类边界上的样本，即处于类重叠区域或在这一区域附近的样本，因此，他们认为在全部少数类样本上运行SMOTE算法是没有必要的，只需要在边界区域生成新的少数类样本即可。他们所提出的改进算法为Borderline-SMOTE算法，即边界线SMOTE算法。在Borderline-SMOTE算法中，少数类样本被归为以下互不相交的三类：

安全样本：即远离边界区域，且处于少数类决策区域的样本边界样本：即处于决策边界附近的样本噪声样本：即远离边界区域，且处于多数类决策区域的样本。

下图给出了上述三类样本的判别示例：

在经过上述判别操作后，仅对DANGER集中保留的少数类样本进行SMOTE操作即可，所生成的新样本均处于决策边界附近。特别地，Borderline-SMOTE算法有两个不同的版本，可分别将其命名为BSO1算法及BSO2算法，它们的具体流程分别描述如下：

Borderline-SMOTE算法有效地克服了SMOTE算法的第2个缺点，即可有效规避原始噪声信息在新样本集上的传播，从而在一定程度上提升了SMOTE算法的分类性能。但同时，由于在计算K近邻时，加入了全部多数类样本的信息，这也将不可避免地进一步增加了算法的时间开销。

小程序页面之间进行传值的操作办法

1393 2022-11-16

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：样本采样技术-[人工采样技术之SMOTE采样法及Borderline-SMOTE采样法]

小程序页面之间进行传值的操作办法

解锁玩具小程序的开发密码

关于小程序中 data- 的详细解析

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计