[笔记]机器学习之机器学习模型及案例分析《一》-FinClip官网

[笔记]机器学习之机器学习模型及案例分析《一》

网友投稿 622 2022-08-30

[笔记]机器学习之机器学习模型及案例分析《一》

活动地址：21天学习挑战赛

文章目录

前言回归

1. 案例

绘制散点图

损失函数

直接法迭代法

评估数据好坏预测

2. 回归的基本思想

多元线性回归损失函数最小二乘法梯度下降法

1.3 辛烷值预测案例1.4 过拟合与欠拟合

泛化过拟合与欠拟合

过拟合欠拟合

简化回归模型

1.5 模型的评价

R^2MSE和RMSEMAE和MAPE偏差-方差权衡(仔细研究一下)评价回归模型

1.6 正则项

岭回归Lasso回归ElasticNet回归python实现

总结

前言

环境: python3.7 IDEA

机器学习基本思路：

推导公式进行建模优化模型评估系数根据模型进行预测

回归

1. 案例

一元线性回归的例子引出线性回归模型： 1920年汽车速度与刹车距的数据，现在，我们想研究速度与刹车距离之间到底有什么样的关系。

绘制散点图

# 1.收集数据data_cars = pd.read_csv("../data/cars.csv",usecols = ["speed","dist"])print(data_cars.head())# 2.可视化speed = data_cars["speed"]dist = data_cars["dist"]plt.scatter(speed,dist) # 散射plt.title("Scatter plot of vehicle speed and braking distance")plt.show()

呈现线性关系：

为了使预测更为精准

从图像直观描述，就是使寻找一条直线，使得所有样本点到直线的距离之和最短，如图7.1.2所示：

以下在机器学习中称为损失函数：

损失函数

我们可以通过直接法和迭代法两种方式对该损失函数进行优化，进而得到使损失函数最小的回归系数。下面，我们分别用这两种方法进行求解。

直接法

直接法，就是直接给出优化问题的最优解，并不是所有的优化问题都可以用直接法得到最优解，如果要使用直接法，损失函数需要满足两个条件：1. 损失函数为凸函数；（曲线是凹状或者凸状）2. 损失函数为解析解，即通过严格的公式所求得的解。

python代码：

## 2.2 损失函数import sympy#设定回归系数alpha, beta = sympy.symbols("alpha beta")#设定损失函数L = 0.5* np.sum((dist - beta*speed - alpha)**2)#求偏导print(sympy.diff(L, alpha))#50.0*alpha + 770.0*beta - 2149.0print(sympy.diff(L, beta))#770.0*alpha + 13228.0*beta - 38482.0f1 = sympy.diff(L, alpha)f2 = sympy.diff(L, beta)### 求解线性方程组outcome = sympy.solve([f1, f2], [alpha, beta])print(outcome)#{alpha: -17.5790948905109, beta: 3.93240875912409} 最优解

{alpha: -17.5790948905109, beta: 3.93240875912409} 最优解

我们将直线 y = 3.932x+ -17.570 绘制在车速与刹车距离散点图中，如图7.1.5所示。

### 绘图alpha_num = outcome[alpha]beta_num = outcome[beta]dist_pre = beta_num*speed + alpha_numplt.scatter(speed, dist)plt.plot(speed, dist_pre, c = "r")plt.title("Fitting results")plt.show()

迭代法

很多情况都是非凸形的没法使用直接法进行优化所以我们可以使用迭代法求解。迭代法是一种不断用变量的旧值递推新值的过程，即迭代的用旧值修正对最优解的估计。

这里，我们使用迭代法中的小批量梯度下降法解决问题：

对于我们的问题，小批量梯度下降法的过程如下：

#迭代法import random#定义递推关系,更新迭代变量def update_var(old_alpha, old_beta, y, x, learning_rate): len_x = len(x) alpha_delta = np.sum(-(y - old_beta*x - old_alpha))/len_x beta_delta = np.sum(-x*(y - old_beta*x - old_alpha))/len_x new_alpha = old_alpha - learning_rate*alpha_delta new_beta = old_beta - learning_rate*beta_delta return (new_alpha, new_beta)#迭代def iterative_func(y, x, start_alpha, start_beta, learning_rate, iterative_num, sample_num): alpha_list = [] beta_list = [] alpha = start_alpha beta = start_beta num_list = list(range(1, len(y)+1)) for i in range(iterative_num): alpha_list.append(alpha) beta_list.append(beta) random.shuffle(num_list) index = num_list[:sample_num] alpha, beta = update_var(alpha, beta, y[index], x[index], learning_rate)# print("alpha: {}, beta:{}".format(alpha, beta)) return (alpha_list, beta_list)#在[0, 10)之间按照均匀分布随机产生alpha和beta的初始值start_alpha = np.random.random()*10start_beta = np.random.random()*10#设置学习率为0.01,迭代次数为500次,每次计算8个数据learning_rate = 0.002iterative_num = 20000sample_num = 16alpha_list, beta_list = iterative_func(dist, speed, start_alpha, start_beta, learning_rate, iterative_num, sample_num)

最后会发现直接法和迭代法答案相近

最后绘制α和β变化：

...代码接上...#写出import csvparameter_data = zip(alpha_list, beta_list)with open("./outcome/gradient_descent_parameter.csv", 'w', newline = '') as f: csv_writer = csv.writer(f) csv_writer.writerow(["alpha","beta"]) csv_writer.writerows(parameter_data)#绘图plt.subplot(121)plt.plot(alpha_list)plt.title("alpha change process")plt.subplot(122)plt.plot(beta_list)plt.title("beta change process")plt.show()

学习率：影响变化稳定的因素，我们可以设置其学习率随着迭代次数增加逐渐递减，来缓解这种现象样本数：迭代次数：

评估数据好坏

直接法求得的回归系数估计值进行评价，即计算其 R^2:

#判定系数R2dist_pre = beta_num*speed + alpha_numdist_mean = np.mean(dist)R_2 = np.sum((dist_pre - dist_mean)**2)/np.sum((dist - dist_mean)**2)print(R_2)#0.651079380758251#预测new_speed = pd.Series([10, 20, 30])new_dist_pre = beta_num*new_speed + alpha_numprint(new_dist_pre)

结果R^2得到0.65107938

预测

利用我们的模型对结果进行预测。我们依然采用直接法求得的回归系数估计值，对新的样本进行预测。

假设新记录的一批车辆的车速分别为10, 20, 30，利用python，我们可以得到刹车距离的预测值为21.745，61.069，100.393。

2. 回归的基本思想

多元线性回归

在上面的例子中，我们仅有一个自变量，但是在现实生活中，我们要分析的不只是一个，而是多个自变

量与因变量之间的关系，对于这种预测任务，我们可以采用多元线性回归.

我们的目的是让机器从数据中学习出一个最优模型，从而进行预测，但是机器不会自动的学习，它需要被注入灵魂，需要在人的指导下去工作。

所以，我们需要告诉机器如何学习，即定义一系列"策略"让机器围绕着这种"策略"不断地学习，更新自己。比如，在多元线性回归的问题中，我们的"策略"如下：

定义损失函数，描述模型好坏利用算法最小化损失函数

损失函数

定义：

最小二乘法

梯度下降法

梯度下降法就是利用一阶泰勒展开，使一步步逼近最优，从而最小化损失函数的方法。

在梯度下降法中，由于每次迭代带入损失函数中样品个数的不同，我们又可将其分为:

批量梯度下降法(BGD)，小批量梯度下降法(MBGD)随机梯度下降法(SGD)。

1.3 辛烷值预测案例

某石化企业的催化裂化汽油精制脱硫装置运行4年，积累了大量历史数据。从催化裂化汽油精制装置中，我们得到了325个数据样本，因变量为产品中的辛烷值(RON)(y)，自变量有310个（x1,x2,x3…x310），它们分别为生产前的原材料含量和各种操作变量。

# -*- coding: utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import SGDRegressorfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom mlxtend.evaluate import bias_variance_decomp#读取原始数据data_ron = pd.read_csv("../data/data_ron.csv")print(data_ron.shape)#(325, 311)y = data_ron["RON"]X = data_ron.iloc[:, 1: (len(data_ron) + 1)]X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 10)#构建模型model = LinearRegression()model.fit(X_train, y_train)print(round(model.score(X_train, y_train), 4))print(round(model.score(X_test, y_test), 4))#标准化(随机梯度下降法之前需要标准化)#stand_train = StandardScaler()#stand_train.fit(X_train)#X_train_standard = stand_train.transform(X_train)#X_test_standard = stand_train.transform(X_test)#model = SGDRegressor()#model.fit(X_train_standard, y_train)#print(round(model.score(X_train_standard, y_train), 4))#print(round(model.score(X_test_standard, y_test), 4))def mape(y_true, y_pre): n = len(y_true) mape = (sum(np.abs((y_true - y_pre)/y_true))/n)*100 return mapey_hat = model.predict(X_test)MSE = metrics.mean_squared_error(y_test, y_hat)RMSE = metrics.mean_squared_error(y_test, y_hat)**0.5MAE = metrics.mean_absolute_error(y_test, y_hat)MAPE = mape(y_test, y_hat)print("MSE:{:.4f}, RMSE:{:.4f}, MAE:{:.4f}, MAPE:{:.4f}".format(MSE, RMSE, MAE, MAPE))#MSE:0.0370, RMSE:0.1924, MAE:0.1511, MAPE:0.1710#不进行转换会报错X_train = np.array(X_train)y_train = np.array(y_train)X_test = np.array(X_test)y_test = np.array(y_test)mse, bias, var = bias_variance_decomp(model, X_train, y_train, X_test, y_test,loss='mse', num_rounds=30, random_seed=1)print("mse:{:.4f}, bias:{:.4f}, var:{:.4f}".format(mse, bias, var))#mse:0.3947, bias:0.3443, var:0.0504

主要使用sklearn的模型

可以看到，我们在训练集上的模型得分居然是1.0，这是不是说明我们的模型构建的足够好呢？不急，

我们再看看模型在测试集上的得分。

由结果可知，模型在测试集上的得分为负数，已经足够差了。这种在训练集上表现好，但在测试集上表现差的现象，我们称为过拟合，与其相对的就是在训练集上表现差，但在测试集上表现好，这种我们称之为欠拟合，

1.4 过拟合与欠拟合

泛化

定义：得出的模型能够对测试集进行准确预测，那么我们就说它具有较好的泛化能力。

就是模型的通用性很强，在测试集里面预测准确。

过拟合与欠拟合

过拟合

定义：由于我们使用过多的因变量，而导致训练集得分很高，测试集得分很低，这就是出现了过拟合的情况。

欠拟合

定义：当我们的模型过于简单时，可能会出现欠拟合的情况，这说明了我们的训练不够充分，模型没有抓住训练集中数据的信息。如果在上面的案例中，我们的模型出现了欠拟合，那么在训练集上，迫性的得分应该较低，而测试集上的模型得分应该较高。

规避的方法：遇到欠拟合时，我们应该适量增加模型的复杂度，来避免欠拟合的状况。

复杂度小于平衡点，欠拟合；

复杂度大于平衡点，过拟合；

简化回归模型

1.5 模型的评价

R^2

MSE和RMSE

MAE和MAPE

偏差-方差权衡(仔细研究一下)

评价回归模型

1.6 正则项

在建模时，我们总是希望自己的模型能够尽量在训练集上取得较高的精度，又希望模型有好的泛化能力，这时，我们可以通过给损失函数添加正则项实现这一目标。正则项的使用可以减缓过拟合的状况，也可以帮助我们选择模型的特征。

岭回归

Lasso回归

ElasticNet回归

python实现

总结

工具：

基于网页的用于交互计算的应用程序Jupyter Notebook ___还可以写C++

文献管理工具：

Mendeley DesktopZotero

模型管理工具：

DVC

常用网站：

免费软件机器学习库 scikit-learn.org

参考：机器学习理论及案例分析(part2)–回归

微前端架构如何改变企业的开发模式与效率提升

622 2022-08-30

[笔记]机器学习之机器学习模型及案例分析《一》

微前端架构如何改变企业的开发模式与效率提升

轻量级前端框架助力开发者提升项目效率与性能

前端开源框架如何提升开发效率与用户体验的关键因素

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计