Python爬虫(四)——开封市58同城数据模型训练与检测-FinClip官网

Python爬虫(四)——开封市58同城数据模型训练与检测

网友投稿 734 2022-11-15

Python爬虫(四)——开封市58同城数据模型训练与检测

前文参考：

Python爬虫(一)——开封市58同城租房信息

Python爬虫(二)——对开封市58同城出租房数据进行分析

Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析

数据的构建

在这张表中我们可以发现这里有5个数据，这里有两个特征（房租是否少于2000，房屋面积是否大于50）来划分这5个出租房是否租借。

现在我们要做的就是是要根据第一个特征，第二个特征还是第三个特征来划分数据，进行分类。

1 def createDataSet(): 2 dataSet = [[1, 1, 'yes'], 3 [1, 1, 'yes'], 4 [1, 0, 'no'], 5 [0, 1, 'no'], 6 [0, 0, 'no'] 7 ] 8 9 labels = ['no surfacing','flippers']10 11 return

计算给定数据的信息熵

根据信息论的方法找到最合适的特征来划分数据集。在这里，我们首先要计算所有类别的所有可能值的香农熵，根据香农熵来我们按照取最大信息增益的方法划分数据集。

以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。信息熵是用来衡量一个随机变量出现的期望值。如果信息的不确定性越大，熵的值也就越大，出现的各种情况也就越多。

其中，S为所有事件集合，p为发生概率，c为特征总数。注意：熵是以2进制位的个数来度量编码长度的，因此熵的最大值是log2C。

信息增益（information gain）是指信息划分前后的熵的变化，也就是说由于使用这个属性分割样例而导致的期望熵降低。也就是说，信息增益就是原有信息熵与属性划分后信息熵（需要对划分后的信息熵取期望值）的差值，具体计算法如下：

1 def calcShannonEnt(dataSet): 2 countDataSet = len(dataSet) 3 labelCounts={} 4 for featVec in dataSet: 5 currentLabel=featVec[-1] 6 if currentLabel not in labelCounts.keys(): 7 labelCounts[currentLabel] = 0 8 labelCounts[currentLabel] += 1 9 getshang = 0.010 11 for key in labelCounts:12 prob = float(labelCounts[key])/countDataSet13 getshang -= prob * log(prob,2)14 15 16 return

划分数据集

在度量数据集的无序程度的时候，分类算法除了需要测量信息熵，还需要划分数据集，度量花费数据集的熵，以便判断当前是否正确的划分了数据集。我们将对每个特征数据集划分的结果计算一次信息熵，然后判断按照那个特征划分数据集是最好的划分方式。也就是说，我们依次选取我们数据集当中的所有特征作为我们划定的特征，然后计算选取该特征时的信息增益，当信息增益最大时我们就选取对应信息增益最大的特征作为我们分类的最佳特征。

1 dataSet = [2 [1, 1, 'yes'],3 [1, 0, 'no'],4 [1, 1, 'yes'],5 [0, 1, 'no'],6 [0, 0, 'no']7

在这个数据集当中有三个特征，就是每个样本的第一列和第二列，最后一列是它们所属的分类。

我们划分数据集是为了计算根据那个特征我们可以得到最大的信息增益，那么根据这个特征来划分数据就是最好的分类方法。

因此我们需要遍历每一个特征，然后计算按照这种划分方式得出的信息增益。信息增益是指数据集在划分数据前后信息的变化量。

计算信息增益

依次遍历每一个特征，在这里我们的特征只有两个，就是房租是否少于2000，房屋面积是否大于50。然后计算出根据每一个特征划分产生的数据集的熵，和初始的数据集的熵比较，我们找出和初始数据集差距最大的。那么这个特征就是我们划分时最合适的分类特征。

1 def chooseBestFeatureToSplit(dataSet): 2 numFeatures = len(dataSet[0])-1 3 baseEntropy = calcShannonEnt(dataSet) 4 bestInfoGain =0.0 5 bestFeature = -1 6 7 for i in range(numFeatures): 8 featList = [sample[i] for sample in dataSet] 9 uniqueVals = set(featList)10 newEntropy = 0.011 for value in uniqueVals:12 subDataSet = splitDataSet(dataSet,i,value)13 prob = len(subDataSet)/float(len(dataSet))14 newEntropy += prob * calcShannonEnt(subDataSet)15 16 infoGain = baseEntropy - newEntropy17 18 if(infoGain > bestInfoGain):19 bestInfoGain = infoGain20 bestFeature = i21 22 return

数据检测

sklearn实现交叉验证十折交叉验证流程

将数据集随机地切分为S个互不相交的大小相同的子集

然后挑选其中S-1个子集作为训练集，训练模型，用剩下的一个子集作测试集，获得测试误差或者评测指标

将上面过程对所有可能的S种选择重复进行，即每次都是用不同的测试集

最后对S次实验所得的数据（测试误差或者评测指标）取均值。

1 train = np.array(myDat)2 loop = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])3 kf = KFold(n_splits=10)4 5 for train_index, test_index in kf.split(train):6 print("train:",train_index, "test:", test_index)7 X_train, X_test = train[train_index], train[test_index]8 y_train, y_test = loop[train_index], loop[test_index]9 print(calcShannonEnt(train[train_index]))

作者: AntzUhl

微前端架构如何改变企业的开发模式与效率提升

734 2022-11-15

Python爬虫(四)——开封市58同城数据模型训练与检测

微前端架构如何改变企业的开发模式与效率提升

前端开源框架如何提升开发效率与用户体验的关键因素

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计