洞察纵观鸿蒙next版本,如何凭借FinClip加强小程序的跨平台管理,确保企业在数字化转型中的高效运营和数据安全?
1104
2022-09-02
统计学知识
title: “统计学知识” author: “” date: “2018年2月27日” output: word_document
knitr::opts_chunk$set(echo = TRUE)
总结统计学中基础知识,以原理叙述为主。
数据度量
集中趋势的度量
分类数据—众数(mode):一组数据中出现次数最多的变量值。顺序数据—中位数:一组数据排序后处于中间位置上的变量值。顺序数据—四分位数:一组数据排序后处于25%和75%位置上的值。数值数据—平均数:分为简单平均数、加权平均数等,不赘~众数、中位数和平均数的关系
离散程度的度量
分类数据—异众比率:非众数组的频数占总频数的比例顺序数据—四分位差:上下四分位数的差。数值型数据—极差、方差、标准差:不赘。
偏态和峰态的度量
偏态(skewness):是对数据分布对称性的测度,对称分布则偏态系数等于0,明显不等于0表名非对称的。大于0表示右偏(定义存在歧义,上图中的右偏,有的地方称之为左偏)。峰态(kurtosis):是对数据分布平峰或者尖峰程度的测度,标准正态分布峰态系数为0,大于0为尖峰分布,数据分布更集中,反之扁平分布。
## 概率论
条件概率
全概率公式
贝叶斯公式
三大分布
正态分布
卡方分布
t分布
F分布
大数定律和中心极限定理
大数定律
中心极限定理
简单的统计推断
P值
当原假设为真时所得到的样本观察结果或者更极端结果出现的概率。
假设检验
基本思想为小概率反证法,流程为:先提出原假设,再用适当的统计方法确定假设成立的可能性大小(P值),如果可能性小(小于事先设定的显著性水平),则认为原假设不成立,这里只能说明现有数据不能支撑原假设,但是不能说明备注假设成立。
列联表分析
研究两个类别型变量之间是否独立的方法。原假设为两变量独立,通常通过构建列联表进行计算分析。
简单叙述原理:原假设两个类别型变量是独立的,那么可以通过边际概率的乘积,计算独立时各种组合发生的概率,继而求出所谓的期望频数,如果期望频数和实际频数相差很大,则认为独立。贴个书上的例子:
方差分析
方差分析通过检验各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 方差分析的主要思想是误差分解,总误差分解为组内误差和组间误差,直观的想法:如果分类型自变量对数值型因变量没有显著影响,那么组间均方和组内均方误差应该比较接近。 以单因子方差为例,简述相关内容。
方差分析基本假定
每个总体服从正态分布每个总体的方差必须相同(统计软件会输出方差同质性检验,如果不一致,参看另外一个统计量即可)观测值是独立的(一般由实验或者抽样满足)这三个假定成立的前提下,分析自变量对因变量是否有影响形式上转换为检验自变量的各个水平(不同的总体)的均值是否相等。因此原假设为自变量对因变量没有显著影响,即各个总体的均值全部相等。
统计量的构造
回归
列联表分析可以看做研究类别型自变量和类别型因变量的关系,方差分析则是类别型自变量和数值型因变量的关系,那么回归分析可以看做研究数值型自变量和数值型因变量的关系。
基本假定
逻辑
主要思想是构造误差平方和为目标函数,通过最小二乘方法求出目标函数最小时候的各个参数。通过构造不同的惩罚项,可以变形为岭回归和lasso回归。具体不赘~
求参
逻辑回归
logstic变换
目标函数和求参
PCA
基本思想
研究问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提条件下起到降维和简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
基本理论
主成分定义
主成分的条件
主成分的几何意义
以二维为例:
主成分的求法
剩下的细节不多说,有空写的详细点吧。
因子分析
在主成分分析中,每一个主成分可以看做变量的线性组合;而在因子分析中,把每个变量分解成几个公共因子的线性组合和特殊因子,一般因子数量小于变量数量。
因子模型
两个假定
因子模型有两个前提假定:
因子载荷
参数估计
也就是载荷矩阵的求解,一般有主成分法、主因子解和极大似然法。主成分求法相当于先求出主成分,然后矩阵求逆可得。具体不太清楚,可以参看多元统计的教材。
2018-03-01 于杭州
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~