操作系统寒武纪 - 会让企业IT高兴吗?
624
2022-11-20
白话空间统计二十七:统计学七支柱之空间统计版本(二)聚合(1)
聚合,或者说汇总,可以称之为统计学的始祖级应用了。人类对任意事物,都有天然的概括和归纳的习惯,比如对于阅兵:
我们肯定不会说:你看你看,第三排左边第四辆坦克的左前悬挂轮的第二颗螺丝,擦的真干净……锃光瓦亮的。如果你这么说,我保证大家会觉得你脑子有问题。
一般我们都习惯的给出一个字,或者一个词就整体概括了,比如“帅!”,比如“威武”,同样的,对于三哥的阅兵,上一任米帝大统领奥观海同学,也给出了一个字“赞”。
在统计学上,入门的第一课自然就是各种统计汇总值,比如平均数、众数、中位数、方差、标准差等等……将总体样本的细节隐藏起来,用概括性的信息来进行描述,是统计学的天赋技能。所以这些聚合汇总性质的指标,也就成了统计的代名词,所以经常把这些描述性的词汇叫做“统计值”。
在空间统计上,有哪些描述性的概念呢?
首先当然是对地理分布进行度量的一系列概念。比如三大中心:
平均中心(加权平均中心)中位数中心(加权)中心要素(加权)
三大中心的概念可以用来类比经典统计中的均值、中位数这样的统计概念。三者之间的概念,可以查看我以前的文章:
其中平均中心和中位数中心最大区别是平均中心对于极值敏感,而中位数对于极值不那么敏感,如下所示:
那么这些中心有啥用处呢?
比如这里有北京市的人口变化情况:
传统分析方式,就各种柱状图饼状图空间专题图就上来了,比如:
那么我们要通过测量空间变化的方式,如何来进行分析,又能分析出何种结果来呢?
利用四个年度的户籍流入情况,进行加权平均中心计算,就得到这样一个分析图:
1、四个年度人口变化情况,较无加权的几何中心相比,都偏西南方向,表示了北京的人口输入情况南部大于北部。
2、从2007年至08年、09年三个年份的对比情况来看,都是像北京西部偏移。2009年到2010年,突然掉转了方向,变成自西向东偏移,而且偏移的幅度远大于前几年的平均偏移幅度。
以上分析结果说明,在这四年中,北京的人口户籍变化在空间分布上出现了方向性的变化,以08年奥运和09年四万亿投资为分水岭(可能还有房价和户籍政策等的影响),使得整个城市人口的流入发生了九十度的转折。
进行分析,并非需要保留所有的细节。
不过平均带来的问题,也很严重的,比如:
待续未完
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~