洞察探索open banking如何通过小程序容器技术助力金融企业实现数据安全和数字化转型
876
2022-11-20
白话空间统计二十七:统计学七支柱(四)似然
在理性的基础上,一切判断都是统计。
——《统计与真理》 C.R.劳(美籍印度裔统计学家)
在一定意义上,统计学是一门运用数字讲故事的艺术。所谓的数字不会说谎,但是统计学有一个天然的原罪,就是统计学具有天然的政治属性,可以说诞生的那一天起,它就是为政治服务的。
尽管数字很重要,但是统计学绝非纯粹的计算,而属于文科的领域。因为它跟文学、历史、政治学分析和社会学研究一样,都带着主观的性质。
——《统计学的世界》 戴维·穆尔(D.S.Moore)(美国统计学会的常务委员、普度大学的统计学教授)
所以,很多时候单纯的拿出数据来说明问题,可能更具有欺骗性,因为没有背景的测量值,只是一个没有意义的数字。比如报纸上经常搞出一些震惊体,比如:“根据PLoS ONE上的一项研究,世界上有42000名儿童死于腹腔疾病。”(世界知名的《科学》杂志,2011年8月5日,对,你没看错,就是那本Science,号称全球最权威的论文期刊)。
(看到这张图,虾神内心OS:当帝国主义列强的感觉,真TMD太爽了……)
(再OS:当年脑残党们高呼抵制R货M货越南货菲律宾货的时候,别人会不会也是这种爽?所以我觉得抵制蠢货才是当务之急……)
这种权威的科学刊物给出的数字,如果咋一眼看过去,确实可以震惊了,腹腔疾病太恐怖了,孩子就是家庭的全部,4万多儿童死亡,就等于毁灭掉了四万多个家庭……但是真如此么?
就算有四万多儿童的死亡——多长时间的?一周、一年还是20年?这个数字是大还是小?毕竟世界上有70亿人口,其中儿童大约有20亿。有全球儿童的其他死亡原因的数字可参照吗?不同国家的疾病流行程度一样吗?而且,42000是一个很整的数字,肯定不精确,那么可能的误差是多少?10%还50%?
(正常人才不会想这么多……统计学家们都是变态么……)
实际上PLoS ONE给出了说明:这个数字也不是基于数据给出的,事实上,PLoS ONE 的文章提醒过读者,当前“严重缺乏有全球代表性的流行病学数据”。它通过模型试探发现了一个取值范围(±15%),但没有说明模型失败导致的范围。PLoS ONE 给我们提供了背景,但《科学》不仅没有这么做,而且还严重地误导了我们。
统计学是一个精确且严谨的科学体系,其核心就在于对分析结果的检验与评估上,这就是所谓的似然度。
没有给定比较尺度的数字,都是毫无作用的。只有给定了基准、背景或者能够用于进行相互比较的测量值,这些数字才会有意义,就是所谓的:世事无绝对。
比如我们讨论天气的时候,会按照当地的气候进行对比。否则的话:
当然,在研究中,科学需要更多基线:真实的数据、明确的来源,以及衡量差异水平的测量尺度。这种差异是显著的还是不显著的?
在人类的观察中,天然具有“模糊”属性,比如形容两个人的关系,会有“好”和“不好”,或者说形容两个双胞胎有“像”、”很像“、”有一点像“、”一点都不像“等等的说明,那么这些模糊的结论,在统计学里面是无法立足的,所以统计中尽量会给出量化的结论。
比如在空间统计的很多算法中,经常出现Z得分——这个东西是来干嘛的呢?就是用来衡量显著性的。
那么什么是显著性呢?
所谓的显著,实际上指的不是熬夜打铁……而是指观察到某件事件的发生,是因为靠运气产生的可能极低的时候,就称之为统计显著性了,具体举例如下:
我说我有一种能力,能够从密封的抽奖箱里面,抽出我需要的颜色的球,比如里面有红球和白球,我想抽出哪种颜色,就能抽出哪种颜色……
那么你现在弄了两个球(一红一白)给我抽,我果然一下就抽出了指定的红球……那么是不是说明我有这种能力呢?当然你会说,只有两个球,不管谁来抽,都有50%的几率抽出想要的那个球,根本不能证明。
比如躺鸡这种事:
那么要证明这种能力,就要增加难度,比如放4个球,里面只有一个红球,如果一下就抽出来,算不算有这个能力?四个里面抽出一个,几率还有25%,依然有运气的可能……
为了证明,只能不断的增加白球的数量,以降低因为运气而抽出的红球的可能性……比如增加到9个白球一个红球,那么一下抽出红球的几率就只剩下了10%……百分之十还能算运气么?那么增加到100个?或者1000个?但是不管怎么增加,只要你的袋子里有最少一个红球,就不能把运气的几率降低为0。
只要概率不为零,一切皆可能。
红白球实验条件非常简单,所以我们可以不断的去进行模拟,这样很容易就可以做到排除掉运气因素得到验证……但是,有很多实验是非常苛刻的,条件复杂、干扰因素多,增加对比样本的成本极大……比如药物实验,所以在很多时候,把运气因素降低到多大的几率(显著性达到多少),就成了一个很重要的内容。
当然,近代统计学之父费舍尔提出了5%这个概念,也就是说,当运气因素降低到5%的时候,也就是显著性高达95%的时候,就表示基本上排除了因为运气(或者说瞎猜)……但是这个5%在很多领域里面被不加批判和进行常规使用的思想,又被现代的统计学家们无数次的批评……这有又是统计学历史上的另外一段公案了。
显著性作为与似然最相关的一个概念,一直贯穿统计学思想的始终,那么似然与显著性之间是否能够画上等号呢?我们下次再说。
最后给出显著性的官方解释:
统计显著性
观察到的效果,如果大到某种程度,而光依靠着机遇产生这种结果的概率很小的时候,就称此结果有统计显著性。
待续未完。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~