「数据会说谎」的真实例子有哪些?
发布时间:2022-09-12 16:25:29 所属栏目:大数据 来源:
导读: 世界上有三种谎言:谎言、十足的谎言、和统计数字(There are three kinds of lies: lies, damned lies, and statistics)。——马克·吐温
以下例子来自我写在自己博客上的一个案例&mdas
以下例子来自我写在自己博客上的一个案例&mdas
|
世界上有三种谎言:谎言、十足的谎言、和统计数字(There are three kinds of lies: lies, damned lies, and statistics)。——马克·吐温 以下例子来自我写在自己博客上的一个案例—— 【壞球同學:你統計學这么好,你老師知道嗎】 环球时报旗下专业从事舆情调查与监测的研究咨询机构——环球舆情中心27日发布一份调查报告称:在安倍参拜靖国神社后,有74.6%受访者倾向对日本强硬反制( 环球舆情调查:74.6%受访者倾向对日本强硬反制 这份调查被其它媒体(如中国经济网,网易新闻)转述时,标题变为“7成中国人倾向对日强硬”。改写标题的其他媒体的小编,你们要么是存心扭曲,要么就是统计学没学好。 我们先来看看环球时报报道的原文: 本次调查所选取的7个城市分别是北京、上海、广州、成都、西安、长沙、沈阳。调查时间为27日14时至17时,共回收有效问卷1077份。本次调查采用在线会员库随机抽样的调查方式进行数据收集,所有样本均通过在线调查会员库随机抽取,受访者自愿填答问卷。所有受访对象为18岁以上普通民众。本次调查为简单随机抽样,在95%的置信度下数据真实性,样本的允许抽样误差为3.0%。 然后再补充一下统计学的基础知识(上过统计学课的同学可以跳过这部分)。统计学分为描述统计(descriptive statistics)和推断统计(inferential statistics)。前者是对数据的整理、归纳和展示,后者是在描述样本的基础上,将其结论推及总体。 描述统计是推断统计的基础,推断统计是描述统计的提高。如果只停留在描述统计,从样本(sample,总体的一部分)数据得到的结论只能就这个样本而言,而不能推广到其它个体,换句话说,如果想知道其它个体的信息,就必须重新收集和整理数据。 推断统计的作用,就是让仅凭一个样本做出的结论,也能推广应用到整个总体,而无需收集全部个体的数据。但必须提到的一点是,只有采用概率(随机)抽样(probability sampling)调查方式得到的样本,其结论才能推及总体,非概率抽样(non-probability sampling)得到的样本则不行。 回到环球时报发布这篇报道的标题“有74.6%受访者倾向对日强硬反制”,你会发现,环球时报的报道比较谦虚(心虚?)的:只停留在就样本论样本的层次——确实他们调查了一些人,这些人的数据也的确提供了这样的结果,结论也仅适用于他们调查的这些人。 但其它媒体的转述就不同,它们将样本的结论推广到整个总体——“全体中国人”,这就是问题所在。推断统计过程中,把从样本得到的结论推广到总体,还需要满足一些条件,回答一些问题(见附录2“相信某个抽样调查结果前该问的问题”)。 其中最重要的一点是:调查有否采用随机抽样(random sampling)。从文章中,我们的确找到了“随机”二字,而且不止一处提及。不过且慢,接着看下去就会发现文章后面提到“受访者自愿填答问卷”,玄机就在这里,这个调查的价值至此明了——该调查结论仅限于它所收集数据的样本,而不能推广到总体,因为这是一个有偏的自愿回应样本(voluntary response sample,见附录1名词解释) 环球舆情调查中心和环球时报的结论发布者,一看就是学过统计学的,他们羞羞答答地把这唯一的“自愿填答”藏在一堆“随机抽样”字眼中,同时还像模像样地提供了“95%置信度”和“3.0%的允许抽样误差”,即使这样做已经毫无意义。 而网易新闻、中国经济网的小编们,一看就是没修过统计学原理这门课的,或者上统计学课没好好听的,一下子就跳进了前者布下的陷阱,把非概率抽样方式得到的结论,应用到整个总体:坏球同学不敢推出的结论,却给你们给引申出来了。 坏球舆情调查中心和坏球时报,你们真的很坏!不带这样欺负没学过统计学的同学的。David S. Moore在《统计学的世界》里提到:有许多抽样调查不能提供准确地和有用的结果,特别是那些设计来影响、而不是记录公众意见的 (especially those designed to influence public opinion rather than just record it),说的就是你报吧? ~~~~统计学常识分割线~~~ 附录1:名词解释【自愿回应抽样 voluntary response sampling】 指的是通过来电来信(write-in, call-in,在网络时代还包括click-in)方法收集而来的民情民意。这样的样本往往加入了被取样者的好恶,从而得到与真实的客观情况相差甚远的“有偏(biased)”——注定偏向某个答案的样本。 David S. Moore在《统计学的世界》里面举了一个“自愿回应抽样”例子:专栏作家Ann Landers在报纸上呼吁其读者就“假如能够重来,您愿意再要小孩吗?”进行投票。在收到的来信回应中,70%的答案是“No!”,有些来信还附带了催人泪下的故事,讲述父母如何含辛茹苦、子女如何背信弃义。 真的有70%的父母后悔生了小孩?相信您也不会认同。这个抽样结果之所以有偏,就是因为采用来信来电的抽样方法,使得一些对某个问题具有强烈看法的读者——这种强烈看法往往是负面情绪居多——会不厌其烦地站出来发表自己的见解和感受,从而构成样本的主体。 据估计,这些人在人群中估计占到15%的比例。从而受电台、电视台、报纸等媒体的呼吁而感召的,经常就是这类人。而那些对问题看法中立或者具有正面意见的人(比如愿意再要小孩、或对此无所谓的父母),虽然人数往往更多,他们就不太会站出来回应,只会乐享天伦、充当沉默的大多数。 因此,自愿回应抽样方法得到的结果会发现“70%”的父母不愿意再要小孩。在该样本中,带负面意见的父母被过分代表了。 ~~~~~~~~~ 附录2:相信某个抽样调查结果前该问的问题 Questions to ask before you believe a poll 若调查者使用好的统计技巧,准备一个尽可能完整的抽样框,注意提问的措辞,减少无回应,则抽样调查确实能能提供准确和有价值的信息。但亦存在许多抽样调查不能提供准确地和有用的结果 (especially those designed to influence public opinion rather than just record it)。为此,在你更多关注某个抽样调查结果之前,有必要先问几个问题 : 谁做的调查(Who carried out the survey)?——遵从良好调查习惯的专业抽样机构更值得信赖。 总体是什么(What was the population)?——想反映何人意见。 样本如何选择(How was the sample selected)?——有否提及随机抽样。 采用多大的样本(How large was the sample)? ——好能提供误差界限与置信度。 回应率多高(What was the response rate)?——无回应(no response)同样能带来有偏。 如何与被调查个体进行接触(How were the subjects/units contacted)?——不同的联系方式(面对面、电话访谈等)影响到回应率、回答的真实性、调查的成本。 有否受突发事件影响(Was it just after some event which might have influenced opinion)?——是否在某件会影响民意的事发生之后就进行调查? 提问的具体措辞(What were the exact questions asked)?——比如采用诱导性的“加料问题(loaded question)"? 许多民意调查、学术调研、政府负责统计官员在宣布抽样调查结果时,会回答这些问题。但新闻编辑和播音员却有一种坏习惯,省略这些“无趣的真实(dull facts)”,而只报道抽样的结论。更有一些有利益集团、新闻媒体由于本身采用了不可靠的抽样方法,所以根本就不能回答上述问题。严谨的抽样调查如盖洛普(具体例子请到gallup.com/home.aspx查找)会告诉我们真相:“除了抽样误差外,问题的措辞以及执行调查时遇到的实际困难,会导致调查结果有偏或产生其它误差”。若某政治家、广告人、或某个媒体宣称某个民意调查结果却没有提供完整的信息,要当心! —— 资料来源:David S. Moore,《统计学的世界》 ~~~~~~~~~~~~ 附录3: 统计金句买一送二 数字不会说谎,但说谎的人会想出办法。——Charles Grosvenor 统计数据就像比基尼,暴露出来的部分固然重要,但没暴露的部分更加重要。——佚名 (编辑:草根网_连云港站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330470号