数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败。然而,错误的数据收集方法可能造成结果偏差。

比如统计对象出现错误,明明应该统计数据集合A,却统计了数据集合B。又比如统计对象不全面,只抽样了部分数据,却没有统计全体,或者忽略了数据分布存在偏斜等。

这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差选择性偏差

01幸存者偏差

幸存者偏差指用于统计的数据仅来自幸存者,导致结论与实际情况存在偏差的情况。

幸存者偏差源自一个真实故事:二战时期,美军统计了作战飞机的受损情况,他们发现,返航飞机各个损伤部位被击中的弹孔数不同。这些飞机发动机部位的弹孔数最少,机翼的弹孔数量最多。于是有人提出,要赶紧加固飞机机翼,因为这些部位更容易受到敌方炮火的攻击。

可是,美国哥伦比亚大学的沃德教授立即否决了这个方案。沃德教授是一位统计学专家,他应军方要求提供相关专业建议。沃德指出,应该强化的不是机翼,而是发动机。从理论上讲,飞机各部位的中弹概率应该是相同的。发动机部位的弹孔明显偏少,只能说明:那些被击中引擎的飞机大多没有返航。

这就是幸存者偏差,军方只看到幸存下来的飞机,却没有意识到它们只是一部分数据,不能反映飞机受损的真实情况。

选择正确的数据样本非常重要。我们必须保证数据考察是全面的,而非其中的一部分。在很多场合,人们下意识地会做出具有幸存者偏差的选择。

比如一个粗心的研究者在统计医学数据时,为图方便选择了住院病人为研究对象,却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院。

一些成功学的书中提到,比尔·盖茨、扎克伯格、乔布斯、埃里森等成功人士都在大学退学创业,似乎从大学退学更有可能获得成功。但这只是幸存者的案例,我们从未听到失败者故事,更不能说明大学退学创业就是成功的必需特质。

如果一项研究是通过已有的样本去研究过去某个规律,那就要当心了,因为它很有可能存在幸存者偏差。当我们选择已有的样本时,就只看到了幸存者,而忽略了没被统计到的样本。

比如,查看公司财务报表时,就已经过滤掉了那些经营不善而破产的公司;查看老年人在医院的诊疗记录时,就默认地排除了没有活到老年的人群;统计某款手机软件的受欢迎程度,不自觉地排除了那些买不起手机或者从未安装过该手机软件的人。这样的例子比比皆是。

之所以会产生幸存者偏差,是因为很多人从一开始就搞错了统计样本,只看到经过筛选的数据,但没有意识到筛选的过程。如果只是人为地选择部分观察数据,那就无法保证结论的客观性。

要获得“全样本”数据绝非易事。由于认知局限,很多人只看见了那些能看见的现象——比如受损的飞机、就医的病人、成功的企业家、公司的报表,但忽略了没有看见的真相—未返航的飞机、健康的人、失败的创业者、破产的公司,而这些被忽略的数据同样重要,甚至更加重要。

02选择性偏差

19世纪初期,人们认为统计就是要追求考察对象的大而全,数据越多,结果就越准。不过,想要考察大而全的总体,有时不具备操作性。于是一些统计学家提出了抽样的想法,认为只要方法得当,就算不考察总体,也能通过研究一部分有代表性的随机个体来推断出总体的特征。

这些从总体中选出来的个体的集合,叫作样本,随机选择的动作叫作抽样。统计学界围绕“抽样”这件事争论了好几十年。直到20世纪30年代,抽样的科学性才被学术界逐渐认可。

抽样是一种非常好的了解大量样本空间分布情况的方法,适用于大样本。抽样的对象要尽可能分散和有代表性,这样才能体现出整个样本的分布特点。

不过,抽样毕竟对研究对象做了精简,因此它很可能存在样本选择上的偏差,即选择性偏差。比如想要调研中年男性的健康程度,抽样时只选了亚洲人,这个抽样对象显然不够全面。又或者,调研时只收集了若干人的数据,研究样本过少,因此得到的结论也不具备普适性。

选择性偏差是在抽样时出现的一大问题。有时,人们为了证明自己的观点,倾向于选择特定的数据来支撑结论,从而忽略了其他证据。采用有偏差的抽样数据,几乎可以得到人们想要的任何结论。

假如在调研问卷中问这样一个情感问题:“假如爱情可以重来,你是否还会选择和他/她在一起?”结果会如何呢?我想多数会收到“不会”的答案。这并不是真相,只是那些回复的人群可能是“有偏的”。

因为调查问卷是自愿回复,所以对这个话题抱有强烈负面感受的人,更有可能不厌其烦地做出回应,那些生活幸福的人也许随手就将问卷丢进了垃圾桶。

又比如,去高档的购物场所进行调研,会出现选择性偏差,因为去那里消费的人相对富有;而如果去山村调研,则很可能得出完全相反的结论。

在以上的例子中,前者由被调查的人自行决定要不要回应,后者则由调查人员决定如何选取样本,这两种调查方法都会人为地影响统计结果。

抽样的结论若要很好地代表整体,需要具备两个条件:

  • 一是样本足够大,根据大数定律,这样的样本分布更接近总体;

  • 二是抽样方法要正确,确保抽样是完全随机的,它既不受调查者的选择影响,也不受被调查者的偏好影响。

采用随机抽样的方法,可以一定程度上消除对样本选择的偏差。

以民意调查为例,我们知道,美国的总统选举永远是个热门话题,网络和媒体会密切关注,并跟踪报道一手资料。其中一个热门话题就是关于选举结果的预测。由于选票会涉及不同阶级、不同种族、不同利益的人和团体,所以要调研民众意向,抽样时就应该考虑兼顾各种利益团体的样本,否则很有可能出现带有偏差或者歧视的结论。

为了调查民众的看法、意见和心态,乔治·盖洛普设计了一种盖洛普民意测验。他根据年龄、性别、教育程度、职业、经济收入、宗教信仰这6个标准,在美国各州进行抽样问卷调查或电话访谈,然后对统计结果做出分析。此方法产生于20世纪30年代,今天仍会被使用,并且有着相当高的权威性。

总之,抽样要针对大样本,保证样本的随机性。如果抽样的样本很少,或由于其他原因导致了统计不充分,那么结论很可能是错误的。

小结

数据样本偏差带来了“以偏概全”的风险,它会得出“差之毫厘,谬以千里”的错误结论。过去,人们担心小样本导致统计误差;而在大数据时代,这个问题并不会消失,反而变得更加复杂,也更难察觉。

幸存者偏差提醒我们,要考察所有类型的数据。选择性偏差提醒我们,要客观地挑选数据。前者是因为没有准确选择研究对象而导致的偏差,后者是由于没有“公平”地挑选数据导致的偏差,两者都未看清数据的全貌。

为了避免幸存者偏差,我们需要拥有全面的数据集合,而不是有意或无意地排除总体中的某个子集。为了避免选择性偏差,我们应该客观地考察所有数据,而不是仅仅考虑少量的数据,或者支持既定假设的数据。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

热门产品

谜男方法(The Mystery Method)【中文版】【Mystery】|谜男方法,The Mystery Method,Mystery,男方,the mystery method,中文版,mystery
谜男方法(The Mystery Method)【中文版】【Mystery】
冷读术(精简版本)|冷读术,精简,版本
冷读术(精简版本)
把妹达人2[1].游戏规则(Rules of the Game)【Neil Strauss】|把妹达人,把妹游戏规则,Rules of the Game,Neil Strauss,把妹达人2,游戏规则,rules of the game,neil strauss
把妹达人2[1].游戏规则(Rules of the Game)【Neil Strauss】
追求有术之撩汉指南-310页|撩汉指南,撩汉攻略,追求,有术,之撩汉,指南,310页
追求有术之撩汉指南-310页
追求有术之撩妹指南-288页|撩妹指南,追求,有术,之撩妹,指南,288页
追求有术之撩妹指南-288页
术中电烧伤的预防与处理|电烧伤的预防,电烧伤的预防与处理,电烧伤的处理,术中电烧伤,中电,烧伤,预防,处理
术中电烧伤的预防与处理
《盆底康复-盆底功能障碍性疾病的诊断治疗》培训课件ppt(69页)|盆底康复,盆底功能障碍性疾病,盆底功能障碍性疾病诊断,盆底功能障碍性疾病治疗,盆底功能障碍性疾病培训课件,盆底功能障碍性疾病培训,盆底功能障碍性疾病课件,盆底功能障碍性疾病诊断治疗,盆底,康复,功能,障碍性,疾病,诊断,治疗,培训,课件,ppt(69页)
《盆底康复-盆底功能障碍性疾病的诊断治疗》培训课件ppt(69页)
面诊手诊背诊舌诊腹诊...课件|面诊课件,手诊课件,背诊课件,舌诊课件,腹诊课件,诊断课件,面诊手诊背诊舌诊腹诊,课件
面诊手诊背诊舌诊腹诊...课件

历史上的今天:04月20日

《芈月传》:一个会讲污段子的太后

《芈月传》:一个会讲污段子的太后大名鼎鼎的芈月勾引义渠王,生两子,然后大义灭亲......灭了义渠国......这份狠辣,当得上大秦宣太后之名。今天,就来扒一扒芈月的秘史。01 王的女人芈月出生于楚国贵族,后来嫁到秦国,给秦惠文王做姬妾。秦惠文王你可能不熟悉,不过商鞅你肯定知道吧。车裂商鞅的就是这个秦惠文王。车裂是一种酷刑,俗称五马分尸。至于为什么车裂商鞅呢?四个字:功高震主!商鞅活着的时候,秦国

精短爆笑污段子大全

精短爆笑污段子大全1、我最重要的几件事情就是:吃,喝,拉,撒,睡,你。不好意思,前面多了个逗号。2、取悦你的方式有70种,一是shopping,剩下69。3、男:你负责貌美如花,那我呢?女:赚钱养家???男:不!插花。4、我们浪漫点好不好?怎么浪漫点?我浪点,你慢点。5、亲爱的,我发现”哦“字好污~6、问:男人的舌头是用来干什么的?答:逗比。7、面对你,我不仅善解人意,还善解人衣。8、我想送你很多

玻璃钢电力护套管厂家规格价格

玻璃钢电力护套管厂家规格价格品牌通达型号175名称玻璃钢电力管用途电缆护套执行质量标准国标成型方法缠绕法适应领域其他管道长度6m压力等级1.6Mpa刚度等级SN1250公称外径其他管道厚度10mm加工定制是是否进口否内管直径175mm耐腐性强磨损量无摩擦系统无弯曲强度190Mpa拉伸强度190Mpa抗撞性能强热阻系数2.3线膨胀系数3.2巴氏硬度45管道口径175mm管道壁厚10mm温度范围-20

谷雨气祝福短信

谷雨节气祝福短信1.谷雨贵如油,滴滴消忧愁,春风拂绿柳,缕缕绕心头,白云荡高楼,朵朵开笑口,愿我的问候把祝福送到你手头,把快乐种在你心头。2谷雨的播种在开始,明日的收获在期待。春天的故事在萌芽,夏日的清凉在期待,幸运的祝福为你在传递,祝你笑颜常开,好运常伴!3洒下幸福的谷雨,愿你的`人生美好如意;洒下吉祥的谷雨,愿你的生活事事顺意;洒下安康的谷雨,愿你的身体康健美意;洒下欢乐的谷雨,愿你的脸上挂满

MPP管200*12的厂家报价

MPP管200*12的厂家报价品牌通达型号200*12材质其它公称压力2.8Mpa管子形状直管用途电线护套长度10m  MPP顶管:化学名称:聚丙烯 比重:0.92-0.97克/立方厘米 成型收缩率:1.0-2.5% 。MPP热熔融在加工上有两个特点:其一:MPP熔体的粘度随剪切速度的提高而有明显的下降(受温度影响较小);其二:分子取向程度高而呈现较大的收缩率。MPP的热熔加工温度在(270-30

玻璃钢管厂家价格是多少

玻璃钢管厂家价格是多少品牌其他型号6666材质其它公称压力2.0Mpa管子形状直管用途其他长度6m  以玻璃纤维或其制品作增强材料的增强塑料。称谓为玻璃纤维增强塑料,或称谓玻璃钢。由于所使用的树脂品种不同,因此有聚酯玻璃钢、环氧玻璃钢、酚醛玻璃钢之称。玻璃具有硬而易碎,具有很好的透明性以及耐高温、耐腐蚀等性能;同时钢铁很硬并且不易碎,也具有耐高温的特点。于是人们开始想,如果能制造一种既具有玻璃的硬

热门专题

天麻的功效与作用吃法|天麻的功效与作用,天麻的功效与作用吃法,天麻炖什么治头痛最好,天麻的功效与作用禁忌,天麻多少钱一斤,天麻的功效与作用吃法及禁忌,天麻怎么吃效果最好,天麻粉的功效与作用,天麻怎么吃
天麻的功效与作用吃法
云南巨榕教育投资集团有限公司|云南巨榕教育投资集团有限公司,巨榕教育集团,巨榕教育
云南巨榕教育投资集团有限公司
昆明综合高中|昆明综合高中
昆明综合高中
综合高中|云南综合高中,昆明综合高中,综合高中能考本一吗,综合高中和普通高中的区别,综合高中是什么意思,综合高中能参加全国统一高考吗,综合高中可以考哪些大学,综合高中的学籍是什么
综合高中
安徽开放大学|安徽开放大学报名,安徽开放大学报考,安徽开放大学,什么是安徽开放大学,安徽开放大学学历,安徽开放大学学费,安徽开放大学报名条件,安徽开放大学报名时间,安徽开放大学学历,安徽开放大学专业
安徽开放大学
开放大学|开放大学报名,开放大学报考,开放大学,什么是开放大学,开放大学学历,开放大学学费,开放大学报名条件,开放大学报名时间,开放大学学历,开放大学专业
开放大学
易捷尔单招|易捷尔单招,易捷尔单招培训,易捷尔单招报名,易捷尔单招考试,易捷尔单招培训学校,易捷尔单招分数
易捷尔单招
安徽中源管业有限公司|安徽中源管业有限公司,安徽中源管业有限公司介绍,安徽中源管业有限公司电话,安徽中源管业有限公司地址,安徽中源管业有限公司厂家,安徽中源管业有限公司电力管,安徽中源管业有限公司管材
安徽中源管业有限公司

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部