统计数据会说谎读后感(3)篇

统计数据会说谎读后感(3)篇 (2019-01-15 12:01:04) 读后感

统计数据会说谎

作者：达莱尔·哈夫

这本书是美国统计专家达莱尔·哈夫的传世之作，该书引发的“编造虚假信息”话题受到美国社会持续普遍的关注和美国权威媒体的激烈争论。书里面大胆地揭露了至今仍然被销售员、广告撰稿人、记者甚至专家频频使用的大量的统计操纵技巧，同时还配有别具一格的风趣插图以及众多幽默的案例。神秘的统计学在这里被哈夫像讲故事一样一一道来，莞尔一笑中让你知晓深奥的统计学基本原理，掌握揭露“虚假数据”的最有力武器……自50年代出版以来，此书不断再版，并被翻译成多种文字，在世界的影响力持久不衰，被誉为美国商业人士、研修人员的重要入门必修书之一。

统计数据会说谎在线阅读地址

统计数据会说谎读后感第(1)篇

一本简单易上手的统计学防上当受骗手册。作者的本意并不是指责负责数据的统计学家，而是出于对人性的了解，知道原本中立的数据在推销员、公共关系专家、记者和广告文案撰写者的手里，难免会被歪曲夸大或过分简化，最终的分析结果与数据反映的实际情况相差万里。这本书会指导你成为生活里的侦探，一招搓破那些虚张声势的谎言。一、样本偏差n例子：n1936年《文学摘要》（Literary Digest）对当年总统大选预测失败的事例。曾经精确预测出1932年大选结果的一千万电话用户和《文学摘要》的订阅者们令编辑相信兰登（Landon）将获得370票，罗斯福（Roosevelt）只有161票。如此庞大的调查群体怎么会有偏差呢？然而偏差确实存在。一些大学论文和其他事后调查发现：在1936年有钱用电话和订杂志的人并不具有代表性。从经济角度来看，他们是一类特殊人群。该样本之所以带有偏差是因为事实最后证明，该样本对象都是共和党选民。应用：n调查的样本是否足够大，是否随机分布，是否存在各种潜在的偏差，调查对象是否如实回答了调查问题。如此严格要求的抽样调查是很难做到的。二、精挑细选的平均数n例子：n某房产销售在卖房时对你说，该小区住户的平均年收入是500万；当你买房入住后，又看到他在游说街道办给该小区低收入补贴，宣称小区户主的平均年收入只有5万。这两个数据可能都是有真实数据支撑的。平均年收入500万可能只是因为有一个富豪在该小区投资了一套房，而其他都是穷人也说不定。应用：n关键问题是区分人们说到“平均”的时候到底指什么。一般说来有三种：加和平均（或算术平均）、中位数、最多数。这三者经常代表样本的不同维度，在标准正态分布的时候，三者趋同，但是小样本、非正态分布时，是不能互相替代的。当别人说到“平均”时，最好问清楚是哪种平均，并且，样本多大，里面都包含什么。三、关键数据不全n例子：n某广告声称：使用某牙膏后用户的蛀牙减少了23%！n真的有那么明显的差别吗？再看该广告的小字部分，调查组只有12个人。并且，你不知道厂家做了多少组实验，才获得了“蛀牙减少23%”这个显著的成果。应用：n这种诡计常见的手段是，给出平均值但不给方差；画出趋势线但没有标明数据值（scale）；给出百分比却没说样本大小。都是通过隐瞒部分数据以操作数据达到操纵结论的目的。四、误差——无事瞎忙n例子：n你家两个小孩同去参加智力测试，结果儿子智商98，女儿101。你被告知智力测验的正常水平为100。这时你是否该担心，儿子是弱智？n应用：n凡是这类测验，因人而异，不应该只有一条区分正常与不正常的线，而是应该设“正常范围”与“异常范围”。比如体检抽血时，都是给出正常区间，只有在正常区间以外才需要关注。五、图表截取n这部分不上图很难说明了。基本的原理就是根据数据画出折线图后，截取掉一部分y轴，这样可以增加折线的斜率，放大曲线的变化趋势，小幅攀升可以变成陡然增长，造成惊人的效果。这个对于科研人员算是一项必修课，本着严谨的态度，尽量不要截坐标轴，如果是两幅图进行前后效果比较，要采用相同的坐标轴比例。六、一维图形表示数量n这部分最好也是有图像才好。数据是一维的，但是纸上的图形是二维甚至三维的。当你用图形来表示数据的比例时，很可能会放大数据差异。比如数据增长了一倍，你用正方形表示数据大小，把正方形的边长增长了一倍来代表数据增长，这样正方形的面积就增长了四倍，造成的视觉冲击与实际情况不符，会过分夸大事实。七、看似相关n例子：n1898年“美西战争”期间，美国海军的死亡率是9‰，而同期纽约市市民的死亡率为16‰。后来，海军征兵部门的人就拿这个数据来说明待在部队更安全。假设这些数据都是精确的，因为它们可能很准确。但稍等一下，看看你能否发现其中的伎俩，或者说征兵人员根据它们得出的结论是否毫无意义。例子：n我们经常可以在杂志和广告上见到陈述中滥用的前后对照图表的统计形式。有两张照片照的是同一间客厅，这是为了证明刷上一层油漆后的显著不同。但是在两次照相期间，广告商会加入新的家具，更何况“之前”的照片只是一张光线很差的黑白小照，而“之后”的照片则是一张色泽鲜明的彩色大照。还有个例子：有两张照片能向你展示一个姑娘使用护发素前后的明显不同。天啊！她使用了护发素后，看起来是多么漂亮啊！但你若仔细检验，会发现她之所以变美多半是由于她的嫣然一笑以及打在她头发上的背光。因此，这应归功于摄影师而非护发素。应用：n这一部分需要较为严谨的逻辑辨别：结论到底是由对方给出的数据推理得到，还是对方把一堆相关事物堆砌而成。八、因果颠倒/归因谬误n归因谬误在人的逻辑系统里很常见。比较极端的一个例子是，因为每天鸡叫之后才天亮，因此相信“鸡叫”是导致“天亮”的原因。这种归因谬误很常见：人类天性就是喜欢归因，守因果律的制约，若遇到因果律难以解释的事情就会难受。但是人类社会是复杂系统，很多事情是相互影响的（如蝴蝶效应），因果律难以给出确定的解释。在还为充分研究、实验就凭感觉得出的归因，一般都是片面乃至错误的。本书里用的一个例子是，在一个原始人部族，普遍相信“虱子使人健康”。原来是因为一般健康的人身上都有虱子，生病的人身上却没有虱子。其实是因为这个原始部族的人身上都有虱子，但人生病的时候体温升高，不适合虱子生存，虱子暂时离开了。当人快要恢复健康的时候，体温下降，虱子又重新寄生在这个人身上，并不是“虱子带来了健康”。书中建议，“为了避免陷入这种因果谬误，从而相信许多似是而非的东西，你需要严格检验各种与相关性有关的说明。”n相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。但事实上，这种相关性却有多种类型。相关并非因果。你可以说两者相关，但是在作出因果推定时，一定要慎重。如何识别统计骗局n作者在文末建议读者，在遇到统计结论时问以下几个问题：n- 他怎么知道？n- 漏掉了什么？n- 有人偷换概念吗？n- 这是否合乎情理？n不要轻易被数据吓倒，而是要慎重的接受别人拿数据堆砌出来的结论。

统计数据会说谎读后感第(2)篇

统计数据会说谎（36）

统计学是概率的艺术，不仅是一门数学科学，也是一门思维艺术。从样本抽样、数据分析再到推广预测，其实我们在用类似盲人摸象的方法去探知世界。鉴于存在大量未知的不可控因素，数据分析者完全可能从统计数据中得出全然相反的矛盾结论，都在有心或无意中进行统计操纵。专业尽责的统计学家需要在体系庞杂的多样方法中综合权衡挑选出相对最能够贴近事实的数据阐述方法，将不可控因素带来的潜在影响尽力控制在最小范围内。这个过程中，必然需要融入研究者的主观判断来挑战不完美的数据现实。

这本小书里列举了很多识别日常生活中遇到的统计数据欺诈的例子，比统计学和计量分析的专业课本浅显务实的多。大概三点获益的感受：

1、看到数据分析时，接受前一定先谨慎的停一下，想想抽样方法、数据与论点的相关度、推理中的隐性假设、结论的显著性、事实全貌中可能被忽视的点。
2、统计学是存在局限的，也存在大量的信息不对称。这些制约首先来自量化数据与100%反映真实之前不可逾越的鸿沟，以及未知因素的永恒存在可能带来的蝴蝶效应。这些都不是现在大数据分析、机器学习能够跨过去的坎儿。何况未来不会全然复制历史，但数据分析中得出的未来预测，其根本的假设就是历史会重演。我对未来的人工智能，依然未能全然信任啊……
3、对于社群中不同个体的状态分布，经验感受是服从类似正态分布的钟形分布（只是经验感受，没有数据支持[发呆]）。如果真的是钟形分布，很多人都会聚集在平均数周围，做好那么一点点没有用的，40%和60%分位点，30%和70%分位点可能都没有太多差别[流汗]……只有在已经做好很多很多很多的基础之上，已停留在高分位点，每再多做一点点，就会有炫目的惊喜。加油吧，少年~

读着这本小书，想起了很多上学时跟我的美丽导师做实证计量课题时的日子，想起了那时候朗润园里朱老师的计量课，连某些推导不顺时扔粉笔都那么帅，哈哈，帅[偷笑]……不过那时候要求读的各路计量经济学分析流派的书和论文，已然都忘了[捂脸]……好在记住个思维逻辑和谨慎对待数据分析的谦卑之心。知人之不足，受用一生。

统计数据会说谎读后感第(3)篇

这是一本趣味性比较强的统计数据科普读物，作者用丰富的案例和漫画说明了一些统计数据谎言是如何编造的，最后说明应该如何鉴别统计数据谎言。书中主要是基于样本、图形和变量因果关系这些概念进行阐述，并未涉及专业的统计理论与统计学方法。比较适合对统计感兴趣的读者。

一、如何利用统计数据编造谎言

(1) 利用有偏样本(样本量和样本范围)

(2) 将各种平均的概念模糊处理

(3) 用小样本和精心准备的样本进行试验

(4) 缺少精度和可靠性分析

(5) 对图形的坐标轴单位进行变换或对坐标轴拉伸或者收缩

(6) 图形等比例变化造成视觉冲击，放大二者差距

(7) 用相关或者弱因果来代替因果关系

(8) 因果颠倒，或者没有区分多种相关性(巧合、协变关系、非因果)

(9) 将预测模型用于新的数据而忽略了趋势维持这一假设，或者将模型用于其他范围的数据