财新传媒
位置:博客 > 张化桥 > 大数据显示:你说谎!

大数据显示:你说谎!

书评:”Everybody Lies: Big Data, New Data, And What The Internet Can Tell Us About Who We Really Are”, 
可以译为:《每个人都在撒谎:大数据,新数据和互联网显示我们都是骗子》,
作者:Seth Stephens-Davidowitz.
 
这两年,我买了不少关于互联网,和大数据的书(中,英文都有),但是我都读不下去。作者们玩概念,无真货没有实操经验 。上周我买了这本新书,很妙。我花两天时间,读完了。
 
长期以来,社会科学之所以被人们瞧不起,根源在于它不严谨,缺数据,公说公有理,婆说婆有理。近些年,社会科学界有些人采用了访谈,问卷调查等,但是数据的质量差,样本太小,分析方法也落后。这二十年来,互联网的发展,特别是 Facebook 和谷歌产生了大量的数据,使那些在数学,统计学和 IT方面功底深厚的人们开始用大数据来耕耘社会科学。
 
作者是一个经济学家,在谷歌当了一段时间的数据科学家,发现了很多有趣的事情。最重要的发现是:撒谎是人的本性。那些问卷调查,即使是通过互联网的匿名方式进行的,也含有太多垃圾。
 
作者比较了谷歌搜索和 Facebook上人们的行为与独立第三方的数据,发现差距惊人。
(1)选民说他们会支持希拉里,但是投票时却是特朗普,
(2)绝大部份美国人声称自己不是种族主义者,但是,他们在谷歌上搜索带贬义的 nigger “黑人”这个词的频率高得惊人。美国人的种族歧视还十分严重。
(3)美国的成年女性说,她们平均每年做爱55次,使用避孕套的比例大约16%,这意味着美国的避孕套销量应该在16亿只。可是,美国的实际年销量只有6亿只。
(4)人们在 Facebook和 Instagram 或者其它社交网站上展示的是自己的潇洒和美满家庭,可是他们的日子过得一塌糊涂,他们已经恨透了自己的妻子或丈夫,正在外面寻欢,或者搜索外遇的机会。
(5)作者发现了美国男人和女人如何对他们的家人,情人,医生,律师和朋友撒谎的若干规律。你知道作者如何通过Google Trend 证明大家在撒谎吗?
(6)如何利用谷歌和 Facebook预测一个地区的出身率,犯罪率,汽车销量?
(7)作者凭什么声称美国的同性恋人口比例为4%,而不是10%?
(8)利用P2P平台,Prosper 如何预测借钱的人的还款意愿和能力?效果如何?
(9)如何预测逃税者的动向和伎俩?
(10)多少美国人有恋父,恋母情结?或者他们还有哪些不肯启齿的性倾向?
(11)为什么大家在自己的社交网站上声称自己最爱的杂志是 Atlantic (一本严肃的杂志),但是实际上他们点击另一个杂志 National Enquirer的次数和转发给朋友的次数却多好几倍。为什么?因为后者是一本八卦杂志,不能上台面。他们的趣味其实很下流。
(12)作者发现,名校并不会真的改善你的职业前景。也许上名校的人们本来就有较高的智商和情商?这个问题辩论已久,但是作者的大数据似乎更有说服力。
(13)作者承认,大数据也有局限性,比如它在股市派不上用场,因为股市竞争已经太激烈,机会一直在被充分挖掘。而且,样本很难有可复制性: the curse of dimensionality. 但我没有弄懂他对这一章的解释。
 
两件同时发生的事情(即使相关度很高)并不见得有因果关系(causality)。汪洋大海的数据也是一个问题:如何确定稳定的因果关系?这种关系即使真的存在,会不会已经被別人发现并已利用?
 
推荐 45