Steven Lee YAWN

「数据分析」这半年

回想起来,学习数据分析已经大半年了。这摸爬滚打的一路下来,要说有多大收获,好像这会儿也说不太清楚。不过,这段历程,勉强称为「经验之谈」,也算是一个入门者的告白。

从第一次听到「大数据」时就觉得这个概念特别有意思。当时形成的印象就是:只要有足够多的数据,就能做各种有趣的事情。之后再到受网上一系列文章的影响,开始逐渐对数据肃然起敬,可以说是从「数据库中的表单」到「Almighty Data」的转变。这也就算是启蒙了。

不知道是不是因为 2013 是国际统计年,突然发现很多统计学家出来讲大数据。由于之前没怎么学过统计(好像也没好好学),我对统计的印象还停留在「平均值」、「方差」这个层面。在了解了诸如 Nate Silver 这类人的光辉事迹后,才开始将统计与大数据联系起来。加上之前看到很多统计学家总爱提到 R,所以决定开始并行学习 R 和统计。

R 入门看的是《R in a Nutshell》,但发现不太适用,太多统计的概念都不清楚,所以换成了着重讲 R 语法的《The Art of R Programming》;至于统计入门,可选的书太多了,而且都是动辄大几百页的,最后选择了比较基础的、不那么「臃肿」的《OpenIntro Statistics》。之后还看了《Introductory Statistics with R》,反正就这样有一出没一出的学着。之所以是「有一出没一出」,是因为期间我还尝试阅读了一下很多人推荐的《The Elements of Statistical Learning》,结果,结果就感觉看不到任何希望了。这种状态一直持续到某一天,豆瓣给我推荐了一篇名叫《漫谈数据挖掘从入门到进阶》的文章,漫不经心地打开链接后才感觉如获珍宝。抱着再试一试的态度,开始看那篇文章中推荐的一本入门书《Programming Collective Intelligence》。如果说「大数据」这个概念给我启了蒙,那这本书算是真正让我开始了数据分析的学习。就像那篇文章中的推荐语所说的那样:「很适合希望了解数据挖掘技术的程序员,这本书讲述了数据挖掘里面的很多实用的算法,而且最重要的是其讲述的方式不是像 Han 那种大牛掉书袋的讲法,而是从实际的例子入手,辅以 Python 的代码,让你很快的就能理解到这种算法能够应用在哪个实际问题上,并且还能自己上手写写代码」。啃完这本书后,兴趣总算是又回来了。

这段时间,在《经济学人》上看到过一篇关于 Kaggle 的报道后,跃跃欲试,算是看完书后的实践吧。当时 Kaggle 上面有一个 101 性质的项目 Titanic,于是开始着手。但,无从下手。因为我是一个爱套公式的人,而《Programming Collective Intelligence》这本书并没有给出一个数据分析的流程。好在当时 Kaggle 论坛上和网上有很多 Titanic 项目的完整解决方案,然后开始逐个研究这些方案,遇到不懂的概念临时学,就这样踉踉跄跄的完成了在 Kaggle 上的第一次「提交」。接着是第二次,第三次,但效果一直没有显著提高,排名总是在 1000 左右(总共 4000 多份提交)。原因很简单,每次提交我只是用相同的数据喂不同的算法,至于各个算法的具体实现、优缺都还不太清楚。

弄清形势后又滚去看书了。根据豆瓣上的记载,这期间我依次看了《Mining the Social Web》《Think Stats》《Data Analysis with Open Source Tools》三本书。不知道是书不出彩还是没有及时复习,反正对这三本书是没什么印象了。不过接下来看的三本书就不一样了:《Introduction to Data Mining》算是一本真正意义上的系统的入门书;《Machine Learning for Hackers》让我第一次接触到了 R 在机器学习中的实践(机器学习、数据分析/挖掘、模式识别、人工智能,其实这些 jargon 困扰了我很久,最后还是觉得入门期这些概念没必要分太细,毕竟大多数算法在它们之中都是通用的);《An Introduction to Statistical Learning》这本书声称是《The Elements of Statistical Learning》的简版,特意为「基础不好」的人提供的,碍于前车之鉴,开始也只是抱着尝试的态度去阅读,没想到非常不错,深入讲解了各个算法并且还都配有 R 的实践。

再提 Coursera。这期间配合着看书,顺利的完成了 Computing for Data AnalysisData AnalysisMachine Learning 这三门课程。不知道是因为这三门课我才看完了那些书,还是因为那些书我顺利完成了这三门课,总之,在这个 MOOCs 的时代,学习还是挺方便的。

总结

其实这段学习历程中我也有过一段比较彷徨的时期:学习 PCA 原理的时候发现线性代数有必要重拾;学习 ggplot2 的时候想深入了解下 The Grammar of Graphics;学习 MapReduce 的时候觉得 Hadoop 值得深入研究;等等等等。简单来说,就是觉得要学的东西太多了,有些无从下手。幸运的是这期间读了一本名叫 《Analyzing the Analyzers》 的书。现在回想起来,觉得真的很有必要。在这个把「Data Scientist」当「Rock Star」捧的时代,不弄清基本概念和需求,天真的把自己当作万金油,是真的很容易陷入到知识黑洞中。

所以说要有什么「经验之谈」的话,那就是在跳进这个大坑之前赶紧抽空把自己定位好吧。

Hatching Twitter Review

No, you(Jack Dorsey) didn’t invent Twitter, I didn’t invent Twitter either. Neither did Biz. People don’t invent things on the Internet. They simply expand on an idea that already exists.

— Evan Williams

Twttr

“Twitter” 这个名字是 Noah Glass 翻着字典想到的。在最开始的头脑风暴中,Jack Dorsey 提议叫 “Status”(但被认为听起来太具有工程气息),Biz 提议叫 “Smssy”(因为可以通过短信发推?),Ev 提议叫 “Friendstalker”(囧) 。由于受 Flickr 影响,当时硅谷流行把名字中的元音去掉,而 “Twttr” 又正好可以对应一个五位数的手机短码(方便用户短信发推),所以最终敲定这个名字。

The Fail Whale

Twitter 最开始当机时的图片是一只猫咪(找不着原图了),但 Biz 觉得这张图片太戏谑,于是开始探寻一张正式点的。终于,发现了 Yiying Lu 的那张鲸鱼图。由于 Twitter 在早期当机频繁,所以这种鲸鱼图马上变得广为人知,也就有了 “Fail Whale” 这个昵称。直到最近,它才光荣退休

Slogan

当 Twitter 的标语从 “What are you doing?” 变为 “What’s happening?” 的时候,众媒体便开始纷纷解读。其实争议一直都在。

从头道来,Twitter 这个想法是 Jack Dorsey 在和 Noah Glass 的一次酒后交谈中提出来的。作为 Twitter 的第一任 CEO ,Jack Dorsey 一直将 Twitter 视为一个更新自我状态的地方(我在哪,在干什么),一个展示自我的地方。而作为 Twitter 的联合创始人之一同时又是 Blogger 创始人的 Evan Williams 则认为 Twitter 是一个了解周边人和事的地方,一个满足好奇和获取信息的地方。所以在 Ev 成为第二任 CEO 之后,变动标语也就再正常不过了。

至于谁对谁错,哪个标语更恰当,作者在书中给出了一句非常中肯的评价:没有好与坏,它们是相辅相成的。

Steve Jobs 2.0

看本书的过程中,我多次在想作者是不是个 Jack Dorsey 黑啊。毕竟,和媒体宣传的形象相差甚远。

如果书中所言全部属实,那么这个 “Steve Jobs 2.0” 则是一个为了「模仿」而「刻意」地听 Beatles,崇拜甘地,家中不设家具,每天穿一样的行装,喜欢说 “magical”、“surprise”、“delightful”,在被公司踢出后会觉得 “It was like being punched in the stomach” 的 Jack Dorsey 。而之所以会造成这种假象,是因为相对于其他两位联合创始人,Jack Dorsey 是一个逮着机会就要表现自己,无时无刻不想着出风头的人(甚至在伊拉克)。

Ev

或许 Ev 过于内向了(看看他在 TED 的演讲就知道),我以前对他知之甚微。从一个农场小伙,到一个辍业大学生,再到一个熬夜学编程的热血青年;从 Blogger 到 Twitter 再到 Medium;从「我不明白为什么有人会去写博客」,到「我为什么要用 Twitter」,再到「我看不懂 Medium 想要做什么」。也许 Ev 只是那个「单纯」想通过「发布」按钮改变世界的人。

Ending

根据记录显示,五年前的这个月我发了第一条 Tweet 。我是怎么接触到 Twitter 的?我的第一条 Tweet 怎么那么傻逼?我那时候怎么那么喜欢用逗号(而且还有错别字)?!事实上,我已经完全忘了。但 Twitter 绝对是我在互联网上遇到的最好的礼物。或许它没能改变世界?它改变了我。

「五周年」快乐!

Soccernomics

足球根本就不是什么大生意或赚钱的生意,它或许根本就不是一桩生意。

—《足球经济学》

上周末把《足球经济学》读了一遍。和同类书(从经济学角度解释某些现象)相似,全书数据丰富,干货不少。

转会市场

在转会市场中,每家俱乐部都懂得低买高卖,但之所以总会有「冤大头」出现,除了一些已为人熟知的因素(例如:世界杯或欧锦赛上的新星总是被过高估价,某些国籍的球员总是被过高估价,老球员总是被过高估价)外,转会市场上最为低效的环节之一其实是「安置工作」。

那些花几百万英镑购买外国球员的俱乐部往往不愿意再花几千英镑帮助球员在新家安置下来。因为足球界最常见的态度是:「我们可是花了大价钱买你过来的,你还有这么多问题,去你的吧」。就好像当收入超过了一定程度,就不可能再患什么疾病、毒瘾或思乡病了。对于这一现象,一位瑞典籍重新安置咨询师猜测说:「我想结论只有一个,那就是他们把球员当成了商品。」

但也有不少俱乐部开始意识到这一点。像岑登就说过:「米兰在这方面是足球界最好的俱乐部,AC 米兰的组织工作井井有条,完全超乎想象:他们什么都替球员想到了。一到达,你会立即有一个住处,那里经过全面装修,可以从五辆车中任选一辆,简直是周到无极限。他们还会说:我们替你照顾好一切,你只需确保自己在球场上的表现就可以了。」另外,阿贾克斯俱乐部几年前也开始雇用一名全职雇员专门帮助球员重新安置。现在再想想为什么那么多之前抑郁不得志的球员在转会米兰后会焕发第二春,为什么阿贾克斯能从世界各地广纳青年才俊成为欧洲梦工厂,这些好像也并非偶然,全无道理。

而有些俱乐部在意识到这一点后,会选择避免与适应能力不好的球员签约。英格兰俱乐部一般更喜欢购买斯堪的纳维亚半岛球员。一般来说,斯堪的纳维亚半岛的球员当然不如巴西球员,但他们很熟悉英国,熟悉那里寒冷的天气和喝几杯。

城市规模

在欧洲,最好的足球城市的情况几乎都和曼彻斯特差不多。它们都曾经是新兴工业城市,吸引了大批无家可归的村民。新移民举目四望,希望找到一种认同感,于是就找到了足球。支持俱乐部似乎让他们在这个城市找到了一方立足之地。正因为如此,俱乐部的地位在这里非常重要,也日渐壮大,远非有着森严等级制度的首都城市或古老的基督教城镇可比。

至于首都城市的俱乐部,从 1956 年到 20 世纪 60 年代末是法西斯政权统治下首都城市主导的时期。在前 11 座欧冠奖杯中,有 8 座被皇家马德里俱乐部(那是佛朗哥将军最喜欢的俱乐部)和本菲卡俱乐部(那是葡萄牙独裁者萨拉查的首都)获得。那是极权主义的足球。而在民主国家,首都城市的球队总是表现不佳。一个原因或许是,首都城市不产优秀球员。这是因为在首都,人们一般很少有地方能够踢球。又或许,民主国家首都城市的球队总是表现不佳的主要原因是心理上的。在首都城市,足球俱乐部根本得不到什么重视。首都城市无须证明什么,这是他们和小城镇的区别。总有更宏大的事情让他们骄傲,足球队在他们看来根本不算什么。阿姆斯特丹可能是个特例,该城市的阿贾克斯俱乐部 4 次赢得欧冠奖杯。然而,阿姆斯特丹其实只是名义上的荷兰首都,该国政府、比阿特丽克斯女王和各国大使馆都设在海牙,而后者甚至没有一支球队人围荷甲联赛。

其他

足球与生意:足球俱乐部需要知道自己在做什么而不应该自欺欺人地认为自己是 BBA 航空公司。他们更像是大英博物馆:是那种心系公众、在为公众服务的同时保持自身具备一定清偿能力的组织。这听上去是一个不难实现的目标,但是即使这样的目标也很少有俱乐部能够实现。

种族歧视:高效的市场在众目睽睽之下惩罚了歧视,因此歧视才得以在球员市场上逐渐消失。低效的市场则可以无限延长这种歧视。

公平竞争:足球中的不平等,和足球从来不曾乏味一样,根本不是新生事物,真正的新生事物是投入其中的金钱。许多人倾向于认为,如果不平等是由金钱买卖造成的,它就不公平了。

总结

就像文章开篇引用《足球经济学》中说的那样:「足球根本就不是什么大生意或赚钱的生意,它或许根本就不是一桩生意。」把足球和经济学扯在一起,或者只能解释现象,不能解决问题。毕竟,冰冷的经济学原理从来都不属于球迷们的 “Fever Pitch” 。