gitbook/从0开始学大数据/docs/64287.md
2022-09-03 22:05:03 +08:00

76 lines
11 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 预习 02 | 大数据应用发展史:从搜索引擎到人工智能
上一期我们聊了大数据技术的发展历程事实上我们对大数据技术的使用同样也经历了一个发展过程。从最开始的Google在搜索引擎中开始使用大数据技术到现在无处不在的各种人工智能应用伴随着大数据技术的发展大数据应用也从曲高和寡走到了今天的遍地开花。
Google从最开始发表大数据划时代论文的时候也许自己也没有想到自己开启了一个大数据的新时代。今天大数据和人工智能的种种成就离不开全球数百万大数据从业者的努力这其中也包括你和我。历史也许由天才开启但终究还是由人民创造作为大数据时代的参与者我们正在创造历史。
## 大数据应用的搜索引擎时代
作为全球最大的搜索引擎公司Google也是我们公认的大数据鼻祖它存储着全世界几乎所有可访问的网页数目可能超过万亿规模全部存储起来大约需要数万块磁盘。为了将这些文件存储起来Google开发了GFSGoogle文件系统**将数千台服务器上的数万块磁盘统一管理起来,然后当作一个文件系统,统一存储所有这些网页文件**。
你可能会觉得如果只是简单地将所有网页存储起来好像也没什么太了不起的。没错但是Google得到这些网页文件是要构建搜索引擎需要对所有文件中的单词进行词频统计然后根据PageRank算法计算网页排名。这中间Google需要对这数万块磁盘上的文件进行计算处理这听上去就很了不起了吧。当然也正是基于这些需求Google又开发了MapReduce大数据计算框架。
其实在Google之前世界上最知名的搜索引擎是Yahoo。但是Google凭借自己的大数据技术和PageRank算法使搜索引擎的搜索体验得到了质的飞跃人们纷纷弃Yahoo而转投Google。所以当Google发表了自己的GFS和MapReduce论文后Yahoo应该是最早关注这些论文的公司。
Doug Cutting率先根据Google论文做了Hadoop于是Yahoo就把Doug Cutting挖了过去专职开发Hadoop。可是Yahoo和Doug Cutting的蜜月也没有持续多久Doug Cutting不堪Yahoo的内部斗争跳槽到专职做Hadoop商业化的公司Cloudera而Yahoo则投资了Cloudera的竞争对手HortonWorks。
顶尖的公司和顶尖的高手一样,做事有一种**优雅的美感**。你可以看Google一路走来从搜索引擎、Gmail、地图、Android、无人驾驶每一步都将人类的技术边界推向更高的高度。而差一点的公司即使也曾经获得过显赫的地位但是一旦失去做事的美感和节奏感在这个快速变革的时代陨落得比流星还快。
## 大数据应用的数据仓库时代
Google的论文刚发表的时候吸引的是Yahoo这样的搜索引擎公司和Doug Cutting这样的开源搜索引擎开发者其他公司还只是“吃瓜群众”。但是当Facebook推出Hive的时候嗅觉敏感的科技公司都不淡定了他们开始意识到大数据的时代真正开启了。
曾经我们在进行数据分析与统计时,仅仅局限于数据库,在数据库的计算环境中对数据库中的数据表进行统计分析。并且受数据量和计算能力的限制,我们只能对最重要的数据进行统计和分析。这里所谓最重要的数据,通常指的都是给老板看的数据和财务相关的数据。
而Hive可以在Hadoop上进行SQL操作实现数据统计与分析。也就是说**我们可以用更低廉的价格获得比以往多得多的数据存储与计算能力**。我们可以把运行日志、应用采集数据、数据库数据放到一起进行计算分析,获得以前无法得到的数据结果,企业的数据仓库也随之呈指数级膨胀。
不仅是老板,公司中每个普通员工比如产品经理、运营人员、工程师,只要有数据访问权限,都可以提出分析需求,从大数据仓库中获得自己想要了解的数据分析结果。
你看在数据仓库时代只要有数据几乎就一定要进行统计分析如果数据规模比较大我们就会想到要用Hadoop大数据技术这也是Hadoop在这个时期发展特别快的一个原因。技术的发展同时又促进了技术应用这也为接下来大数据应用走进数据挖掘时代埋下伏笔。
## 大数据应用的数据挖掘时代
大数据一旦进入更多的企业,我们就会对大数据提出更多期望,除了数据统计,我们还希望发掘出更多数据的价值,大数据随之进入数据挖掘时代。
讲个真实的案例,很早以前商家就通过数据发现,买尿不湿的人通常也会买啤酒,于是精明的商家就把这两样商品放在一起,以促进销售。啤酒和尿不湿的关系,你可以有各种解读,但是如果不是通过数据挖掘,可能打破脑袋也想不出它们之间会有关系。在商业环境中,如何解读这种关系并不重要,重要的是它们之间只要存在关联,就可以进行**关联分析**,最终目的是让用户尽可能看到想购买的商品。
除了商品和商品有关系,还可以利用人和人之间的关系推荐商品。如果两个人购买的商品有很多都是类似甚至相同的,不管这两个人天南海北相隔多远,他们一定有某种关系,比如可能有差不多的教育背景、经济收入、兴趣爱好。根据这种关系,可以进行关联推荐,让他们看到自己感兴趣的商品。
更进一步大数据还可以将每个人身上的不同特性挖掘出来打上各种各样的标签90后、生活在一线城市、月收入12万、宅……这些标签组成了用户画像并且只要这样的标签足够多就可以完整描绘出一个人甚至比你最亲近的人对你的描述还要完整、准确。
除了商品销售数据挖掘还可以用于人际关系挖掘。你听过“六度分隔理论”吗它认为世界上两个互不认识的人只需要很少的中间人就能把他们联系起来。这个理论在美国的实验结果是通过六步就能联系上两个不认识的美国人。也是基于这个理论Facebook研究了十几亿用户的数据试图找到关联两个陌生人之间的数字答案是惊人的3.57。你可以看到,各种各样的社交软件记录着我们的好友关系,通过关系图谱挖掘,几乎可以把世界上所有的人际关系网都描绘出来。
现代生活几乎离不开互联网,各种各样的应用无时不刻不在收集数据,这些数据在后台的大数据集群中一刻不停地在被进行各种分析与挖掘。这些分析和挖掘带给我们的是美好还是恐惧,依赖大数据从业人员的努力。但是可以肯定,不管最后结果如何,这个进程只会加速不会停止,你我只能投入其中。
## 大数据应用的机器学习时代
我们很早就发现,数据中蕴藏着规律,这个规律是所有数据都遵循的,过去发生的事情遵循这个规律,将来要发生的事情也遵循这个规律。一旦找到了这个规律,对于正在发生的事情,就可以按照这个规律进行预测。
在过去,我们受数据采集、存储、计算能力的限制,只能通过抽样的方式获取小部分数据,无法得到完整的、全局的、细节的规律。**而现在有了大数据,可以把全部的历史数据都收集起来,统计其规律,进而预测正在发生的事情**。
这就是机器学习。
把历史上人类围棋对弈的棋谱数据都存储起来针对每一种盘面记录如何落子可以得到更高的赢面。得到这个统计规律以后就可以利用这个规律用机器和人下棋每一步都计算落在何处将得到更大的赢面于是我们就得到了一个会下棋的机器人这就是前两年轰动一时的AlphaGo以压倒性优势下赢了人类的顶尖棋手。
再举个和我们生活更近的例子。把人聊天的对话数据都收集起来记录每一次对话的上下文如果上一句是问今天过得怎么样那么下一句该如何应对通过机器学习可以统计出来。将来有人再问今天过得怎么样就可以自动回复下一句话于是我们就得到一个会聊天的机器人。Siri、天猫精灵、小爱同学这样的语音聊天机器人在机器学习时代已经满大街都是了。
将人类活动产生的数据通过机器学习得到统计规律进而可以模拟人的行为使机器表现出人类特有的智能这就是人工智能AI。
现在我们对待人工智能还有些不理智的态度,有的人认为人工智能会越来越强大,将来会统治人类。实际上,稍微了解一点人工智能的原理就会发现,这只是大数据计算出来的统计规律而已,表现得再智能,也不可能理解这样做的意义,而有意义才是人类智能的源泉。按目前人工智能的发展思路,永远不可能出现超越人类的智能,更不可能统治人类。
## 小结
**大数据从搜索引擎到机器学习,发展思路其实是一脉相承的,就是想发现数据中的规律并为我们所用**。所以很多人把数据称作金矿,大数据应用就是从这座蕴含知识宝藏的金矿中发掘有商业价值的真金白银出来。
数据中蕴藏着价值已经是众所周知的事情了,那么如何从这些庞大的数据中发掘出我们想要的知识价值,这正是大数据技术目前正在解决的事情,包括大数据存储与计算,也包括大数据分析、挖掘、机器学习等应用。
美国的西部淘金运动带来了美国的大拓荒时代,来自全世界各地的人涌向美国西部,将人口、资源、生产力带到了荒蛮的西部地带,一条条铁路也将美国的东西海岸连接起来,整个美国也随之繁荣起来。大数据这座更加庞大的金矿目前也正发挥着同样的作用,全世界无数的政府、企业、个人正在关注着这座金矿,无数的资源正在向这里涌来。
我们不曾生活在美国西部淘金的繁荣时代,错过了那个光荣与梦想、自由与激情的个人英雄主义时代。但是现在,一个更具划时代意义的大数据淘金时代已经到来,而你我正身处其中。
## 思考题
通过统计历史数据的规律进行机器学习,这样的例子还有很多,比如统计人的驾驶行为进行机器学习,就是无人驾驶;统计股票的历史交易数据进行机器学习,就得到量化交易系统。你还能想到哪些可以进行机器学习的例子?
欢迎你写下自己的思考或疑问,与我和其他同学一起讨论。