大数据入门
# 大数据的含义
维基百科中的解释是:
大数据指的是传统数据处理应用软件不足以处理的大或复杂的数据集的术语。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
百度百科中的解释是:
大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
MBA 智库百科中的解释是:
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
其实就目前来看,整个行业都没有一个关于大数据的标准定义,我从一个大数据开发人员角度的理解是一台设备处理不了的数据就是大数据,这里的“处理”可以是存储、可以是计算、也可以是查询分析。
# 大数据的特点
大家普遍认为的大数据有 4 个特点,分别是量大(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)。
# Volume
截止目前,人类生产的所有印刷材料的数据量为 200PB,而百度首页每天需要提供的数据已经超过 1.5PB。目前很多笔记本电脑的硬盘存储已经达到了TB基本,甚至是个别智能手机的存储能力也达到PB级别了。计算机存储单位(从左往右量级依次递增):bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。智能手机拍摄的一张高清照片大约是30MB左右,一部电影大约是2GB左右。
# Velocity
数据的增长速度和处理速度是大数据高速性的重要体现。与以往的报纸、书信等传统数据载体生产传播方式不同,在大数据时代,大数据的交换和传播主要是通过互联网和云计算等方式实现的,其生产和传播数据的速度是非常迅速的。另外,大数据还要求处理数据的响应速度要快。比如使用地图软件导航的时候,一旦在某个路口没有按照规划的路线走,或者原本规划的路线前方出现了拥堵或者事故,会立马在短时间内重新规划路线;使用外卖软件下单的时候,会在尽可能短的时间内为你分配就近的骑手进行配送;在电商APP或网站中搜索某个产品之后,会立马给你推送同类型或者有关联关系的其它产品等。
# Variety
数据来源的广泛性,决定了数据形式的多样性。大数据可以分为三类,一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;一是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。有统计显示,目前结构化数据占据整个互联网数据量的75%以上,而产生价值的大数据,往往是这些非结构化数据。
# Value
实价值密度的高低和数据总量的大小是成反比的,即数据价值密度越高数据总量越小,数据价值密度越低数据总量越大。任何有价值的信息的提取依托的就是海量的基础数据。当然目前大数据背景下有个未解决的问题,如何通过强大的机器算法更迅速地在海量数据中完成数据的价值提纯。
# 大数据的意义
大数据最重要的意义是预测,把数学算法运用到海量数据上来预测事情发生的可能性。因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。
# 大数据的应用场景
大数据是一门数字化技术,在各个行业以及不同时代背景下的运用都不尽相同。
- 电商。电商企业可以根据用户的消费习惯为用户推荐更符合自己消费水平和喜欢的商品。
- 广告。通过大数据算法可以提高广告投放的精准度。
- 医疗。通过对大量病例以及治疗方案的研究,可以帮助优化诊断方法以及质量方案。
- 金融。大数据在金融行业应用范围较广,如理财推荐、风险控制等。
- 交通。通过对通行数据分析,城市建设部门可以合理规划城市交通体系。
- 防疫。“健康码”、“时空伴随者”大家一定不陌生,借助大数据的计算能力,可以有效达到精准防疫。