大数据技术涉及:
数据的采集、预处理、和分布式存储、以及数据仓库、机器学习、并行计算和可视化等方面。
对于大数据技术,应用广泛的是以hadoop和spark为核心的生态系统。
hadoop提供一个稳定的共享存储和分析系统,存储由hdfs实现,分析由mapreduce实现,
1、hdfs:
Hadoop分布式文件系统,运行与大型商用机集群
hdfs是gfs的开源实现,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。
2、hbase:
分布式的列存储数据库。
hbase将hdfs作为底层存储,同时支持mapreduce的批量计算和点查询(随机读取)
hbase是一个建立在hdfs之上,面向列的nosql数据库。
它可用于快速读写大量数据,是一个高可靠、高并发读写、高性能、面向列、可伸缩和易构建的分布式存储系统。
hbase具有海量数据存储、快速随机访问和大量写操作等特点。
在kudu出现之前,hadoop生态环境的存储主要依赖hdfs和hbase。
在追求高吞吐、批处理的场景中,使用hdfs,在追求低延时且随机读取的场景中,使用hbase,而kudu正好能兼容这两者。
3、批处理计算的基石:
mapreduce
批处理计算主要解决大规模数据的批量处理问题,是日常数据分析中常见的一类数据处理需求。
业界常用的大数据批处理框架有mapreduce\\spark\ez\\pig等。
其中mapdeduce是比较有影响力和代表性的大数据批处理计算框架。
它可以并发执行大规模数据处理任务,即用于大规模数据集(大于1tb)的并行计算。
mapreduce的核心思想:
将一个大数据集拆分成多个小数据集,然后在多台机器上并行处理。
4、hive:分布式数据仓库,管理hdfs中存储的数据,并提供基于sql的查询语言用于查询数据
1.
Excel在很多人眼里,Excel只是一个办公软件,但实际上,大部分人对Excel的认知还不到50%。
Excel可以称得上是最全...
2.
Python不可否认的是,python在数据分析领域,确实称得上是一个强大的语言工具。
你可以随心所欲地写代码执行你想要的东西...
3.
BI工具BI也就是商业智能,这类工具就是为数据分析而生的。
你会发现BI工具的产品设计,几乎是按照数据分析的流程来设计的...
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
麦肯锡全球研究所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据技术与应用专业的学生需要学习的内容有面向对象程序设计、Hadoop实用技术、数据挖掘、机器学习、数据统计分析、高等数学、Python编程、JAVA编程、数据库技术、Web开发、Linux操作系统、大数据平台搭建及运维、大数据应用开发、可视化设计与开发等。