For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
Spark是一种大数据生态系统spark框架侧重于内存和实时计算。在spark的基础上衍生出了很多组件,比如spark streaming、spark SQL、mllib等。其中spark score完全可以代替MR,spark中不仅可以有reduce操作,同时也提供了其他诸如filter sortby等操作,要比MR方便很多,同时,spark SQL可以直接把hive上的文件映射成一张表,来进行表操作。
1、熟悉如何去写spark的程序;
2、实践到一定程度之后,逐渐的通过spark运行日志对spark的运行机制和原理有了解。
看架构、源码。试试看一些解读源码的图书, Spark的相关知识就已经开始沉淀了。
3、了解spark的各个调度器如何实现,之前总是出现在眼睛里的那个宽依赖窄依赖、和stage的切分,task位置的确定等。随着不断深入,尝试看底层的block如何读如何写,之间如何协调通讯等等。
Spark只是分布式计算平台,相比于hadoop更加容易使用,配置很方便。除支持JAVA外,支持scala、python、R。特别是scala,简直是太适合写数据分析的程序了,mapreduce用JAVA实在是太蛋疼了。而且RDD自带的函数
巨好用的库能解决90%问题的四大组件,无论是SQL、还是流数据处理、机器学习库、图计算,相当好用。当然,hadoop相关的库也不少,不过spark是原生包含,用起来方便点。
运行也十分方便,Spark是可以脱离hadoop运行的,比如数据可以从数据库或者本地文件里面抽取。不过毕竟大数据时代,大家都习惯于将Spark和hadoop通过mesos或者yarn结合起来用;主要用Hadoop的HDFS,当然HBASE或者HIVE这种HDFS之上的组件,Spark也支持。
更多大数据技术相关内容,关注广州达内官网!