Spark2.0 Spark直接从1.6跨入2.0版本,带来一些新的特性。最大的变化便是SparkSession整合了各种环境。 Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark的难度也会大大降低。 SparkSession 在Spark的早期版本,SparkContext是进入Spark的切入点。……
阅读全文
Spark中的各种概念的理解 Application:通俗讲,用户每次提交的所有的代码为一个application。 Job:一个application可以分为多个job。如何划分job?通俗讲,触发一个final RDD的实际计算(action)为一个job Stage:一个job可以分为多个stage。根据一个job中的RDD的宽依赖和窄依赖关系进行划分 Task:task是最小的基本的计算单位。一般是……
阅读全文
生态: ![image]( Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的 Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。 Spark Streaming:对实时数据流进行处理和控制。Spar……
阅读全文
Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等. 这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop: Map/Reduce: MapRe……
阅读全文