Spark的执行机制Spark是一种类Hadoop MapReduce的通用并行计算框架,spark基于map reduce算法来实现分布式计算。Spark的中间数据放到内存中,对于迭代运算效率更高,并且相比Hadoop提供了更多的数据集操作类型,如map, filter, flatMap, sample等(称为Transformation)。同时spark还提供了count,collect,reduce等action操作。图1.1 是Spark在分布式集群上的一般执行框架,包括了sparkcontext(上下文),cluster manager(资源管理器),executor(单个节点的执行...