与RDD类似,DataFrame也是一个分布式数据容器
第1题:
groupByKey算子在一个(K,V)的RDD上调用,返回一个(K,Iterator[V])的RDD
第2题:
mapPartitions算子类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]
第3题:
spark中的rdd是一个()数据集
第4题:
map算子返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
第5题:
DNS既是一个分布式数据库,也是TCP/IP协议中应用层的一种服务。
第6题:
DataFrame不能够转换成Rdd
第7题:
RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合
第8题:
SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用
第9题:
distinct算子对源RDD进行去重后返回一个新的RDD
第10题:
调用RDD的Transformation算子可以立即发起job
NodeManager负责整个集群的资源统一调度和分配。
Yarn-client适合测试,Yarn-cluster适合生产。
Dataset具有RDD和DataFrame的优点,又避免它们的缺点。
第11题:
RDD是一个只读的,可分区的分布式数据集。
RDD默认存储在磁盘,当磁盘不足时,溢写到内存。
RDD数据以分区的形式在集群中存储。
RDD具有血统机制,发生数据丢失时,可快速进行数据恢复。
第12题:
对
错
第13题:
DataFrame也是一个分布式数据容器
第14题:
dataFrame和RDD其实是一回事,没有区别
第15题:
interSection算子对源RDD和参数RDD求交集后返回一个新的RDD
第16题:
union算子对源RDD和参数RDD求并集后返回一个新的RDD
第17题:
RDD特性包含如下哪些?()
第18题:
DataFrame也支持嵌套数据类型(struct、array和map)
第19题:
DataFrame和RDD最大的区别是什么()
第20题:
dataFrame和RDD类似,也是一个分布式数据容器
第21题:
SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型
第22题:
对
错
第23题:
对
错