参考答案和解析
正确答案:正确
更多“与RDD类似,DataFrame也是一个分布式数据容器”相关问题
  • 第1题:

    groupByKey算子在一个(K,V)的RDD上调用,返回一个(K,Iterator[V])的RDD


    正确答案:正确

  • 第2题:

    mapPartitions算子类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T]=>Iterator[U]


    正确答案:正确

  • 第3题:

    spark中的rdd是一个()数据集

    • A、弹性分布式
    • B、弹性计算
    • C、运送数据
    • D、心跳

    正确答案:A

  • 第4题:

    map算子返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成


    正确答案:正确

  • 第5题:

    DNS既是一个分布式数据库,也是TCP/IP协议中应用层的一种服务。


    正确答案:正确

  • 第6题:

    DataFrame不能够转换成Rdd


    正确答案:错误

  • 第7题:

    RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合


    正确答案:正确

  • 第8题:

    SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用


    正确答案:正确

  • 第9题:

    distinct算子对源RDD进行去重后返回一个新的RDD


    正确答案:正确

  • 第10题:

    多选题
    关于spark说法正确的是()。
    A

    调用RDD的Transformation算子可以立即发起job

    B

    NodeManager负责整个集群的资源统一调度和分配。

    C

    Yarn-client适合测试,Yarn-cluster适合生产。

    D

    Dataset具有RDD和DataFrame的优点,又避免它们的缺点。


    正确答案: A,C
    解析: 暂无解析

  • 第11题:

    单选题
    下列有关RDD的说法中错误的是()。
    A

    RDD是一个只读的,可分区的分布式数据集。

    B

    RDD默认存储在磁盘,当磁盘不足时,溢写到内存。

    C

    RDD数据以分区的形式在集群中存储。

    D

    RDD具有血统机制,发生数据丢失时,可快速进行数据恢复。


    正确答案: B
    解析: 暂无解析

  • 第12题:

    判断题
    RDD可以从Hadoop兼容的文件系统生成,生成之后可以通过调用RDD的算子对RDD的数据进行部分更新。
    A

    B


    正确答案:
    解析: 暂无解析

  • 第13题:

    DataFrame也是一个分布式数据容器


    正确答案:正确

  • 第14题:

    dataFrame和RDD其实是一回事,没有区别


    正确答案:错误

  • 第15题:

    interSection算子对源RDD和参数RDD求交集后返回一个新的RDD


    正确答案:正确

  • 第16题:

    union算子对源RDD和参数RDD求并集后返回一个新的RDD


    正确答案:正确

  • 第17题:

    RDD特性包含如下哪些?()

    • A、一组分片(Partition),即数据集的基本组成单位
    • B、一个计算每个分区的函数
    • C、RDD之间的依赖关系
    • D、一个列表,存储存取每个Partition的优先位置(preferredlocation)

    正确答案:A,B,C,D

  • 第18题:

    DataFrame也支持嵌套数据类型(struct、array和map)


    正确答案:正确

  • 第19题:

    DataFrame和RDD最大的区别是什么()

    • A、科学统计支持
    • B、多了schema
    • C、存储方式不一样
    • D、外部数据源支持

    正确答案:B

  • 第20题:

    dataFrame和RDD类似,也是一个分布式数据容器


    正确答案:正确

  • 第21题:

    SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型

    • A、DataFrames
    • B、Table
    • C、DataSet
    • D、RDD

    正确答案:A

  • 第22题:

    判断题
    DNS既是一个分布式数据库,也是TCP/IP协议中应用层的一种服务。
    A

    B


    正确答案:
    解析: 暂无解析

  • 第23题:

    判断题
    Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集
    A

    B


    正确答案:
    解析: 暂无解析