更多“SparkSQL是一个用来处理结构化数据的spark组件。它提供了一个叫做()的可编程抽象数据模型A、DataFramesB、TableC、DataSetD、RDD”相关问题
  • 第1题:

    在面向对象的程序设计中,将数据和处理数据的操作封装成一个整体就定义了一种事物的类型,称作“类”。类是一种抽象的概念,属于该类的一个实例叫做“【 】”。


    正确答案:对象
    对象 解析:对象是一个可视化的或非可视化的元件,而在C++程序代码中,对象是类的一个实例(有时指向对象的指针也称为对象)。

  • 第2题:

    一个数据模型是对数据的抽象描述,用来描述数据项的组成方式和相互关联的方式。下面( )是逻辑数据模型和物理数据模型的区别。

    A.逻辑数据模型关注数据的物理存储
    B.逻辑数据模型关注数据收集的实体
    C.逻辑数据模型在本质上是实用的而不是概念的
    D.逻辑数据模型是以用户为中心的数据描述方法

    答案:D
    解析:
    逻辑数据模型是以用户为中心的数据描述方法。选项A不正确,物理数据模型关注数据的物理存储。选项B不正确,物理数据模型和逻辑数据模型都关注于数据收集的实体。选项C不正确,逻辑数据模型只是概念化的。

  • 第3题:

    SparkSQL的应运而生,它是将SparkSQL转换成RDD,然后提交到集群执行,执行效率非常快


    正确答案:正确

  • 第4题:

    spark中的rdd是一个()数据集

    • A、弹性分布式
    • B、弹性计算
    • C、运送数据
    • D、心跳

    正确答案:A

  • 第5题:

    spark中以下哪些特性是rdd的特性()

    • A、计算移动
    • B、数据不移动
    • C、数据移动
    • D、计算不移动

    正确答案:A,C,D

  • 第6题:

    spark在进行数据切分的时候,决定了partition的哪些属性()

    • A、冗余性
    • B、一致性
    • C、rdd之间具有依赖性
    • D、每个rdd都会提供一批最优的计算位置

    正确答案:A,B

  • 第7题:

    Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib)和图计算(GraphX)


    正确答案:正确

  • 第8题:

    spark框架中,机器学习库的框架是哪个()

    • A、hadoop
    • B、spark?streaming
    • C、mlbase
    • D、RDD

    正确答案:C

  • 第9题:

    Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目


    正确答案:正确

  • 第10题:

    spark为分布式数据集的处理提供了一个有效框架,并以高效的方式处理()数据集

    • A、单机
    • B、集中式
    • C、分布式
    • D、NOSQL

    正确答案:C

  • 第11题:

    AH是IPSec的一个组件,用来保证数据的完整性。


    正确答案:正确

  • 第12题:

    ( 难度:中等)关于spark中RDD说法错误的是:
    A.宽依赖指的是多个子RDD的分区会依赖同一个父RDD的分区,关系是一对多
    B.窄依赖指的是每一个父RDD的分区最多被子RDD的一个分区使用,是一对一的
    C.宽依赖中会有shuffle的产生
    D.窄依赖中会有shuffle的产生

    答案:D

  • 第13题:

    下列关于数据模型的叙述中,哪一条是错误的()。

    A.模型是现实世界特征的抽象和模拟
    B.数据模型用来描述、组织和处理现实世界中的数据
    C.数据模型描述了数据库的静态结构特征,但无法描述其动态行为特征
    D.数据模型是数据库的核心和基础

    答案:C
    解析:
    数据模型是对现实世界进行抽象的工具,用于描述现实世界的数据、数据联系、数据语义和数据约束等方面内容。数据模型分成概念模型和结构模型两大类。前者的代表是实体一联系模型,后者的代表是层次、网状、关系和面向对象模型。对数据结构和数据间联系的描述,这是描述数据的静态特征。数据操作主要描述在相应的数据结构上的操作类型和操作方式。数据约束主要描述数据结构内数据间的语法、词义联系,它们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。故C错误,其他选项正确。

  • 第14题:

    大数据服务是一个复杂的系统,它提供了数据从产生到消亡整个生命周期的数据处理功能。


    正确答案:正确

  • 第15题:

    以下属于spark启动后进程的是()

    • A、rdd是由一系列的partition组成的
    • B、原子性
    • C、算子作用在partition上
    • D、每个rdd都会提供一批最优的计算位置

    正确答案:A,B

  • 第16题:

    sparkSql不支持查询原生的RDD


    正确答案:错误

  • 第17题:

    sparkSql仅仅支持查询原生的RDD,其他方式的查询都不支持


    正确答案:错误

  • 第18题:

    rdd是spark中个哪个架构提出的概念()

    • A、spark core
    • B、spark streaming
    • C、mlbase
    • D、Grophx

    正确答案:A

  • 第19题:

    sparkSql可以访问hive数据,并将其结果取回作为RDD使用


    正确答案:正确

  • 第20题:

    RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合


    正确答案:正确

  • 第21题:

    SparkSQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用


    正确答案:正确

  • 第22题:

    spark中的rdd不存储数据,存储的是()

    • A、业务逻辑
    • B、物理数据
    • C、数据库数据
    • D、物理逻辑

    正确答案:A

  • 第23题:

    单选题
    ()描述了一个用来存储数据的容器,以及该容器存储和检索数据的过程。
    A

    数据库

    B

    数据库管理系统

    C

    数据模型

    D

    关系型数据库管理系统


    正确答案: B
    解析: 暂无解析