参考答案和解析
答案:A
更多“Hadoop生态系统中,被作为ETL使用的软件是?() A.SqoopB.BigtopC.AutoconfD.Oracle”相关问题
  • 第1题:

    What are the four basic Data Flow steps of an ETL process?

    在ETL过程中四个基本的过程分别是什么?


    正确答案:
    答:
    Kimball数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。
    1.抽取阶段的主要任务是:
    读取源系统的数据模型。
    连接并访问源系统的数据。
    变化数据捕获。
    抽取数据到数据准备区。
    2.清洗阶段的主要任务是:
    清洗并增补列的属性。
    清洗并增补数据结构。
    清洗并增补数据规则。
    增补复杂的业务规则。
    建立元数据库描述数据质量。
    将清洗后的数据保存到数据准备区。
    3.一致性处理阶段的主要任务是:
    一致性处理业务标签,即维度表中的描述属性。
    一致性处理业务度量及性能指标,通常是事实表中的事实。
    去除重复数据。
    国际化处理。
    将一致性处理后的数据保存到数据准备区。
    4.交付阶段的主要任务是:
    加载星型的和经过雪花处理的维度表数据。
    产生日期维度。
    加载退化维度。
    加载子维度。
    加载1、2、3型的缓慢变化维度。
    处理迟到的维度和迟到的事实。
    加载多值维度。
    加载有复杂层级结构的维度。
    加载文本事实到维度表。
    处理事实表的代理键。
    加载三个基本类型的事实表数据。
    加载和更新聚集。
    将处理好的数据加载到数据仓库。
    从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说,ETL系统的设计应该和目标表的设计同时开始。通常来说,数据仓库架构师和ETL系统设计师是同一个人。

  • 第2题:

    Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。( )

    此题为判断题(对,错)。


    正确答案:错误

  • 第3题:

    数据仓库的数据ETL过程中,ETL软件的主要功能包括:

    A.数据抽取

    B.数据转换

    C.数据加载

    D.数据稽核


    参考答案:A,B,C

  • 第4题:

    以下哪些产品属于Hadoop软件栈

    • A、Hive
    • B、Pig
    • C、GraphX
    • D、Hbase

    正确答案:A,B,C

  • 第5题:

    Hadoop及其生态系统,可以部署在()

    • A、Linux
    • B、OS/2
    • C、DOS
    • D、UNIX

    正确答案:A,D

  • 第6题:

    计算机中的应用软件是指()

    • A、所有计算机上都应使用的软件
    • B、能被各用户共同使用的软件
    • C、专门为某一应用目的而编制的软件
    • D、计算机上必须使用的软件

    正确答案:C

  • 第7题:

    以下软件属于关系型数据库的有()。

    • A、Oracle
    • B、Informix
    • C、Sybase
    • D、Hadoop

    正确答案:A,B,C

  • 第8题:

    Hadoop生态系统中,由Facebook开源,使用SQL语言进行离线分析的软件是()

    • A、Pig
    • B、Pheonix
    • C、Shark
    • D、Hive

    正确答案:D

  • 第9题:

    数据仓库的数据ETL过程中,ETL软件的主要功能包括:

    • A、数据抽取
    • B、数据转换
    • C、数据加载
    • D、数据稽核

    正确答案:A,B,C

  • 第10题:

    单选题
    下面关于Hadoop兼容性错误的是()。
    A

    Flink能够支持Yarn,能够从HDFS和HBase中获取数据

    B

    能够使用所有的Hadoop的格式化输入和输出

    C

    能够使用Hadoop原有的Mappers和Reducers,但不能与Flink的操作混合使用

    D

    能够更快的运行Hadoop的作业


    正确答案: A
    解析: 暂无解析

  • 第11题:

    单选题
    在使用DPP软件过程中,可以被调节的“图像处理条件信息”被称作为()。
    A

    工具调色板

    B

    配方

    C

    图片样式

    D

    显像


    正确答案: C
    解析: 暂无解析

  • 第12题:

    (难度:中等)Hadoop是Java语言编写的,因此在开发基于hadoop的应用程序时只能使用Java语言

    答案:(no)

  • 第13题:

    Describe the different types of ETL metadata and provide examples of each.

    举例说明各种ETL过程中的元数据。


    正确答案:
    答:元数据是ETL项目组面对的一个非常重要的主题,对于整个数据仓库项目也是非常重要的一部分。对于元数据的分类和使用没有很确定的定义。
    通常来说,我们可以把元数据分为三类,分别为业务元数据(Business Metadata),技术元数据(Technical Metadata)和过程处理元数据(Process Execution Metadata)。
    业务元数据,是从业务的角度对数据的描述。通常是用来给报表工具和前端用户对数据进行分析和使用提供帮助。
    技术元数据,是从技术的角度对数据的描述。通常包括数据的一些属性,如数据类型、长度、或者数据概况分析后一些结果。
    过程处理元数据,是ETL处理过程中的一些统计数据,通常包括有多少条记录被加载,多少条记录被拒绝接受等数据

  • 第14题:

    以下哪些产品属于Hadoop软件栈

    A.Hive

    B.Pig

    C.GraphX

    D.Hbase


    参考答案:A,B,C

  • 第15题:

    简述数据仓库ETL软件的主要功能和对产生数据的目标要求。


    正确答案:ETL软件的主要功能:
    数据的抽取,数据的转换,数据的加载;
    对产生数据的目标要求:
    详细的、历史的、规范化的、可理解的、即时的、质量可控制的。

  • 第16题:

    Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台,该平台使用的是面向对象编程语言()实现的,具有良好的可移植性。

    • A、JAVA
    • B、C++
    • C、Python
    • D、Delphi

    正确答案:A

  • 第17题:

    Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等


    正确答案:正确

  • 第18题:

    与开源云计算系统Hadoop HDFS对应的商用云计算软件系统是()?

    • A、Google GFS
    • B、Google MapReduce
    • C、Google BigTable
    • D、Google Chubby

    正确答案:A

  • 第19题:

    Hadoop生态系统中,被作为ETL使用的软件是()

    • A、Sqoop
    • B、Bigtop
    • C、Autoconf
    • D、Oracle

    正确答案:A

  • 第20题:

    在使用DPP软件过程中,可以被调节的“图像处理条件信息”被称作为()。

    • A、工具调色板
    • B、配方
    • C、图片样式
    • D、显像

    正确答案:B

  • 第21题:

    多选题
    数据仓库的数据ETL过程中,ETL软件的主要功能包括:
    A

    数据抽取

    B

    数据转换

    C

    数据加载

    D

    数据稽核


    正确答案: B,C
    解析: 暂无解析

  • 第22题:

    判断题
    Hadoop是一个能够对大量数据进行聚合式处理的软件框架。
    A

    B


    正确答案:
    解析: 暂无解析

  • 第23题:

    ( 难度:中等)Hadoop的核心是()
    A.HDFS
    B.Flume
    C.HBase
    D.Hadoop

    答案:A