绪论 单元测试
1、多选题:
下列哪些应用属于大数据技术的应用( )。
选项:
A:电商网站上对注册用户浏览信息记录、分析、挖掘,为用户推送感兴趣的商品。
B:政务领域中的智慧城市建设,如智慧交通、智慧医疗、智慧教育等。
C:音视频网站上通过分析注册用户的浏览习惯,为用户推送感兴趣的音视频。
D:手机银行或网上银行在用户画像基础上,对用户群进行定位,挖掘潜在金融服务需求。
答案: 【电商网站上对注册用户浏览信息记录、分析、挖掘,为用户推送感兴趣的商品。;
政务领域中的智慧城市建设,如智慧交通、智慧医疗、智慧教育等。;
音视频网站上通过分析注册用户的浏览习惯,为用户推送感兴趣的音视频。;
手机银行或网上银行在用户画像基础上,对用户群进行定位,挖掘潜在金融服务需求。】
2、判断题:
日常我们用到的云服务器、钉钉办公软件、百度网盘等应用都是云计算服务厂商提供的云计算服务。( )
选项:
A:错
B:对
答案: 【对】
第一章 单元测试
1、多选题:
云计算的服务模式包括( )。
选项:
A:基础设施即服务
B:系统即服务
C:软件即服务
D:平台即服务
答案: 【基础设施即服务;
软件即服务;
平台即服务】
2、多选题:
云计算的劣势有( )。
选项:
A:信息技术产业进一步合理分工
B:风险被集中
C:数据泄密的环节增多
D:严重依赖网络
答案: 【风险被集中;
数据泄密的环节增多;
严重依赖网络】
3、多选题:
云计算部署模型有( )。
选项:
A:公有云
B:PaaS云
C:私有云
D:混合云
答案: 【公有云;
私有云;
混合云】
4、判断题:
云计算是把有形的产品(网络设备、服务器、存储设备、各种软件等)转化为服务产品(IaaS,PaaS,SaaS),并通过网络让人们远程在线使用。( )
选项:
A:对
B:错
答案: 【对】
5、判断题:
云计算是一种计算模式,能够提供随时随地、便捷的、随需应变的网络接入,访问可配置的计算资源共享池。( )
选项:
A:对
B:错
答案: 【对】
第二章 单元测试
1、单选题:
虚拟化技术主要用于云计算物理资源的池化,物理资源不包括( )。
选项:
A:存储
B:网络
C:操作系统
D:服务器
答案: 【操作系统】
2、多选题:
虚拟技术特性有( )。
选项:
A:封装
B:隔离
C:相对于硬件独立
D:分区
答案: 【封装;
隔离;
相对于硬件独立;
分区】
3、多选题:
虚拟化的益处包括( )。
选项:
A:实现动态负载均衡
B:实现节能减排
C:通过系统自愈功能提升可靠性
D:实现资源最优利用
答案: 【实现动态负载均衡;
实现节能减排;
通过系统自愈功能提升可靠性;
实现资源最优利用】
4、多选题:
个人PC上使用比较多的虚拟化工具有( )。
选项:
A:KVM
B:VMware Workstation
C:Xen
D:Virtual Box
答案: 【VMware Workstation;
Virtual Box】
5、判断题:
虚拟化是一项技术,而云是一种环境或服务。( )
选项:
A:对
B:错
答案: 【对】
6、判断题:
虚拟化的主要功能是把单个资源抽象成多个给用户使用,而云计算则是帮助不同部门或公司访问一个自动置备的资源池。( )
选项:
A:错
B:对
答案: 【对】
第三章 单元测试
1、多选题:
开放系统的存储类型分为内置存储和外挂存储,其中外挂存储可分为( )。
选项:
A:存储区域网络(SAN)
B:直连式存储(DAS)
C:网络接入存储(NAS)
D:移动存储
答案: 【】
2、多选题:
根据实现方式,可将存储虚拟化分为( )。
选项:
A:带外虚拟化
B:带内虚拟化
C:块虚拟化
D:文件虚拟化
答案: 【】
3、多选题:
根据存储虚拟化实现的位置,可将存储虚拟化分为( )。
选项:
A:基于主机的虚拟化
B:磁带或磁带库虚拟化
C:基于网络的虚拟化
D:基于存储设备的虚拟化
答案: 【】
4、判断题:
Ceph计算模式是一种完全无中心架构( )
选项:
A:错
B:对
答案: 【】
5、判断题:
存储虚拟化是指将存储资源集中到一个大容量的资源池并实行单点统一管理,无需中断应用即可改变存储系统和数据迁移。( )
选项:
A:对
B:错
答案: 【】
第四章 单元测试
1、多选题:
软件定义网络(SDN)特点( )。
选项:
A:控制平面集中化
B:转发平面通用化
C:控制转发分离
D:控制器软件可编程
答案: 【】
2、多选题:
OpenFlow组件包括( )。
选项:
A:OpenFlow控制器
B:控制平面
C:OpenFlow交换机
D:数据转发平面
答案: 【】
3、多选题:
根据OverLay的载体不同,VXLAN的OverLay分为( )3种。
选项:
A:网络OverLay
B:主机OverLay
C:虚实OverLay
D:混合OverLay
答案: 【】
4、判断题:
软件定义网络 (SDN)将网络管理与底层网络基础设施分离开来,允许管理员动态调整整个网络的流量,以满足不断变化的需求。( )
选项:
A:错
B:对
答案: 【】
5、判断题:
网络虚拟化是一种网络技术,可以在物理拓扑上创建虚拟网络。基于SDN的网络架构可以更容易地实现网络虚拟化。( )
选项:
A:对
B:错
答案: 【】
第五章 单元测试
1、多选题:
虚拟化平台软件有哪些( )。
选项:
A:Esxi
B:KVM
C:Hyper-V
D:xenServer
答案: 【】
2、多选题:
下列描述中正确的有( )。
选项:
A:集群是指一组桌面计算机或服务器通过局域网连接在一起,运转方式类似于一个更大型的计算机。
B:是指大型机。
C:集群中每个节点都运行自己的操作系统,节点之间使用网络协议进行通信。
D:,它们的设计方式使数万个服务器像一个服务器一样运行。
E:最大规模的集群称为仓库级计算机(WS
F:仓库级计算机(WS
答案: 【】
3、多选题:
以下属于PaaS 管理工具的有( )。
选项:
A:Cloud Foundry 社区的 CloudFoundry
B:红帽公司的 OpenShift
C:Hyper-V
D:KVM
答案: 【】
4、判断题:
IaaS 云计算解决方案中,虚拟化平台(硬件资源、虚拟软件)主要解决如何运行虚拟机的问题。( )
选项:
A:对
B:错
答案: 【】
5、判断题:
SaaS云管理工具与业务关联性大,目前没有统一的标准版产品。( )
选项:
A:错
B:对
答案: 【】
6、判断题:
一般地,SaaS 云管理软件包含两大部分:一是 SaaS 业务门户,二是 SaaS 管理门户。( )
选项:
A:错
B:对
答案: 【
第六章 单元测试
1、多选题:
大数据4V特点是( )。
选项:
A:Variety(数据类型多)
B:Value(价值密度低)
C:Volume(体量大)
D:Velocity(处理速度快)
答案: 【】
2、多选题:
大数据的定义是( )。
选项:
A:任何超过了一台计算机处理能力的数据量
B:具有很大价值的数据
C:指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
D:超过个人PC机或笔记本硬盘存储容量的数据
答案: 【】
3、单选题:
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该着重于( )为其行为承担责任。
选项:
A:个人许可
B:数据提供者
C:数据分析者
D:数据使用者
答案: 【
4、多选题:
大数据的处理流程涉及( )。
选项:
A:统计/分析
B:数据采集
C:数据导入/预处理
D:数据挖掘与预测
答案: 【】
5、多选题:
大数据的科学价值和社会价值正是体现在( )。
选项:
A:大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域
B:大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。
C:大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用
D:对大数据的掌握程度可以转化为经济价值来源
答案: 【】
6、判断题:
通用的大数据分析系统的核心设计理念包括并行化、规模经济、虚拟化。( )
选项:
A:对
B:错
答案: 】
7、判断题:
大数据框架技术中消息系统技术有:Kafka、StormMQ、ZeroMQ、RabbitMQ。( )
选项:
A:对
B:错
答案: 【】
8、判断题:
Hadoop MapReduce、Spark属于离线计算框架技术。( )
选项:
A:对
B:错
答案: 【】
第七章 单元测试
1、多选题:
Hadoop2.0和Hadoop3.0区别包括( )。
选项:
A:Hadoop3.0的 HDFS支持纠删码
B:Hadoop3.0新增了YARN框架
C:Hadoop3.0支持多于2个以上的NameNodes
D:Hadoop3.0的 Java运行环境升级为1.8
答案: 【】
2、多选题:
Hadoop1.0和Hadoop2.0区别包括( )。
选项:
A:Hadoop2.0新增了HDFS federation
B:Hadoop2.0的MapReduce本地优化,性能提升了30%
C:Hadoop2.0新增了HDFS HA机制
D:Hadoop2.0新增了YARN框架
答案: 【】
3、判断题:
Hadoop 2.0版本加入了通用YARN资源管理器,用以协调各个组件对系统资源的利用,合理分配集群CPU、内存资源。( )
选项:
A:错
B:对
答案: 【】
4、判断题:
Hadoop2.0版本中,MapReduce2.0只是一个计算框架,具体资源调度全部交给Yarn框架。( )
选项:
A:错
B:对
答案: 【】
5、判断题:
Hadoop 3.0版本中HDFS支持纠删码,纠删码相比于副本机制节省了一半以上的存储空间,普通副本机制需要3倍存储空间而这种机制只需1.4倍即可。( )
选项:
A:错
B:对
答案: 【】
第八章 单元测试
1、多选题:
以下说法正确的是( )。
选项:
A:HDFS为大量用户提供性能不错的文件存取服务
B:HDFS是一易于扩展的分布式文件系统
C:HDFS源自于Google的GFS论文
D:HDFS运行在大量普通廉价机器上,提供容错机制
答案: 【】
2、多选题:
HDFS不适合的场景( )。
选项:
A:存储小文件。
B:对延迟要求较高的场景。
C:进行文件随机修改。
D:支持多用户写入。
答案: 【】
3、判断题:
传统的NFS不是一种典型的分布式系统,虽然它的文件的确放在远端(单一)的服务器上面。( )
选项:
A:对
B:错
答案: 【】
4、判断题:
HDFS文件被切分成固定大小的数据块,为实现高吞吐率,默认数据块大小为128MB。( )
选项:
A:错
B:对
答案: 【】
5、判断题:
HDFS文件不仅支持追加,还支持文件任意offset的修改。( )
选项:
A:对
B:错
答案: 【】
6、判断题:
HDFS不支持多用户写入,也无法进行文件随机修改。仅支持以append的方式,即通过追加的方式添加到文件结尾处。( )
选项:
A:对
B:错
答案: 【】
第九章 单元测试
1、多选题:
下列关于YARN描述正确的有( )。
选项:
A:YARN为上层应用提供统一的资源管理和调度。
B:YARN是一个通用资源管理系统和调度平台。
C:YARN只提供运算资源的调度。
D:YARN与运行的用户程序完全解耦。
答案: 【】
2、多选题:
下列基于Yarn的计算框架描述正确是( )。
选项:
A:Storm是Twitter开源的分布式实时大数据处理框架。
B:MapReduce 是一种离线数据计算框架。
C:Flink 是一种离线的数据计算框架。
D:Spark是基于内存计算的大数据并行计算框架。
答案: 【】
3、多选题:
字节跳动公司产品对 YARN 的定制应用描述正确是( )。
选项:
A:将 HDFS 做成强依赖。
B:公司的抖音、今日头条等产品重度依赖推荐,团队对调度器进行了深度定制。
C:YARN主要承载着字节跳动公司内的离线作、流式作业、模型训练三大场景。
D:实现YARN支持单集群使用。
答案: 【】
4、判断题:
MapReduce、Storm、Spark、Tez 等计算框架都可以整合在 YARN 上运行,只要他们各自的框架中有符合YARN规范的资源请求机制即可。( )
选项:
A:对
B:错
答案: 【】
5、判断题:
YARN基于ZooKeeper实现HA,主提供服务,备同步主的信息。主挂掉,备立即做切换接替主进行服务。( )
选项:
A:对
B:错
答案: 【】
6、判断题:
Mesos是一个开源的资源管理系统,可以对集群中的资源做弹性管理,目前twitter, apple等公司在大量使用Mesos管理集群资源。( )
选项:
A:错
B:对
答案: 【】
7、判断题:
YARN采用双层调度框架,ResourceManager将资源分配给AppMaster,AppMaster将资源进一步分配给各个Task。( )
选项:
A:对
B:错
答案: 【】
8、判断题:
Mesos组件中Framework Scheduler组件是实现单个应用程序的管理和资源二次调度。( )
选项:
A:错
B:对
答案: 【】
9、判断题:
Spark是一种包含流处理能力的下一代批处理框架。主要应用在广告、报表、推荐系统等业务上。( )
选项:
A:对
B:错
答案: 【】
10、判断题:
YARN 天生是为批处理而设计的,很多地方与流式或模型训练场景并不匹配,为了给批处理、流式、模型训练三大场景更好的体验,字节跳动对YARN做一些定制工作。( )
选项:
A:对
B:错
答案: 【】
第十章 单元测试
1、多选题:
常用大数据采集途径有( )。
选项:
A:智能感知设备。
B:互联网数据采集。
C:APP移动端数据采集。
D:数据服务机构。
答案: 【】
2、多选题:
下列关于Flume架构描述正确的有( )。
选项:
A:Source将数据封装到事件(event) 里,然后将事件推入Channel中。
B:Sink负责持久化日志或者把事件推向另一个Source。
C:Channel是连接Source和Sink的组件,它将保存事件直到Sink处理完该事件。
D:Source是数据的收集端,负责将数据捕获后进行特殊的格式化。
答案: 【】
3、多选题:
下列关于数据迁移工具Sqoop描述正确的有( )。
选项:
A:Sqoop工具本质就是迁移数据。
B:Sqoop工作机制是将导入或导出命令翻译成 MapReduce 程序来实现。
C:Sqoop工具只能用于非关系型数据库之间迁移。
D:Sqoop 是一款用于在Hadoop和关系数据库服务器之间传输数据的工具。
答案: 【】
4、多选题:
下列关于Kafka描述正确的有( )。
选项:
A:Kafka是一个分布式、分区的、多副本的、多订阅者日志系统。
B:Kafka可以用于web/nginx日志、访问日志采集,也可用于消息服务等等。
C:Kafka是一基于zookeeper协调的分布式日志系统。
D:Kafka可以用于迁移数据。
答案: 【】
5、判断题:
各行业海量的数据中,大约20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。( )
选项:
A:对
B:错
答案: 【】
6、判断题:
大数据的处理流程的第一步就是大数据的采集与预处理。( )
选项:
A:对
B:错
答案: 【】
7、判断题:
发布-订阅消息传递模式是将消息持久化到一个topic中。消费者可以订阅一个或多个topic,消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费。( )
选项:
A:错
B:对
答案: 【】
第十一章 单元测试
1、多选题:
下列关于MapReduce2.0架构描述正确的有( )。
选项:
A:MapReduce2.0架构中的NodeManager是执行应用程序的容器,监控应用程序的资源使用情况并且向调度器汇报。
B:MapReduce2.0架构包括ResourceManager、NodeManager、ApplicationMaster、Container组件。
C:MapReduce2.0架构中的ResourceManager是基于应用程序对资源的需求进行调度的资源调度器。
D:MapReduce 2.0将 JobTracker 两个主要的功能资源管理和任务调度/监控分离成单独的组件。
答案: 【】
2、判断题:
MapReduce计算框架具有数据本地性特性,本地性可避免跨节点或机架数据传输,提高运行效率。( )
选项:
A:错
B:对
答案: 【】
3、单选题:
下列适合MapReduce应用场景的是( )。
选项:
A:实时计算。
B:DAG计算。
C:流式计算。
D:离线批处理。
答案: 【】
4、判断题:
MapReduce 2.0将 JobTracker 两个主要的功能资源管理和任务调度/监控分离成单独的组件。( )
选项:
A:错
B:对
答案: 【】
5、判断题:
如果任务运行在它将处理的数据所在的节点, 则称该任务具有“数据本地性”。( )
选项:
A:错
B:对
答案: 【】
第十二章 单元测试
1、多选题:
下列关于Spark使用场景描述正确的有( )。
选项:
A:基于历史数据的交互式查询,时间在数十秒到数十分钟之间。
B:将数据缓存在内存中,中间的计算结果写入到磁盘的离线数据计算框架。
C:复杂的海量数据批量处理,时间在数十分钟到数小时之间。
D:基于实时数据流的数据处理,时间在数百毫秒到数秒之间。
答案: 【】
2、多选题:
下列关于Spark GraphX图计算描述正确的有( )。
选项:
A:将Spark SQL转换成RDD,然后提交到集群执行。
B:数据并行计算任务是指图上代数运算,如构建一个图、合并两个图、跨越多个图等。
C:图并行计算任务是指那些迭代计算任务,如PageRank。
D:图上的计算任务分成图并行计算和数据并行计算两种。
答案: 】
3、多选题:
Spark运行架构包括( )。
选项:
A:每个应用的任务控制节点(Driver)。
B:运行作业任务的工作节点(Worker Node)。
C:每个工作节点上负责具体任务的执行进程(Executor)。
D:集群资源管理器(Cluster Manager)。
答案: 【】
4、判断题:
Spark可运行于独立的集群模式中,或者运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源。( )
选项:
A:对
B:错
答案: 【】
5、判断题:
Spark支持使用Scala、Java、Python和R语言进行编程。( )
选项:
A:对
B:错
答案: 【】
6、判断题:
Spark运行在YARN上要比运行在Mesos上更加灵活和自然,Spark官方推荐采用这种模式。( )
选项:
A:对
B:错
答案: 【】
7、判断题:
在 RDD 的计算过程中,不需立刻去存储计算出的数据本身, 只要记录每个 RDD 是经过哪些转化操作得来的。( )
选项:
A:对
B:错
答案: 【】
第十三章 单元测试
1、多选题:
下列对Storm集群结构描述正确的是( )。
选项:
A:Supervisor负责接受Nimbus分配的任务,管理属于自己的Worker进程。
B:Zookeeper负责Nimbus和多个Supervisor之间的所有协调工作。
C:Nimbus负责在集群范围内分发代码、为Worker分配任务和监测故障。
D:Worker节点运行名为“Supervisor”的后台程序负责监听分配给它所在机器的工作。
答案: 【】
2、多选题:
下列Storm工作流程描述正确的是( )。
选项:
A:Nimbus节点将Task和Supervisor相关的信息提交到Zookeeper集群上。
B:Nimbus节点将提交的Topology进行分片,分成一个个Task,分配给相应的Supervisor。
C:Supervisor去Zookeeper集群上认领自己的Task,通知自己的Worker进程进行Task的处理。
D:Client节点提交Topology任务。
答案: 【】
3、判断题:
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。( )
选项:
A:错
B:对
答案: 【】
4、判断题:
Storm使用ZooKeeper来协调集群内的各种配置使得Storm的集群可以很容易的扩展。( )
选项:
A:对
B:错
答案: 【】
5、判断题:
Storm将Spouts和Bolts组成的网络抽象成topology(类似 Job),它可以被提交到Storm集群执行。( )
选项:
A:错
B:对
答案: 【】
第十四章 单元测试
1、多选题:
下列关于Hbase描述正确的是( )。
选项:
A:主要用来存储非结构化和半结构化的松散数据。
B:HBase是一个开源的非关系型分布式数据库。
C:运行于HDFS文件系统之上。
D:是Google的BigTable的开源实现。
答案: 【
2、多选题:
下列哪些数据库产品是NoSQL数据库( )。
选项:
A:MongoDB。
B:Redis。
C:Cassandra。
D:MySQL。
答案: 【】
3、判断题:
若要在 HBase 上使用 SQL,则需要联合使用 Apache Phonenix,或者联合使用 Hive 和 HBase。( )
选项:
A:错
B:对
答案: 【】
4、判断题:
HBase存储模式是基于列存储的,每个column family存储在HDFS上的一个单独文件中。( )
选项:
A:错
B:对
答案: 【】
5、判断题:
在当今云计算、大数据盛行的时代,关系型数据库性能遇到瓶颈,瓶颈的源头一般是在磁盘的I/O上。( )
选项:
A:对
B:错
答案: 【】
6、判断题:
NoSQL数据库同时具备了高性能、可扩展性强、高可用等优点。( )
选项:
A:对
B:错
答案: 【】
第十五章 单元测试
1、多选题:
下列关于数据仓库工具Hive架构描述正确的是( )。
选项:
A:Driver组件主要完成HQL查询语句的词法分析、语法分析、编译、优化以及查询计划的生成。
B:Hive的数据存储在HDFS中,大部分的HQL查询请求、Hive内部自动转换为MapReduce任务执行。
C:Hive将元数据存储在关系型数据库中,有三种模式可连接到数据库。
D:Hive用户接口主要有三个:CLI,JDBC/ODBC 和 Web UI,最常用的是CLI。
答案: 【】
2、判断题:
Hive的本质是将SQL语句转换为MapReduce任务运行,使不熟悉MapReduce的用户很方便地利用HQL处理和计算 HDFS 上的结构化的数据。( )
选项:
A:对
B:错
答案: 【】
3、判断题:
Hive 的存储结构包括数据库、表、视图、分区和表数据等。( )
选项:
A:对
B:错
答案: 【】
4、判断题:
Hive内部表(table)删除后,HDFS上的文件没有删除, 只是把文件删除,删除元数据,不删除数据。( )
选项:
A:对
B:错
答案: 【】
5、多选题:
下列关于数据仓库工具Hive描述正确的是( )。
选项:
A:Hive的本质是将SQL语句转换为MapReduce任务运行。
B:是Google的BigTable的开源实现,所有的数据都存储在HDFS中。
C:Hive是一个构建在Hadoop上的数据仓库框架。
D:Hive可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
答案: 【Hive的本质是将SQL语句转换为MapReduce任务运行。;
Hive是一个构建在Hadoop上的数据仓库框架。;
Hive可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。】
第十六章 单元测试
1、多选题:
数据可视化常用方式包括( )。
选项:
A:颜色、图形可视化。
B:地域空间可视化。
C:面积&尺寸可视化。
D:概念可视化。
答案: 【】
2、判断题:
市场上有许多专业的可视化工具,包括零编程拖拽类、专业图表类、软件开发工具类等。( )
选项:
A:错
B:对
答案: 【】
3、判断题:
借助于图形化的手段,可以清晰、快捷有效的传达与沟通信息。( )
选项:
A:对
B:错
答案: 【】
4、判断题:
从用户的角度,数据可视化可以让用户快速抓住要点信息,让关键的数据点从人类的眼睛快速通往心灵深处。( )
选项:
A:错
B:对
答案: 【】
5、多选题:
数据可视化工具分为( )。
选项:
A:零编程类。
B:画图工具。
C:开发工具类。
D:专业图表类。
答案: 【】
评论0