第一章 单元测试
1、单选题:
2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和( )能力的数据集。
选项:
A:分析
B:应用
C:计算
D:访问
答案: 【分析】
2、单选题:
用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和( )。
选项:
A:Vagary
B:Valley
C:Variety
D:Vainly
答案: 【Variety】
3、单选题:
大数据分析四个方面的工作主要是:数据分类、( )、关联规则挖掘和时间序列预测。
选项:
A:数据聚类
B:数据清洗
C:数据计算
D:数据统计
答案: 【数据聚类
】
4、判断题:
新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
选项:
A:错
B:对
答案: 【错】
5、判断题:
目前的大数据处理技术只能处理结构化数据。
选项:
A:错
B:对
答案: 【错】
第二章 单元测试
1、单选题:
我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是( )。
选项:
A:xls
B:mdb
C:dbf
D:mdf
答案: 【mdb
】
2、单选题:
大多数日志文件的后缀名是( )。
选项:
A:xml
B:csv
C:log
D:txt
答案: 【log
】
3、单选题:
本课程重点介绍的weka软件的专有文件格式是( )。
选项:
A:MongoDB
B:key map
C:value
D:ARFF
答案: 【ARFF】
4、单选题:
数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和( )。
选项:
A:排他性
B:专业性
C:共享性
D:一致性
答案: 【一致性
】
5、单选题:
八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个( )来作为采集的目标。
选项:
A:用户名
B:关键词
C:电话号码
D:网页地址
答案: 【网页地址
】
6、单选题:
八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是( )。
选项:
A:gif
B:jpg
C:otd
D:png
答案: 【otd
】
7、判断题:
Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
选项:
A:对
B:错
答案: 【对】
8、判断题:
Excel可以不能导入txt或csv格式的文件。
选项:
A:对
B:错
答案: 【错】
9、判断题:
八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
选项:
A:错
B:对
答案: 【错】
10、判断题:
八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
选项:
A:对
B:错
答案: 【对】
第三章 单元测试
1、单选题:
使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成( )个簇。
选项:
A: 2
B: 3
C: 4
D: 1
答案:
2、单选题:
使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,( )是错误的。
选项:
A: 模型的最大似然估计值是-7.18
B: 这组数据用算法迭代15次
C: 第四个簇的先验概率是0.14
D: 第四个簇的实例数为4
答案:
3、单选题:
使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,( )是错误。
选项:
A: 这组数据用算法迭代四次
B: 聚合为3个簇,分别有7,3,4个实例
C: 产生了三个中心点
D: 平方和误差为8.928
答案:
4、单选题:
使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知( )。
选项:
A: LinearRegression的相对误差比M5P的相对误差小
B: LinearRegression的平均绝对误差比M5P的平均绝对误差小
C: LinearRegression的标准误差比M5P的标准误差小
D: LinearRegression的平均方根误差比M5P的平均方根误差大
答案:
5、单选题:
删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有( )个。
选项:
A: 23
B: 165
C: 30
D: 21
答案:
6、单选题:
根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是( )。
选项:
A: 没有结果
B: 无法分类
C: No
D: Yes
答案:
7、单选题:
根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是( )。
选项:
A: Iris-virginica
B: Iris-versicolor
C: Iris-setosa
D: 无法分类
答案:
8、单选题:
关于Weka离散化说明正确的是( )。
选项:
A: 有监督离散化有两种等宽和等频方法
B: 离散化是将数值属性转换为字符串型属性
C: 离散化包括无监督离散化和有监督离散化
D: 等宽离散化是使实例分布均匀的
答案:
9、单选题:
以下( )不是Weka的数据类型。
选项:
A: decimal
B: string
C: numeric
D: nominal
答案:
10、单选题:
关于Weka的文件类型描述错误的是( )。
选项:
A: arff是ASCII文件,可以用Word等文本编辑器打开查看
B: Weka处理的数据集类似于关系数据库横行实例,竖行属性
C: Weka可以打开文件格式有.arff、.csv、.xlsx
D: @relation 定义数据集名称,@data之后呈现实例,每一行就是一个实例
答案:
11、单选题:
以下属于关联分析的是( )。
选项:
A: 股票趋势建模
B: CPU性能预测
C: 购物篮分析
D: 自动判断鸢尾花类别
答案:
12、单选题:
大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下( )算法直接挖掘。
选项:
A: C4.5
B: Bayes Network
C: Apriori
D: K-means
答案:
13、单选题:
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的( )问题。
选项:
A: 自然语言处理
B: 关联规则发现
C: 聚类
D: 分类
答案:
14、单选题:
在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一个评估值的对象是下面的( )。
选项:
A: 元分类器
B: 属性评估器
C: 规则挖掘
D: 搜索方法
答案:
15、单选题:
以下属于属性空间的搜索方法的是( )。
选项:
A: GainRatioAttributeEval
B: PrincipalComponents
C: SymmetricalUncertAttributeEval
D: BestFirst
答案:
16、单选题:
在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下( )按钮,所有更改才会生效。
选项:
A: Fast scrolling
B: Select Attribute
C: Update
D: SubSample
答案:
17、判断题:
给定关联规则AB,意味着:若A发生,B也会发生。
选项:
A:错
B:对
答案:
18、判断题:
支持度是衡量关联规则重要性的一个指标。
选项:
A:错
B:对
答案:
19、判断题:
Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
选项:
A:对
B:错
答案:
20、判断题:
利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。
选项:
A:对
B:错
答案:
第四章 单元测试
1、单选题:
贝叶斯网络中的节点代表( )。
选项:
A:随机函数
B:随机变量
C:变量
D:随机过程
答案:
2、单选题:
贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用( )的形式表示。
选项:
A:正态分布
B:条件概率密度函数
C: 均匀分布
D:条件概率表
答案:
3、单选题:
贝叶斯网络中节点之间的边代表( )。
选项:
A:随机结果
B:组合关系
C:随机关系
D:概率因果
答案:
4、单选题:
贝叶斯网络保存的文件格式是( )。
选项:
A:DOCX
B: TXT
C:XLS
D:XML BIF
答案:
5、单选题:
下面( )不是反向传播神经网络的结构。
选项:
A:输出层
B:计算层
C:输入层
D:隐含层
答案:
6、单选题:
神经网络中的节点代表( )。
选项:
A:激励函数
B:激励变量
C:随机变量
D:随机函数
答案:
7、单选题:
下列( )不是常见的激励函数。
选项:
A:正弦函数
B:线性函数
C:Sigmoid函数
D:阈值函数
答案:
8、单选题:
在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从( )菜单项进行调整。
选项:
A:Tools|SetData
B:View|Zoom In
C:Tools|Layout
D:View|Zoom Out
答案:
9、单选题:
WEKA中选择神经网络分类器操作时,应该选择( )。
选项:
A:functions条目下的SGD分类器
B:默认的分类器
C:rules条目下的PART
D:functions条目下的MultilayerPerceptron分类器
答案:
10、单选题:
下面关于Package Manager安装后的目录说明不正确的是( )。
选项:
A:doc子目录存放API文档
B:lib子目录存放包所需要的说明文件
C:src子目录存放源代码文件
D:sample-data子目录存放数据集文件
答案:
第五章 单元测试
1、单选题:
一般情况下在作图时先不添加( )区。
选项:
A:图例区
B:标题区
C:坐标轴
D:绘图区
答案:
2、单选题:
连续性单变量图不包括( )。
选项:
A:箱线图
B:P-P图
C:条形图
D:直方图
答案:
3、单选题:
两个定性变量可选择的作图不包括( )。
选项:
A:散点图
B:复式条形图
C:堆叠条形图
D:马赛克图
答案:
4、判断题:
堆叠条形图和马赛克图可以在图形属性中直接转换。
选项:
A:对
B:错
答案:
5、判断题:
定性变量作定量变量的相应图形也是有意义的。
选项:
A:错
B:对
答案:
6、判断题:
多维度数据图形一般还是以二维的形式展示,只通过形状、颜色等要素扩展维度信息。
选项:
A:错
B:对
答案:
7、判断题:
制作统计图有两个基本要求:一是正确,二是简洁。
选项:
A:错
B:对
答案:
评论0