智慧树知到答案大数据分析与应用最新答案

资源下载
下载价格15

第一章 单元测试

1、单选题:
大数据泛指巨量的( )。
选项:
A:数组集
B:数字集
C:数据集
D:字符集
答案: 【数据集】

2、单选题:
数据分析指的是用适当的( )对收集来的大量数据进行分析,提取有用信息并形成结论。
选项:
A:统计分析方法
B:定性与定量方法
C:概率分析方法
D:系统分析方法
答案: 【统计分析方法】

3、单选题:
浏览数据这一步骤可以通过对大数据进行( )来实现。
选项:
A:流程化
B:分析化
C:简易化
D:可视化
答案: 【可视化】

4、多选题:
Gartner将大数据定义为是需要新处理模式才能具有更强的( )以及高增长率和多样化的信息资产。
选项:
A:流程优化能力
B:数据处理能力
C:决策力
D:洞察发现力
答案: 【流程优化能力;
决策力;
洞察发现力】

5、多选题:
我们通常用“4V”来反映大数据的特点,4V是指( )。
选项:
A:Velocity
B:Variety
C:Various
D:Valid
答案: 【Velocity;
Variety】

6、多选题:
大数据分析可以应用在那些领域( )。
选项:
A:商业领域
B:医疗卫生领域
C:交通运输领域
D:农业领域
答案: 【商业领域;
医疗卫生领域;
交通运输领域;
农业领域】

7、多选题:
大数据分析的过程包括( )。
选项:
A:数据理解
B:数据处理
C:数据优化
D:数据准备
答案: 【数据理解;
数据准备】

8、判断题:
数据只要有足够的规模就可以称为大数据。( )
选项:
A:对
B:错
答案: 【对】

9、判断题:
大数据分析是大数据到知识,再到信息的关键步骤。( )
选项:
A:错
B:对
答案: 【错】

10、判断题:
大数据分析模型用于描述数据之间的关系。如确定自变量、因变量,进而通过聚类、回归等方法确定其关系。( )
选项:
A:对
B:错
答案: 【对】

第二章 单元测试

1、单选题:
数据仓库的定义于哪一年提出( )。
选项:
A:1991
B:2015
C:1902
D:2002
答案: 【1991】

2、单选题:
符合选择建立数据仓库平台的公认标准的是( )。
选项:
A:是否提供支持少量数据的数据加载
B:是否支持对数据库的管理
C:是否支持串联操作
D:数据库对大数据量的支持能力
答案: 【数据库对大数据量的支持能力】

3、单选题:
建立数据仓库的首要步骤是( )。
选项:
A:确认主题
B:数据预处理
C:构建模型
D:数据仓库管理
答案: 【确认主题】

4、单选题:
数据仓库的数据模型进行逻辑建模的分析角度是( )。
选项:
A:经济分析
B:政治分析
C:逻辑分析
D:业务分析
答案: 【业务分析】

5、多选题:
建立数据仓库的选择平台是( )。
选项:
A:维度表
B:建模工具
C:分析工具
D:数据库
答案: 【建模工具;
分析工具;
数据库】

6、多选题:
建立数据仓库的步骤是( )。
选项:
A:选择平台
B:数据清洗
C:确认主题
D:数据传输
答案: 【选择平台;
数据清洗;
确认主题;
数据传输】

7、多选题:
符合多维度数据模型构成的是( )。
选项:
A:维度表
B:测量表
C:事实表
D:电子表
答案: 【维度表;
事实表】

8、多选题:
属于衡量业务性能指标的是( )。
选项:
A:时间
B:销售量
C:销售额
D:地点编号
答案: 【销售量;
销售额】

9、判断题:
数据仓库的逻辑数据模型是一维结构的数据视图。( )
选项:
A:错
B:对
答案: 【错】

10、判断题:
元数据是对数据仓库中数据的描述信息。( )
选项:
A:错
B:对
答案: 【对】

第三章 单元测试

1、单选题:
下列哪项属于随机抽样的缺点?( )
选项:
A:抽样方法不具有科学性
B:样本中个体数量过多,效率低下
C:样本不具有代表性
D:需要将样本分为不同类别

2、单选题:
整群抽样中将总体各单位归并成若干个( )的集合,成为群,然后以群为单位抽取样本。
选项:
A:可以交叉,可以重复
B:互不交叉,可以重复
C:可以交叉,互不重复
D:互不交叉,互不重复

3、判断题:
数据抽样和过滤的相似之处是它们的目的都是为了减少要处理的数据量。( )
选项:
A:对
B:错

4、单选题:
以下哪种方法适用于原始数据的取值范围已经确定的情况?( )
选项:
A:log函数转换
B:Z-score标准化
C:0-1标准化
D:反正切函数

5、多选题:
数据有那些性质?( )
选项:
A:完整性
B:精确性
C:一致性
D:时效性

6、多选题:
数据缺陷有哪些类型?( )
选项:
A:错误数据
B:噪声数据
C:缺失数据
D:非规范化数据

7、单选题:
先将总体的观察按某一顺序号分为n个部分,再从每一部分各抽取一定数量的观察组成样本,属于哪种抽样方式?( )
选项:
A:整群抽样
B:随机抽样
C:系统抽样
D:按比例抽样

8、判断题:
数据清洗浪费时间,是没有意义的。( )
选项:
A:对
B:错

9、判断题:
数据标准化就是为了方便数据的下一步处理,而对数据进行的等比例缩放。( )
选项:
A:对
B:错

10、多选题:
下列属于逻辑错误清洗的是( )
选项:
A:修正矛盾内容
B:改正格式错误
C:去除不合理值
D:去重

第四章 单元测试

1、单选题:
关于经济计量模型进行预测出现误差的原因,正确的说法是( )。
选项:
A:只有系统因素
B:其他三个选项都不正确
C:既有随机因素,又有系统因素
D:只有随机因素

2、单选题:
在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( )。
选项:
A:异方差性
B:序列相关
C:多重共线性
D:高拟合优度

3、单选题:
Logistic回归系数与优势比OR的关系为( )。
选项:
A:其他三个选项均正确
B:β=0等价于OR=1,β>0等价于OR>1
C:β>0等价于OR>1
D:β<0等价于OR<1

4、单选题:
Logistic回归可用于( )。
选项:
A:其他三个选项均正确
B:预测
C:影响因素分析
D:校正混杂因素

5、单选题:
Logistic 回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( )。
选项:
A:软件自动筛选的逐步法
B:应将几个哑变量作为一个因素,整体进出回归方程
C:软件自动筛选的前进法
D:软件自动筛选的后退法

6、单选题:
在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定系数为0.8500,则调整后的多重决定系数为( )。
选项:
A:0.8389
B:0.8603
C:0.8327
D:0.8655

7、单选题:
半对数模型中,参数1的含义是( )。
选项:
A:X的绝对量变化,引起Y的绝对量变化
B:Y关于X的边际变化
C:Y关于X的弹性
D:X的相对变化,引起Y的期望值绝对量变化

8、多选题:
回归变差,或回归平方和是指( )。
选项:
A:被解释变量的实际值与平均值的离差平方和
B:解释变量变动所引起的被解释变量的变差
C:被解释变量的总变差与剩余变差之差
D:被解释变量的回归值与平均值的离差平方和

9、多选题:
剩余变差是指( )。
选项:
A:随机因素影响所引起的被解释变量的变差解释变量的实际值与平均值的离差平方和
B:被解释变量的实际值与回归值的离差平方和
C:被解释变量的总变差与回归平方和之差
D:被解释变量的变差中,回归方程不能做出解释的部分

10、单选题:
参数的估计量具备有效性是指( )。
选项:
A:为最小

B:

C:Var()=0

D:Var()为最小

 

第五章 单元测试

1、单选题:
以下不属于数据挖掘软件的是( )
选项:
A:Apache Spark;
B:SPSS Modeler;
C:Weka;
D:Knime;

2、单选题:
购物篮分析中,数据是以( )的形式呈现
选项:
A:不对称二元变量;
B:自变量;
C:布尔变量;
D:对称二元变量;

3、单选题:
一个关联规则同时满足最小支持度和最小置信度,我们称之为( )
选项:
A:强规则;
B:弱规则;
C:简洁规则;
D:关联规则;

4、单选题:
在回归与相关分析中,因变量值随自变量值的增大(减小)而减小(增大)的现象叫做( )
选项:
A:间接相关;
B:负相关;
C:直接相关;
D:正相关;

5、判断题:
给定关联规则A-B,意味着:若A发生,B也会发生。( )
选项:
A:对
B:错

6、判断题:
不满足给定评价度量的关联规则是无趣的( )
选项:
A:对
B:错

7、判断题:
频繁闭项集可用来无损压缩频繁项集。( )
选项:
A:错
B:对

8、多选题:
下面购物篮能够提取的最大项集和最小项集的数量是多少( )。ID 购买项:1 .牛奶,啤酒、2 .面包,黄油,牛奶、3 .牛奶,尿布,饼干、4 .面包,黄油,饼干、5 .啤酒,饼干,尿布、6 .牛奶,尿布,面包,黄油、7. 面包,黄油,尿布、8 .啤酒,尿布、9. 牛奶,尿布,面包,黄油、10. 啤酒,饼干
选项:
A:4;
B:2;
C:3;
D:1;

9、多选题:
关联规则的评价度量主要有( )
选项:
A:支持度;
B:饱和度;
C:频繁度;
D:置信度;

10、多选题:
关联分析中表示关联关系的方法主要有( )
选项:
A:强关联规则;
B:项集;
C:关联规则;
D:单项集;

第六章 单元测试

1、单选题:
朴素贝叶斯算法是贝叶斯算法中最简单的一个算法,假设它里边的各个类条件是( )。
选项:
A:交叉的
B:独立的
C:相似的
D:相同的

2、单选题:
关于朴素贝叶斯算法,下列说法正确的是( )。
选项:
A:通过先验概率的结果,对后验概率不断地调整
B:对数据的缺失值不敏感,所需估计的参数也比较少
C:假设样本各属性之间是相互独立的
D:有着坚实的数学理论基础,分类效果比其他分类器好

3、多选题:
随机森林的训练过程分为?( )。
选项:
A:生长过程
B:决策过程
C:生成过程
D:投票过程

4、多选题:
影响随机森林分类性能的主要因素( )。
选项:
A:单颗决策树的分类强度
B:森林中决策树的相关度
C:决策树的数量
D:决策树的分类算法

5、多选题:
随机森林结合策略有哪些?( )。
选项:
A:迭代法
B:投票法
C:加权平均法
D:简单平均法

6、多选题:
人工神经网络的结构包括?( )。
选项:
A:输出层
B:隐藏层
C:隐含层
D:输入层

7、单选题:
单层神经网络有几层?( )。
选项:
A:2
B:3
C:1
D:4

8、单选题:
神经网络的各层之间的初始参数是如何设定的?( )。
选项:
A:算法设定
B:随机产生
C:模型规定
D:人为设定

9、多选题:
深度学习模型有哪些?( )。
选项:
A:卷积神经网络
B:深度神经网络
C:循环神经网络
D:生成-对抗神经网络

10、判断题:
神经网络模型构思来源于对人脑的模拟。( )
选项:
A:错
B:对

第七章 单元测试

1、单选题:
聚类分析是将样品或变量按照它们在性质上的什么进行分类的( )。
选项:
A:簇
B:距离
C:密度
D:亲疏程度

2、单选题:
哪个方法不是类间距离的度量方法( )。
选项:
A:重心距离
B:最近距离法
C:欧式距离
D:最远距离法

3、单选题:
闵可夫斯基距离λ可以取哪些值( )。
选项:
A:无穷大
B:负数
C:正数
D:其他三个选项均正确

4、多选题:
关于聚类分析下列说法正确的是( )。
选项:
A:通过K-means聚类和系统聚类,可以直接输出分为n类和数值n
B:系统聚类属于有监督分类
C:K-means属于无监督分类
D:系统几类并不适合数据量很大的情形

5、多选题:
根据簇之间的关系,聚类分析可以分为( )。
选项:
A:层次型聚类
B:重叠聚类
C:指数聚类
D:划分型聚类

6、多选题:
哪些属性可以通过取值的差来衡量相异度( )。
选项:
A:区间属性
B:非对称属性
C:比率属性
D:对称属性

7、判断题:
聚类与分类一样,具有预测功能。( )
选项:
A:对
B:错

8、判断题:
K-Means算法需要用初始随机种子点来做,不同起点结果不同,可能导致算法陷入局部最优。( )
选项:
A:错
B:对

9、判断题:
DBSCAN是基于密度的噪声应用空间聚类。( )
选项:
A:错
B:对

10、判断题:
紧密度和分离度是聚类分析评价的两个原则。( )
选项:
A:错
B:对

第八章 单元测试

1、判断题:
待定系数a称为灰色作用量( )。
选项:
A:错
B:对

2、判断题:
马尔科夫过程是具有马尔科夫性质的离散随机过程。( )。
选项:
A:错
B:对

3、判断题:
在马尔科夫过程中,在给定当前信息或知识时,过去对于预测未来是有关的。( )。
选项:
A:对
B:错

4、判断题:
马尔科夫分析法是研究随机事件变化趋势的一种方法。( )。
选项:
A:错
B:对

5、判断题:
预测分析的基本思路为:列出并分析现有数据-寻找计算手段-得出结论。( )。
选项:
A:错
B:对

6、判断题:
预测的方法可以分为定性预测方法和定量预测方法。( )。
选项:
A:对
B:错

7、单选题:
在诸多的灰色模型中,哪种模型最常用?( )。
选项:
A:GM(2,1)
B:GM(1,2)
C:GM(1,1)
D:GM(2,2)”

8、单选题:
马尔科夫性中,n+1时刻的状态的条件概率只依存哪种时刻的状态( )。
选项:
A:n-1
B:n+1
C:n
D:n+2

9、多选题:
以下哪几点是预测分析的关键点( )。
选项:
A:数据在时间上的持续性
B:数据的全面性
C:数据的相关性
D:数据的数量

10、多选题:
预测分析主要对以下哪些方面的作用( )。
选项:
A:决策管理
B:成本控制
C:绩效管理
D:自适应管理

第九章 单元测试

1、单选题:
基于聚类的离群点检测可以分为几类?( )。
选项:
A:两类;
B:四类;
C:三类;
D:五类

2、单选题:
基于聚类的离群点检测有什么缺点?( )。
选项:
A:产生的离群点集非常依赖所用的簇的个数;
B:空间复杂度是线性或接近线性的;
C:可能同时发现簇和离群点;
D:时间复杂度是线性或接近线性的;

3、单选题:
基于密度的离群点检测优点是?( )。
选项:
A:参数选择容易;
B:不会忽视基于簇的离群点的存在
C:可以处理拥有不同密度区域的数据集;
D:计算的时间复杂度一直很低;

4、判断题:
在基于聚类的离群点检测中,对象是否被认为是离群点可能高度依赖于簇的个数。( )
选项:
A:错
B:对

5、判断题:
基于聚类的离群点分析方法,在已有聚类结果的基础上,计算量小,效率高,但是它的有效性也非常依赖聚类的结果。( )
选项:
A:对
B:错

6、判断题:
对于基于原型的聚类,评估对象属于簇的程度主要有两种方法:一是度量对象到簇原型的距离,二是考虑到簇具有不同的密度,可以度量簇到原型的相对距离。( )
选项:
A:错
B:对

7、判断题:
对于基于距离的离群点分析方法,其基本思想是一个对象如果远离大部分其它对象,那么它是离群的。( )
选项:
A:错
B:对

8、判断题:
基于距离的离群点分析可以处理多维数据。( )
选项:
A:对
B:错

9、判断题:
当数据集包含不同密度的区域时,基于距离的离群点检测方法不能很好地识别离群点。( )
选项:
A:错
B:对

10、判断题:
基于距离的离群点检测方案简单,不必知道数据的分布,计算量大。( )
选项:
A:对
B:错

第十章 单元测试

1、多选题:
用于提取主题的文本分析方法包括( )。
选项:
A:PLDA
B:PLSA
C:LDA
D:LSA

2、判断题:
可以通过词汇来判断文档之间的相似度。( )
选项:
A:错
B:对

3、多选题:
以下哪些属于文本分析模型?( )
选项:
A:主题模型
B:统计语言模型
C:TF-IDF
D:TextRank

4、多选题:
中文分词的难点是什么?( )
选项:
A:规范问题
B:计算问题
C:未登录词问题
D:歧义问题

5、判断题:
词的同义和多义现象是文本分析中存在的问题。( )
选项:
A:错
B:对

6、判断题:
词嵌入方法将词表示为数值向量。( )
选项:
A:错
B:对

7、判断题:
主题抽取使得文本的处理大大简化。( )
选项:
A:错
B:对

8、判断题:
某词的IDF值越高,说明该词越不常见。( )
选项:
A:错
B:对

9、判断题:
网络上的信息错综复杂,没有办法对文本进行分析。( )
选项:
A:对
B:错

10、判断题:
基于统计的方法使用句子出现的概率对句子的合理性进行评估。( )
选项:
A:错
B:对

第十一章 单元测试

1、判断题:
基于物品的方法适用于用户数量大大超过物品数量,且物品数量相对稳定,不必频繁更新的场景。( )。
选项:
A:对
B:错

2、判断题:
基于用户的方法适用于物品数量巨大且频繁更新的场景。( )。
选项:
A:对
B:错

3、判断题:
基于产品的协同过滤算法的主要优点是计算量小,可以离线计算( )。
选项:
A:对
B:错

4、判断题:
收集用户信息的行为记录模块负责记录用户的喜好行为。( )。
选项:
A:对
B:错

5、判断题:
多样性描述推荐系统对物品长尾的发掘能力。( )。
选项:
A:错
B:对

6、判断题:
覆盖率描述推荐系统中推荐结果能否覆盖用户不同的兴趣领域。( )。
选项:
A:对
B:错

7、单选题:
基于内容的推荐主要思想是什么( )。
选项:
A:一个用户可能会喜欢其身边用户喜欢的东西
B:一个用户可能会喜欢与其相似的用户所喜欢的东西;
C:一个用户可能会喜欢和他曾经喜欢过的物品相似的物品;
D:鉴于不同方法各有优缺点,经常将不同方法组合使用

8、单选题:
基于人口统计学的推荐主要思想是什么( )。
选项:
A:一个用户可能会喜欢与其相似的用户所喜欢的东西;
B:一个用户可能会喜欢其身边用户喜欢的东西
C:鉴于不同方法各有优缺点,经常将不同方法组合使用
D:一个用户可能会喜欢和他曾经喜欢过的物品相似的物品;

9、多选题:
计算用户相似度常用的方法( )。
选项:
A:曼哈顿距离
B:欧几里德距离
C:accard系数
D:皮尔逊相关度

10、多选题:
推荐系统可以用于哪些应用( )。
选项:
A:腾讯
B:淘宝
C:爱奇艺
D:豆瓣

0
觉得这篇文章对你有用的话,就打赏一下支持文章作者

评论0

站点公告

开放大学课程作业代写,有需要扫码加微信

显示验证码

社交账号快速登录