江苏开放大学机器学习060729形成性考核作业（二）最新答案

试题列表
单选题
题型：单选题客观题分值2分难度：简单得分：2
1
下列有关DBSCAN聚类算法的理解有误的⼀项是（）
A
调参相对于传统的K-Means 之类的聚类算法稍复杂，需要对距离阈值ϵ ，邻域样本数阈
值MinPts 联合调参，不同的参数组合对最后的聚类效果有较⼤影响
B
不需要预先设置聚类数量k
C
对数据集中的异常点敏感
D
可以对任意形状的⾼密度数据集进⾏聚类，相对的， K-Means 之类的聚类算法⼀般只适⽤于凸数据
集
正确答案：C
题型：单选题客观题分值3分难度：一般得分：3
2
兰德系数和轮廓系数都是常⽤的聚类分析指标，以下对兰德系数和轮廓系数说法错误的是
A
轮廓系数适⽤于实际类别信息未知的情况
B
调整兰德系数取值范围为[-1,1]，负数代表结果不好，越接近于0越好
C
兰德系数取值为[0,1]，越⼤聚类结果与真实情况越接近
D
在聚类结果随机产⽣的情况下，兰德系数不能保证系数接近于0
正确答案：B
题型：单选题客观题分值2分难度：一般得分：2
3
下列有关轮廓系数的说法错误的是（）
A
某个样本的轮廓系数近似为0，说明该样本在两个簇的边界上
B
某个样本的轮廓系数接近1，说明该样本聚类结果合理
C
所有样本的轮廓系数均值为聚类结果的轮廓系数，是该聚类是否合理、有效的度量
D
某个样本的轮廓系数的绝对值接近1，说明该样本聚类结果合理
正确答案：D
题型：单选题客观题分值3分难度：一般得分：3
4
若集成模型中，预测值表示为，真实值为，则Adaboost的损失函数(Loss Function)
表示为（）
A

B

C

D

正确答案：C
题型：单选题客观题分值3分难度：简单得分：3
5
关于线性回归模型的正则化，下列选项叙述不正确的是：
A
在求解LASSO时，常⽤的求解算法包括坐标下降法、LARS算法和ISTA算法等
B
正则化可以减⼩线性回归的过度拟合和多重共线性等问题
C
正则化的常⽤⽅法为岭回归和LASSO，主要区别在于岭回归的⽬标函数中添加了L2惩罚函数，⽽
LASSO的⽬标函数中添加的是L1惩罚函数
D
对⽐岭回归和LASSO，岭回归更容易得到稀疏解
正确答案：D
题型：单选题客观题分值3分难度：一般得分：3
6
关于三种常⻅的稳健性回归⽅法–Huber回归、RANSAC回归和泰尔森回归，下列选项说法
正确的是：
A
⼀般情况下，泰尔森回归可以更好地处理y⽅向的⼤值异常点
B
Huber回归可以更好地应对X⽅向的中等⼤⼩的异常值，但是这个属性将在⾼维情况下消失
C
从回归的速度上看，⼀般来说，Huber回归最快，其次是RANSAC回归，最慢的是泰尔森回归
D
泰尔森回归⽐RANSAC回归在样本数量上的伸缩性（适应性）好
题型：单选题客观题分值3分难度：一般得分：3
7
下列有关过滤式特征选择的说法错误的是（）
A
过滤式特征选择的评价指标主要有Pearson 相关系数，互信息，距离相关度等；其中卡⽅检
验(chi2) ，F检验回归(f_regression) , 互信息回归(mutual_info_regression) ⽤于回归问
题，F检验分类(f_classif) , 互信息分类(mutual_info_classif) ⽤于分类问题
B
过滤式特征选择的缺点是只评估了单个特征对结果的影响，没有考虑到特征之间的相关作⽤，可能
剔除有⽤的相关特征
C
过滤式特征选择的⽅法是评估单个特征和结果值之间的相关程度，留下相关程度靠前的特征
D
Scikit-learn中实现过滤式特征选择的SelectKBest 类可以指定过滤个数， SelectPercentile 类
可以指定过滤百分⽐
题型：单选题客观题分值3分难度：一般得分：3
8
下列关于特征选择⽬的和原则的说法错误的是（）
A
特征选择能有效降低特征维度，简化模型
B
⽅差较⾼的特征应该被剔除
C
特征选择可以有效提升模型性能
D
与⽬标特征相关性⾼的特征应该优先被选择
题型：单选题客观题分值3分难度：简单得分：3
9
以下四个算法中，哪个不属于Scikit-learn聚类的主要算法（）
A
cluster.SpectralClustering
B
cluster.KMeans
C
neighbors.KNeighborsRegressor
D
cluster.AgglomerativeClustering
题型：单选题客观题分值3分难度：简单得分：3
10
下列有关特征抽取和特征选择的说法有误的⼀项是（）
A
特征选择的⽬标是从原始的d个特征中选择k个特征
B
特征抽取和特征选择是达到降维⽬的的两种途径
C
PCA和LDA是特征选择的两种主要⽅法
D
特征抽取的⽬标是根据原始的d个特征的组合形成k个新的特征，即将数据从d维空间映射到k维空间
题型：单选题客观题分值3分难度：中等得分：3
11
下图给出了三个节点的相关信息，请给出特征A1、A2及A3的特征重要性递减排序（）

A
所给信息不⾜。
B
A1>A2>A3
C
A2>A3>A1
D
A3>A1>A2
题型：单选题客观题分值4分难度：一般得分：4
12
以下程序语句有误的是（）
A
clf=LogisticRegression(penalty=’l1′,random_state=10,solver=’lbfgs’)
B
clf=LogisticRegression(penalty=’l2′,solver=’newton-cg’)
C
clf=LogisticRegression(penalty=’l1′,random_state=10,solver=’liblinear’)
D
clf=LogisticRegression(penalty=’l2′,random_state=10,solver=’liblinear’)
题型：单选题客观题分值3分难度：中等得分：3
13下列关于软投票说法错误的是？
A使用概率平均的⽅式来预测样本类别
B投票表决器可以组合不同的基分类器
C可以对每个基分类器设置权重，⽤于对预测概率求进⾏加权平均
D软投票过程中每个基分类器都预测⼀个类别
题型：单选题客观题分值3分难度：简单得分：3
14
箱线图是检测离群值的⽅法，下⾯关于箱线图的说法不正确的是？
A
箱线图中框的上边线表示上四分位数，框的下边线表示下四分位数
B
箱外的两条线（胡须）分别延伸到最⼩和最⼤⾮异常点
C
箱中⾼于上边缘和低于下边缘的值为离群点
D
四分位距IQR = 1.5 ( Q3-Q1 )，其中Q3为上四分位数， Q1为下四分位数
正确答案：D
题型：单选题客观题分值3分难度：简单得分：3
15
下列模型中属于回归模型的是？
A
逻辑回归
B
线性回归
C
ID3
D
DBSCAN
题型：单选题客观题分值3分难度：一般得分：3
16
下列有关词袋表示法的理解有误的是（）
A
不考虑词语出现的顺序，每个出现过的词汇单独作为⼀列特征
B
将每个⽂本对应词表转化为特征向量
C
仅出现在少数本⽂的词汇，⼀般被标记为停⽤词不计⼊特征向量
D
不重复的特征词汇集合为词表
题型：单选题客观题分值3分难度：一般得分：3
17
下列有关ROC曲线与AUC的描述错误的是
A
ROC曲线可以⽤来考察模型的预测能⼒
B
AUC的⼏何意义为ROC曲线与横轴FPR之间的⾯积
C
ROC曲线越靠近(0, 1)证明模型整体预测能⼒越差
D
AUC的取值为[0.5, 1]
题型：单选题客观题分值3分难度：一般得分：3
18
下列有关包裹式和嵌⼊式特征选择的说法错误的是（）
A
包裹式特征选择的思想是把特征选择看做⼀个特征⼦集搜索问题，筛选各个特征⼦集，⽤模型评
估各个⼦集的效果
B
Scikit-learn中实现嵌⼊式特征选择的类SelectFromModel 必须与有feature_importances_ 或
者coef_ 属性的模型⼀起使⽤，如随机森林和逻辑回归
C
嵌⼊式特征选择的思想是根据模型分析特征的重要性，常⽤正则化⽅式来做特征选择
D
Scikit-learn中实现嵌⼊式特征选择的类有SelectFromModel 、RFE 和RFECV
多选题
题型：多选题客观题分值3分难度：中等得分：3
1下列关于软投票说法正确的是？（多选）
A可以对每个基分类器设置权重，⽤于对预测概率求进⾏加权平均
B使用概率平均的⽅式来预测样本类别
C软投票过程中每个基分类器都预测⼀个类别
D投票表决器可以组合不同的基分类器
题型：多选题客观题分值4分难度：一般得分：4
2
下列有关scikit-learn中TfidfVectorizer 类和CountVectorizer 类的说法错误的是（）
A
参数min_df ：设定阈值，忽略频率⾼于此阈值的词汇，默认为1
B
属性vocabulary_ ：返回词汇表（字典型）
C
属性stop_words ：返回停⽤词表
D
参数stop_words ：设置停⽤词，默认为None （没有），可设置为english 或list （⾃⾏给定）
题型：多选题客观题分值4分难度：一般得分：4
3
下列关于⽂本特征抽取中TF-IDF ⽅法理解正确的是（）
A
IDF 即逆⽂本频率：词频的权重调整系数
B
TF-IDF ⽅法有效过滤掉不常⻅的词语
C
TF-IDF = TF * IDF
D
TF 即词频：某词汇在该⽂本中出现的频率
题型：多选题客观题分值4分难度：一般得分：4
4
将连续型特征离散化后再建⽴逻辑回归模型，这样做对模型有什么影响（）
A
起到简化逻辑回归模型的作⽤
B
计算结果⽅便存储，容易扩展。
C
离散化后的特征对异常数据敏感
D
易于模型的快速迭代
题型：多选题客观题分值4分难度：简单得分：4
5
下列哪些⽅法可以解决数据集的线性不可分问题（）
A
软间隔SVM
B
⾼斯核SVM
C
硬间隔SVM
D
多项式核SVM
题型：多选题客观题分值4分难度：一般得分：4
6
分类正确率、混淆矩阵是评价分类模型效果的重要依据，下列编程语句有错误的是（） (其
中x , y 是训练集和训练集标签，分别为DataFrame对象和Series对象）

A
语句（4）
B
语句（3）
C
语句（1）
D
语句（2）
题型：多选题客观题分值4分难度：一般得分：4
7
以下关于集成模型中提升法（boosting）与装袋法（bagging）的⽐较，说法正确的是（）
A
Boosting的学习器可并⾏训练，⽆顺序；Bagging的学习器需要串⾏进⾏，有顺序。
B
Adaboost是⼀种Boosting⽅法；Random Forest是⼀种Bagging⽅法。
C
Boosting主要⽤于⽤于抑制过拟合；⽽Bagging主要⽤于优化弱分类器。
D
Boosting⼀般采⽤整个训练集训练学习器；Bagging则采⽤部分训练集，没⽤到的数据可⽤于测
试。
题型：多选题客观题分值4分难度：中等得分：4
8
关于sklearn中的KNeighborsClassifier 算法类，下列说法正确的是（）
A
参数’n_neighbors’ 的取值应该越⼤越好
B
当样本分布较乱，预测效果不好时，可将weights 设置为“distance”，将距离⽬标更近的近邻点赋
予更⾼的权重，来改善预测效果
C
K近邻算法通过对以样本a为圆⼼，半径为k的圆内的训练样本进⾏多数投票来确定样本a的类别。
D
距离度量附属参数p 可设置为p =2“euclidean”(欧式距离)、p =1为“manhattan”(曼哈顿距离)，默认为2
题型：多选题客观题分值4分难度：简单得分：4
9
下列关于缺失值处理的说法错误的是（）
A
连续型特征可以使⽤众数来插补缺失值
B
可以将缺失值作为预测⽬标建⽴模型进⾏预测，以此来插补缺失值
C
离散型特征可以使⽤平均值来插补缺失值
D
根据经验，可以⼿动对缺失值进⾏插补
题型：多选题客观题分值4分难度：简单得分：4
10
模型输⼊的特征通常需要是数值型的，所以需要将⾮数值型特征通过特征编码转换为数值特
征。下列选项对DataFrame对象df1 中的Make 字段进⾏特征编码，其中正确的是？

A
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df1[‘Make’]=le.fit_transform(df1[“Make”])
B
df1[‘Make’] = df1[‘Make’].str.replace({‘Toyota’:1, ‘Ford’:2, ‘Volvo’:3, ‘Audi’:4, ‘BMW
‘:5, ‘Nissan’:6})
C
df1[‘Make’] = df1[‘Make’].replace({‘Toyota’:1, ‘Ford’:2, ‘Volvo’:3, ‘Audi’:4, ‘BMW’:5,
‘Nissan’:6})
D
df1[‘Make’] = df1[‘Make’].map({‘Toyota’:1, ‘Ford’:2, ‘Volvo’:3, ‘Audi’:4, ‘BMW’:5, ‘Ni
ssan’:6})
题型：多选题客观题分值4分难度：一般得分：4
11
Scikit-learn中，对函数metrics.accuracy_score 使⽤⽅法描述正确的是
A
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred, normalize=False))
B
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred))
C
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred))
D
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_pred, normalize=False))
题型：多选题客观题分值4分难度：一般得分：4
12
现有⼀个垃圾邮件分类问题，⽤N个关键词汇X1,X2,…,XN作为特征，将所有的邮件分类为垃圾邮件C1与正常邮件C2。m1为出现了关键词汇X1的垃圾邮件数量，m为垃圾邮件总数，M 为所有邮件总数，则下列加⼊Laplace平滑（平滑系数为1）的概率公式表示正确的是（）
A

B

C

D