试题列表
单选题
题型:单选题客观题分值2分难度:一般得分:2
1
下面哪个叙述是对的?
Dropout对一个神经元随机屏蔽输入权重
Dropconnect对一个神经元随机屏蔽输入和输出权重
A
都是对的
B
1是错的,2是对的
C
都是错的
D
1是对的,2是错的
学生答案:C
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
2
图片修复是需要人类专家来进行修复的,这对于修复受损照片和视频非常有帮助。下图是一个图像修复的例子。
现在人们在研究如何用深度学习来解决图片修复的问题。对于这个问题,哪种损失函数适用于计算像素区域的修复?
A
欧式距离损失函数(Euclidean loss)
B
两种方法皆可
C
负对数似然度损失函数(Negative-log Likelihood loss)
D
两种方法均不可
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
3
Dropout是一种在深度学习环境中应用的正规化手段。它是这样运作的:在一次循环中我们先随机选择神经层中的一些单元并将其临时隐藏,然后再进行该次循环中神经网络的训练和优化过程。在下一次循环中,我们又将隐藏另外一些神经元,如此直至训练结束。
根据以上描述,Dropout技术在下列哪种神经层中将无法发挥显著优势?
A
均不对
B
卷积层
C
RNN层
D
仿射层
学生答案:C
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
4
你有一个63x63x16的输入,有32个过滤器进行卷积,每个过滤器的大小为7×7,步幅为1,你想要使用“same”的卷积方式,请问padding的值是多少?
A
2
B
1
C
7
D
3
学生答案:D
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
5
Dropout率和正则化有什么关系?(提示:我们定义Dropout率为保留一个神经元为激活状态的概率)
A
Dropout率越高,正则化程度越高
B
Dropout率越高,正则化程度越低
学生答案:B
老师点评:
题型:单选题客观题分值2分难度:一般得分:2
6
深度学习中,不经常使用的初始化参数W(权重矩阵)的方法是哪种?
A
高斯分布初始化
B
MSRA初始化
C
Xavier初始化
D
常量初始化
题型:单选题客观题分值2分难度:一般得分:2
7
深度学习中的不同最优化方式,如SGD,ADAM下列说法中正确的是
A
同样的初始学习率情况下,ADAM比SGD容易过拟合
B
同样的初始学习率情况下,ADAM收敛速度总是快于SGD方法
C
在实际场景下,应尽最使用ADAM,避免使用SGD
D
相同超参数数是情况下,比起白适应的学习率调整方式,SGD加手动调节通常会取得更好效果
题型:单选题客观题分值2分难度:一般得分:2
8
普通反向传播算法和随时间的反向传播算法(BPTT)有什么技术上的不同?
A
与普通反向传播不同的是,BPTT会在每个时间步长内叠加所有对应权重的梯度
B
与普通反向传播不同的是,BPTT会在每个时间步长内减去所有对应权重的梯度
题型:单选题客观题分值2分难度:一般得分:2
9
下列关于深度学习说法错误的是
A
CNN相比于全连接的优势之一是楼型复杂度低,缓解过拟合
B
LSTM在一定程度上解决了传统RNN梯度满失或梯度爆炸的问题
C
只要参数设置合理,深险学习的效果至少应优于传统机器学习算法
题型:单选题客观题分值2分难度:一般得分:2
10
下面哪种方法没办法直接应用于自然语言处理的任务?
A
主成分分析(PCA)
B
循环神经网络
C
卷积神经网络
D
去语法模型
题型:单选题客观题分值2分难度:一般得分:2
11
深度学习中的卷积神经网络属于机器学习中的那哪种模型
A
深度监督学习
B
深度无监督学习
C
深度强化学习
D
深度半监督学习
题型:单选题客观题分值2分难度:一般得分:2
12
在CNN中使用1×1卷积时,下列哪一项是正确的?
A
由于小的内核大小,它会减少过拟合
B
所有上述
C
可以用于特征池
D
它可以帮助降低维数
题型:单选题客观题分值2分难度:一般得分:2
13
请问以下和神经网络中的dropout作用机制类似的是?
A
Boosting
B
Bagging
C
都不是
D
Stacking
题型:单选题客观题分值2分难度:一般得分:2
14
关于神经网络中经典使用的优化器,以下说法正确的是
A
相比于SGD或RMSprop等优化器,Adam9收做效果是最好的
B
相比于Adam或RMSprop等优化器,SGD的收效效果是最好的
C
对于轻量级神经网络,使用Adam比使用RMSprop更合适
D
Adam的收数速度比RMSprop
题型:单选题客观题分值2分难度:一般得分:2
15
以下关于深度神经网络的说法中错误的是
A
使用梯度裁剪(gradient clipping)有助于减缓梯度爆炸问题
B
若batch size过小,batch normalization的效果会出现退化
C
在使用SGD训练时,若训练loss的变化逐渐平缓不再明显下降时,通常可以通过减少learning rate的方式使其再进一步下降
D
增大L2正则项的系数有助于减缓梯度消失问题
题型:单选题客观题分值2分难度:简单得分:2
16
深度学习可以用在下列哪些NLP任务中?
A
机器翻译
B
问答系统
C
情感分析
D
所有选项
题型:单选题客观题分值2分难度:一般得分:2
17
以下哪个是深度学习中神经网络的激活函数
A
ReLU
B
Sin(x)
C
Dropout
D
CE
题型:单选题客观题分值2分难度:一般得分:2
18
反向传播算法一开始计算什么内容的梯度,之后将其反向传播?
A
预测结果与样本标签之间的误差
B
各个输入样本的平方差之和
C
都不对
D
各个网络权重的平方差之和
题型:单选题客观题分值2分难度:一般得分:2
19
在深度学习网络中,以下哪种技术不是主要用来做网络正则化的(提升模型泛化施力)
A
Pooling
B
dropout
C
Early stopping
D
参数共享
题型:单选题客观题分值2分难度:一般得分:2
20
关于CNN,以下说法错议的是
A
CNN最初是由Hinton教授提出的
B
CNN用于解决图像的分类及回归问题
C
第一个经典CNN模型是LeNet
D
CNN是一种判别模型
题型:单选题客观题分值2分难度:一般得分:2
21
假设你的输入是300×300彩色(RGB)图像,并且你使用卷积层和100个过滤器,每个过滤器都是5×5的大小,请问这个隐藏层有多少个参数(包括偏置参数)?
A
2600
B
7600
C
2501
D
7500
题型:单选题客观题分值2分难度:一般得分:2
22
Sigmoid是神经网络中最常用到的一种激活函数,除非当梯度太大导致激活函数被弥散,这叫作神经元饱和。
这就是为什么ReLU会被提出来,因为ReLU可以使得梯度在正向时输出值与原始值一样。
这就是为什么ReLU会被提出来,因为ReLU可以使得梯度在正向时输出值与原始值一样。
这是否意味着在神经网络中ReLU单元永远不会饱和?
A
错误
B
正确
题型:单选题客观题分值2分难度:一般得分:2
23
在构建一个神经网络时,batch size通常选择2的次方,比如256和512。这是为什么呢?
A
当用偶数是梯度下降优化效果最好
B
这些原因都不对
C
当内存使用最优时可以方便神经网络并行化
D
当不用偶数时,损失值会很奇怪
题型:单选题客观题分值2分难度:一般得分:2
24
请阅读以下情景:
情景1:你拥有一份阿卡迪亚市(Arcadia city)地图的数据,数据中包含市内和郊区的航拍图片。你的任务是将城市划分为工业区、农场以及山川河流等自然区域等等。
情景2:你拥有一份阿卡迪亚市(Arcadia city)地图的数据,数据中包含详细的公路网和各个地标之间的距离,而这些都是以图表的形式呈现的。你的任务是找出任意两个地标
之间的最短距离。
深度学习可以在情景1中应用但无法应用在情景2中,这种说法是:
A
错误
B
正确
题型:单选题客观题分值2分难度:一般得分:2
25
下列哪些项目是在图像识别任务中使用的数据扩增技术(data augmentation technique)?
1 水平翻转(Horizontal flipping)
2 随机裁剪(Random cropping)
3 随机放缩(Random scaling)
4颜色抖动(Color jittering)
5 随机平移(Random translation)
6 随机剪切(Random shearing)
A
所有项目
B
2,3,4,5,6
C
1,2,4
D
1,3,5,6
题型:单选题客观题分值2分难度:一般得分:2
26
你认为把下面这个过滤器应用到灰度图像会怎么样?
A
会检测垂直边缘
B
会检测水平边缘
C
会检测图像对比度
D
会检测45度边缘
题型:单选题客观题分值2分难度:一般得分:2
27
深应学习中,以下哪方法不能解决过拟合的问题
A
参数正则化
B
减小学习率
C
提前停止训练
D
数据增强
题型:单选题客观题分值2分难度:一般得分:2
28
梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?
A
梯度裁剪
B
Dropout
C
所有方法都不行
D
用改良的网络结构比如LSTM和GRUs
题型:单选题客观题分值2分难度:一般得分:2
29
对于非连续目标在深度神经网络的优化过程中,下面哪种梯度下降方法是最好的?
A
SGD
B
拉格朗日松弛Subgradont method
C
AdaGrad
D
1-BFGS
题型:单选题客观题分值2分难度:一般得分:2
30
有许多种梯度下降算法,其中两种最出名的方法是I-BFGS和SGD.I-BFGS根据二阶梯度下降而SGD是根据一阶梯度下降的。在下述哪些场景中,会更加偏向于使用I-BFGS而不是SGD?
场景1:数据很稀疏
场景2:神经网络的参数数量较少
A
两种情况都是
B
场景1
C
场景2
D
都不会选择I-BFGS
题型:单选题客观题分值2分难度:一般得分:2
31
如果一个神经网络用于预测一种事物的分类,例如分为A,B.CD四类,那么下列哪一个激活函数适用于该神经网络的输出层
A
Sigmoid
B
Softmax
C
Relu
D
TanH
题型:单选题客观题分值2分难度:一般得分:2
32
当训练一个神经网络来作图像识别任务时,通常会绘制一张训练集误差和交叉训练集误差图来进行调试。
在上图中,最好在哪个时间停止训练?
A
C
B
A
C
B
D
D
题型:单选题客观题分值2分难度:一般得分:2
33
神经网络,非线性激活函数包括sigmoid/tanh/ReLU等
A
其他说法都不正确
B
总是输出0/1
C
只在最后输出层才会用到
D
加速反向传播时的梯度计算
题型:单选题客观题分值2分难度:一般得分:2
34
在下列哪些应用中,我们可以使用深度学习来解决问题?
A
外来粒子的检测
B
所有这些
C
化学反应的预测
D
蛋白质结构预测
题型:单选题客观题分值2分难度:一般得分:2
35
随着句子的长度越来越多,神经翻译机器将句意表征为固定维度向量的过程将愈加困难,为了解决这类问题,下面哪项是我们可以采用的?
A
所有选项均不对
B
使用字符级别翻译(character level translation)
C
使用递归单元代替循环单元
D
使用注意力机制(attention mechanism)
题型:单选题客观题分值2分难度:一般得分:2
36
假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。
那么即便“欣喜若狂”这个词没有出现在你的小训练集中,你的RNN也会认为“我欣喜若狂”应该被贴上y=1的标签。
A
正确
B
错误
题型:单选题客观题分值2分难度:一般得分:2
37
你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?
A
ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
B
梯度爆炸
C
梯度消失
D
Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
题型:单选题客观题分值2分难度:一般得分:2
38
假设你的输入是一个300×300的彩色(RGB)图像,而你没有使用卷积神经网络。如果第一个隐藏层有100个神经元,每个神经元与输入层进行全连接,那么这个隐藏层有多少个参数(包括偏置参数)?
A
27,000,001
B
27,000,100
C
9,000,001
D
9,000,100
题型:单选题客观题分值2分难度:一般得分:2
39
图像挖掘中常用卷积神经网络(DNN)作为基础结构,以下关于卷积操作(conv)和池化(pooling)的说法正确的是?
A
conv基于局部相关性,pooling基于平移不变性
B
convopooling都基于局部相关性
C
con和pooling都基于平移不变性
D
cov基于平移不变性,pooling基于局部相关性
题型:单选题客观题分值2分难度:一般得分:2
40
声明1:可以通过将所有权重初始化为0来训练网络。
声明2:可以通过将偏差初始化为0来很好地训练网络
以上哪些陈述是真实的?
A
1和2都对
B
1对2错
C
1和2都错
D
1错2对
题型:单选题客观题分值2分难度:一般得分:2
41
当构建一个神经网络进行图片的语义分割时,通常采用下面哪种顺序?
A
先用卷积神经网络处理输入,再用反卷积神经网络得到输出
B
不能确定
C
先用反卷积神经网络处理输入,再用卷积神经网络得到输出
题型:单选题客观题分值2分难度:一般得分:2
42
想象一下,你有一个28×28的图片,并使用输入深度为3和输出深度为8在上面运行一个3×3的卷积神经网塔,注意,步幅padding是1,你正在用相同的填充(padding),当使用给定的参数时,输出特征图的尺寸是多少?
A
13宽、28高、8深
B
28宽、28高、8深
C
28宽、13高,8深
D
13宽、13高、8深
题型:单选题客观题分值2分难度:一般得分:2
43
一个循环神经网络可以被展开成为一个完全连接的、具有无限长度的普通神经网络,这种说法是
A
错误的
B
正确的
题型:单选题客观题分值2分难度:一般得分:2
44
对于MLP,输入层中的节点数为10,隐藏层为5.从输入层到隐藏层的最大连接数是?
A
超过50
B
50
C
小于50
D
这是一个任意值
题型:单选题客观题分值2分难度:一般得分:2
45
下图中的数据是线性可分的么?
A
是
B
否
题型:单选题客观题分值2分难度:一般得分:2
46
你有一个63x63x16的输入,并使用大小为7×7的32个过滤器进行卷积,使用步幅为2和无填充,请问输出是多少?
A
29x29x16
B
29x29x32
C
16x16x32
D
16x16x16
题型:单选题客观题分值2分难度:一般得分:2
47
相对于DNN模型,CNN模型做了哪些改变?
A
使用了relu激活函数
B
使用了Dropout
C
增加了batch normalization
D
局部连接、参数共享
题型:单选题客观题分值2分难度:中等得分:2
48
给定一个长度为n的不完整单词序列,我们希望预测下一个字母是什么。比如输入是“predictio(9个字母组成),希望预测第十个字母是什么。下面哪种神经网络结构适用于解决这个工作?
A
循环神经网络
B
受限波尔兹曼机
C
卷积神经网络
D
全连接神经网络
题型:单选题客观题分值2分难度:一般得分:2
49
在包含N个文档的语料库中,随机选择一个文档,该文件总共包含T个词,词条「数据」出现K次,如果词条「数据]出现在文件总数的数量接近三分之一,则TF(词频)和IDF(逆文档频率)的乘积的正确值是多少?
A
K*Log(3)/T
B
T*Log(3)/K
C
Log(3)/KT
D
KT*Log(3)
题型:单选题客观题分值2分难度:一般得分:2
50
假设你的任务是使用一首曲子的前半部分来预测乐谱的未来几个小节,比如输入的内容如下的是包含音符的一张乐谱图片:
关于这类问题,哪种架构的神经网络最好?
A
神经图灵机
B
端到端完全连接的神经网络
C
都不可用
D
附加有循环单元的卷积神经网络
评论0