国开助手《大数据分析与挖掘技术》形考任务2答案
小虾米
2026-05-11 06:28:43
2 次阅读
0 分钟阅读
题目1.在关联分析中,下面哪个有可能是频繁3项集()
A. {面包,牛奶}
B. {面包,牛奶,啤酒}
C. {面包}
D. {面包,牛奶,花生,啤酒}
题目2.从下面两个变量的相关系数图可以看出()
A. 左图相关系数大于0
B. 右图相关系数小于0
C. 左图相关系数等于0
D. 右图相关系数等于0
题目3.要考虑“储蓄水平”与 “人口水平”之间的相关。“储蓄水平”收集了储蓄比率(sr)、人均可支配收入(dpi)、人均可支配收入变化的百分率(ddpi)3个变量,“人口水平”收集了15岁以下人口的百分比、75岁以上人口百分比2个变量。请问采用下面哪种分析方法更合适()。
A. 单向关
B. 典型相关
C. 偏相关
D. 点二列(点双列)相关
题目4.关于设定虚拟变量时应当遵循如下原则,下列说法错误的是()
A. 对于有k个表现值的定性变量,只设定(k-1)个虚拟变量;
B. 虚拟变量的值通常用“0”或“1”来表示;
C. 对于每个样本而言,同一个定性变量对应虚拟变量的值之和不超过1;
D. 对于季节变量而言,四个季节需要设定4个虚拟变量
题目5.如果要解决随着员工职位的变动,员工报酬会变动多大的问题,下面说法不正确的是()
A. 员工职位需要考虑成是分类变量
B. 员工职位需要引入虚拟变量来处理
C. 如果员工职位有5个类别,那么需要引入5个虚拟变量来表示
D. 员工报酬需要考虑成被解释变量
题目6.为研究电商注册用户数量与其销售收入之间的关系,收集数据得到下面的散点图。请问这样的散点图适用建立下面哪种回归模型()。
A. 线性回归模型
B. 非线性回归模型
C. 对数线性模型
D. Logistic回归模型
题目7.当因变量数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,更合适的回归模型是()。
A. 线性回归模型
B. Logistic回归模型
C. 分位数回归
D. 非线性回归
题目8.为监测某厂家生产的某款激光打印机的质量问题,考察该款打印机发生故障的次数。其发生故障的次数可能会受到打印纸张数量(千页)、打印机使用时长(千小时)、硒鼓(原装/兼容)等因素的影响。收集数据后的分析结果如下:
请问关于上面的结果说法不正确的是()
A. 此次分析构建了一个计数模型
B. 收集了30个观测数据
C. 对数似然值为-39.804
D. 自变量都不显著
题目9.近邻分类中的近邻个数说法正确的是()
A. 1-近邻的复杂度最高
B. 随着近邻个数的增加,模型的复杂度增加
C. 近邻个数不会影响模型的预测能力
D. 近邻个数需要人为确定
题目10.关于下面的决策树说法不正确的是()。
A. 此决策树根节点的gini为0.145
B. 落入此决策树根节点中的数据有35个
C. 此次划分的gini增益为0.058
D. 落入Petal.Length≤5.05的数据将为判为versicolor一类
题目11.从下面两个变量的相关系数图可以看出()
A. 左图相关系数大于0
B. 右图相关系数小于0
C. 左图相关系数大于右图
D. 右图相关系数等于0
题目12.定性数据之间的相关通常采用()来度量。
A. Pearson相关系数
B. Spearman相关系数
C. Kendall tau-b相关系数
D. Hoeffding’s D相关系数
题目13.关于分位数回归,下面说法正确的是()
A. 当数据具有尖峰厚尾的分布特征或有离群点(即异常值)时,采用分位数回归更稳健。
B. 分位数回归不需要进行残差检验
C. 分位数回归会给出因变量不同分位数水平下的参数估计
D. 分位数回归不需要做模型检验
题目14.关于马氏距离说法正确的是()
A. 马氏距离不受总体空间大小的影响
B. 受计量单位的影响
C. 反映了按平均水平计算被判定样本到中心的相对距离(该距离以方差为单位)
D. 是标准化的变量的欧氏距离
题目15.决策树中结点的最优划分是依据()来确定的。
A. 局部最优性
B. 信息增益大的划分
C. 信息增益小的划分
D. GINI增益大的划分
题目16.由下图中两类数据(红色一类,黄色一类)的划分问题引出的关于线性可分与不可分的概念正确的是()。
A. 左图两类数据的划分是一个线性可分问题
B. 右图的两类数据的划分是一个线性不可分问题
C. 左图两类数据的划分是一个线性不可分问题
D. 右图的两类数据的划分是一个线性可分问题
题目17.典型相关分析解决的问题是两组变量之间的非线性相关关系。()
A. 对B. 错
题目18.按考虑相关因素(变量)的多少,相关关系分为正相关和负相关。()
A. 对B. 错
题目19.Pearson相关系数取值为0时,表现为变量无相关。()
A. 对B. 错
题目20.偏相关系数总是比相关系数高。()
A. 对B. 错
题目21.线性回归模型的拟合优度的判定系数越大,说明回归方程预测能力较好。()
A. 对B. 错
题目22.Poisson回归模型假设观测因变量数据服从Poisson分布。()
A. 对B. 错
题目23.对于有k个表现值的定性变量,需设定k个虚拟变量。()
A. 对B. 错
题目24.二元选择模型通常假设观测数据与一个隐藏的标准正态分布或者Logistic分布有关。()
A. 对B. 错
题目25.线性回归模型显著性检验的P值越小,说明对应的自变量与因变量的相关程度越高。()
A. 对B. 错
题目26.马氏距离不受总体空间大小的影响,也不受计量单位的影响。()
A. 对B. 错