国开24154《大数据技术概论》期末考试历届试题及答案2024年01月(课程号:05067)

小虾米 2026-05-11 15:20:16 2 次阅读 0 分钟阅读

试卷代号:24154

国家开放大学2023年秋季学期期末统一考试

大数据技术概论试题

2024年1月

注意事项:

1.将你的学号、姓名及考点名称填写在试题和答题纸的规定栏内。考试结束后,把试题 和答题纸放在桌上。试题和答题纸均不得带出考场。待监考人员收完试题和答题纸后方可离开考场。

2.仔细阅读题目的说明,并按题目要求答题。所有答案必须写在答题纸的指定位置上,写在试题上的答案无效。

3.用蓝、黑圆珠笔或钢笔(含签字笔)答题,使用铅笔答题无效。

一、单项选择题(本题共20小题,每小题3分,共60分。请在给出的选项中,选出最符合题目要求的一项)

1.下列各项属于定性变量的是( )。

A.收入B.支出

C.身高D.印象

2.下列各项不属于大数据采集方法的是( )。

A.系统日志数据采集B.逐一观测采集

C.ETL工具采集D.网络爬虫

3.下列各项属于数据仓库的特点的是( )。

A.数据质量不高B.关注数据随时间的变化

C.只接受同类型数据D.无法提供决策支持

4.下列各项属于数据分类算法的是( )。

A.k近邻算法B.决策树

C.支持向量机D.以上均是

5.下列各项属于数据安全风险的是( )。

A.数据的采集风险B.数据的传输风险

C.数据的应用风险D.以上均是

6.下列属于传统数据获取的特点的是( )。

A.数据源多种多样

B.数据量巨大

C.结构单一

D.包含结构化、半结构化和非结构化数据

7.下列各项不属于数据预处理方法的是( )。

A.数据采集B.数据整理

C.数据变换D.异常值检测

8.下列各项属于合规数据的是( )。

A.非法收集隐私信息数据B.取得使用者同意的个人资料数据

C.泄露的隐私信息数据D.垄断数据

9.下列关于文档数据库的描述中,正确的是( )。

A.将数据存储在表、行和动态列

B.每个文档都包含成对的字段和值

C.将数据存储在节点和边

D.使用哈希表,表中包含键和用来指向特定数据的指针

10.在MapReduce模型编程中,运算步骤不包括( )。

A.遍历数据B.映射键值

C.数据分组D.数据插补

11.在Hadoop生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是( )。

A.HDFSB.MapReduce

C.YARND.Storm

12.下列属于图数据的主要特性的是( )。

A.数据驱动计算B.不规则问题

C.高数据访问率D.以上均是

13.可以用来查看数值型变量的分布的可视化方法是( )。

A.箱线图B.直方图

C.小提琴图D.以上方法均可以

14.如果只是研究两个数值变量之间的关系,最常见的可视化方法是( )。

A.直方图B.散点图

C.饼图D.折线图

15.下列各项不属于批处理系统的特点的是( )。

A.可以实现实时的分析报告或自动响应

B.可以实现无缝扩展以处理峰值数据量或数据请求

C.支持数据在不同系统之间进行交换

D.支持作业执行状态的监控

16.下列各项属于非结构化数据的是( )。

A.图像B.二维数据表

C.HTML文档D.以上均是

17.在大数据的处理流程中,( )步骤是将数据转化为图形,以更直观的方式展示和表达。

A.存储与管理B.可视化

C.采集与预处理D.分析与挖掘

18.下列关于异常值的描述中,错误的是( )。

A.可以使用箱线图检测异常值

B.当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除

C.可以将异常值视为缺失值,按处理缺失值的方法处理异常值

D.异常值的存在不属于数据质量问题,不会影响模型的预测能力

19.下列各项关于分类的描述中,错误的是( )。

A.可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件

B.在进行建模之前就要有明确的分组预测目标

C.k近邻算法是一种简单但强大的分类算法

D.用来建立分类模型的输入数据称为测试集

20.假设散点图中的观测点分布较为分散,没有任何规律,说明两个变量之间的关系为( )。

A.完全线性相关B.线性相关

C.非线性相关D.不相关

二、判断题(本题共10小题,每小题2分,共20分。以下叙述中,你认为正确的打“√”,错误的打“×”)

21.时间序列数据是按时间顺序排列的观测值序列,用于所描述现象随对间变化的情况。( )

22.数据预处理的主要目的是为了提高数据质量,将原始数据变成更加方便计算或处理的格式,使数据形态更加符合建模要求,进而提升数据挖掘的质量和效率。( )

23.数据可视化对于提升数据的理解、分析与推断没有帮助。( )

24.在分类方法中,决策树法的结果复杂难懂、可解释性较差。( )

25.MapReduce编程模型的首要步骤是对存储系统中的文件按列处理,并产生键值对。( )

26.气泡图中气泡的面积大小没有实际意义。( )

27.银行业通过大数据技术可以有效分析经营过程中可能存在的风险因素。( )

28.数据脱敏技术可以有效降低敏感数据泄露的风险。( )

29.批量数据处理旨在以最小延迟处理实时生成的数据流。( )

30.MapReduce基于分而治之的算法范式,利用多台计算机完成数据处理。( )

三、简答题(本题共4小题,每小题5分,共20分)

31.变量的定义是什么?

32.请列举三种常用的电子商务推荐算法。

33.请列举五种常见的数据缺失值插补方法。

34.数据可视化的基本原则包括哪些方面?