一、考试要求
大数据专业综合考试涵盖大数据基础知识、大数据应用、数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化、大数据分析综合案例,要求能够运用所学的基本原理和基本方法分析、判断和解决有关问题。
考生应全面系统地了解大数据概念,熟悉大数据应用,培养大数据思维,养成数据安全意识;了解大数据专业知识体系,形成对大数据专业的整体认知;熟悉大数据各个环节的相关技术,为后续深入学习相关大数据技术奠定基础。要求系统掌握:大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统 HDFS、分布式数据库 HBase、NoSQL 数据库、云数据库、分布式并行编程模型 MapReduce、数据仓库 Hive、基于内存的大数据处理架构Spark、流计算框架 Flink、大数据在各个领域的应用。
二、考试内容
1.大数据基础
(1)大数据的概述和重要时间节点
(2)大数据的影响及其应用
(3)大数据关键技术和计算模式
(4)大数据处理架构 Hadoop
(5)Hadoop 生态系统
(6)Hadoop 安装与配置方法
2.大数据存储与管理
(1)分布式文件系统 HDFS 的架构
(2)HDFS 的存储原理
(3)分布式数据库 HBase 的实现原理
(4)HBase 运行机制和系统架构
(5)NoSQL 数据库的四大类型和三大基石
(6)云数据库的特性和系统架构
3. 大数据处理与分析
(1)分布式并行编程:MAP 和 REDUCE
(2)MapReduce 的具体应用
(3)YARN 设计思路、体系结构和工作流程
(4)数据仓库 HIVE 系统架构和工作原理
(5) Hive 高可用性(HA)基本原理
(6)Spark 生态系统和运行架构
(7)流计算框架和处理流程
(8)大数据 Lambda 架构
(9)Pregel 图计算模型和计算过程
(10)数据可视化分析(可视化工具与案例)
4.大数据应用
(1)推荐系统(长尾理论,推荐方法,推荐系统模型)
(2)基于用户/物品的协同过滤
(3)大数据在生物医学领域的应用(流行病预测)
(4) 智能物流、智能交通的应用
三、参考书目
林子雨.大数据技术原理与应用(第 3 版),人民邮电出版社,2021 年 1 月
注:本文文字转载自重庆科技大学研究生教育与学科建设网,仅供学员学习和参考。如有侵权,请联系删除。