《大数据导论》考查卷
大数据导论代写 1.1安装ubuntu优麒麟操作系统的虚拟机,在安装的过程中,设置系统的用户名为hadoop。(录屏,自动安装过程可不录;截图登录的界面)(3分)1.2 请简述“云计算的核心思想是什么?”。(2分)1.3 请论述为什么需要使用“VMware Workstation Pro···
(注:下列题目中,xyz需要替代为自己的拼音名字)
第一题:(共8分) 大数据导论代写
1.1安装ubuntu优麒麟操作系统的虚拟机,在安装的过程中,设置系统的用户名为hadoop。
(录屏,自动安装过程可不录;截图登录的界面)(3分)
1.2 请简述“云计算的核心思想是什么?”。(2分)
1.3 请论述为什么需要使用“VMware Workstation Pro”软件安装虚拟机。
(3分)
第二题:(共10分)
2.1 将《listA.csv》通过C语言编程或Kettle编程来处理,输出《listB-xyz.csv》文件和《listC-xyz.csv》。(录屏编写代码过程和调试过程;截图代码执行成功的界面,截图文件《listB-xyz.csv》的内容, 截图文件《listC-xyz.csv》的内容)(3分)
2.2、请简答数据预处理的目的是什么?数据预处理的流程有哪些?(5分)
2.3、如果我们需要用《listB-xyz.csv》文件进行商品关联分析,请分析2.1题的数据处理对应数据预处理的流程的哪一步骤。(2分)
第三题:(共9分)
3.1 将2.1题的输出文件《listB-xyz.csv》上传到虚拟机的/home/hadoop/Downloads目录下。然后,在/home/hadoop/Desktop目录下打开Shell,使得Shell的当前目录为/home/hadoop/Desktop。
(注意:在下列的操作中,不能使用cd指令更改当前目录)
3.1.1 用linux相关指令在/home/hadoop/Desktop目录下创建xyz文件夹。
3.1.2仅用一条指令mv把/home/hadoop/Downloads目录下的《listB-xyz.csv》文件剪切到/home/hadoop/Desktop/xyz目录下。
3.1.3 仅用一条指令list查看/home/hadoop/Desktop/xyz目录下《listB-xyz.csv》
(录屏操作过程;截图3.1.1~3.1.3题指令执行的界面)(3分)
3.2 阐述3.1.1~3.1.3题涉及指令的功能,指令的参数。(6分)
第四题:(共9分)
4.1、在此虚拟机中安装hadoop伪分布式系统。(录屏,截图jps指令的输出)(3分)
4.2 请阐述客户端、名称节点、数据节点的功能。(6分)
第五题:(共26分) 大数据导论代写
5.1.1 使用HDFS相关指令,在hadoop伪分布式系统上创建以xyz(自己名字拼音)命名的文件夹。
5.1.2使用HDFS相关指令,查询在hadoop伪分布式系统上已经存在的且以xyz(自己名字拼音)命名的文件夹。
5.1.3使用HDFS相关指令,把ubuntu虚拟机/home/hadoop/Desktop/xyz目录下的listB-xyz.csv文件写到5.1.1题中所创建的伪分布式系统中的xyz文件夹内。
5.1.4使用HDFS相关指令,查询5.1.1题中所创建的伪分布式系统中xyz文件夹下的listB-xyz.csv文件,使得在Shell上显示出来listB-xyz.csv文件的数据。
(录屏操作过程;截图5.1.1~5.1.4题指令执行的界面)(4分)
5.2 阐述5.1.1~5.1.4题涉及指令的功能,指令的参数。(8分)
5.3 在5.1.1~5.1.4题涉及的指令中,哪些指令涉及到HDFS文件的写操作?哪些指令涉及到HDFS的读操作。(2分)
5.4 请阐述HDFS写文件的过程及读文件的过程。(6分)
5.5 请阐述在HDFS中,一个文件被分成多个块,以块作为存储单位的好处。
(6分)
第六题:(共10分)
6.1、在hadoop伪分布式系统上安装Hbase数据库。(录屏,截图jps指令的输出)(2分)
6.2、执行Hbase指令创建一个命名为table_xxy(xyz表示自己的名字拼音)的表格,此表格有2个列族,分别为TID,Item。Item列族下有四列数据,字段分别为res_1至res_3。
向table_xyz插入如下数据,并执行指令查询确认数据已经存入Hbase表
(录屏;截图执行每一条指令的输出打印)(4分)
6.3 NoSQL数据库可以分为哪四大类?请对每种类型的NoSQL列举2种以上的具体名称的数据库。(4分)
第七题:(共9分)
7.1、用MySQL创建一个命名为table_xyz(xzy表示自己的名字拼音)的表格,并录入以下表格数据。(录屏;截图成功插入每条数据的界面)(2分)
7.2、请用SQL语句查询TID为3的记录。(录屏,截图指令执行的界面)(1分)
7.3、请阐述7.2题所用的SQL语句的语法结构。(2分)
7.4、请阐述关系型数据遵守的ACID原则。(4分)
第八题:(共19分)
8.1 搭建Spark的伪分布环境。(3分)(录屏,截图jps指令的输出)
8.2 请对《listC-xyz .csv》文件的数据,用rdd编程计算每个商品对应的购买顾客数。(1分)(录屏,截图rdd指令的打印输出)
8.3 请用Excel画柱状图表示各商品的受欢迎度。(1分)(录屏;截图Excel的图形)
8.4 请阐述RDD的操作类型。(4分)
8.5 基于Apriori算法的思想,请分析,listB-xyz.csv文件中,哪些商品可能有关联关系。请列出数据,用数据表达你的看法(5分)
8.6大数据处理流程的主要环节有哪些?(5分)
更多代写:EE代写 网上考试作弊 写作辅导 论文proposal 做assignment 大数据代写