大数据导论代写 - C语言编程代写 - Kettle编程代写

《大数据导论》考查卷

大数据导论代写 1.1安装ubuntu优麒麟操作系统的虚拟机，在安装的过程中，设置系统的用户名为hadoop。（录屏，自动安装过程可不录；截图登录的界面）（3分）1.2 请简述“云计算的核心思想是什么？”。（2分）1.3 请论述为什么需要使用“VMware Workstation Pro···

（注：下列题目中，xyz需要替代为自己的拼音名字）

第一题：（共8分）大数据导论代写

1.1安装ubuntu优麒麟操作系统的虚拟机，在安装的过程中，设置系统的用户名为hadoop。

（录屏，自动安装过程可不录；截图登录的界面）（3分）

1.2 请简述“云计算的核心思想是什么？”。（2分）

1.3 请论述为什么需要使用“VMware Workstation Pro”软件安装虚拟机。

（3分）

第二题：（共10分）

2.1 将《listA.csv》通过C语言编程或Kettle编程来处理，输出《listB-xyz.csv》文件和《listC-xyz.csv》。（录屏编写代码过程和调试过程；截图代码执行成功的界面，截图文件《listB-xyz.csv》的内容, 截图文件《listC-xyz.csv》的内容）（3分）

2.2、请简答数据预处理的目的是什么？数据预处理的流程有哪些？（5分）

2.3、如果我们需要用《listB-xyz.csv》文件进行商品关联分析，请分析2.1题的数据处理对应数据预处理的流程的哪一步骤。（2分）

第三题：（共9分）

3.1 将2.1题的输出文件《listB-xyz.csv》上传到虚拟机的/home/hadoop/Downloads目录下。然后，在/home/hadoop/Desktop目录下打开Shell，使得Shell的当前目录为/home/hadoop/Desktop。

（注意：在下列的操作中，不能使用cd指令更改当前目录）

3.1.1 用linux相关指令在/home/hadoop/Desktop目录下创建xyz文件夹。

3.1.2仅用一条指令mv把/home/hadoop/Downloads目录下的《listB-xyz.csv》文件剪切到/home/hadoop/Desktop/xyz目录下。

3.1.3 仅用一条指令list查看/home/hadoop/Desktop/xyz目录下《listB-xyz.csv》

（录屏操作过程；截图3.1.1~3.1.3题指令执行的界面）（3分）

3.2 阐述3.1.1~3.1.3题涉及指令的功能，指令的参数。（6分）

第四题：（共9分）

4.1、在此虚拟机中安装hadoop伪分布式系统。（录屏，截图jps指令的输出）（3分）

4.2 请阐述客户端、名称节点、数据节点的功能。（6分）

第五题：（共26分）大数据导论代写

5.1.1 使用HDFS相关指令，在hadoop伪分布式系统上创建以xyz（自己名字拼音）命名的文件夹。

5.1.2使用HDFS相关指令，查询在hadoop伪分布式系统上已经存在的且以xyz（自己名字拼音）命名的文件夹。

5.1.3使用HDFS相关指令，把ubuntu虚拟机/home/hadoop/Desktop/xyz目录下的listB-xyz.csv文件写到5.1.1题中所创建的伪分布式系统中的xyz文件夹内。

5.1.4使用HDFS相关指令，查询5.1.1题中所创建的伪分布式系统中xyz文件夹下的listB-xyz.csv文件，使得在Shell上显示出来listB-xyz.csv文件的数据。

（录屏操作过程；截图5.1.1~5.1.4题指令执行的界面）（4分）

5.2 阐述5.1.1~5.1.4题涉及指令的功能，指令的参数。（8分）

5.3 在5.1.1~5.1.4题涉及的指令中，哪些指令涉及到HDFS文件的写操作？哪些指令涉及到HDFS的读操作。（2分）

5.4 请阐述HDFS写文件的过程及读文件的过程。（6分）

5.5 请阐述在HDFS中，一个文件被分成多个块，以块作为存储单位的好处。

（6分）

第六题：（共10分）

6.1、在hadoop伪分布式系统上安装Hbase数据库。（录屏，截图jps指令的输出）（2分）

6.2、执行Hbase指令创建一个命名为table_xxy（xyz表示自己的名字拼音）的表格，此表格有2个列族，分别为TID，Item。Item列族下有四列数据，字段分别为res_1至res_3。

向table_xyz插入如下数据，并执行指令查询确认数据已经存入Hbase表

（录屏；截图执行每一条指令的输出打印）（4分）

6.3 NoSQL数据库可以分为哪四大类？请对每种类型的NoSQL列举2种以上的具体名称的数据库。（4分）

第七题：（共9分）

7.1、用MySQL创建一个命名为table_xyz（xzy表示自己的名字拼音）的表格，并录入以下表格数据。（录屏；截图成功插入每条数据的界面）（2分）

7.2、请用SQL语句查询TID为3的记录。（录屏，截图指令执行的界面）（1分）

7.3、请阐述7.2题所用的SQL语句的语法结构。（2分）

7.4、请阐述关系型数据遵守的ACID原则。（4分）

第八题：（共19分）

8.1 搭建Spark的伪分布环境。（3分）（录屏，截图jps指令的输出）

8.2 请对《listC-xyz .csv》文件的数据，用rdd编程计算每个商品对应的购买顾客数。（1分）（录屏，截图rdd指令的打印输出）

8.3 请用Excel画柱状图表示各商品的受欢迎度。（1分）（录屏；截图Excel的图形）

8.4 请阐述RDD的操作类型。（4分）

8.5 基于Apriori算法的思想，请分析，listB-xyz.csv文件中，哪些商品可能有关联关系。请列出数据，用数据表达你的看法（5分）

8.6大数据处理流程的主要环节有哪些？（5分）

合作平台：天才代写幽灵代写写手招聘 paper代写