大数据导论代写 – C语言编程代写 – Kettle编程代写
大数据导论代写

大数据导论代写 – C语言编程代写 – Kettle编程代写

《大数据导论》考查卷

 

 

大数据导论代写 1.1安装ubuntu优麒麟操作系统的虚拟机,在安装的过程中,设置系统的用户名为hadoop。(录屏,自动安装过程可不录;截图登录的界面)(3分)1.2 请简述“云计算的核心思想是什么?”。(2分)1.3 请论述为什么需要使用“VMware Workstation Pro···

 

(注:下列题目中,xyz需要替代为自己的拼音名字)

第一题:(共8分) 大数据导论代写

1.1安装ubuntu优麒麟操作系统的虚拟机,在安装的过程中,设置系统的用户名为hadoop。

(录屏,自动安装过程可不录;截图登录的界面)(3分)

1.2 请简述“云计算的核心思想是什么?”。(2分)

1.3 请论述为什么需要使用“VMware Workstation Pro”软件安装虚拟机。

(3分)

第二题:(共10分)

2.1 将《listA.csv》通过C语言编程或Kettle编程来处理,输出《listB-xyz.csv》文件和《listC-xyz.csv》。(录屏编写代码过程和调试过程;截图代码执行成功的界面,截图文件《listB-xyz.csv》的内容, 截图文件《listC-xyz.csv》的内容)(3分)

2.2、请简答数据预处理的目的是什么?数据预处理的流程有哪些?(5分)

2.3、如果我们需要用《listB-xyz.csv》文件进行商品关联分析,请分析2.1题的数据处理对应数据预处理的流程的哪一步骤。(2分)

第三题:(共9分)

3.1 将2.1题的输出文件《listB-xyz.csv》上传到虚拟机的/home/hadoop/Downloads目录下。然后,在/home/hadoop/Desktop目录下打开Shell,使得Shell的当前目录为/home/hadoop/Desktop。

(注意:在下列的操作中,不能使用cd指令更改当前目录)

3.1.1 用linux相关指令在/home/hadoop/Desktop目录下创建xyz文件夹。

3.1.2仅用一条指令mv把/home/hadoop/Downloads目录下的《listB-xyz.csv》文件剪切到/home/hadoop/Desktop/xyz目录下。

3.1.3 仅用一条指令list查看/home/hadoop/Desktop/xyz目录下《listB-xyz.csv》

(录屏操作过程;截图3.1.1~3.1.3题指令执行的界面)(3分)

3.2  阐述3.1.1~3.1.3题涉及指令的功能,指令的参数。(6分)

第四题:(共9分)

4.1、在此虚拟机中安装hadoop伪分布式系统。(录屏,截图jps指令的输出)(3分)

4.2 请阐述客户端、名称节点、数据节点的功能。(6分)

第五题:(共26分) 大数据导论代写

5.1.1 使用HDFS相关指令,在hadoop伪分布式系统上创建以xyz(自己名字拼音)命名的文件夹。

5.1.2使用HDFS相关指令,查询在hadoop伪分布式系统上已经存在的且以xyz(自己名字拼音)命名的文件夹。

5.1.3使用HDFS相关指令,把ubuntu虚拟机/home/hadoop/Desktop/xyz目录下的listB-xyz.csv文件写到5.1.1题中所创建的伪分布式系统中的xyz文件夹内。

5.1.4使用HDFS相关指令,查询5.1.1题中所创建的伪分布式系统中xyz文件夹下的listB-xyz.csv文件,使得在Shell上显示出来listB-xyz.csv文件的数据。

(录屏操作过程;截图5.1.1~5.1.4题指令执行的界面)(4分)

5.2  阐述5.1.1~5.1.4题涉及指令的功能,指令的参数。(8分)

5.3  在5.1.1~5.1.4题涉及的指令中,哪些指令涉及到HDFS文件的写操作?哪些指令涉及到HDFS的读操作。(2分)

5.4 请阐述HDFS写文件的过程及读文件的过程。(6分)

5.5 请阐述在HDFS中,一个文件被分成多个块,以块作为存储单位的好处。

(6分)

第六题:(共10分)

6.1、在hadoop伪分布式系统上安装Hbase数据库。(录屏,截图jps指令的输出)(2分)

6.2、执行Hbase指令创建一个命名为table_xxy(xyz表示自己的名字拼音)的表格,此表格有2个列族,分别为TID,Item。Item列族下有四列数据,字段分别为res_1至res_3。

向table_xyz插入如下数据,并执行指令查询确认数据已经存入Hbase表

(录屏;截图执行每一条指令的输出打印)(4分)

6.3 NoSQL数据库可以分为哪四大类?请对每种类型的NoSQL列举2种以上的具体名称的数据库。(4分)

第七题:(共9分)

7.1、用MySQL创建一个命名为table_xyz(xzy表示自己的名字拼音)的表格,并录入以下表格数据。(录屏;截图成功插入每条数据的界面)(2分)

7.2、请用SQL语句查询TID为3的记录。(录屏,截图指令执行的界面)(1分)

7.3、请阐述7.2题所用的SQL语句的语法结构。(2分)

7.4、请阐述关系型数据遵守的ACID原则。(4分)

第八题:(共19分)

8.1 搭建Spark的伪分布环境。(3分)(录屏,截图jps指令的输出)

8.2 请对《listC-xyz .csv》文件的数据,用rdd编程计算每个商品对应的购买顾客数。(1分)(录屏,截图rdd指令的打印输出)

8.3 请用Excel画柱状图表示各商品的受欢迎度。(1分)(录屏;截图Excel的图形)

8.4 请阐述RDD的操作类型。(4分)

8.5 基于Apriori算法的思想,请分析,listB-xyz.csv文件中,哪些商品可能有关联关系。请列出数据,用数据表达你的看法(5分)

8.6大数据处理流程的主要环节有哪些?(5分)

 

更多代写:EE代写 网上考试作弊 写作辅导 论文proposal 做assignment 大数据代写

合作平台:天才代写 幽灵代  写手招聘  paper代写

发表回复