swazerz 2020-06-22
创建一个存储桶比如hadoop202006…
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigQi1eerh7ki_sN3zLVQqu0w.png)
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEig9I_iAtUGt0sloP-ICysT6w.png)
这里我解释一下Hadoop集群中的一些组件,了解大数据的同学直接忽略就好。
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEig3y6kFu2wpYpM00k1vf3yFg.png)
解释一下,Master、Core、Task。
MasterNode至少有一个 CoreNode 至少一个 TaskNode 可以有一个(可选)
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigr_-4Ck06gPLJdoPKfh7c2A.png)
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEig05CkrXpkoTECZC34y8CrVA.png)
当Cluster状态为Waiting时,执行Task3.![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigI-FXDZoWpP-T13WJqBdB6w.png)
在处理数据之前肯定要明确两件事情:
如何处理数据
2017-07-05 20:05:47 SEA4 4261 10.0.0.15 GET eabcd12345678.cloudfront.net /test-image-2.jpeg 200 - Mozilla/5.0%20(MacOS;%20U;%20Windows%20NT%205.1;%20en-US;%20rv:1.9.0.9)%20Gecko/2009040821%20Chrome/3.0.9
解释如下:
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigDuAesuV9WoL5tqcs6UNJuw.png)
在EMR集群中,添加STEP,
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigKgaSgYzSG2ZnZ5NA4Q55PA.png)
如下图:
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigEVxmXnYaliZax-3ffCMiUA.png)
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEig8J5ikVw46fe9TWBcbe3ylA.png)
脚本都干了啥?(你可以SSH到Cluster上直接执行HiveQL)
CREATE EXTERNAL TABLE IF NOT EXISTS cloudfront_logs (DateObject Date,Time STRING,Location STRING,Bytes INT,RequestIP STRING,Method STRING,Host STRING,Uri STRING,Status INT,Referrer STRING,OS String,Browser String,BrowserVersion String)
ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.RegexSerDe‘WITH SERDEPROPERTIES ( "input.regex" = "^(?!#)([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+([^ ]+)\s+[^(]+(.\%20([^\/]+)[\/](https://s3-us-west-2.amazonaws.com/us-west-2-aws-training/awsu-spl/spl-166/1.0.7.prod/instructions/en_us/.)$") LOCATION ‘${INPUT}/cloudfront/data/‘;
INSERT OVERWRITE DIRECTORY ‘${OUTPUT}/os_requests/‘SELECT os, COUNT(*) countFROM cloudfront_logsWHERE dateobjectBETWEEN ‘2014-07-05‘ AND ‘2014-08-05‘GROUP BY os;
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEig45YMKOhXUS-iWxBvnDOm8w.png)
![[AWS][大数据][Hadoop] 使用EMR做大数据分析 [AWS][大数据][Hadoop] 使用EMR做大数据分析](https://cdn.ancii.com/article/image/v1/sw/wV/kP/PkwwVsGDmjDG9swnOi7SkjVAsMQAarn73E9S3mmSmcAdcE5-VNFc9RpI5VkNdEigrrPAOSznQiRcbrd0AtKtXA.png)
有关云数据库视频教学参考:https://edu.51cto.com/course/23012.html