1. 首页
  2. 数据库
  3. 其它
  4. AWS_STREAM_FIREHOSE_GLUE:通过结合AWS提供的服务从流应用程序到etl流程的总体数据摄取最终确定目标位置 源码

AWS_STREAM_FIREHOSE_GLUE:通过结合AWS提供的服务从流应用程序到etl流程的总体数据摄取最终确定目标位置 源码

上传者: 2021-05-22 08:11:40上传 ZIP文件 1.56MB 热度 18次
AWS_STREAM_FIREHOSE_GLUE 通过组合AWS提供的服务,从流应用程序到etl过程到最终定位到目标的总体数据摄取。 要求 创建一个Python脚本,将记录流式传输到内存中,然后使用Kinesis Firehose(JSON)将它们转储到您的S3存储桶中。 将Kinesis Firehose配置为每个文件最多发送1MB记录 使用AWS Glue(PySpark)编写一个ETL流程,该流程将您的存储桶作为输入,而将您的存储桶作为输出。 ETL必须将多个较小的文件串联为目标存储桶的较大文件(每个文件最多32MB)。 ETL必须将数据格式更改为Parquet。 创建一个EMR集群,将数据加载到其中,然后编写Hadoop作业(MapReduce,Spark等,选择您喜欢的任何人)来计算跨信号组的组织数。 将结果保存到DynamoDB表中。 解决方案 此存储库中有3个文件
下载地址
用户评论