AWS Certified Data Analytics - Specialty (DAS-C01)

AWS Certified Data Analytics - Specialty (DAS-C01) 更新于今天

查看第 2 至第 32 页.
查看第 6-10 至第 160 道题

Disclaimers:

- ExamTopics website is not related to, affiliated with, endorsed or authorized by Amazon.and Azure
- Trademarks, certification & product names are used for reference only and belong to Amazon.and Azure

Topic 1 - Exam A

Question #6 Topic 1

一家航空公司已经收集了飞行活动的指标来进行分析。一个最近完成的证明概念展示了公司如何向数据分析师提供洞察，以提高及时出发。这个证明概念使用了Amazon S3中的对象，其中包含了以CSV格式存储的指标itored。它还使用了Amazon Athena进行查询数据。随着数据量的增加，数据分析师希望优化存储解决方案，以提高查询性能。随着数据湖的增长，数据分析师应该使用哪些选项来提高性能？（选择三个。）

A 在S3中，将随机字符添加到键的开头以获得更多的吞吐量跨分片。
B 在相同的账户中使用S3存储桶。
C 将对象压缩以减少数据传输 I/O。
D 在与Athena相同的地域使用S3存储桶。
E 处理.csv 数据以将数据转换为 JSON，从而 PREPROCESS 数据以只获取查询所需的文档键，从而降低输入/输出负载。
F 处理.csv 数据，将其转换为 Apache Parquet 格式，以减少 I/O 并仅获取用于查询所需的数据块。

正确答案: BCD
解析: 数据分析师应选择B，C和D选项来提高数据湖的性能。选项B建议在与Athena相同的帐户中使用S3存储桶，可以减少数据传输延迟。选项C建议压缩对象以减少传输的数据量，从而提高查询性能。选项D建议在Athena所在地区使用S3存储桶，从而减少延迟并提高查询性能。

Question #7 Topic 1

一家大型金融公司正在运行其ETL过程。这个过程的一部分是将数据从亚马逊S3移动到亚马逊Redshift集群。公司希望使用最经济高效的方法将数据集加载到亚马逊Redshift中。根据要求，以下步骤的组合可以满足这些要求？（选择两个。）

A 使用 manifest 文件中的 COPY 命令将数据加载到 Amazon Redshift。
B 使用S3DistCp将文件加载到Amazon Redshift中。
C 在加载过程中使用临时表进行数据加载。
D 使用UNLOAD命令将数据上传到Amazon Redshift。
E 使用Amazon Redshift光谱查询Amazon S3中的文件。

正确答案: AE
解析: 使用带有清单文件的COPY命令可以有效地将数据加载到Amazon Redshift中。此外，使用Amazon Redshift Spectrum可以直接查询Amazon S3中的文件，减少了数据移动的需求。

Question #8 Topic 1

一家智能家居自动化公司必须有效地摄取和处理来自各种连接设备和传感器的消息。大多数这些消息都是由大量小型文件组成的。这些消息使用Amazon Kinesis Data Streams ingest，并通过Kinesis数据流消费者应用程序发送到Amazon S3。然后，Amazon S3消息数据通过在Amazon EMR上运行的预定的PySpark作业的加工流程传递。数据平台团队负责数据处理，他们关心下游数据处理的效率和成本。他们希望继续使用PySpark。这个解决方案如何提高数据处理作业的效率并具有很好的架构？

A 将传感器和设备数据直接发送到Kinesis Data Firehose流，以便将数据发送到 resilient storage service Amazon S3，并启用了Apache Parquet格式的记录格式转换。使用Amazon EMR运行PySpark在Amazon S3中处理数据。
B 在AWS上设置一个使用Python运行时环境的AWS Lambda函数，处理连接设备传感器上的Kinesis数据流消息。
C 启动一个Amazon Redshift集群。从Amazon S3中复制收集到的数据，并将数据处理作业从Amazon EMR移动到Amazon Redshift。
D 在AWS上设置AWS Glue Python作业，将Amazon S3中的小数据文件合并为较大的文件，并将其转换为Apache Parquet格式。将下游的PySpark作业从Amazon EMR迁移到AWS Glue。

正确答案: A
解析: 解答：A 解释：解决方案A通过直接将传感器和设备数据发送到Kinesis Data Firehose交付流来改善数据处理作业的效率。它还启用了Apache Parquet记录格式转换，该格式针对大数据处理进行了优化。使用在Amazon S3上运行的Amazon EMR PySpark来处理数据可以确保高效和良好架构的数据处理。

Question #9 Topic 1

一家媒体分析公司消耗来自社交媒体的一流。这些帖子被发送到根据用户ID分割的亚马逊Kinesis数据流。在AWSLambda函数加载帖子之前，它验证了帖子内容。验证过程需要按照帖子被Kinesis数据流接收的顺序接收帖子。在高峰时段，社交媒体帖子需要超过一个小时才能出现在亚马逊OpenSearch服务（Amazon ES）集群中。一位数据分析师必须实现一个解决方案，以尽量减少操作开销来降低延迟。哪个解决方案符合这些要求？

A 将验证过程从Lambda迁移到AWS Glue。
B ：将Lambda消费者从标准数据流迭代器迁移到HTTP/2流消费者。
C 增加Kinesis数据流中的片段数量
D . 将消息流发送到 Amazon Managed Streaming for Apache Kafka，而不是 Kinesis 数据流。

正确答案: C
解析: 增加Kinesis数据流中的分片数量允许对数据进行并行处理，这有助于减少延迟并确保给定用户的帖子按照它们被发送的顺序接收。

Question #10 Topic 1

一家公司在其亚马逊S3中存储了100万张已扫描的文档作为图像文件。这些文档包括包括申请人姓名、申请人姓氏、申请日期、申请类型和申请文本的打印申请表。公司已经开发了一个机器学习算法，用于从扫描文档中提取元数据值。公司希望允许内部数据分析师使用申请人姓名、申请日期或申请文本查找应用程序。原始图像也应该可下载。成本控制在查询性能方面是次要的。哪个解决方案能组织图像和元数据，以驱动洞察，同时满足要求？

A 对于每个图像，使用对象标签添加元数据。使用Amazon S3 Select根据申请人姓名和申请日期检索文件。
B 在Amazon OpenSearch服务（Amazon Elasticsearch服务）中索引图像文件的元数据和Amazon S3位置。允许数据分析师使用OpenSearch仪表板（Kibana）向Amazon OpenSearch服务（Amazon Elasticsearch服务）集群提交查询。
C 将图像文件的元数据和Amazon S3位置存储在Amazon Redshift表中。允许数据分析师在表上运行自定义查询。
D 将图像文件的元数据和Amazon S3位置存储在Amazon S3中的Apache Parquet文件中，并在AWS Glue Data Catalog中定义一个表。允许数据分析师使用Amazon Athena提交自定义查询。

正确答案: D
解析: 选择了选项D，因为它是最适合满足要求的组织图像和元数据以驱动洞见的解决方案。将元数据和图像文件的Amazon S3位置存储在Amazon S3中的Apache Parquet文件中，可以使用Amazon Athena进行高效的查询和分析。此外，在AWS Glue Data Catalog中定义表使数据分析师可以轻松发现和访问数据。