AWS Certified Data Analytics - Specialty (DAS-C01)

AWS Certified Data Analytics - Specialty (DAS-C01) 更新于今天

查看第 4 至第 32 页.
查看第 16-20 至第 160 道题

Disclaimers:

- ExamTopics website is not related to, affiliated with, endorsed or authorized by Amazon.and Azure
- Trademarks, certification & product names are used for reference only and belong to Amazon.and Azure

Topic 1 - Exam A

Question #16 Topic 1

数据分析师通过使用Amazon Athena与JDBC驱动程序运行大量数据操作语言（DML）查询。最近，一个在运行30分钟后失败的查询返回了以下消息： MITODbException: QueryTimeout The data analyst does not need the query tackles immediately. However, the data analyst needs a long-term solution for this problem. 这个问题要求我们提供一个解决方案，能够满足数据分析师的需求。

A 将查询拆分为更小的查询以搜索数据子集
B 在Athena的设置中，调整DML查询超时限制
C 在服务配额控制台，请求将 DML 查询超时时间增加
D 将表格保存为压缩的.csv 文件

正确答案: C
解析: 最佳解决方案是通过服务配额控制台请求增加 DML 查询超时时间。这将确保数据分析师有足够的时间来运行查询，而不会超时。

Question #17 Topic 1

流式应用程序正在从亚马逊Kinesis Data Streams中读取数据，每10秒钟将数据写入一个亚马逊S3存储桶。应用程序正在读取数百个片段的数据。由于另一个要求，无法更改批处理间隔。数据由亚马逊Athena访问。随着时间推移，用户看到查询性能下降。哪个操作可以帮助提高查询性能？

A 将Amazon S3中的文件合并以形成更大的文件。
B 在Kinesis Data Streams中增加片段数量。
C 将更多的内存和CPU容量添加到流媒体应用程序中。
D 将文件写入多个S3存储桶

正确答案: A
解析: 合并Amazon S3中的文件以形成更大的文件可以帮助改善Amazon Athena中的查询性能。通过将较小的文件合并成较大的文件，可以减少查询过程中需要执行的文件扫描次数，从而提高性能。

Question #18 Topic 1

一家金融公司使用Amazon S3作为其数据湖，并使用多节点Amazon Redshift集群设置了一个数据仓库。数据湖中的数据文件根据每个数据文件的来源组织在文件夹中。对于每个数据文件位置，使用单独的COPY命令将所有数据文件加载到Amazon Redshift集群中的一个表中。采用这种方法后，将所有数据文件加载到Amazon Redshift所需的时间较长。用户希望有一个更快的解决方案，同时费用不会增加，且能保持S3数据湖中数据文件的隔离。哪种解决方案符合这些要求？

A 使用Amazon EMR将所有数据文件复制到同一个文件夹中，然后使用COPY命令将数据加载到Amazon Redshift中。
B 将所有数据文件并行加载到亚马逊 Aurora，并运行 AWS Glue 作业将数据加载到亚马逊 Redshift 中。
C 使用AWS Glue作业将所有数据文件复制到同一文件夹中，并使用COPY命令将数据加载到Amazon Redshift中。
D 创建一个包含数据文件位置的清单文件，并使用COPY命令将数据加载到Amazon Redshift中。

正确答案: D
解析: 创建包含数据文件位置的清单文件并发出COPY命令将数据加载到Amazon Redshift中是最佳解决方案。该方法可以实现更快的数据加载，因为清单文件提供了所有数据文件位置的列表，消除了每个文件单独COPY命令的需求。此外，它还可以保持S3数据湖中数据文件的隔离。

Question #19 Topic 1

一家保险公司拥有以JSON格式发送的未经预设时间表的原始数据，通过Amazon Kinesis Data Firehose传输流将其发送到Amazon S3存储桶。AWS Glue爬虫计划每8小时运行一次，以更新存储在S3存储桶中的表的数据目录中的模式。数据分析师在Amazon EMR上使用AWS Glue Data Catalog作为 metastore分析数据。数据分析师表示，偶尔他们收到的数据过时。数据工程师需要提供访问最 up-to-date 数据的方法。这个解决方案符合这些要求吗？

A 在现有的Amazon Redshift集群上，根据AWS Glue Data Catalog创建一个外部模式，以查询Amazon S3中的新数据并使用Amazon Redshift Spectrum进行查询。
B 使用（1小时）速率表达式在AWS Glue爬虫中执行亚马逊云观察事件。
C 使用AWS CLI，将AWS Glue爬虫的执行计划从8小时修改为1分钟。
D 在 S3 存储桶上触发 ObjectCreated:* S3 事件通知的 AWS Lambda 函数中运行 AWS Glue 爬虫程序。

正确答案: D
解析: 将AWS Glue Crawler从由S3桶的S3:ObjectCreated:*事件通知触发的AWS Lambda函数中运行将提供最新的数据。通过在S3桶中创建新对象时触发AWS Glue Crawler，可以立即更新数据目录中的模式，确保分析师可以访问最新的数据。

Question #20 Topic 1

一家公司目前使用Amazon Athena查询其全球数据。区域数据存储在us-east-1和us-west-2地区的美洲S3中。数据未加密。为了简化查询过程并集中管理，该公司希望在美国西二区使用Athena查询两个区域中的Amazon S3数据。解决方案应尽可能低廉。那么公司应该采取什么措施来实现这个目标呢？

A 使用AWS DMS将AWS Glue Data Catalog从us-east-1迁移到us-west-2。在us-west-2中运行Athena查询。
B 在美国西海岸2区运行AWS Glue爬虫，以爬取所有区域的dataset。数据爬取完成后，在us-west-2运行Athena查询。
C 啟用 S3 bucket 在 us-east-1 中進行跨區域複製，以在 us-west-2 中複製數據。一旦數據在 us-west-2 中複製完成，就在 us-west-2 中的 AWS Glue 爬蟲中運行 AWS Glue 數據目录，並運行 Athena 查詢。
D . 更新AWS Glue资源策略以提供us-east-1 AWS Glue Data Catalog对us-west-2的访问权限. 一旦us-west-2的数据库拥有了us-east-1中的目录访问权限,就在us-west-2中运行Athena查询.

正确答案: C
解析: 公司应该启用us-east-1中的S3存储桶的跨区域复制，将数据复制到us-west-2中。一旦数据在us-west-2中复制完成，他们应该运行AWS Glue爬虫更新us-west-2中的AWS Glue数据目录并运行Athena查询。此方法允许集中管理和查询来自两个区域的数据，同时最大程度地降低成本。