AWS Certified Data Analytics - Specialty (DAS-C01)

AWS Certified Data Analytics - Specialty (DAS-C01) 更新于今天
  • 查看第 4 至第 32 页.
  • 查看第 16-20 至第 160 道题
Disclaimers:
  • - ExamTopics website is not related to, affiliated with, endorsed or authorized by Amazon.and Azure
  • - Trademarks, certification & product names are used for reference only and belong to Amazon.and Azure

Topic 1 - Exam A

Question #16 Topic 1

数据分析师通过使用Amazon Athena与JDBC驱动程序运行大量数据操作语言(DML)查询。最近,一个在运行30分钟后失败的查询返回了以下消息: MITODbException: QueryTimeout The data analyst does not need the query tackles immediately. However, the data analyst needs a long-term solution for this problem. 这个问题要求我们提供一个解决方案,能够满足数据分析师的需求。

  • A 将查询拆分为更小的查询以搜索数据子集
  • B 在Athena的设置中,调整DML查询超时限制
  • C 在服务配额控制台,请求将 DML 查询超时时间增加
  • D 将表格保存为压缩的.csv 文件
正确答案: C
解析: 最佳解决方案是通过服务配额控制台请求增加 DML 查询超时时间。这将确保数据分析师有足够的时间来运行查询,而不会超时。
Question #17 Topic 1

流式应用程序正在从亚马逊Kinesis Data Streams中读取数据,每10秒钟将数据写入一个亚马逊S3存储桶。应用程序正在读取数百个片段的数据。由于另一个要求,无法更改批处理间隔。数据由亚马逊Athena访问。随着时间推移,用户看到查询性能下降。哪个操作可以帮助提高查询性能?

  • A 将Amazon S3中的文件合并以形成更大的文件。
  • B 在Kinesis Data Streams中增加片段数量。
  • C 将更多的内存和CPU容量添加到流媒体应用程序中。
  • D 将文件写入多个S3存储桶
正确答案: A
解析: 合并Amazon S3中的文件以形成更大的文件可以帮助改善Amazon Athena中的查询性能。通过将较小的文件合并成较大的文件,可以减少查询过程中需要执行的文件扫描次数,从而提高性能。
Question #18 Topic 1

一家金融公司使用Amazon S3作为其数据湖,并使用多节点Amazon Redshift集群设置了一个数据仓库。数据湖中的数据文件根据每个数据文件的来源组织在文件夹中。对于每个数据文件位置,使用单独的COPY命令将所有数据文件加载到Amazon Redshift集群中的一个表中。采用这种方法后,将所有数据文件加载到Amazon Redshift所需的时间较长。用户希望有一个更快的解决方案,同时费用不会增加,且能保持S3数据湖中数据文件的隔离。哪种解决方案符合这些要求?

  • A 使用Amazon EMR将所有数据文件复制到同一个文件夹中,然后使用COPY命令将数据加载到Amazon Redshift中。
  • B 将所有数据文件并行加载到亚马逊 Aurora,并运行 AWS Glue 作业将数据加载到亚马逊 Redshift 中。
  • C 使用AWS Glue作业将所有数据文件复制到同一文件夹中,并使用COPY命令将数据加载到Amazon Redshift中。
  • D 创建一个包含数据文件位置的清单文件,并使用COPY命令将数据加载到Amazon Redshift中。
正确答案: D
解析: 创建包含数据文件位置的清单文件并发出COPY命令将数据加载到Amazon Redshift中是最佳解决方案。该方法可以实现更快的数据加载,因为清单文件提供了所有数据文件位置的列表,消除了每个文件单独COPY命令的需求。此外,它还可以保持S3数据湖中数据文件的隔离。
Question #19 Topic 1

一家保险公司拥有以JSON格式发送的未经预设时间表的原始数据,通过Amazon Kinesis Data Firehose传输流将其发送到Amazon S3存储桶。AWS Glue爬虫计划每8小时运行一次,以更新存储在S3存储桶中的表的数据目录中的模式。数据分析师在Amazon EMR上使用AWS Glue Data Catalog作为 metastore分析数据。数据分析师表示,偶尔他们收到的数据过时。数据工程师需要提供访问最 up-to-date 数据的方法。这个解决方案符合这些要求吗?

  • A 在现有的Amazon Redshift集群上,根据AWS Glue Data Catalog创建一个外部模式,以查询Amazon S3中的新数据并使用Amazon Redshift Spectrum进行查询。
  • B 使用(1小时)速率表达式在AWS Glue爬虫中执行亚马逊云观察事件。
  • C 使用AWS CLI,将AWS Glue爬虫的执行计划从8小时修改为1分钟。
  • D 在 S3 存储桶上触发 ObjectCreated:* S3 事件通知的 AWS Lambda 函数中运行 AWS Glue 爬虫程序。
正确答案: D
解析: 将AWS Glue Crawler从由S3桶的S3:ObjectCreated:*事件通知触发的AWS Lambda函数中运行将提供最新的数据。通过在S3桶中创建新对象时触发AWS Glue Crawler,可以立即更新数据目录中的模式,确保分析师可以访问最新的数据。
Question #20 Topic 1

一家公司目前使用Amazon Athena查询其全球数据。区域数据存储在us-east-1和us-west-2地区的美洲S3中。数据未加密。为了简化查询过程并集中管理,该公司希望在美国西二区使用Athena查询两个区域中的Amazon S3数据。解决方案应尽可能低廉。那么公司应该采取什么措施来实现这个目标呢?

  • A 使用AWS DMS将AWS Glue Data Catalog从us-east-1迁移到us-west-2。在us-west-2中运行Athena查询。
  • B 在美国西海岸2区运行AWS Glue爬虫,以爬取所有区域的dataset。数据爬取完成后,在us-west-2运行Athena查询。
  • C 啟用 S3 bucket 在 us-east-1 中進行跨區域複製,以在 us-west-2 中複製數據。一旦數據在 us-west-2 中複製完成,就在 us-west-2 中的 AWS Glue 爬蟲中運行 AWS Glue 數據目录,並運行 Athena 查詢。
  • D . 更新AWS Glue资源策略以提供us-east-1 AWS Glue Data Catalog对us-west-2的访问权限. 一旦us-west-2的数据库拥有了us-east-1中的目录访问权限,就在us-west-2中运行Athena查询.
正确答案: C
解析: 公司应该启用us-east-1中的S3存储桶的跨区域复制,将数据复制到us-west-2中。一旦数据在us-west-2中复制完成,他们应该运行AWS Glue爬虫更新us-west-2中的AWS Glue数据目录并运行Athena查询。此方法允许集中管理和查询来自两个区域的数据,同时最大程度地降低成本。