一家航空公司已经收集了飞行活动的指标来进行分析。一个最近完成的证明概念展示了公司如何向数据分析师提供洞察,以提高及时出发。这个证明概念使用了Amazon S3中的对象,其中包含了以CSV格式存储的指标itored。它还使用了Amazon Athena进行查询数据。随着数据量的增加,数据分析师希望优化存储解决方案,以提高查询性能。随着数据湖的增长,数据分析师应该使用哪些选项来提高性能?(选择三个。)
一家大型金融公司正在运行其ETL过程。这个过程的一部分是将数据从亚马逊S3移动到亚马逊Redshift集群。公司希望使用最经济高效的方法将数据集加载到亚马逊Redshift中。根据要求,以下步骤的组合可以满足这些要求?(选择两个。)
一家智能家居自动化公司必须有效地摄取和处理来自各种连接设备和传感器的消息。大多数这些消息都是由大量小型文件组成的。这些消息使用Amazon Kinesis Data Streams ingest,并通过Kinesis数据流消费者应用程序发送到Amazon S3。然后,Amazon S3消息数据通过在Amazon EMR上运行的预定的PySpark作业的加工流程传递。数据平台团队负责数据处理,他们关心下游数据处理的效率和成本。他们希望继续使用PySpark。这个解决方案如何提高数据处理作业的效率并具有很好的架构?
一家媒体分析公司消耗来自社交媒体的一流。这些帖子被发送到根据用户ID分割的亚马逊Kinesis数据流。在AWSLambda函数加载帖子之前,它验证了帖子内容。验证过程需要按照帖子被Kinesis数据流接收的顺序接收帖子。在高峰时段,社交媒体帖子需要超过一个小时才能出现在亚马逊OpenSearch服务(Amazon ES)集群中。一位数据分析师必须实现一个解决方案,以尽量减少操作开销来降低延迟。哪个解决方案符合这些要求?
一家公司在其亚马逊S3中存储了100万张已扫描的文档作为图像文件。这些文档包括包括申请人姓名、申请人姓氏、申请日期、申请类型和申请文本的打印申请表。公司已经开发了一个机器学习算法,用于从扫描文档中提取元数据值。公司希望允许内部数据分析师使用申请人姓名、申请日期或申请文本查找应用程序。原始图像也应该可下载。成本控制在查询性能方面是次要的。哪个解决方案能组织图像和元数据,以驱动洞察,同时满足要求?