一家农业公司对在100英亩的草地上使用机器学习来检测特定类型的杂草感兴趣。目前,公司使用拖拉机安装的摄像头来捕捉该场地的多张图片,每10到10网格。公司还有一个大的训练数据 Pool,其中包括标注了受欢迎杂草类别的图像,如 broadleaf 和 non-broadleaf docks。公司希望建立一个能检测特定杂草类型及其在场地内位置的杂草检测模型。一旦模型准备就绪,它将托管在Amazon SageMaker端点上。该模型将使用摄像头捕获的图像进行实时推理。那么,一位机器学习专家应该采取哪种方法来获得准确的预测呢?
数据科学家使用Amazon SageMaker笔记本实例进行数据探索和分析。这需要在笔记本实例上安装Amazon SageMaker上本机不可用的某些Python包。机器学习专家如何确保笔记本实例上自动提供所需的软件包供数据科学家使用?
汽车发动机制造商在汽车行驶时收集汽车数据。收集的数据包括时间戳、发动机温度、每分钟转数(RPM)和其他传感器读数。该公司希望预测发动机何时会出现故障,以便提前通知驾驶员进行发动机维修。引擎数据被加载到数据湖中进行训练。哪种预测模型最适合用于生产?
一家信用卡公司希望建立一个信用评分模型,以帮助预测新的信用卡申请人是否会拖欠信用卡付款。该公司从大量来源收集了数千种原始属性的数据。早期训练分类模型的实验表明,许多属性高度相关,大量特征显著降低了训练速度,并且存在一些过度拟合问题。该项目的数据科学家希望在不丢失原始数据集的大量信息的情况下加快模型训练时间。数据科学家应该使用哪种特征工程技术来实现目标?
一家制造公司将结构化和非结构化数据存储在Amazon S3存储桶中。机器学习专家希望使用SQL对该数据运行查询。哪种解决方案需要最少的努力才能查询此数据?