一家技术初创公司正在使用复杂的深度神经网络和GPU计算,根据每个客户的习惯和互动向现有客户推荐公司的产品。该解决方案目前从Amazon S3存储桶中提取每个数据集,然后将数据加载到TensorFlow模型中,该模型从该公司在本地运行的Git存储库中提取。然后,该作业运行数小时,同时不断将其进度输出到同一个S3存储桶。在发生故障时,作业可以随时暂停、重新启动和继续,并从中央队列运行。高级管理人员担心解决方案资源管理的复杂性以及定期重复该过程所涉及的成本。他们要求工作量自动化,以便每周运行一次,从周一开始,到周五结束工作。应使用哪种体系结构以最低成本扩展解决方案?
一家游戏公司推出了一款在线游戏,人们可以开始免费玩,但如果他们选择使用某些功能,则需要付费。该公司需要建立一个自动化系统,以预测新用户是否会在1年内成为付费用户。该公司从100万用户中收集了一个标记数据集。培训数据集由1000个阳性样本(来自1年内付费的用户)和999000个阴性样本(来自未使用任何付费功能的用户)组成。每个数据样本包含200个特征,包括用户年龄、设备、位置和游戏模式。使用该数据集进行训练,数据科学团队训练了一个随机森林模型,该模型在训练集上的收敛精度超过99%。然而,测试数据集的预测结果并不令人满意数据科学团队应采取以下哪种方法来缓解此问题?(选择两个。)
一家零售公司在营销活动中使用Amazon Personalize为客户提供个性化产品推荐。该公司发现,在部署新的解决方案版本后,立即向现有客户推荐的产品的销售额显著增加,但这些销售额在部署后很短时间内就会减少。只有营销活动之前的历史数据可用于培训。数据科学家应该如何调整解决方案?
一位机器学习专家正在与一家大公司合作,在其产品中利用机器学习。该公司希望根据客户在未来6个月内是否会流失,将其客户分类。公司已为专家提供的数据贴上标签。专家应该使用哪种机器学习模型来完成此任务?
一家保险公司正在为车辆开发一种新设备,该设备使用摄像头来观察驾驶员的行为,并在他们出现分心时提醒他们。该公司在受控环境中创建了大约10000张训练图像,机器学习专家将使用这些图像来训练和评估机器学习模型。在模型评估过程中,专家注意到,训练错误率随着时间段的数量增加而降低得更快,并且模型没有准确地推断出看不见的测试图像。应使用以下哪项解决此问题?(选择两个。)