liukecun0 2020-08-03
本文转载自公众号“读芯术”(ID:AI_Discovery)。
在创建具有重大意义的项目时,我会记录所有在其他人身上学到的以及自己在工作中领悟到的东西。这对我来说是必须的,因为需要处理一个项目中的许多内容(争论、准备、问题、模型、微调等等),这容易让人忘记一些事情。
任务列表能指导开发人员完成下一步,促使你检查每个任务是否已成功执行。有时候,我们很难找到出发点,任务表也可帮助开发人员从正确的来源中获取正确的信息(数据),以便建立关系并揭示相关的见解。
最好的做法是让项目的每一部分都经过检查。正如阿图·葛文德在其《清单革命》(The Checklist Manifesto)中所说:“我们所知事物的数量和其复杂性已经超过了我们能正确、安全、可靠地传达其优点的能力范畴。”
所以,看看这个简洁明了的项目任务表,它将帮你减少工作量,提高产出!
机器学习项目清单
在几乎每个机器学习项目中都必须执行8-10个步骤,其中一些步骤可以按顺序交替执行。
1. 从高层次的角度定义问题
为了理解和阐明问题的业务逻辑,任务表应该告知:
2. 识别数据源并获取数据
在大多数情况下,如果拥有数据,并且希望定义相关问题以更好地利用传入的数据,可以在第一步之前执行此步骤。
基于问题的定义,我们需要确定数据的来源,可以是数据库、数据存储库、传感器等。对于要在生产中部署的应用程序,需通过开发数据管道来自动执行此步骤,以保持传入数据流入系统。
图源:unsplash
3. 数据的初步探索
在这一步骤中会发现所有对研究结果、预测以及目标有影响的数据特征。如果你有一个巨大的数据块,在该步骤中对其进行抽样,使分析更易于管理。应遵循以下步骤:
4. 探索性数据分析,以准备数据
是时候通过定义用于数据转换、清理、特征选择/设计和缩放的函数来执行前一步的发现了。
5. 开发一个基准模型并探索其他模型以筛选最佳模型
创建一个非常基础的模型,作为所有其他复杂机器学习模型的基线。按照以下步骤:
6. 微调入围模型,检查集成方法
这是关键步骤之一,在此步骤中将更接近最终解决方案。主要步骤应包括:
7. 记录代码并传达解决方案
沟通的过程是多方面的,请时刻牢记所有现有的和潜在的利益相关者。主要步骤包括:
8. 在生产中部署模型和监视器
如果项目需要在实时数据上测试部署,应该创建一个web应用程序或REST API,以便在所有平台(web、android、iOS)上使用。主要步骤(因项目而异)包括: