练习 7a:您的问题,公式为机器学习问题
写下或点击自己认为最适合您的问题的技术解决方案对应的复选框。您的问题最好采用如下表述:
二元分类
单维回归
多类别单标签分类
多类别多标签分类
多维回归
聚类(不受监管)
其他
它会预测:
练习 7b:将问题视为较为简单的问题
刚开始使用时,更简单的公式编写更容易推断和实现。接受给定问题并将其声明为二元分类和/或单向回归问题(或同时采用两者)。
练习 8:为模型设计数据
写入您希望机器学习模型用于进行预测的数据。
取得成功的建议
一行表示一条数据,且需要基于此数据做出一项预测。
仅添加进行预测时可用的信息。
每个输入可以是标量或一维的整数、浮点数或字节列表(包括字符串)。
如果输入的结构与标量或一维列表不同,您可能需要考虑这是否是您的数据的最佳表示形式。例如:
如果某个单元格在 1D 列表中表示两个或多个语义不同的内容,您可能需要将它们拆分为单独的输入。
如果单元格表示嵌套协议缓冲区,您可能希望展平嵌套协议缓冲区的每个字段。
例外情况:音频、图片和视频数据,其中单元格是字节 blob。
练习 9:数据来源
记下每个输入的来源。评估开发一行数据流水线来构建每一行的工作量。
取得成功的建议
示例输出何时可用于训练?
如果示例输出难以获取,您可能需要重新查看练习 5(使用输出),并检查是否可以为模型使用不同的输出。
确保输入(预测结果除外)的所有输入(预测时)都与您要记下的格式完全一致(在进行预测时)。
如果难以在投放时获取完全相同的格式的所有输入,您可能需要重新查看练习 8(为模型设计数据)以重新考虑输入,或练习 5 以在可投放广告时重新考虑输入。
练习 10:轻松获取的输入数据
在练习 8 中列出的输入中,选择 1-3 个易于获得的输入,您认为这些输入可以产生合理的初始结果。
取得成功的建议
在练习 6 中,您列出了一组可以使用的启发法。哪些输入有助于实现这些启发法?
开发用于准备数据输入的数据流水线的工程成本,以及在模型中使用每个输入的预期好处。
重点介绍可以通过简单的流水线从单个系统获取的输入。建议刚开始时使用尽可能少的基础架构。
点击下面的按钮可打印回复或将其保存为 .pdf。
打印页面