17 Introduction

关于假设生成和假设验证,原文有一些表述。

通常来说,建模的重点在于推断或验证假设是否为真。为了正确进行推断,你必须明确以下两点:

  • 每个观测都可以用于数据探索,也可以用于假设验证,但不能同时在二者中使用(否则就是自证了)。

  • 在进行数据探索时,一个观测可以使用任意多次,但进行假设验证时,一个观测只能使用一次。一旦使用两次观测,假设验证就会变成数据探索。

如果想要严肃认真地进行验证性分析,一种方法是在进行分析前将数据分成 3 个部分(6-2-2):

  • 将60%的数据作为训练集,或称探索集。你可以对这部分数据进行任意操作,比如可视化,或者用数据拟合多个模型。

  • 将20%的数据作为查询集。你可以使用这部分数据来比较模型或者进行手动可视化,但不能将其用于自动化过程。

  • 将20%的数据留作测试集。这部分数据只能使用一次,用于测试最终模型。