但您可以将其复制并粘贴为值到另一个工作

Exchange insights, tools, and strategies for canada dataset.
Post Reply
Joywtome231
Posts: 626
Joined: Sun Dec 22, 2024 4:00 am

但您可以将其复制并粘贴为值到另一个工作

Post by Joywtome231 »

您需要至少 24 个月的数据,模型才能很好地了解季节性。(如果您的历史数据中只有一个 1 月,并且这是一个流量高峰,我怎么知道这是一次性事件还是年度事件?)
您需要完整的月份。因此,如果您阅读本文时是 2021 年 3 月 25 日,则应包括的最后一个月的数据是 2021 年 2 月。
确保您还删除了 B 列中示例数据的所有剩余部分。

输出
完成后,您可以转到“输出”选项卡,您将看到如下内容:


C 列可能是您感兴趣的。请记住,这里充满了公式,表中,或者直接转到文件 > 下载 > 逗号分隔值以获取原始数据。

您会注意到,默认情况下,我在该图表中仅显示 15 个月的预测,我建议您也这样做。正如我上面提到的,预测的隐含假设是历史背景会延续,除非您明确将 COVID 封锁等变化情景纳入模型(稍后会详细介绍!)。这一假设在未来两三年内成立的可能性很低,因此即使我提供了更远未来的预测值,您也应该记住这一点。

所示的上限和下限是 95% 的置信区间——同样,如果您愿意的话,您可以在我之前的帖子中回顾一下这意味着什么。

高级用例
您现在可能已经注意到了“高级”选项卡:


尽管我说过我想让这一点保持简单,但我觉得考虑到 2020 年发生的一切,许多人需要将主要的外部因素纳入他们的模型中。

在上面的例子中,我在 B 列中填写了一个变量,表示英国是否处于 COVID 封锁状态。我使用“0.5”来表示我们在 3 月中旬进入封锁状态。

您可能可以更好地了解与您的业务相关的因素,但在使用此选项卡时需要记住一些重要事项:

如果您不想添加这些额外的变量,可以完全不改变它。
从左到右 — 如果使用 B 列,则可以将 C 列留空,但如果使用 C 列,则不能将 B 列留空。
如果您使用“虚拟”变量(例如“1”表示某些事物处于活动状态),则需要确保在其他单元格中至少在历史数据期间填写 0。
您可以输入未来的值 — — 例如,如果您预测 2021 年 3 月会出现 COVID 封锁(你这个混蛋!),您可以在该单元格中输入一些内容,以便将其纳入预测中。
如果您不输入未来值,模型将根据未来该数字为零进行预测。因此,如果您输入“品牌 PPC 活跃”作为历史数据的虚拟变量,然后将其留空作为未来期间的数据,模型将假设您未来已关闭品牌 PPC。
在这里添加太多历史时期太少的数据将导致所谓的“过度拟合”——我不想详 阿塞拜疆 手机号码数据 细讨论这个问题,这就是为什么这个选项卡被称为“高级”,但尽量不要太过分。
以下是此选项卡的一些示例用例,供您考虑:

输入品牌 PPC 是否处于活动状态(0 或 1)
输入您是否正在投放电视广告
进入新冠疫情封锁状态
输入对您的业务而言重要的算法更新(每个更新一列)
为什么我的估算结果与旧工具不同?其中一个是错误的吗?
此模板与我的旧工具在方法上有两个主要区别:

旧工具使用了 Google 的Causal Impact库,新模板使用了普通最小二乘回归。
旧工具使用时间段的平方作为预测变量(例如,月份 1 = 1、月份 2 = 4、月份 3 = 9 等)并尝试将流量曲线拟合到该曲线,从而捕获非线性趋势。这称为二次回归。新工具通过将每个时间段拟合为前一个时间段的倍数来捕获非线性趋势(例如,月份 1 = X * 月份 2,其中 X 可以是任意值)。这称为AR(1) 模型。
如果您发现两者之间的预测值存在显著差异,那么几乎肯定是第二个原因,虽然它增加了一点复杂性,但在绝大多数情况下,新技术更加现实和灵活。

在出现严重下降趋势的情况下,预测零流量或负流量的可能性也小得多,这是很好的。
Post Reply