首页 今日热点 好文分享 生活资讯 科技资讯

全新商业预测模型-击败了华尔街分析师

时间:2020-01-09 17:09 来源:网络 整理:紫沐兜 浏览:152

研究人员描述了一种预测财务状况的模型,该模型仅使用匿名的每周信用卡交易和三个月的收入报告。该模型的任务是预测30多家公司的季度收入,其对57%的预测的表现优于华尔街分析师的综合估计。

商业预测模型

了解公司的真实销售额可以帮助确定其价值。例如,投资者经常聘请财务分析师使用各种公共数据,计算工具和自己的直觉来预测公司的即将来临的收益。现在,麻省理工学院的研究人员已经开发出一种自动化模型,该模型使用非常有限的“嘈杂”数据在预测业务销售方面的性能大大优于人类。

在金融领域,人们越来越关注使用不精确但经常生成的消费者数据(称为“替代数据”)来帮助预测公司用于贸易和投资目的的收益。替代数据可以包括信用卡购买,来自智能手机的位置数据,甚至是显示零售商手中停着多少辆汽车的卫星图像。将替代数据与更传统但不常见的真实财务数据(例如季度收入,新闻稿和股票价格)相结合,甚至可以每天或每周对公司的财务状况进行更清晰的描绘。

但是,到目前为止,使用替代数据来获得准确,频繁的估算非常困难。在本周于ACM Sigmetrics会议论文集上发表的一篇论文中,研究人员描述了一种仅使用匿名的每周信用卡交易和三个月的收入报告的财务预测模型。

该模型的任务是预测30多家公司的季度收入,其对57%的预测的表现优于华尔街分析师的综合估计。值得注意的是,分析人员可以访问任何可用的私有或公共数据以及其他机器学习模型,而研究人员的模型使用的是这两种数据类型的非常小的数据集。

信息与决策系统实验室(LIDS)的博士后第一作者迈克尔·弗莱德(Michael Fleder)说:“替代数据是这些怪异的代理信号,有助于跟踪公司的基本财务状况。” “我们问,'您能否将这些嘈杂的信号与季度数字结合起来,以高频率估算公司的真实财务状况?' 结果答案是肯定的。”

该模型可以为希望经常将其销售与竞争对手进行比较的投资者,交易商或公司提供优势。除了金融以外,该模型还可以帮助社会和政治科学家研究公共行为的匿名匿名数据。“对于想弄清楚人们在做什么的人,这将很有用。”弗莱德说。

EECS教授Devavrat Shah与弗莱德同行,他是麻省理工学院统计与数据科学中心主任,信息与决策系统实验室成员,麻省理工学院数据科学基础研究所首席研究员和助剂。塔塔基础研究学院教授。

解决“小数据”问题

不管好坏,很多消费者数据都在出售中。例如,零售商可以购买信用卡交易或位置数据,以查看有多少人在竞争对手那里购物。广告商可以使用数据来查看其广告如何影响销售。但是,获得这些答案仍然主要取决于人类。没有机器学习模型能够充分计算数字。

违反直觉,问题实际上是数据不足。每个财务输入(例如季度报告或每周信用卡总计)仅是一个数字。两年中的季度报告总共只有八个数据点。例如,同一时期内每周的信用卡数据大约只有100个“嘈杂”数据点,这意味着它们包含潜在的无法解释的信息。

“我们有一个'小数据'问题,”弗莱德说。“您只能从人们的支出中得到一小部分,而且您必须从那部分数据中推断并推断出实际情况。”

对于他们的工作,研究人员从对冲基金获得了消费者信用卡交易(通常每周一次和每两周一次)以及2015年至2018年的34家零售商的季度报告。在所有公司中,他们总共收集了306个季度的数据。

计算每日销售额在概念上非常简单。该模型假设公司的日销售额保持相似,从一天到第二天仅略有减少或增加。从数学上讲,这意味着连续几天的销售价值乘以某个常数值再加上一些统计噪声值-这可以捕获公司销售中的某些固有随机性。例如,明天的销售额等于今天的销售额乘以0.998或1.01,再加上估计的噪声数量。

如果为每日常数和噪声水平提供了准确的模型参数,则标准推理算法可以计算该方程式,以输出准确的每日销售额预测。但是诀窍是计算这些参数。

解开数字

那是季度报告和概率技术派上用场的地方。在一个简单的世界中,季度报告可以除以90天来计算每日销售额(这意味着每天的销售额大致保持不变)。实际上,销售每天都在变化。此外,包括其他数据以帮助了解销售在一个季度中如何变化,这使事情变得复杂:除了嘈杂之外,购买的信用卡数据始终占总销售额的不确定部分。所有这些使得很难知道信用卡总数是如何准确地计入总体销售估算的。

弗莱德说:“这需要弄清楚数字。” “如果我们通过信用卡交易观察到公司每周销售额的1%,我们怎么知道这是1%?而且,如果信用卡数据很嘈杂,您怎么知道它有多吵?我们无法访问每日或每周销售总额的基本事实。但是季度总额有助于我们对这些总额进行推理。”

为此,研究人员使用了称为卡尔曼滤波或置信传播的标准推理算法的变体,该算法已用于从航天飞机到智能手机GPS的各种技术中。卡尔曼滤波使用随时间观察到的数据测量值(包含噪声不准确度)来生成指定时间范围内未知变量的概率分布。在研究人员的工作中,这意味着估计一天的可能销售额。

为了训练模型,该技术首先将季度销售额细分为一定的测量天数,例如90天,从而使销售额每天变化。然后,它将观察到的嘈杂的信用卡数据与未知的每日销售额进行匹配。使用季度数字和一些推断,它可以估算信用卡数据可能代表的总销售额中的一部分。然后,它会计算每天观察到的销售额的百分比,噪音水平以及做出预测的误差估计。

推理算法将所有这些值插入公式中,以预测每日销售总额。然后,可以对这些总数求和以得到每周,每月或每季度的数字。在所有34家公司中,该模型均超过了306个季度预测的57.2%的共识基准,该基准结合了华尔街分析师的估计。

接下来,研究人员正在设计该模型,以分析信用卡交易和其他替代数据(例如位置信息)的组合。

顶: 0 踩: 0