导航菜单

在预测企业财务方面 模型胜过华尔街分析师

了解一家公司的真实销售额有助于确定其价值。例如,投资者经常雇用财务分析师,利用各种公开数据、计算工具和自己的直觉来预测公司即将出现的收益。现在,麻省理工学院的研究人员开发了一种自动化模型,在使用非常有限的、“嘈杂”的数据预测商业销售额方面明显优于人类。

在金融领域,人们越来越感兴趣的是使用不精确但经常生成的消费者数据--称为“替代数据”--来帮助预测一家公司用于交易和投资的收益。替代数据可以包括信用卡购买、智能手机的位置数据,甚至卫星图像,显示有多少辆汽车停在零售商的停车场。将替代数据与更为传统但不常见的数据结合起来--真实的财务数据--比如季度收益、新闻稿和股价--甚至可以在每天或每周的基础上,更清晰地描述公司的财务状况。

但是,到目前为止,使用替代数据获得准确、频繁的估计是非常困难的。在本周发表在ACMSigmetricsConference的一篇论文中,研究人员描述了一种预测财务的模型,该模型只使用匿名的每周信用卡交易和三个月的收益报告。

该模型的任务是预测30多家公司的季度收益,在57%的预测中,该模型的表现超过了华尔街专家分析师的综合预测。值得注意的是,分析人员可以访问任何可用的私有或公共数据以及其他机器学习模型,而研究人员的模型则使用这两种数据类型的非常小的数据集。

“替代数据是这些奇怪的代理信号,帮助跟踪公司的基本财务状况,”第一作者迈克尔·弗莱德说,他是信息和决策系统实验室(LID)的博士后。“我们问,‘你能把这些嘈杂的信号和季度数字结合起来,来估计一家公司的真实财务状况吗?’结果是肯定的。”

这种模式可能会给投资者、交易员或公司带来优势,因为他们希望经常将自己的销售额与竞争对手进行比较。除了金融,该模型可以帮助社会和政治学家,例如,研究关于公共行为的汇总匿名数据。“这对任何想知道人们在做什么的人来说都是有用的,”弗莱德说。

参加论文的还有EECS教授Devavrat Shah,他是麻省理工学院统计和数据科学中心主任、信息和决策系统实验室成员、麻省理工学院数据科学基础研究所首席研究员和塔塔基础研究学院兼职教授。

解决“小数据”问题

不管是好是坏,很多消费者数据都是待售的。例如,零售商可以购买信用卡交易或位置数据,看看有多少人在竞争对手那里购物。广告商可以利用这些数据来了解他们的广告对销售的影响。但得到这些答案仍然主要依赖于人类。没有一个机器学习模型能够充分地处理这些数字。

相反,问题实际上是缺乏数据。每个财政投入,如季度报告或每周信用卡总额,只是一个数字。两年内的季度报告总共只有8个数据点。比方说,同一时期每周的信用卡数据只有大约100个“噪音”数据点,这意味着它们包含可能无法解释的信息。

“我们有一个‘小数据’的问题,”弗莱德说。“你只得到人们支出的一小部分,你必须从这一小部分数据中推断出到底发生了什么。”

在他们的工作中,研究人员从一家对冲基金获得了消费者信用卡交易(通常每周和每两周一次),以及2015年至2018年34家零售商的季度报告。在所有的公司中,他们总共收集了306个季度的数据。

计算日销售额在概念上相当简单。该模型假设一家公司的日销售额保持相似,一天一天只略有下降或增加。从数学上讲,这意味着连续几天的销售值乘以一些恒定值加上一些统计噪声值--这反映了公司销售中固有的一些随机性。例如,明天的销售额等于今天的销售额乘以0.998或1.01,加上噪音的估计数。

如果给定精确的模型参数来表示日常数和噪声水平,那么标准的推理算法就可以计算出该方程,从而准确地预测日销售额。但诀窍是计算这些参数。

解开数字

这就是季度报告和概率技术派上用场的地方。在一个简单的世界里,一份季度报告可以除以90天来计算日销售额(这意味着销售额几乎每天都是不变的)。在现实中,销售每天不同。此外,还包括替代数据,以帮助理解四分之一以上的销售额是如何变化的:除了吵闹之外,购买的信用卡数据总是占总销售额的一些不确定的部分。所有这一切都使得很难知道信用卡总额是如何精确地计入总销售额估算的。

弗莱德说:“这需要稍微解开数字的纠结。”“如果我们通过信用卡交易来观察一家公司每周销售额的1%,我们怎么知道它是1%?如果信用卡数据很吵,你怎么知道它有多吵?我们无法了解每日或每周销售总额的真实情况。但季度数据有助于我们解释这些数据。”

为此,研究人员使用了标准推理算法的变化,称为卡尔曼滤波或信仰传播,该算法已用于从航天飞机到智能手机GPS的各种技术。卡尔曼滤波使用随时间观察到的数据测量,包含噪声不准确,以在指定的时间段内生成未知变量的概率分布。在研究人员的工作中,这意味着估计一天可能的销售额。

为了训练这种模式,这项技术首先将季度销售分解成一个固定的天数,比如90天--允许销售日与日之间的变化。然后,将观察到的、嘈杂的信用卡数据与未知的日销售额相匹配。利用季度数据和一些推断,它估计了信用卡数据可能代表的销售总额的比例。然后,计算每天观测到的销售额的分数、噪音水平,以及对其预测结果的误差估计。

推理算法将所有这些值插入公式中,以预测日销售额总额。然后,它可以将这些总数相加,得到每周、每月或季度的数字。在所有34家公司中,该模型在306份季度预测中占57.2%,超过了通用基准--该基准综合了华尔街分析师的估计。

接下来,研究人员正在设计该模型,以分析信用卡交易和其他替代数据(如位置信息)的组合。“这不是我们所能做的,这只是一个自然的起点,”弗莱德说。

进一步探索

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。