top of page
  • Instagram
  • X

经济的低语:美联储褐皮书中的文本情绪作为实时经济活动的同步指标

  • 作家相片: lx2158
    lx2158
  • 1月21日
  • 讀畢需時 15 分鐘
ree

本讨论旨在探究美联储《褐皮书》(Beige Book)的信息内涵。这是一份每年发布八次的经济状况定性摘要。我们通过运用自然语言处理技术,对自1970年至今的全部《褐皮书》存档文本进行分析,构建了一个量化的褐皮书情绪指数(BBSI)。该方法论基于一种基于词典的方法,为每份报告计算正面和负面情绪词汇的净差额。在将生成的时间序列进行标准化处理后,我们将其与实际国内生产总值(GDP)的同比增长率进行比较。分析结果揭示,BBSI与实际GDP增长之间存在着一种非常强劲且稳定的正相关关系。研究发现,这两个序列高度同步,该情绪指数几乎无延迟地捕捉了主要的经济转折点,包括样本期内每一次由NBER(美国国家经济研究局)定义的经济衰退。我们进行了分阶段稳定性测试,发现在截然不同的货币政策体系下——从前沃尔克时代到“大缓和”时期,再到后全球金融危机时代——这种关系都持续存在。这些发现表明,对《褐皮书》中的轶事证据进行系统性量化,可以为美国经济状况提供一个强大而稳健的实时指标。本文还讨论了这一发现对货币政策的启示,特别是在美联储历史上倾向于采取反应式政策立场,以及在应对新政治和财政体制带来的经济影响时所面临的挑战的背景下。


1. 引言


中央银行业务是在不确定性中航行的一项实践。美联储及其他机构的决策者们永远面临着一项挑战,即在经济状况描绘不完整且常常滞后的情况下制定货币政策。官方宏观经济数据,如国内生产总值(GDP)、通货膨胀和就业数据,均为滞后指标。例如,GDP数据每季度发布一次,不仅存在显著延迟,还需经过多次修订。这种信息上的真空意味着政策决策往往是“看着后视镜”做出的,这一困境被米尔顿·弗里德曼(Milton Friedman)的一个著名比喻所描述:一个在淋浴中的傻瓜,因为对水温变化反应太迟而不断地被烫伤或冻僵。

为了弥补这一信息鸿沟,美联储运用多种工具来把握经济的实时脉搏。其中最独特的工具之一是《各联邦储备区当前经济状况评论摘要》(Summary of Commentary on Current Economic Conditions by Federal Reserve District),俗称《褐皮书》(Beige Book)。该报告每年发布八次,大约在每次联邦公开市场委员会(FOMC)会议前两周发布。《褐皮书》对十二个联邦储备区的经济状况进行了定性总结。其信息汇编自一系列轶事来源——与商界人士的访谈、银行董事的报告以及市场专家的见解。虽然它不是一份统计文件,但其丰富性在于它能够捕捉到官方数据系列中可能尚未体现的基层实况、细微差别和前瞻性情绪。

几十年来,《褐皮书》的价值主要被认为是定性的。然而,计算语言学和自然语言处理(NLP)的出现,为从海量文本语料库中系统性地提取量化信号开辟了新前沿。本文提出了一个核心问题:能否将《褐皮书》中嵌入的轶事情绪量化,从而创建一个可靠且及时的美国经济活动指标?

我们对这个问题的回答是肯定的。通过构建一个跨越五十多年的褐皮书情绪指数(BBSI),我们证明了通过美联储各区域情报收集所捕捉到的经济“低语”并非仅仅是噪音。相反,它们构成了一个强有力的信号,与实际GDP的同比增长率高度同步。文章开头图表所呈现的视觉证据——描绘了标准化的BBSI和实际GDP增长——是惊人的。这两个序列以不可思议的精确度相互追踪,在经济扩张期同步上升,在衰退期急剧收缩。

本文的主要贡献在于严谨地记录和分析了这种关系。我们超越了视觉上的相关性,为其强度以及至关重要的跨时期稳定性提供了统计证据。我们发现,情绪与增长之间的关联是美国经济的一个持久特征,无论主流货币政策理念如何更迭——从1970年代的“走走停停”政策,到保罗·沃尔克(Paul Volcker)领导下的货币主义革命,再到艾伦·格林斯潘(Alan Greenspan)和本·伯南克(Ben Bernanke)时期的“大缓和”,以及2008年金融危机后非常规政策时代——这种关系都保持稳健。这种一致性表明,商业情绪的表达与宏观经济表现之间存在着根本性的联系。

最后,我们探讨了这些发现对于我们理解美联储政策职能的深远启示。如果美联储自身产出了一份能如此准确反映实时经济活动的文件,为何该机构常被描述为反应迟缓而非主动积极?我们认为,这些信息的存在并不会自动转化为先发制人的政策。FOMC的制度框架、平衡多重目标的任务授权,以及审慎地等待“硬”数据确认的意愿,共同促成了一种审慎、因而有时滞后的政策反应。我们认为,在一个不确定性加剧的时代,例如向一个可能带来颠覆性经济政策的新政治政府过渡时期,BBSI可以作为一个更为关键的实时评估工具,使得政策姿态能够更加灵活和明智。

本文结构如下。第2节回顾了经济学中文本分析以及先前关于《褐皮书》研究的相关文献。第3节详细介绍了构建褐皮书情绪指数和准备数据所使用的方法论。第4节展示了核心的实证分析,包括BBSI与GDP增长之间关系的统计检验,以及对这种关系跨时期稳定性的考察。第5节讨论了我们研究发现的理论基础及其对货币政策的更广泛启示。


2. 文献综述


本研究位于三个不同但相关的经济学文献流派的交汇点:货币政策中的信息挑战研究、文本分析在经济问题中的应用,以及对美联储《褐皮书》的专门学术探讨。


2.1. 信息、时滞与货币政策


在不确定性下执行政策的挑战,近一个世纪以来一直是货币经济学的基石。奈特(Knight,1921)首次对风险(可知的概率)和不确定性(不可知的概率)做出了关键区分。中央银行家们正是在不确定性的领域中运作。弗里德曼(Friedman,1961)的开创性工作将货币政策传导中的“长期且可变的时滞”概念形式化,他认为从政策行动到其对经济产生最终影响之间的时间是不可预测的,这使得积极干预的政策可能破坏稳定。这一观点强调了获取关于当前经济状况的及时准确信息至关重要。如果“认知时滞”——即认识到需要改变政策所需的时间——能够缩短,货币政策的整体有效性就能得到提升。

标准的宏观经济工具包依赖于国民收入和产品账户(NIPA)的季度数据以及就业和通胀的月度数据。正如罗默夫妇(Romer and Romer,1994)所言,美联储工作的一个关键部分是预测,因为政策必须基于经济的未来走向,而非其过去状况来制定。然而,这些预测的准确性是有限的,尤其是在经济转折点附近(Croushore,2011)。这促使学界寻找更高频率的数据和替代性指标,从每周初请失业金人数、采购经理人指数(PMIs)到收益率曲线利差等金融市场变量,这些都可以提供一个更即时的经济健康状况视图。我们的工作通过提出一个源自独特制度性来源的高频(每年八次)实时指标,为这一探索做出了贡献。


2.2. 文本作为经济学和金融学中的数据


经验经济学中的“文本革命”提供了一套新工具,用于衡量以前被认为无法量化的概念,如情绪、不确定性和政治两极分化。该领域的早期工作集中于新闻媒体。例如,泰特洛克(Tetlock,2007)的研究表明,《华尔街日报》某个特定专栏的悲观内容可以预测股市回报。贝克、布鲁姆和戴维斯(Baker, Bloom, and Davis,2016)通过统计报纸文章中同时包含经济、政策和不确定性这三个相关术语的频率,构建了他们极具影响力的经济政策不确定性(EPU)指数。

此后,这种方法被应用于各种各样的文件中。公司财务披露(如10-K文件)被用于分析和衡量公司层面的情绪和风险(Loughran and McDonald,2011)。中央银行家们自己的语言也受到了审视;FOMC会议的文字记录和纪要被用来预测政策决策,并衡量委员会内部的异议和不确定性(Hansen, McMahon, and Prat,2018)。这一系列文献的核心原则是,语言不仅仅是沟通的工具;它是一个丰富的数据源,反映了经济主体的信念、情绪和期望。我们的论文直接建立在这一传统之上,将这些技术应用于《褐皮书》的文本。


2.3. 以往关于《褐皮书》的研究


长期以来,《褐皮书》一直是经济学家们感兴趣的研究对象,他们试图理解美联储内部的信息收集过程。鲍尔克和彼得森(Balke and Petersen,2002)是首批尝试进行系统性量化的学者之一。他们通过手动阅读《褐皮书》,并根据所使用的定性语言为不同行业打分,创建了一个数值指数。他们发现,他们的指数对未来的经济活动具有显著的预测能力。

近年来,随着NLP技术的应用,量化过程得以自动化和标准化。阿米斯特德(Armistead,2018)使用了一种与我们精神相似的基于词典的方法,发现《褐皮书》情绪与州级经济指标之间存在很强的相关性。其他研究则使用了更复杂的机器学习模型,如主题建模,将文本分解为不同的经济主题,并追踪它们随时间的变化。

我们的研究在几个关键维度上扩展了这一文献。首先,通过构建一个涵盖自1970年以来《褐皮书》整个现代史的指数,我们为其情绪内容提供了迄今为止最长、最全面的视角。其次,我们明确关注情绪-增长关系的稳定性。虽然以前的研究已经证实了相关性的存在,但没有系统地测试这种相关性是一个稳定参数,还是会随着经济结构或政策体系的变化而变化。这对决策者来说是一个至关重要的问题,因为任何指标的可靠性都取决于其稳定性。最后,我们利用我们的发现直接参与关于美联储政策立场的更广泛辩论,将《褐皮书》的信息内涵与长期以来对美联储作为一个反应迟缓机构的批评联系起来。


3. 数据与方法论


本文的实证核心在于构建一个新的时间序列——褐皮书情绪指数(BBSI),并将其与已有的宏观经济数据进行比较。本节详细介绍了数据来源以及创建和分析BBSI所采取的方法步骤。


3.1. 数据来源


  • 《褐皮书》档案库:主要的文本语料库包括美联储《褐皮书》的所有全国摘要部分。我们收集了从1970年首份可用报告到最新报告的每一份报告的数字文本。其发布频率稳定在每年八次。文本直接来源于美联储理事会和圣路易斯联邦储备银行的档案库。

  • 实际GDP数据:实际GDP同比增长率数据来自美国经济分析局(BEA),通过由圣路易斯联邦储备银行维护的联邦储备经济数据(FRED)数据库获取。为与每年八次的《褐皮书》发布日期进行更精确的对齐,我们将季度GDP序列插值为月度频率。

  • 经济衰退指标:美国的官方商业周期顶点和谷底日期来自美国国家经济研究局(NBER)的商业周期测定委员会。这些日期在我们的图表分析中用于标示经济衰退期。

  • 情绪词典:情绪分析依赖于一个公认的词汇列表。我们使用了Loughran和McDonald(2011)的金融情绪词典,该词典专为分析经济和金融文本而开发。它将词汇分为“正面”、“负面”、“不确定性”等类别。在本分析中,我们主要关注正面和负面词汇列表。


3.2. 构建褐皮书情绪指数(BBSI)


将《褐皮书》报告的定性文本转换为定量时间序列的过程,涉及计算语言学中常见的几个步骤。

第1步:文本预处理。

对于每一份《褐皮书》报告,我们都对其全国摘要文本进行处理,以便进行分析。这包括:

  • 将所有文本转换为小写,以确保词频统计的一致性。

  • 移除标点符号、特殊字符和数字。

  • 分词(Tokenization):将文本分割成单个词汇(tokens)的列表。

  • 移除“停用词”(stop words):使用标准的停用词列表,移除那些不携带情感内容的常用词(如“the”、“and”、“is”)。

第2步:情绪评分。

预处理后,我们应用基于词典的情绪评分方法。对于每份报告的文本,我们统计其中出现在我们选定词典中“正面”列表和“负面”列表的词汇总数。设 P_t 为在时间 t 的《褐皮书》报告中正面词汇的数量,设 N_t 为负面词汇的数量。

每份报告的原始情绪得分计算为净情绪差额,并通过情绪词汇总数进行归一化,以控制报告长度的变化。这样产生的分数界于-1(完全负面)和+1(完全正面)之间。在时间 t 的情绪得分 S_t 的公式为:

S_t = (P_t - N_t) / (P_t + N_t)

这个公式为每份报告的主流基调提供了一个简单、透明且可复制的度量。正值表示乐观语言占主导,而负值则表示悲观语言占主导。

第3步:时间序列的创建与标准化。

对每年八份《褐皮书》报告分别计算情绪得分 S_t,从而创建一个新的时间序列,即BBSI。为了便于与实际GDP增长序列进行直接比较(如引言图表所示),必须将两个序列转换到同一尺度上。我们通过对每个序列进行标准化来实现这一点。

标准化,也称为计算z-score,将一个数据点转换为它距离序列历史均值的标准差倍数。对于时间序列 X 中的任意给定数据点 x_t,其标准化值 Z_t 的计算公式为:

Z_t = (x_t - μ_X) / σ_X

其中:

  • μ_X 是时间序列 X 的全样本历史均值。

  • σ_X 是时间序列 X 的全样本历史标准差。

此过程独立地应用于BBSI时间序列和实际GDP同比增长率序列。由此产生的标准化序列代表“与历史平均水平的标准差”,从而能够在视觉和统计上对它们的相对变动进行有意义的比较,而不受其原始单位和波动性差异的影响。


4. 实证分析与结果


本节展示了该研究的核心实证发现。我们首先对标准化的褐皮书情绪指数(BBSI)与实际GDP增长之间的关系进行详细的视觉考察。然后,我们进行更正式的统计分析,以量化这种关系的强度、时间同步性以及稳定性。


4.1. 视觉分析


本文开篇展示的图表是主要的启发性证据。它绘制了从1970年至今标准化的BBSI与标准化的实际GDP同比增长率。几个特征立即显现,并值得讨论。

  • 强烈的正相关性:最引人注目的特征是两个序列之间极高的协同运动程度。它们在经济扩张期一同上升,在收缩期一同下降。情绪的峰值和谷底几乎与经济增长的峰值和谷底完美对齐。这一视觉证据强烈表明,当系统性地衡量美联储商业联系人所表达的总体情绪时,它是宏观经济表现的一个强有力的代理指标。

  • 同步性:BBSI似乎不是一个显著的领先或滞后指标。更确切地说,它最好被描述为一个同步指标。BBSI的转折点几乎与GDP增长的转折点在同一时间发生。这是一个宝贵的属性。虽然领先指标因其预测能力而备受珍视,但同步指标对于“即时预测”(now-casting)至关重要——即提供对经济当前状况的实时评估,而官方GDP数据只能在相当大的延迟后才能做到这一点。

  • 在经济衰退期间的表现:图表中的阴影垂直条表示由NBER定义的经济衰退。在过去50年的每一次衰退事件中——包括1980年代初期的双底衰退、1990年代初期的温和衰退、互联网泡沫破灭、2008-2009年的大衰退以及2020年的COVID-19冲击——BBSI都与实际GDP同步大幅下跌。该指数正确并迅速地识别了样本期内的每一个主要经济下行期,突显了其作为经济困境实时晴雨表的可靠性。在这些时期,两个序列下跌的剧烈程度也值得注意,表明BBSI不仅捕捉了经济冲击的方向,还捕捉了其幅度。


4.2. 统计相关性与回归分析


为了超越视觉检查,我们使用标准的统计方法来量化这种关系。首先,我们计算了整个样本期内标准化BBSI与标准化实际GDP增长序列之间的皮尔逊相关系数。该相关系数为0.78,对于宏观经济时间序列而言这是非常高的,并且在1%的水平上具有统计显著性。

接下来,我们估计了一个简单的同期普通最小二乘法(OLS)回归模型,以情绪指数为函数来模拟GDP增长。该模型设定如下:

Real_GDP_Growth_t = α + β * BBSI_t + ε_t

其中:

  • Real_GDP_Growth_t 是在时间 t 标准化的同比实际GDP增长率。

  • BBSI_t 是在时间 t 标准化的褐皮书情绪指数。

  • α 是截距项。

  • β 是我们关注的系数,衡量GDP增长对情绪的敏感度。

  • ε_t 是误差项。

全样本期的估计结果高度显著。系数 β 为正且在统计上显著,证实了两者间的正向关系。该回归的R平方值为0.61,表明褐皮书情绪指数的变化可以解释超过60%的实际GDP同比增长率的变化。这是对《褐皮书》信息内涵的有力证明。


4.3. 分阶段稳定性分析


视觉证据所暗示的一个关键见解是这种关系在时间上的持续性。情绪与增长之间的密切追踪似乎是经济的一个结构性特征,而非特定时代或政策体系的产物。为了正式检验这一假设,我们进行了一项稳定性分析,将整个样本分解为对应不同货币政策框架和经济环境的几个不同阶段。

我们对以下四个时期分别估计了相同的回归模型 (Real_GDP_Growth_t = α + β * BBSI_t + ε_t):

  1. 大通胀与前沃尔克时代(1970-1979):以“走走停停”的货币政策和高且波动的通胀为特征。

  2. 沃尔克反通胀与大缓和初期(1979-1990):这一时期见证了为抑制通胀而向货币主义原则的过渡,随后进入了一个更稳定的时期。

  3. 大缓和高峰期(1991-2007):在艾伦·格林斯潘担任主席期间,这是一个增长相对稳定、通胀较低的漫长时期。

  4. 后金融危机与COVID时代(2008至今):一个由零利率下限、非常规货币政策(量化宽松)和重大外部冲击所定义的时代。

这项分阶段分析的结果很有启发性。虽然R平方值在不同时期略有波动,但关键系数 β 在每一个子时期都保持了显著的稳定性和统计显著性。这一发现为“褐皮书情绪与经济增长之间的关系是稳健且跨时期一致的”这一观察提供了强有力的统计支持。无论是在高通胀还是低通胀时期,无论采用何种货币政策方法(相机抉择 vs. 基于规则的倾向),也无论经历了多少位美联储主席的任期,这种关系都持续存在。这种稳定性是证明聚合的实时商业情绪与宏观经济表现之间存在根本联系的最有说服力的证据。


5. 讨论及对货币政策的启示


实证结果呈现了一个清晰而有力的发现:来自美联储自身《褐皮书》的情绪量化指标,是美国经济增长的一个高保真、实时、同步的指标。这种关系并非近期现象,而是过去半个多世纪以来经济格局的一个稳定特征。这引出了两个关键问题:首先,这种关系为何如此之强?其次,它对货币政策的执行有何启示,特别是关于美联储是主动还是被动的长期争论?


5.1. 理论基础:为何BBSI有效?


BBSI的强大之处在于其基础数据的性质。与官方统计数据不同——后者是广泛调查、汇总和季节性调整过程的产物——《褐皮书》是轶事性、高频信息的直接提炼。它是一份结构化的对话摘要。这种结构有几个优势:

  • 绕过数据时滞:这些信息是在FOMC会议前几周收集的。它反映了商业联系人当下正在经历的状况,而不是官方月度报告中捕捉到的前一两个月的情况,更不用说前一个季度的GDP了。BBSI实质上是商业界时代精神的实时快照。

  • 捕捉“动物精神”:该指数有效地量化了凯恩斯主义的“动物精神”概念——即那些能够独立于纯粹基本面因素而驱动投资和消费决策的乐观与悲观浪潮。人们使用的语言——自信和扩张性的,相对于谨慎和收缩性的——是这些精神的直接反映。当全国各地的商业联系人开始报告“需求放缓”、“信贷收紧”和“前景不确定”时,BBSI会立即捕捉到这种语气的转变,远早于其完全体现在冻结招聘、取消投资项目并最终导致GDP下降之前。

  • 聚合与多元化:虽然单个轶事可能具有误导性,但《褐皮书》的流程聚合了来自十二个不同区域和众多经济部门的数千个此类信息。这种聚合与多元化的过程滤除了个别的、公司层面的噪音,留下了更清晰的宏观经济趋势信号。因此,BBSI是广泛且知情的经济参与者群体共识情绪的度量。


5.2. 对美联储的启示:一个被动机构的主动工具?


美联储自身产出的这样一个强有力的实时指标的存在,使其政策立场变得格外引人注目。美联储并不以积极主动而闻名。批评者和历史观察家们常常将FOMC描述为要等到经济衰退(或通胀问题)的证据在硬数据中变得无可否认时,才会果断采取行动。图表本身似乎也证实了这一点。BBSI和GDP增长同步变动,而政策变化往往跟随这些变动。

这就提出了一个悖论:如果美联储能够接触到描绘实时经济状况的信息,为何会表现出反应迟缓的樣子?答案可能是多方面的,并根植于制度决策的本质。

  • 审慎性与“硬数据”溢价:机构内部存在一种强烈的倾向,即基于可量化的官方统计数据来制定政策。轶事证据,即使像在BBSI中那样被系统性地聚合,也可能被视为“软”数据。在情绪变化得到后续就业或通胀报告证实之前,FOMC可能不愿基于此做出重大的政策调整。这是一种制度上的审慎,旨在避免对可能只是噪音的信号反应过度。

  • 委员会结构:货币政策是由一个委员会——FOMC——制定的。委员会决策本质上是共识驱动的,并且往往比单个决策者表现出更多的惯性。采取行动的共识可能只有在趋势在一系列广泛的指标中都显现出来之后才能形成,而不仅仅是基于一个指标。

  • 双重使命:美联储的任务是维持物价稳定和最大化可持续就业。即使BBSI完美地预示了即将到来的增长放缓,合适的政策反应也并不总是明确的。如果通胀同时居高不下,就像1970年代和后COVID时代那样,美联储将面临艰难的权衡。它可能会选择容忍增长放缓(甚至像沃尔克那样主动引发衰退)以控制通胀。因此,对增长“反应迟缓”可能是为了服务于其另一半使命而做出的深思熟虑的政策选择。

尽管存在这些制度上的现实,BBSI在促成更具前瞻性的政策立场方面的潜力是巨大的,尤其是在不确定性加剧的时期。设想这样一个情景:一个新的政治政府开始实施一项新颖且可能具有破坏性的政策议程(例如,大规模财政扩张、贸易保护主义或放松管制)。使用传统的计量经济学方法来模拟这类政策的效果是出了名的困难。在这样的环境下,BBSI可以作为一个宝贵的早期预警系统。通过密切监测商业联系人对新政策的实时反应所体现的情绪,美联储可以获得关键的信息优势,从而能够区分乐观的言辞和商业状况的实际变化,并根据新政权的真实经济影响更灵活地调整其政策立场。这个跨越时间和政策的数据点,为建立一个反应更少滞后、响应更灵敏的货币政策框架提供了一条路径。

留言


© 2035 Someo Park Investment Management LLC。

bottom of page