生成式AI风暴来袭,ChatGPT会抢走金融分析师的饭碗吗?

好消息是,像ChatGPT这样的产品很可能无法通过CFA考试,敲开通往大型金融机构的大门,但坏消息是,它们能取得经济学和法学学位,在一定程度上可以取代初级卖方分析师。

最新证据来自最近公布的两篇学术论文,研究人员用ChatGPT解读美联储声明中的“鹰鸽”含量,以及新闻对于股票是利好还是利空。

结果显示,ChatGPT表现得相当不错,不仅超越了传统分析方法,还打败了其他现有生成式AI模型对手。 

破解美联储“谜语”,ChatGPT遥遥领先

4月10日,里士满联储量化监督和研究小组的两位成员发表了题为《ChatGPT能否破译美联储讲话》的论文,测试GPT-3模型从美联储讲话中判断其态度的能力。

两位研究人员随机抽取FOMC公告中的500 个句子,然后由人类判断是“鸽派”“基本鸽派”“中性”“基本鹰派”还是“鹰派”,对应数字分别为-1、-0.5、0、0.5和1。

这里值得一提的是,研究人员使用五个分类而非三个(“鸽派”中性“鹰派”),是为了测试GPT能否辨别美联储表态中的细微差别。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

为提高人类参照组的精确度,这些句子由三名人类审核员独立打标签,计算每个标签下对应句子的数量,再取三个结果的平均值。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

与ChatGPT一起参加考试的还有其他神经网络语言模型(NLP),包括谷歌BERT大模型,金融情绪词典Loughran & McDonald(LM)、 Henry以及日常语言情绪词典Mohammad和Turney。

测试分成两部分。研究人员先是让机器考生在不进行样本学习的情况下参加测试,然后,又让它们学习400个句子的分类之后再处理剩下的100个句子。

结果显示,无论是否“裸考”,ChatGPT对美联储讲话的态度解读在所有机器考生中是最贴近人类的。

先来看“裸考”的结果。

GPT-3打出的标签与人类最为匹配,尤其是“鸽派”、“基本鹰派”和“鹰派”标签。

Bert大大高估了“鸽派”句子的数量,情绪词典则大大低估了“鸽派”或“基本鹰派”“鸽派”句子的数量。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

为缩小研究结果的误差,研究人员又计算了结果的平均绝对误差(MAE)、均方根误差(RMSE),比较准确度和Kappa系数(用于一致性检验的指标)。

研究人员还采用了F1分数和均衡准确率(均为机器学习模型评估指标)来进一步提高研究的准确度。

结果显示,GPT-3成绩遥遥领先其他机器。

它产生的MAE和RMSE误差值最小,准确度和Kappa系数最高,就连F1分数和均衡准确率也大多高于其他机器。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

Bert模型虽然表现不及GPT-3,但好于情绪词典。

接下来再看充分学习后的考试成绩。

不出所料,GPT-3又是第一名,且成绩明显提高。

其中最亮眼的是,MAE误差值几乎是“裸考”成绩的一半,精确度提高了近 1.5 倍,Kappa系数增加了一倍以上。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

GPT-3的表现确实惊艳。

以美联储2013年5月的一份声明中的措辞为例。

美联储表示:“总的来说,最近几个月劳动力市场状况有所改善,但失业率仍然居高不下。”

ChatGPT的分类是“基本鸽派”,与分析师的结果完全一致。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

研究人员惊叹道:

撇开分类不谈,GPT模型能够解释为什么某个句子要以某种方式被标记,这是一种超越任何现有NLP模型的能力,对研究人员来说意义非凡。

报告最后,研究人员将GPT-4与GPT-3进行了比较,发现在多数情况下,前者在“破译”美联储讲话方面有着更强的能力。

以下面的句子为例,美联储说:

鉴于目前通胀率低于2%,委员会将仔细监测实现通胀目标的进展。

GPT-3将其判为“中性”,而GPT-4则判为“基本鸽派”,更接近分析师给予的“鸽派”分类。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

还能预测股价?

来自佛罗里达大学的两位研究人员近期公布了一篇题为《ChatGPT可以预测股价走势吗?回报的可预测性和大型语言模型》的论文。

这项研究基本上就是,让ChatGPT去判断新闻对于公司股价是利好、利空还是无关,研究人员根据ChatGPT解读出的结果,来预测公司股票价格的走势。

这实际上与解码美联储声明的研究大同小异。

研究人员提示ChatGPT:

假装你是金融专家,是具有股票推荐经验的金融专家。如果以下新闻是好消息,请回答“是”,如果是坏消息,请回答“否”,如果不确定,请回答“未知”。

然后,研究人员要求ChatGPT用一句话简要说明该消息在短期/长期对于某公司的股价是好还是坏。

研究人员将ChatGPT的回答转化为相应的数字,“是”“否”和“未知”分别对应1、-1和0。如果某家公司某一天有多条大新闻,研究人员将把这些数字进行平均计算。

最后,研究人员通过ChatGPT打出的分数分析第二天的股票回报,并对其打分进行线性回归分析。

注意,研究使用的数据是2021年晚些时候之后的,因为这段时间的数据是ChatGPT大数据训练中不包括的。

以甲骨文的一条新闻为例:

Rimini Street(企业软件产品和服务提供商)在甲骨文的案件中被罚款63万美元。

这一新闻是利好还是利空甲骨文?

ChatGPT的回应:

是(对应的数字为1),对Rimini Street的罚款可能会增强投资者对甲骨文保护其知识产权的信心,并增加对其产品和服务的需求。

因此,ChatGPT认为这一消息对甲骨文股价有利。

相比之下,Ravenpack 给出的负面情绪评分为-0.52,表明该新闻被认为是利空的。

研究最终发现,ChatGPT打出的情绪分数与股票走势在统计意义上具有较强的相关性。不过,GPT-1、GPT-2 和Bert等更基础的模型则无法准确预测。

结果还表明,ChatGPT 模型在预测股市回报方面优于RavenPack等现有的情绪分析方法。

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

破解美联储“谜语” ChatGPT遥遥领先 预测股票走势

基于这一结果,研究人员认为,未来的研究应关注理解大语言模型(LLM)获得预测能力的机制。

通过确定像ChatGPT这样的模型成功预测股票回报的因素,研究人员可以开发更有针对性的策略来改善这些模型,并最大化它们在金融领域的效用。