内容持续更新中
北大和香港科技大学的团队搞了个大新闻,他们提出了一种训练方法,让8B尺寸的医疗专家模型达到了GPT-4级的性能。这可不是小打小闹,他们还引入了一个新概念——「稳定性差距」,来解释大语言模型在持续预训练…