内容持续更新中
刚刚落幕的国际数学奥林匹克竞赛(IMO)上,谷歌DeepMind的AI系统以一分之差惜败,夺得银牌。但别小看这一分之差,AI的表现足以让人类选手瞠目结舌。在6道题目中,AI满分完成了4道,其中一道更是…
随着OpenAI的GPT-4在传统数学评测中屡创佳绩,北京大学和阿里巴巴的研究团队联手推出了一个全新的评测基准——Omni-MATH,旨在评估大型语言模型在奥林匹克数学竞赛级别的推理能力。这一举措不仅…