内容持续更新中
北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AG…
当前,多模态大型语言模型(MLLM)在视频理解领域取得了显著进展,但处理超长视频仍然是一个挑战。 这是因为,MLLM 通常难以处理超过最大上下文长度的数千个视觉标记,并且会受到标记聚合导致的信息衰减的…