内容持续更新中
最近,新加坡国立大学的Wenyi Yu及其团队提出了一项名为video-SALMONN的新技术,它不仅能够理解视频中的视觉帧序列、音频事件和音乐,更重要的是,它能够理解视频中的语音内容。这项技术的提出…