内容持续更新中
智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),该语料库经过严格的筛选和清洗,首期开放的数据规模为 104GB,时间跨度为 2001 年至 2023 年。智源研究院表示将继续扩充…
在2024北京文化论坛上,北京智源人工智能研究院(BAAI)宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet),进一步推动数据共建共享。CCI3.0包含…