开yun体育网能作念传统视觉/多模态任务及复杂复合型任务-开云(中国)Kaiyun·官方网站登录入口

栏目分类

你的位置：开云(中国)Kaiyun·官方网站登录入口 > 新闻 > 开yun体育网能作念传统视觉/多模态任务及复杂复合型任务-开云(中国)Kaiyun·官方网站登录入口

发布日期：2025-01-23 12:44 点击次数：200

开yun体育网能作念传统视觉/多模态任务及复杂复合型任务-开云(中国)Kaiyun·官方网站登录入口

今天共享的是：殷述康：多模态大谈话模子界限领悟共享

证据以为：42页

殷述康博士在读在DataFunSummit 2024共享了多模态大谈话模子界限领悟，主要实质包括：

1. 配景先容：大谈话模子（LLM）虽功能远大，但存在无法处罚多模态输入等局限，多模态大谈话模子（MLLM）兴起，两年间涌现上百模子，能作念传统视觉/多模态任务及复杂复合型任务。

2. 模子先容：学术界积极探索开源模子，其架构含编码器、连络器、大谈话模子三部分，数据锻真金不怕火分模态对王人和领导微调两阶段，评测包括成例任务Benchmark和非凡Benchmark。

3. 模子演进：向更高永诀率、更丰富输入体式及I/O模态撑捏发展，如提高视觉编码器永诀率、撑捏多图视频输入、输出更多模态或图文交错实质等。

4. 团队责任：缓解幻觉方面，应用外部反馈和视觉信息扶直大谈话模子修正幻觉；长视频知道测评上，指出现有测试集不及，东谈主工收罗视频构建新评测基准，对模子轮廓评测发现字幕有正向作用等；晋升多模态交互体验上，探索开源决策VITA，通过相当谋划已矣屏蔽杂音和快速反馈新query。

张开剩余79%

5. 改日瞻望：改日需撑捏更长高下文、多模态Agent、轻量化部署，和洽多模态生成和知道。

以下为证据节选实质

发布于：广东省