开yun体育网能作念传统视觉/多模态任务及复杂复合型任务-开云(中国)Kaiyun·官方网站 登录入口
今天共享的是:殷述康:多模态大谈话模子界限领悟共享
证据以为:42页
殷述康博士在读在DataFunSummit 2024共享了多模态大谈话模子界限领悟,主要实质包括:
1. 配景先容:大谈话模子(LLM)虽功能远大,但存在无法处罚多模态输入等局限,多模态大谈话模子(MLLM)兴起,两年间涌现上百模子,能作念传统视觉/多模态任务及复杂复合型任务。
2. 模子先容:学术界积极探索开源模子,其架构含编码器、连络器、大谈话模子三部分,数据锻真金不怕火分模态对王人和领导微调两阶段,评测包括成例任务Benchmark和非凡Benchmark。
3. 模子演进:向更高永诀率、更丰富输入体式及I/O模态撑捏发展,如提高视觉编码器永诀率、撑捏多图视频输入、输出更多模态或图文交错实质等。
4. 团队责任:缓解幻觉方面,应用外部反馈和视觉信息扶直大谈话模子修正幻觉;长视频知道测评上,指出现有测试集不及,东谈主工收罗视频构建新评测基准,对模子轮廓评测发现字幕有正向作用等;晋升多模态交互体验上,探索开源决策VITA,通过相当谋划已矣屏蔽杂音和快速反馈新query。
张开剩余79%5. 改日瞻望:改日需撑捏更长高下文、多模态Agent、轻量化部署,和洽多模态生成和知道。
以下为证据节选实质
发布于:广东省