视觉理解

视觉理解

视觉理解

视觉理解

视觉理解

LLaVA：大型语言和视觉助手

LLaVA 是一个新型的端到端训练的大型多模态模型，结合了视觉编码器和 Vicuna，用于通用的视觉和语言理解。

多模态