1.Llama3超级课堂实践笔记(3)XTuner 微调 Llama3 理解多模态@InternStudio
2.[LLaVA系列]📒CLIP/LLaVA/LLaVA1.5/VILA笔记: 核心点解析
Llama3超级课堂实践笔记(3)XTuner 微调 Llama3 理解多模态@InternStudio
在前文介绍的笔笔记基础上,Llama 3 的记源理解能力通过XTuner和LLaVA进行微调,以提升多模态理解性能。码线具体步骤如下:首先,源码从XTuner团队预训练的笔笔记Image Projector开始,下载Visual Encoder权重。记源麻将app源码修改
在InternStudio环境中,码线创建新开发机并配置环境,源码包括安装必要的笔笔记库和版本。
接着,记源下载和链接LLama3模型、码线Visual Encoder模型以及Image Projector的源码权重文件。
微调使用XTuner的笔笔记train命令,通过重复数据集进行,记源耗时约分钟,码线浏览器找源码loss表现良好。
微调后,将原始和微调后的PTH模型转换为HF格式,以便于后续使用。
通过对比,原始模型对的理解仅限于基本描述,而微调后的段视频网站源码模型在回答关于内容的更具体问题时表现提升明显。
尝试了中文版Llama3的微调,虽然模型权重已转换,但中文回答效果并未如预期,与Web Demo中的中文支持有所差异。
[LLaVA系列]📒CLIP/LLaVA/LLaVA1.5/VILA笔记: 核心点解析
本文记录了CLIP和LLaVA系列模型的核心点,为后续复习提供便利。
CLIP模型为双塔结构,pb源码 横版竖版包含文本编码器和图像编码器,旨在预测图像与文本之间的匹配程度。其采用ResNet或ViT作为backbone,实验显示ViT表现更佳。
CLIP模型使用对称损失函数计算相似度矩阵。该函数从行和列方向计算loss,然后取平均值。直接读取网页源码的
在CLIP实践认知部分,通过代码验证理解过程,首先安装CLIP,参考官方文档。
LLaVA模型将CLIP与LLM(如Vicuna、LLaMA)结合,利用Vision Encoder将转换为特征映射,然后接上投影层,实现图像和文本特征对齐。生成描述文本。
在LLaVA中,Vision Encoder使用CLIP-ViT-L/,并选择在Transformer层前或后提取图像表示。
LLaVA的两阶段训练和1.5版本对模型架构进行改进,效果显著提升。1.6版本则在推理、OCR和知识理解方面增强,参数量增至B,性能提升明显。
TinyLLaVA以3B模型规模挑战7B模型,实验表明其整体效果优于LLaVA-1.5-7B。
VILA是NVIDIA的模型,性能指标优于LLaVA-1.5,但略逊于LLaVA 1.6。
LLaVA系列和VILA模型支持TensorRT-LLM部署,相关信息可查阅文档。
总结,本文概述了CLIP和LLaVA模型结构,以及它们在LLaVA中的应用和改进。持续关注相关进展。