LLM 面试真题:具身方向 VLA/VL 多模态考点解析

四季读书网 3 0
LLM 面试真题:具身方向 VLA/VL 多模态考点解析

如果你是LLM背景、准备面VLA或具身智能方向,这份由 @llm氪ke普课 整理的面经一定要看——

它从LLM视角拆解了VLA的核心决策链路:视觉编码接入、跨模态对齐选择、训练冻结策略、预训练评估指标。不铺陈论文细节,只串高频考点,适合考前快速拉齐体系感。

01

VLA 模型

VLA (Vision Language Action)一种多模态人工智能模型,它能同时理解视觉信息、自然语言指令并生成相应的物理动作。这类模型是具身智能的核心技术,旨在使机器人或智能体能在物理世界中自主执行任务,例如根据“把杯子放在桌子上”的指令完成操作。它结合了视觉感知、语言理解和动作生成,是实现通用人工智能(AGI)和高级机器人技术的重要一步。

SHEN LAN

02

vit和VL模型的关系

QWEN-VL用vit当视觉编码器

ViT视觉特征提取

· 将图像分割为固定大小的 patch (如 14×14 像素块)

· 通过线性投影将每个 patch 转为向量,添加位置编码形成序列
· 使用多头自注意力机制捕捉全局空间关系,输出特征序列 (通常为 [batch, num_patches, embed_dim])

  特征对齐的关键技术

LLM 面试真题:具身方向 VLA/VL 多模态考点解析 第1张

Qwen2-VL 创新点

移除 ViT 绝对位置嵌入,引入 2D-RoPE 捕捉图像空间信息,实现跨模态位置统一建模 (M-RoPE)

SHEN LAN

03

VL参数怎么初始化

ViT的参数怎么初始化,后续的时候会冻上还是会一起训?

VL 模型中 ViT 几乎不从头初始化,而是加载 CLIP/MAE 等预训练权重,仅新增跨模态层(投影 / 适配器)随机初始化【适用于正常训练】

关键决策因素:如何选择冻结 / 联合训练?

LLM 面试真题:具身方向 VLA/VL 多模态考点解析 第2张

SHEN LAN

04

VL对齐的常见方法

VL 对齐的本质是建立视觉与语言间的精准映射,让模型能像人类一样 "图文互解"。将视觉特征 "翻译" 成语言模型能理解的 "语言",同时让语言模型能 "看见" 图像中的语义内容。

空间向量中相似的文本和图像距离更近。

对齐方法对比与选择指南

LLM 面试真题:具身方向 VLA/VL 多模态考点解析 第3张

SHEN LAN

05

预训练看什么指标

  一、VL 模型预训练评估指标

1. 对齐质量(核心指标)

CLIP 相似度(最基础):

· 计算:图像与文本特征向量的余弦相似度(范围 0-1),值越高表示对齐越
· 意义:衡量图文语义匹配度,是零样本识别的基础
· 理想值:接近 1(完美对齐),至少 > 0.5(有效对齐)
模态融合率 (MIR)(新兴指标):
· 计算:通过视觉与文本特征分布的协方差评估对齐紧密性
· 特点:越低表示对齐质量越高,与下游任务表现高度相关
图像 - 文本检索精度
· Recall@k:前k个检索结果中包含正确匹配的比例
· mAP(平均精度均值):综合所有类别和检索位置的平均精度
2. 视觉感知能力
图像分类准确率(基础指标):
· 在 ImageNet 等标准数据集上的分类准确率,衡量视觉特征提取能力
物体检测 mAP
· 评估模型识别图像中物体类别和位置的能力
VQA 准确率
· 图文问答任务正确率,测试跨模态理解和推理
3. 生成能力指标
图像描述指标
· CIDEr-D:基于 n-gram 共识评分,衡量生成描述与参考描述的一致性
· BLEU:计算生成文本与参考文本的 n-gram 重叠率,侧重精确匹配
· ROUGE-L:评估文本相似度,强调召回率(关键词覆盖)
图文一致性分数(综合指标):
· OTScore:物体 - 文本对齐分数,评估图像中物体与文本描述的对应
· SSAE:从文本中提取关键语义点,对比生成图像与这些点的匹配度
4. 其他关键指标
跨模态推理能力
· VCR(视觉常识推理):评估模型理解图像内容、回答问题并提供依据的能力
· NLVR2:判断自然语言描述与图像关系的正确性
鲁棒性指标
· 性能一致性:在图像变换(旋转、裁剪等)下的任务表现稳定性
  二、文本模型预训练评估指标
1. 语言建模能力(核心指标)
困惑度 (PPL)
· 计算:PPL = exp (-(1/N)ΣlogP (w_i|w_1,...,w_{i-1})),N 为文本长度
· 意义:模型预测下一个词的 "不确定性",越低表示预测能力越强
· 直观理解:PPL=81 表示模型平均需 "猜"81 次才能选对下一个词
· 预警值:PPL>50 表示模型可能未收敛或数据不匹配
每字符比特数 (BPC)
· 从信息压缩角度衡量模型效率,与困惑度换算:BPC = log2 (PPL)
2. 知识理解与推理能力
MMLU(大规模多任务语言理解):
· 涵盖 57 个领域的多项选择测试,评估模型知识广度和推理能力
BBH/AGIEval/ARC
· 专业评测套件,测试模型在逻辑推理、数学能力、科学常识等方面的表现
自然语言推理 (NLI)
· 判断两段文本逻辑关系(蕴含、矛盾、中立)的准确率
3. 文本生成质量
BLEU/ROUGE/BERTScore
· 评估生成文本与参考文本的相似度和质量
· BERTScore:利用 BERT 模型评估生成文本与参考文本的语义相似度
文本连贯性
· 评估生成文本段落间逻辑衔接和流畅度
4. 其他重要指标
长文本建模能力
· LongPPL:针对长文本的改进困惑度,聚焦关键 token 预测质量
条件困惑度偏差 (CPB)
· 衡量模型在不同上下文环境中的稳定性,越低表示适应性越好
  三、指标选择建议
VL 模型评估重点
  1. 对齐质量优先:CLIP 相似度和 MIR 是评估 VL 模型的 "黄金指标",直接反映预训练核心目标
  2. 按预训练目标侧重:
· 图文检索:重点看 Recall@k 和 mAP
· 图像描述:CIDEr-D、BLEU 是关键指标
· 视觉问答:VQA 准确率和 OTScore
文本模型评估重点
  1. 困惑度为基础:监控训练过程中 PPL 下降趋势,评估收敛状态
  2. 知识与推理能力:MMLU 等测试结果是判断模型泛化能力的重要参考
  3. 生成能力验证
· 人工抽检生成文本的连贯性和合理性
· 用 BLEU/ROUGE 评估与专业文本的相似度
  四、关键差异与总结
LLM 面试真题:具身方向 VLA/VL 多模态考点解析 第4张
一句话总结:VL 模型看 "对齐质量 + 感知能力 + 生成能力" 三维度,文本模型以 "困惑度 + 知识理解 + 生成质量" 为核心。预训练指标选择应紧密结合模型目标和下游应用场景,单一指标无法全面评估模型优劣,需构建多维度评估体系。

文章来源:@llm氪ke普课 知乎作者授权分享 https://zhuanlan.zhihu.com/p/1976956516268529541

欢迎关注『深蓝职通车』⬇️

SHEN LAN

推荐阅读

LLM 面试真题:具身方向 VLA/VL 多模态考点解析 第5张
LLM 面试真题:具身方向 VLA/VL 多模态考点解析 第6张

抱歉,评论功能暂时关闭!