LLM 面试真题:具身方向 VLA/VL 多模态考点解析

四季读书网 2026-05-30 09:34:41 3 0

如果你是LLM背景、准备面VLA或具身智能方向，这份由 @llm氪ke普课整理的面经一定要看——

它从LLM视角拆解了VLA的核心决策链路：视觉编码接入、跨模态对齐选择、训练冻结策略、预训练评估指标。不铺陈论文细节，只串高频考点，适合考前快速拉齐体系感。

VLA 模型

VLA (Vision Language Action)，一种多模态人工智能模型，它能同时理解视觉信息、自然语言指令并生成相应的物理动作。这类模型是具身智能的核心技术，旨在使机器人或智能体能在物理世界中自主执行任务，例如根据“把杯子放在桌子上”的指令完成操作。它结合了视觉感知、语言理解和动作生成，是实现通用人工智能（AGI）和高级机器人技术的重要一步。

SHEN LAN

vit和VL模型的关系

QWEN-VL用vit当视觉编码器

ViT视觉特征提取

· 将图像分割为固定大小的 patch (如 14×14 像素块)

· 通过线性投影将每个 patch 转为向量，添加位置编码形成序列

· 使用多头自注意力机制捕捉全局空间关系，输出特征序列 (通常为 [batch, num_patches, embed_dim])

特征对齐的关键技术

Qwen2-VL 创新点

移除 ViT 绝对位置嵌入，引入 2D-RoPE 捕捉图像空间信息，实现跨模态位置统一建模 (M-RoPE)

SHEN LAN

VL参数怎么初始化

ViT的参数怎么初始化，后续的时候会冻上还是会一起训？

VL 模型中 ViT 几乎不从头初始化，而是加载 CLIP/MAE 等预训练权重，仅新增跨模态层（投影 / 适配器）随机初始化【适用于正常训练】

关键决策因素：如何选择冻结 / 联合训练？

SHEN LAN

VL对齐的常见方法

VL 对齐的本质是建立视觉与语言间的精准映射，让模型能像人类一样 "图文互解"。将视觉特征 "翻译" 成语言模型能理解的 "语言"，同时让语言模型能 "看见" 图像中的语义内容。

空间向量中相似的文本和图像距离更近。

对齐方法对比与选择指南

SHEN LAN

预训练看什么指标

一、VL 模型预训练评估指标

1. 对齐质量（核心指标）

CLIP 相似度（最基础）：

· 计算：图像与文本特征向量的余弦相似度（范围 0-1），值越高表示对齐越

· 意义：衡量图文语义匹配度，是零样本识别的基础

· 理想值：接近 1（完美对齐），至少 > 0.5（有效对齐）

模态融合率 (MIR)（新兴指标）：

· 计算：通过视觉与文本特征分布的协方差评估对齐紧密性

· 特点：越低表示对齐质量越高，与下游任务表现高度相关

图像 - 文本检索精度：

· Recall@k：前k个检索结果中包含正确匹配的比例

· mAP（平均精度均值）：综合所有类别和检索位置的平均精度

2. 视觉感知能力

图像分类准确率（基础指标）：

· 在 ImageNet 等标准数据集上的分类准确率，衡量视觉特征提取能力

物体检测 mAP：

· 评估模型识别图像中物体类别和位置的能力

VQA 准确率：

· 图文问答任务正确率，测试跨模态理解和推理

3. 生成能力指标

图像描述指标：

· CIDEr-D：基于 n-gram 共识评分，衡量生成描述与参考描述的一致性

· BLEU：计算生成文本与参考文本的 n-gram 重叠率，侧重精确匹配

· ROUGE-L：评估文本相似度，强调召回率（关键词覆盖）

图文一致性分数（综合指标）：

· OTScore：物体 - 文本对齐分数，评估图像中物体与文本描述的对应

· SSAE：从文本中提取关键语义点，对比生成图像与这些点的匹配度

4. 其他关键指标

跨模态推理能力：

· VCR（视觉常识推理）：评估模型理解图像内容、回答问题并提供依据的能力

· NLVR2：判断自然语言描述与图像关系的正确性

鲁棒性指标：

· 性能一致性：在图像变换（旋转、裁剪等）下的任务表现稳定性

二、文本模型预训练评估指标

1. 语言建模能力（核心指标）

困惑度 (PPL)：

· 计算：PPL = exp (-(1/N)ΣlogP (w_i|w_1,...,w_{i-1}))，N 为文本长度

· 意义：模型预测下一个词的 "不确定性"，越低表示预测能力越强

· 直观理解：PPL=81 表示模型平均需 "猜"81 次才能选对下一个词

· 预警值：PPL>50 表示模型可能未收敛或数据不匹配

每字符比特数 (BPC)：

· 从信息压缩角度衡量模型效率，与困惑度换算：BPC = log2 (PPL)

2. 知识理解与推理能力

MMLU（大规模多任务语言理解）：

· 涵盖 57 个领域的多项选择测试，评估模型知识广度和推理能力

BBH/AGIEval/ARC：

· 专业评测套件，测试模型在逻辑推理、数学能力、科学常识等方面的表现

自然语言推理 (NLI)：

· 判断两段文本逻辑关系（蕴含、矛盾、中立）的准确率

3. 文本生成质量

BLEU/ROUGE/BERTScore：

· 评估生成文本与参考文本的相似度和质量

· BERTScore：利用 BERT 模型评估生成文本与参考文本的语义相似度

文本连贯性：

· 评估生成文本段落间逻辑衔接和流畅度

4. 其他重要指标

长文本建模能力：

· LongPPL：针对长文本的改进困惑度，聚焦关键 token 预测质量

条件困惑度偏差 (CPB)：

· 衡量模型在不同上下文环境中的稳定性，越低表示适应性越好

三、指标选择建议

VL 模型评估重点

对齐质量优先：CLIP 相似度和 MIR 是评估 VL 模型的 "黄金指标"，直接反映预训练核心目标
按预训练目标侧重：

· 图文检索：重点看 Recall@k 和 mAP

· 图像描述：CIDEr-D、BLEU 是关键指标

· 视觉问答：VQA 准确率和 OTScore

文本模型评估重点

困惑度为基础：监控训练过程中 PPL 下降趋势，评估收敛状态
知识与推理能力：MMLU 等测试结果是判断模型泛化能力的重要参考
生成能力验证：

· 人工抽检生成文本的连贯性和合理性

· 用 BLEU/ROUGE 评估与专业文本的相似度

四、关键差异与总结

一句话总结：VL 模型看 "对齐质量 + 感知能力 + 生成能力" 三维度，文本模型以 "困惑度 + 知识理解 + 生成质量" 为核心。预训练指标选择应紧密结合模型目标和下游应用场景，单一指标无法全面评估模型优劣，需构建多维度评估体系。

文章来源：@llm氪ke普课知乎作者授权分享 https://zhuanlan.zhihu.com/p/1976956516268529541

欢迎关注『深蓝职通车』⬇️

SHEN LAN

推荐阅读

本文地址： https://sjds.net/721065.html

文章来源：四季读书网