
第一部分:数理统计与编程基础
1. 概率计算
题目: 掷均匀硬币3次,恰好出现2次正面的概率。
答案: 3/8
解析: 典型二项分布问题,$C(3,2) \times (1/2)^3 = 3 \times 1/8 = 3/8$。
2. 假设检验
题目: P值小于显著性水平 $\alpha$ 时,应当?
答案: 拒绝原假设
解析: P值越小说明实验结果越显著,当 $P < \alpha$ 时,说明结果不是偶然发生的。
3. 算法复杂度
题目: 有序数组中二分查找的时间复杂度。
答案: O(log n)
4. NumPy运算
题目: np.array([1, 2, 3]) * 2 的结果。
答案: [2, 4, 6]
解析: NumPy是元素级运算,区别于原生Python List的重复拼接。
第二部分:机器学习与深度学习
5. 逻辑回归损失函数
答案: 对数损失(Log Loss / Cross Entropy)
6. 评价指标:Recall(召回率)
核心考点: 医疗筛查场景中,目的是“尽可能多地找出病患”,此时优先追求高召回率。
7. ReLU 激活函数
核心特性: 在正区间梯度为1,能有效缓解梯度消失问题,且计算效率极高。
8. 类别不平衡处理(多选)
方法: 过采样(Over-sampling)、欠采样(Under-sampling)、阈值调整、代价敏感学习(设置权重)。
第三部分:大语言模型(LLM)前沿
9. 大模型核心训练任务
题目: GPT系列模型预训练的核心任务是什么?
答案: 根据上文预测下一个词(Causal Language Modeling)
10. RLHF 流程(排序题)
正确顺序: SFT(监督微调) -> 训练奖励模型(RM) -> PPO(强化学习优化)
11. 推理加速技术:KV Cache
核心作用: 缓存已生成token的K和V矩阵,减少重复计算,大幅提升推理生成速度。
12. 分词技术(Tokenization)
考点: BPE(Byte Pair Encoding)是目前LLM主流的分词方案。
topk实现
import numpy as np
def top_k_sampling(logits, k=40, temperature=0.7):
# 1. 温度缩放
logits = logits / temperature
# 2. 找到Top-K的值,其余位置设为负无穷
top_k_val = np.sort(logits)[-k]
logits[logits < top_k_val] = -float('inf')
# 3. Softmax 归一化
exp_logits = np.exp(logits - np.max(logits))
probs = exp_logits / np.sum(exp_logits)
# 4. 多项式分布采样
return np.random.choice(len(logits), p=probs)