文章导读

LLaMA模型结构简述

Gouki 2025年10月25日 215

文本输入——》张量输入

        BPE
            初始化 每个词独立 token
            统计词频
            合并高频词对新token      
            更新词表 高频词变为单独token
            重复统计 和更新 进行压缩 去重

        Tokenizer
            Encode:根据词表 文本转 token-id
            Decode:将token-id还原成文本

        transformers
            pip install transformers

        文本嵌入
            将tokens 转换为向量（张量）

            独热编码 one-hot
                有就是1 无就是0 维度和整体大小有关

            Word Embedding
                hidden_size: 4096 意味着每一层都是固定维度  

Transformer架构            

RMS Norm
层归一化
防止梯度爆炸
gi权重

MLP hidden_size: 4096
intermediate_size: 11008 hidden_act: silu
 
Self-Attention
α= q·k

token 乘 q k 得 wq wk 两两之间 求 后q点乘前k α 一个数 decode only 每个词只向前考虑 看前 推测后 α 做归一化 相当于前文的百分之多少 

整体 qk矩阵乘得 A A做mask softmak 得A丿 乘V 得输出
 
歧义点： 一行行，行行行 这怎么算 两token 注意力 qk点积 α 注意力没位置就会有问题
  
旋转位置编码（RoPE）

o_proj 权重矩阵转维度 

多头注意力 MHA
 
解码器
 
输出嵌入层 hiden_size,vocab_size 词表里的概率分布
 
标准llama模型配置