kizumi_header_banner_img

夜晚 未来 永远 恐惧 梦见 终结

加载中

文章导读

LLaMA模型结构简述


avatar
Gouki 2025年10月25日 160
文本输入——》张量输入

        BPE
            初始化 每个词独立 token
            统计词频
            合并高频词对新token      
            更新词表 高频词变为单独token
            重复统计 和更新 进行压缩 去重

        Tokenizer
            Encode:根据词表 文本转 token-id
            Decode:将token-id还原成文本

        transformers
            pip install transformers

        文本嵌入
            将tokens 转换为向量(张量)

            独热编码 one-hot
                有就是1 无就是0 维度和整体大小有关

            Word Embedding
                hidden_size: 4096 意味着每一层都是固定维度  

Transformer架构            

RMS Norm
层归一化
防止梯度爆炸
gi权重
MLP hidden_size: 4096
intermediate_size: 11008 hidden_act: silu
 
Self-Attention
α= q·k

token 乘 q k 得 wq wk 两两之间 求 后q点乘前k α 一个数 decode only 每个词只向前考虑 看前 推测后 α 做归一化 相当于前文的百分之多少 

整体 qk矩阵乘得 A A做mask softmak 得A丿 乘V 得输出
 
歧义点: 一行行,行行行 这怎么算 两token 注意力 qk点积 α 注意力没位置就会有问题
  
旋转位置编码(RoPE)

o_proj 权重矩阵转维度 

多头注意力 MHA
 
解码器
 
输出嵌入层 hiden_size,vocab_size 词表里的概率分布
 
标准llama模型配置
 


评论(0)

查看评论列表

暂无评论


发表评论

个人信息

avatar

面向kpi编程,python的狗。

15
文章
0
评论
1
用户

分类

最新评论

    广告 10-11