<!--                                                                                                                              
                                                                                                                             
                                                                                                                             
                                         ..;+$&& &&&&$Xx;                                                                  
                                      ..;+$&&&&&&&&&&&&&&&&&$Xx;                                                                  
                                      .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&:                                                             
                                   .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                          
                                   X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                       
                                 .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&X:                                                    
                                :X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x                                                   
                              :$&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&.                                                 
                             :$&&&&&&&&&&&&&$$$$$$$$$$$$$$&&&&&&&&&&&&&&&&&&&&&&&+                                                
                            ;$&&&&&&&&&$$$XXXXXXXxxxxxxXXXXXX$$$$&&&&&&&&&&&&&&&&&x                                               
                            X&&&&&&&&$$XXXXXXxXxxxxxxxxxxxxxxxxxxxxX$&&&&&&&&&&&&&&&                                              
                           :&&&&&&&$$$XXXXXXxxxxxxx+x++++++++++++xxxxxxX$&&&&&&&&&&&;                                             
                          .$&&&&&&$$$XXXXXxxxxxxxxxx++++++++++++++++++xxxx$&&&&&&&&&X                                             
                          $&&&&&&$$$XXXXxxxxxxxxx+++++++++++++++++++++++xxxx$&&&&&&&&                                             
                         :&&&&&&$$$XXXXXxxxxxxxxx+++++++++++++;+++++++++++xxxX$&&&&&&.                                            
                         $&&&&&$$$XXXXXXxxxxxxx++++++++++++++++++++++++++++xxxX$&&&&&+                                            
                        .&&&&&&$$XXXXXxxxxxxxxx++++++++++++;;+++++++++++++++xxxX$&&&&+                                            
                        ;&&&&&&$$XXXXxxxxxxxx+++++++++++++++++++++;++++++++++xxxX&&&&x                                            
                        X&&&&&$$XXXXXXXXxxxxx+++++;;+;;;;;;;;;++;;;;++++++++++xxX$&&&&.                                           
                        X&&&&&$XX$&&&&&&&&&$$Xxxx++++++;;;;;+++++;++++++++++++xxX$&&&&X                                           
                        X&&&&$X$&&&&&&&&&&&&&&&$$Xxxxx++++++++++++++++++++++xxxxx$&&&&$                                           
                        &&&&&XX$&&&$$$$$$$$$$&&$$$$XXXx+++++++xxxXXX$$$&&&$$$$$XxX&&&&+                                           
                        X&&&&XXXXXXXxxxx++xxXX$$$$XXXXxx++++xxXXXX$$$&&&&&&&&&&&Xx&&&&.                                           
                        +&&&XXxXXxxxxxx++++++xxxXXXXXxxx++++xxXXXXXXXXxxxxxxX$$$$X&&&x                                            
                        X&&&XXXXXxXX$XXXXxxxX$XxxXXXXxxx+++++xXXXXxxxx++++++++xxxx&&&;                                            
                       ;$&&XxxXXXX$$&&&&&&&&&&$$xXXXXXx++;+++xXXXX$$&&$$$$Xx++++++X&&                                             
                       X$&&xxxxXX$$$$$$&&&&&&X$&$+xxxXx++;+++xxxX&&&&&&&&$&&&$Xx++x&+                                             
                      ;$$&$XxxxxxxxxXxxXXXXxxx+++++xxxx++;++++++++xxX&&&&XXXXXXx+++&$:                                            
                      +$$$$xxxxxxx++xxxxxxxxxx++x+xxxxx++;;+++++++xxx++++++++++++++$$+                                            
                      .XX$$xxxxxxx+++++++++++++++xxxxxx++;+++++++++++xxx+++++++++++Xx+                                            
                       xX$$xxxxxxx++++++++++++++xxxxxxx++;;+++++++;+++;+;;;;;++++++x++                                            
                       ;XX$Xxxxxxx+++++++++++++xxxxxxxx++;+++++++++;;;;;;;;;;+++++++;.                                            
                        +X$XXxxxx+++++++++++++xxXXxxxxx+;;;++++xx+++;;;;;;++++++++++.                                             
                         +$XXXxxxx+++++++++++xxxxxxxxxx+;;;+++++xxx+++;;;+;;;++++++:                                              
                          XXXXxxxx+++++++++xxxxx+++xxxx++++++++++xxx++++++++++++++.                                               
                           ;XXXXxxxx++++xxxxxxxxxxxxxxxx++++++++++xxxx+++++++++++;                                                
                            xXXXXxxxxxxxxxxxxX$$$$&&&$$XXXX$&&$$Xx++xxxx+++++++++:                                                
                            +XXXXXXXXxXxxxxxxX$$$$$$$$$$$$$$$$$$X++++xxxxxxxxx+++                                                 
                            ;XXX$$XXXxxxxxxxxXXXXXXXXXXXXx++++++++++++xxxxxxxxx+;                              ;++;:              
                            .xXX$$$XxxxxxxxxXxxxxxxx++++++++++++++xxx++++xxxxx++                              ;xx++;;             
                             +XXX$XXxxxxxxXXXXxxxxxx++++++++++++++xxxxx+++xxxxx:            .                .xxx+++;             
                              XXXXXXXxxxxX$&&&&&&$$$$XxxxXX$$$$$$&&&$Xx++++xxx;           :+++;.             +xxxx++;             
                              .XXX$XXXxxxxxxXX$$$$$$$$&$$$XxXXXXx+xxXXxx+xxxx;            x+++;;             Xxx+x++:             
                               ;$$$$XXXxxxxxxxxXXX$$$XXxxxxXXxx++++++xxxxxxx+            .xx++;;.           :Xxxxx++.             
                                +$$$$$$XXxxxxxxxxXXXXXXXXXXxxxx++++++xxxxxx;             :xx+++;;           ;Xxxxxx+              
                                 $&$$$$$$XXxxxxxxxxXXXXXXXXxxxx++++xxxxxXx;              :x+++++;           xx+++++:              
                            ..   $&&&$$$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxxxxX:               .Xx+++++          .xx+++++.              
                        X&&&&&&&&&&&&&&&$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxx+                  XXxxx++.         +xx+++++.              
                      $&&&&&&&&&&&&$&&&&&$$$XXXxxxxxxxxxxxxxxxxxxxxXXX+                   +xx+++;;        .Xx++++++               
                   :$&&&&&&&&&&&&&&&&$&&&&&&$$XXXXXXXXXXXXxxxxXXXXXXXx.                   ;Xx+++++.       ;Xxx+++++               
                  $&&&&&&&&&&&&&&$$$&&&&&&&&&&&$$$XXXXXXXXXXXX$$$$$Xxx                    +Xx+++++;       xxx+xxx+;               
             .;&&&&&&&&&&&&&&&&&&$$$$$&&&&&&&&&&&&&&&$$$$$$&&&&$$XXxx+                    +Xxxxx+++      :Xxx+++++:               
       +$&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$&&&&&&&&&&&&&&&&&&&&&$$XXxxxx+                    .$Xxxx+++:     xXxx++++;.               
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$&&&&&&&&&&&&&&&&&&$$XXxxxxx;                     XXx+++++:    .XXxx++++;                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$XXX$$$$&&&&&&$$&&&&&$$$$Xxxxxxxx&.                    +Xx+++++;    ;XXxx++++:                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXXXX$$$$$&&&&&&&$$$$$$XXXxxxxxX&&:                   ;Xxx+++++   .xXxxxxx++                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XxxxXXXX$$$$$$$$$$$XXXXxxxxxxx&&&&                   .$Xxx++++.  +xxxxxxx+;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&xxxxxxxxxxx+++x++xxxxxxxxxxx$&&&&&&&&&&&&X.        .XXxx+++++;;;;+++++++;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x+xxxxxxxxxxxxx+xxxxxxxxxX&&&&&&&&&&&&&&&&&;     .$$Xx+++++++++++++++++;;::.            
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+xxxxxxxx++xxxxxxxxxxXX$&&&&&&&&&&&&&&&&&&&.   .$Xxx++++++++++++++x+++xxxxxx+++       
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxxxxxx+++++xxxxxxxXX$&&&&&&&&&&&&&&&&&&&&X  .$$Xxx++++++++++x++xxxXXxxXxx++;++.    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$xxxxx+++++++xxxxX$$&$&&&&&&&&&&&&&&&&&&&&  $$Xx+++++++++++xx+XXX$$$X$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxx++++++++xxxX$$$$&&&&&&&&&&&&&&&&&&&&&:X$$x+x++xx+x++xxxxX$X$$$$$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xx++++xxxX$$&&&&&&&&&&&&&&&&&&&&&&&&&$$X++x++xx+++xxxXX$$$$$$Xx+++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXX+++++++++xxxXX$$$$$$Xx+++++++x;  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XX$X++++++++xxxXX$$$$$$x++++++++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxx$$x+++++xxxxX$$$$$$Xx+++++++++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxx$Xx+++++xxxX$$$$$Xxx++++++++++++
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxxx$$x++++xXX$$$$$$Xxx+++++x+++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXxxxxX$x+++xXXxxXXxxxxxx+;+xx++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXxxxxxXXXXXxxxxXXXxx++++++xx++++: 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXXX$$$$$Xxx++xxxxxxx+++++xXxx++. 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xx++++xxXXxxx++x+xXXxx:  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xxx+xxxxxxxxxxxXXXXx    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$$XxxxxxxxxxxXxxXXx+.     
    
    这些是HTML代码，真没啥好看的 - 杰
    
-->


<!-- 
conda换源：
conda config --show channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

pip换源：
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
-->


<!DOCTYPE html>
<html lang="zh-CN" color-mode="light">

<head>
  <meta charset="utf-8">
  <!-- <meta name="viewport" content="width=device-width, initial-scale=1" /> -->
  <meta name="viewport" content="width=device-width, initial-scale=0.8, maximum-scale=1, user-scalable=no">

  
  <meta name="author" content="杰" />
  <meta name="description" content="" />
  
  
  <title>
    
      自然语言处理-Transformer模型 
      
      
      |
    
     人工智能小站站
  </title>

  
    <link rel="apple-touch-icon" href="/images/favicon.png">
    <link rel="icon" href="/images/favicon.png">
  

  <!-- Raleway-Font -->
  <!-- <link href="https://fonts.googleapis.com/css?family=Raleway&display=swap" rel="stylesheet"> -->

  <!-- hexo site css -->
  <link rel="stylesheet" href="/css/main.css" />
  <link rel="stylesheet" href="//at.alicdn.com/t/font_1886449_67xjft27j1l.css" />

  <!-- <style>
    @font-face {
      font-family: 'NotoSansSC';
      src: url('https://pub-0a02c629549c4638b41011dd3ce66f6a.r2.dev/NotoSansSC-Regular.ttf') format('truetype');
    }

    body {
      font-family: NotoSansSC,sans-serif;
    }
  </style> -->

  <!-- 代码块风格 -->
  

  <!-- jquery3.3.1 -->
  
    <script defer type="text/javascript" src="/plugins/jquery.min.js"></script>
  

  <!-- fancybox -->
  
    <link href="/plugins/jquery.fancybox.min.css" rel="stylesheet">
    <script defer type="text/javascript" src="/plugins/jquery.fancybox.min.js"></script>
  
  
<script src="/js/fancybox.js"></script>


  <script>
    var html = document.documentElement
    const colorMode = localStorage.getItem('color-mode')
    if (colorMode) {
      document.documentElement.setAttribute('color-mode', colorMode)
    }
  </script>
<!-- hexo injector head_end start -->
<link rel="stylesheet" href="/plugins/katex/dist/katex.min.css">

<link rel="stylesheet" href="/plugins/hexo-math/dist/style.css">
<!-- hexo injector head_end end --><meta name="generator" content="Hexo 7.3.0"></head>


  <body>
    <div id="app">
      <div class="header">
  <div class="avatar">
    <a href="/">
      <!-- 头像取消懒加载，添加no-lazy -->
      
        <img src="/images/avatar.webp" alt="">
      
    </a>
    <div class="nickname"><a href="/">hahaha.love 个人学习笔记</a></div>
  </div>
  <div class="navbar">
    <ul>
      
        <li class="nav-item" data-path="/">
          <a href="/">首页</a>
        </li>
      
        <li class="nav-item" data-path="/tags/编程语言/">
          <a href="/tags/编程语言/">编程语言</a>
        </li>
      
        <li class="nav-item" data-path="/archives/">
          <a href="/archives/">日期归档</a>
        </li>
      
        <li class="nav-item" data-path="/tags/">
          <a href="/tags/">标签</a>
        </li>
      
        <li class="nav-item" data-path="/life/">
          <a href="/life/">生活</a>
        </li>
      
        <li class="nav-item" data-path="/software/">
          <a href="/software/">软件下载</a>
        </li>
      
        <li class="nav-item" data-path="/about/">
          <a href="/about/">关于我</a>
        </li>
      
    </ul>
  </div>
</div>


<script src="/js/activeNav.js"></script>


        <div class="flex-container">
          <!-- 文章详情页，展示文章具体内容，url形式：https://yoursite/文章标题/ -->
<!-- 同时为「标签tag」，「朋友friend」，「分类categories」，「关于about」页面的承载页面，具体展示取决于page.type -->


  <!-- LaTex Display -->

  
    <script async type="text/javascript" src="/plugins/mathjax/tex-chtml.js"></script>
  
  <script>
    MathJax = {
      tex: {
        inlineMath: [['$', '$'], ['\\(', '\\)']]
      }
    }
  </script>


        <!-- clipboard -->

  
    <script async type="text/javascript" src="/plugins/clipboard.min.js"></script>
  
  
<script src="/js/codeCopy.js"></script>


                                  <!-- 文章内容页 url形式：https://yoursite/文章标题/ -->
                                  <div class="container post-details" id="post-details">
                                    <div class="post-content">
                                      <div class="post-title">自然语言处理-Transformer模型</div>
                                      <div class="post-attach">
                                        <span class="post-pubtime">
                                          <i class="iconfont icon-updatetime mr-10" title="更新时间"></i>
                                          2024-10-22 14:52:45
                                        </span>
                                        
                                          <span class="post-tags">
                                            <i class="iconfont icon-tags mr-10" title="标签"></i>
                                            
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                  #人工智能
                                                </a>
                                              </span>
                                              
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/" title="自然语言处理">
                                                  #自然语言处理
                                                </a>
                                              </span>
                                              
                                          </span>
                                          
                                      </div>
                                      <div class="markdown-body">
                                        <h1 id="自然语言处理-Transformer模型"><a href="#自然语言处理-Transformer模型" class="headerlink" title="自然语言处理-Transformer模型"></a>自然语言处理-Transformer模型</h1><h2 id="第一章-Transformer介绍"><a href="#第一章-Transformer介绍" class="headerlink" title="第一章 Transformer介绍"></a>第一章 Transformer介绍</h2><h3 id="第一节-引言"><a href="#第一节-引言" class="headerlink" title="第一节 引言"></a>第一节 引言</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer模型在2017年的论文《Attention is All You Need》中被提出，它在自然语言处理（NLP）领域引发了突破性的变革。该论文通过对英语翻译成德语和英语翻译成法语的机器翻译任务进行性能评估，发现Transformer在精度（Bleu分数）和训练成本方面都超过了之前最高精度的基于RNN的机器翻译模型。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>此后，基于Transformer的各种模型被提出，例如BERT、XLNet、GPT-3等，这些模型在近年来被认为是最先进（State-of-the-Art, SoTA）的模型。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer的名称意为变形金刚、变压器、转换，象征着其在各种任务中的强大适应能力。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/BumblebeeROTB2.jpg" alt="Bumblebee | Transformers Movie Wiki | Fandom"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在神经机器翻译中，Transformer模型使用了将一种时间序列数据转换成另一种时间序列数据的Encoder-Decoder（seq2seq）结构，这一点与基于RNN（如LSTM、GRU）的模型相同。然而，Transformer的最大特点是在Encoder和Decoder中都不存在像RNN那样的递归计算层，取而代之的是注意力机制。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer不仅在自然语言处理中表现优异，在其他领域也被广泛使用，展现出很高的通用性。主要的深度学习框架如PyTorch和TensorFlow都已经有官方的实现，因此在研究和应用中使用这些框架已经成为一种普遍的做法。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>为了理解Transformer的底层结构和原理，本文将介绍构成Transformer模型的各个层的理论背景，并通过PyTorch实现进行讲解和演示。</p>
<h3 id="第二节-简化代码实现Pytorch版本"><a href="#第二节-简化代码实现Pytorch版本" class="headerlink" title="第二节 简化代码实现Pytorch版本"></a>第二节 简化代码实现Pytorch版本</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">import</span> torch.nn <span class="keyword">as</span> nn</span><br><span class="line"></span><br><span class="line"><span class="comment"># 定义Transformer模型</span></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">Transformer</span>(nn.Module):</span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params">self, input_dim, output_dim, hidden_dim, num_layers</span>):</span><br><span class="line">        <span class="built_in">super</span>(Transformer, self).__init__()</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 编码器和解码器的初始化</span></span><br><span class="line">        self.encoder = nn.TransformerEncoderLayer(input_dim, hidden_dim, num_layers)</span><br><span class="line">        self.decoder = nn.TransformerDecoderLayer(output_dim, hidden_dim, num_layers)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, src, tgt</span>):</span><br><span class="line">        <span class="comment"># 编码器的前向传播</span></span><br><span class="line">        enc_output = self.encoder(src)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 解码器的前向传播</span></span><br><span class="line">        dec_output = self.decoder(tgt, enc_output)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> dec_output</span><br><span class="line"></span><br><span class="line"><span class="comment"># 创建Transformer模型实例</span></span><br><span class="line">input_dim = <span class="number">100</span></span><br><span class="line">output_dim = <span class="number">200</span></span><br><span class="line">hidden_dim = <span class="number">256</span></span><br><span class="line">num_layers = <span class="number">4</span></span><br><span class="line">model = Transformer(input_dim, output_dim, hidden_dim, num_layers)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 定义输入和目标数据</span></span><br><span class="line">src = torch.randn(<span class="number">50</span>, input_dim)</span><br><span class="line">tgt = torch.randn(<span class="number">60</span>, output_dim)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 进行前向传播</span></span><br><span class="line">output = model(src, tgt)</span><br></pre></td></tr></table></figure>


<h2 id="第二章-Transformer结构"><a href="#第二章-Transformer结构" class="headerlink" title="第二章 Transformer结构"></a>第二章 Transformer结构</h2><h3 id="第一节-Transformer总体结构"><a href="#第一节-Transformer总体结构" class="headerlink" title="第一节 Transformer总体结构"></a>第一节 Transformer总体结构</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>让我们来看一下《Attention is all you need》中所配的Transformer结构图。Transformer 模型依赖于两个独立、较小的模型：编码器和解码器。</p>
<p>编码器接收输入，而解码器输出预测。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/160270884-e1901241-a1e6-4890-a5e8-165e87f0c4da-1718210415437.png" alt="变压器"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在编码器-解码器架构出现之前，序列问题的预测完全基于对输入序列的累积记忆，这些记忆被“压缩”为一个隐藏状态的表示。尽管 LSTM 和 GRU 等架构试图改善长程依赖问题，但它们并没有完全解决 RNN 的根本问题，即无法完全通过预测来承载长序列的信息。 </p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在编码器-解码器架构中，编码器接收整个输入序列。它将其转换为矢量化表示，其中包含每个时间步骤中输入序列的累积记忆。然后，输入序列的整个矢量化表示被输入到解码器中，解码器“解码”编码器收集的信息并尝试做出有效预测。</p>
<h3 id="第二节-编码器"><a href="#第二节-编码器" class="headerlink" title="第二节 编码器"></a>第二节 编码器</h3><h4 id="2-2-1-编码器原理"><a href="#2-2-1-编码器原理" class="headerlink" title="2.2.1 编码器原理"></a>2.2.1 编码器原理</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer像Seq2seq一样的形式，具有Encoder-Decoder结构。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>编码器负责将输入序列转换为机器可读的表示，这个过程会捕获单词之间的相似性及其在序列中的相对位置。输入序列首先经过输入嵌入和位置编码层。这些操作是为了输入的单词转换为适合编码器层处理的形式。 </p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/160747818-16611085-abd3-4b77-89a0-eb9276d839d7.png" alt="TransformerのEncoder"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>编码器层（也就是上面灰色的部分）是编码器的核心，大部分“魔法”都发生在这里。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在原始论文中，建议将编码器层的N设置为6，也就是堆叠六次。编码器由一个多头注意力块组成，后面跟着一个前馈神经网络，该神经网络在两个输出后都有残差连接和层规范化。 </p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>多头注意力模块能够发现单词之间的复杂关系，并确定每个单词对输入序列含义的贡献。这使得编码器能够像人类一样理解语言。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在编码器层之后，前馈网络会进一步转换输入序列，为下一个编码器层做准备。编码过程完成后，编码器获得的累积知识（最后一个编码器层的输出）将传递给解码器，解码器会利用这些知识生成最终的输出序列。</p>
<p>因此，TransformerEncoder由以下三个主要部分组成：</p>
<ul>
<li>Embedding层（将单词ID序列转换为单词的分布表示）</li>
<li>Positional Encoding层</li>
<li>由任意N层堆叠的TransformerEncoderBlock层，包括Multihead Attention和FeedForward Network（每层都应用Add &amp; Norm）</li>
</ul>
<h4 id="2-2-2-代码实现"><a href="#2-2-2-代码实现" class="headerlink" title="2.2.2 代码实现"></a>2.2.2 代码实现</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"><span class="keyword">from</span> torch.nn <span class="keyword">import</span> LayerNorm</span><br><span class="line"></span><br><span class="line"><span class="comment"># 引入模块中的其他自定义类</span></span><br><span class="line"><span class="keyword">from</span> .Embedding <span class="keyword">import</span> Embedding</span><br><span class="line"><span class="keyword">from</span> .FFN <span class="keyword">import</span> FFN</span><br><span class="line"><span class="keyword">from</span> .MultiHeadAttention <span class="keyword">import</span> MultiHeadAttention</span><br><span class="line"><span class="keyword">from</span> .PositionalEncoding <span class="keyword">import</span> AddPositionalEncoding</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">TransformerEncoderLayer</span>(nn.Module):</span><br><span class="line">    <span class="comment"># Transformer编码器层的初始化方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        d_model: <span class="built_in">int</span>,           <span class="comment"># 模型的维度</span></span></span><br><span class="line"><span class="params">        d_ff: <span class="built_in">int</span>,              <span class="comment"># _feed-forward网络的维度</span></span></span><br><span class="line"><span class="params">        heads_num: <span class="built_in">int</span>,         <span class="comment"># 多头注意力中头的数量</span></span></span><br><span class="line"><span class="params">        dropout_rate: <span class="built_in">float</span>,    <span class="comment"># dropout率</span></span></span><br><span class="line"><span class="params">        layer_norm_eps: <span class="built_in">float</span>,  <span class="comment"># LayerNorm的epsilon值</span></span></span><br><span class="line"><span class="params">    </span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()      <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化多头注意力层</span></span><br><span class="line">        self.multi_head_attention = MultiHeadAttention(d_model, heads_num)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化self-attention的dropout层</span></span><br><span class="line">        self.dropout_self_attention = nn.Dropout(dropout_rate)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化self-attention的LayerNorm</span></span><br><span class="line">        self.layer_norm_self_attention = LayerNorm(d_model, eps=layer_norm_eps)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化_feed-forward网络</span></span><br><span class="line">        self.ffn = FFN(d_model, d_ff)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化_ffn的dropout层</span></span><br><span class="line">        self.dropout_ffn = nn.Dropout(dropout_rate)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化_ffn的LayerNorm</span></span><br><span class="line">        self.layer_norm_ffn = LayerNorm(d_model, eps=layer_norm_eps)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 前向传播方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, x: torch.Tensor, mask: torch.Tensor = <span class="literal">None</span></span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 进行self-attention操作，并将结果加上原始输入x</span></span><br><span class="line">        x = self.layer_norm_self_attention(self.__self_attention_block(x, mask) + x)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 进行_feed-forward操作，并将结果加上self-attention的结果</span></span><br><span class="line">        x = self.layer_norm_ffn(self.__feed_forward_block(x) + x)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> x</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 自定义的self-attention块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__self_attention_block</span>(<span class="params">self, x: torch.Tensor, mask: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 多头注意力操作</span></span><br><span class="line">        x = self.multi_head_attention(x, x, x, mask)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 对多头注意力的结果进行dropout操作</span></span><br><span class="line">        <span class="keyword">return</span> self.dropout_self_attention(x)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 自定义的_feed-forward块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__feed_forward_block</span>(<span class="params">self, x: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 通过_feed-forward网络</span></span><br><span class="line">        <span class="keyword">return</span> self.dropout_ffn(self.ffn(x))</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">TransformerEncoder</span>(nn.Module):</span><br><span class="line">    <span class="comment"># Transformer编码器的初始化方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        vocab_size: <span class="built_in">int</span>,        <span class="comment"># 词汇表的大小</span></span></span><br><span class="line"><span class="params">        max_len: <span class="built_in">int</span>,           <span class="comment"># 输入序列的最大长度</span></span></span><br><span class="line"><span class="params">        pad_idx: <span class="built_in">int</span>,           <span class="comment"># padding的索引</span></span></span><br><span class="line"><span class="params">        d_model: <span class="built_in">int</span>,           <span class="comment"># 模型的维度</span></span></span><br><span class="line"><span class="params">        N: <span class="built_in">int</span>,                 <span class="comment"># 编码器层的数量</span></span></span><br><span class="line"><span class="params">        d_ff: <span class="built_in">int</span>,              <span class="comment"># _feed-forward网络的维度</span></span></span><br><span class="line"><span class="params">        heads_num: <span class="built_in">int</span>,         <span class="comment"># 多头注意力中头的数量</span></span></span><br><span class="line"><span class="params">        dropout_rate: <span class="built_in">float</span>,    <span class="comment"># dropout率</span></span></span><br><span class="line"><span class="params">        layer_norm_eps: <span class="built_in">float</span>,  <span class="comment"># LayerNorm的epsilon值</span></span></span><br><span class="line"><span class="params">        device: torch.device = torch.device(<span class="params"><span class="string">&quot;cpu&quot;</span></span>),  <span class="comment"># 指定设备，默认为CPU</span></span></span><br><span class="line"><span class="params">    </span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()      <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化词嵌入层</span></span><br><span class="line">        self.embedding = Embedding(vocab_size, d_model, pad_idx)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化位置编码层</span></span><br><span class="line">        self.positional_encoding = AddPositionalEncoding(d_model, max_len, device)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化Transformer编码器层的列表</span></span><br><span class="line">        encodelayerList = [TransformerEncoderLayer(d_model, d_ff, heads_num, dropout_rate, layer_norm_eps) <span class="keyword">for</span> _ <span class="keyword">in</span> <span class="built_in">range</span>(N)] <span class="comment"># 创建N层编码器层</span></span><br><span class="line"></span><br><span class="line">        self.encoder_layers = nn.ModuleList(encodelayerList)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 编码器的前向传播方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, x: torch.Tensor, mask: torch.Tensor = <span class="literal">None</span></span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 将输入x通过词嵌入层</span></span><br><span class="line">        x = self.embedding(x)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 将位置编码加到词嵌入的结果上</span></span><br><span class="line">        x = self.positional_encoding(x)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 遍历所有编码器层，并进行前向传播</span></span><br><span class="line">        <span class="keyword">for</span> encoder_layer <span class="keyword">in</span> self.encoder_layers:</span><br><span class="line">            x = encoder_layer(x, mask)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> x</span><br></pre></td></tr></table></figure>


<h3 id="第三节-解码器"><a href="#第三节-解码器" class="headerlink" title="第三节 解码器"></a>第三节 解码器</h3><h4 id="2-3-1-解码器原理"><a href="#2-3-1-解码器原理" class="headerlink" title="2.3.1 解码器原理"></a>2.3.1 解码器原理</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>解码器接收编码器的输出，这是编码器已经理解好了的知识。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在第一个预测时间步，解码器设置“句子开头”标记，这有助于解码器理解输入的文本是一个新的句子。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>解码器根据已有的预测知识进行分析，得出初步的见解。然后，解码器将这些初步的见解与编码器的输出相结合，进行更深入的处理和分析。最后，解码器输出下一个时间步骤的预测，即所选单词成为输出序列中下一个单词的概率。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718217311896.png" alt="img"></p>
<p>Decoder与Encoder一样，由Embedding、Positional Encoding、Multihead Attention、FeedForward Network组成。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/160761681-02c4f99d-c2f1-42ce-8d3f-a088a350821a.png" alt="TransformerのDecoder"></p>
<h4 id="2-3-2-代码实现"><a href="#2-3-2-代码实现" class="headerlink" title="2.3.2 代码实现"></a>2.3.2 代码实现</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br><span class="line">105</span><br><span class="line">106</span><br><span class="line">107</span><br><span class="line">108</span><br><span class="line">109</span><br><span class="line">110</span><br><span class="line">111</span><br><span class="line">112</span><br><span class="line">113</span><br><span class="line">114</span><br><span class="line">115</span><br><span class="line">116</span><br><span class="line">117</span><br><span class="line">118</span><br><span class="line">119</span><br><span class="line">120</span><br><span class="line">121</span><br><span class="line">122</span><br><span class="line">123</span><br><span class="line">124</span><br><span class="line">125</span><br><span class="line">126</span><br><span class="line">127</span><br><span class="line">128</span><br><span class="line">129</span><br><span class="line">130</span><br><span class="line">131</span><br><span class="line">132</span><br><span class="line">133</span><br><span class="line">134</span><br><span class="line">135</span><br><span class="line">136</span><br><span class="line">137</span><br><span class="line">138</span><br><span class="line">139</span><br><span class="line">140</span><br><span class="line">141</span><br><span class="line">142</span><br><span class="line">143</span><br><span class="line">144</span><br><span class="line">145</span><br><span class="line">146</span><br><span class="line">147</span><br><span class="line">148</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"><span class="keyword">from</span> torch.nn <span class="keyword">import</span> LayerNorm</span><br><span class="line"></span><br><span class="line"><span class="comment"># 引入模块中的其他自定义类</span></span><br><span class="line"><span class="keyword">from</span> .Embedding <span class="keyword">import</span> Embedding</span><br><span class="line"><span class="keyword">from</span> .FFN <span class="keyword">import</span> FFN</span><br><span class="line"><span class="keyword">from</span> .MultiHeadAttention <span class="keyword">import</span> MultiHeadAttention</span><br><span class="line"><span class="keyword">from</span> .PositionalEncoding <span class="keyword">import</span> AddPositionalEncoding</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">TransformerDecoderLayer</span>(nn.Module):</span><br><span class="line">    <span class="comment"># Transformer解码器层的初始化方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        d_model: <span class="built_in">int</span>,           <span class="comment"># 模型的维度</span></span></span><br><span class="line"><span class="params">        d_ff: <span class="built_in">int</span>,              <span class="comment"># 馈前网络（Feed-Forward Network）的维度</span></span></span><br><span class="line"><span class="params">        heads_num: <span class="built_in">int</span>,         <span class="comment"># 多头注意力中头的数量</span></span></span><br><span class="line"><span class="params">        dropout_rate: <span class="built_in">float</span>,    <span class="comment"># dropout率</span></span></span><br><span class="line"><span class="params">        layer_norm_eps: <span class="built_in">float</span>,  <span class="comment"># LayerNorm的epsilon值</span></span></span><br><span class="line"><span class="params">    </span>):</span><br><span class="line">        <span class="built_in">super</span>().__init__()      <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化目标自身的多头注意力层</span></span><br><span class="line">        self.self_attention = MultiHeadAttention(d_model, heads_num)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化目标自身注意力的dropout层</span></span><br><span class="line">        self.dropout_self_attention = nn.Dropout(dropout_rate)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化目标自身注意力的LayerNorm</span></span><br><span class="line">        self.layer_norm_self_attention = LayerNorm(d_model, eps=layer_norm_eps)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化源-目标的多头注意力层</span></span><br><span class="line">        self.src_tgt_attention = MultiHeadAttention(d_model, heads_num)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化源-目标注意力的dropout层</span></span><br><span class="line">        self.dropout_src_tgt_attention = nn.Dropout(dropout_rate)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化源-目标注意力的LayerNorm</span></span><br><span class="line">        self.layer_norm_src_tgt_attention = LayerNorm(d_model, eps=layer_norm_eps)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化馈前网络</span></span><br><span class="line">        self.ffn = FFN(d_model, d_ff)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化馈前网络的dropout层</span></span><br><span class="line">        self.dropout_ffn = nn.Dropout(dropout_rate)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化馈前网络的LayerNorm</span></span><br><span class="line">        self.layer_norm_ffn = LayerNorm(d_model, eps=layer_norm_eps)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 解码器层的前向传播方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        tgt: torch.Tensor,           <span class="comment"># 解码器的输入</span></span></span><br><span class="line"><span class="params">        src: torch.Tensor,           <span class="comment"># 编码器的输出</span></span></span><br><span class="line"><span class="params">        mask_src_tgt: torch.Tensor,  <span class="comment"># 源-目标注意力的掩码</span></span></span><br><span class="line"><span class="params">        mask_self: torch.Tensor,     <span class="comment"># 目标自身注意力的掩码</span></span></span><br><span class="line"><span class="params">    </span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 目标自身注意力操作</span></span><br><span class="line">        tgt = self.layer_norm_self_attention(</span><br><span class="line">            tgt + self.__self_attention_block(tgt, mask_self)</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 源-目标注意力操作</span></span><br><span class="line">        x = self.layer_norm_src_tgt_attention(</span><br><span class="line">            tgt + self.__src_tgt_attention_block(src, tgt, mask_src_tgt)</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 馈前网络操作</span></span><br><span class="line">        x = self.layer_norm_ffn(x + self.__feed_forward_block(x))</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> x</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 自定义的源-目标注意力块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__src_tgt_attention_block</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self, src: torch.Tensor, tgt: torch.Tensor, mask: torch.Tensor</span></span><br><span class="line"><span class="params">    </span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 源-目标注意力操作，使用编码器的输出作为键和值</span></span><br><span class="line">        <span class="keyword">return</span> self.dropout_src_tgt_attention(</span><br><span class="line">            self.src_tgt_attention(tgt, src, src, mask)</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 自定义的目标自身注意力块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__self_attention_block</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self, x: torch.Tensor, mask: torch.Tensor</span></span><br><span class="line"><span class="params">    </span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 目标自身注意力操作</span></span><br><span class="line">        <span class="keyword">return</span> self.dropout_self_attention(self.self_attention(x, x, x, mask))</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 自定义的馈前网络块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__feed_forward_block</span>(<span class="params">self, x: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 馈前网络操作</span></span><br><span class="line">        <span class="keyword">return</span> self.dropout_ffn(self.ffn(x))</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">TransformerDecoder</span>(nn.Module):</span><br><span class="line">    <span class="comment"># Transformer解码器的初始化方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        tgt_vocab_size: <span class="built_in">int</span>,    <span class="comment"># 目标词汇表的大小</span></span></span><br><span class="line"><span class="params">        max_len: <span class="built_in">int</span>,           <span class="comment"># 输入序列的最大长度</span></span></span><br><span class="line"><span class="params">        pad_idx: <span class="built_in">int</span>,           <span class="comment"># 填充索引</span></span></span><br><span class="line"><span class="params">        d_model: <span class="built_in">int</span>,           <span class="comment"># 模型的维度</span></span></span><br><span class="line"><span class="params">        N: <span class="built_in">int</span>,                 <span class="comment"># 解码器层的数量</span></span></span><br><span class="line"><span class="params">        d_ff: <span class="built_in">int</span>,              <span class="comment"># 馈前网络的维度</span></span></span><br><span class="line"><span class="params">        heads_num: <span class="built_in">int</span>,         <span class="comment"># 多头注意力中头的数量</span></span></span><br><span class="line"><span class="params">        dropout_rate: <span class="built_in">float</span>,    <span class="comment"># dropout率</span></span></span><br><span class="line"><span class="params">        layer_norm_eps: <span class="built_in">float</span>,  <span class="comment"># LayerNorm的epsilon值</span></span></span><br><span class="line"><span class="params">        device: torch.device = torch.device(<span class="params"><span class="string">&quot;cpu&quot;</span></span>),  <span class="comment"># 指定设备，默认为CPU</span></span></span><br><span class="line"><span class="params">    </span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()  <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化词嵌入层</span></span><br><span class="line">        self.embedding = Embedding(tgt_vocab_size, d_model, pad_idx)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化位置编码层</span></span><br><span class="line">        self.positional_encoding = AddPositionalEncoding(d_model, max_len, device)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化解码器层的列表</span></span><br><span class="line">        decodeLayerList = [</span><br><span class="line">                TransformerDecoderLayer(</span><br><span class="line">                    d_model, d_ff, heads_num, dropout_rate, layer_norm_eps</span><br><span class="line">                )</span><br><span class="line">                <span class="keyword">for</span> _ <span class="keyword">in</span> <span class="built_in">range</span>(N)  <span class="comment"># 创建N层解码器层</span></span><br><span class="line">            ]</span><br><span class="line">        self.decoder_layers = nn.ModuleList(decodeLayerList)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 解码器的前向传播方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        tgt: torch.Tensor,           <span class="comment"># 解码器的输入</span></span></span><br><span class="line"><span class="params">        src: torch.Tensor,           <span class="comment"># 编码器的输出</span></span></span><br><span class="line"><span class="params">        mask_src_tgt: torch.Tensor,  <span class="comment"># 源-目标注意力的掩码</span></span></span><br><span class="line"><span class="params">        mask_self: torch.Tensor,     <span class="comment"># 目标自身注意力的掩码</span></span></span><br><span class="line"><span class="params">    </span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 将解码器的输入tgt通过词嵌入层</span></span><br><span class="line">        tgt = self.embedding(tgt)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 将位置编码加到词嵌入的结果上</span></span><br><span class="line">        tgt = self.positional_encoding(tgt)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 遍历所有解码器层，并进行前向传播</span></span><br><span class="line">        <span class="keyword">for</span> decoder_layer <span class="keyword">in</span> self.decoder_layers:</span><br><span class="line">            tgt = decoder_layer(</span><br><span class="line">                tgt,</span><br><span class="line">                src,</span><br><span class="line">                mask_src_tgt,</span><br><span class="line">                mask_self,</span><br><span class="line">            )</span><br><span class="line">        <span class="keyword">return</span> tgt</span><br></pre></td></tr></table></figure>


<h3 id="第四节-词嵌入"><a href="#第四节-词嵌入" class="headerlink" title="第四节 词嵌入"></a>第四节 词嵌入</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>词嵌入目的是把给定输入序列转成机器可读的表示。常用独热编码，即每个单词由一个大且稀疏向量表示，仅在对应索引处有非零值，但此法低效且不优雅，会产生庞大向量，99%为零值，会因维数灾难影响模型性能，且能传达的信息极少。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>词向量对稀疏独热编码向量进行从大型语料库中学到的进一步转换，产生考虑上下文的密集、相对低维单词表示。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>如在“猫是棕色和毛茸茸的，而冰箱是一台毫无生气的银色机器”中，“猫”和“冰箱”词向量差异大，“棕色”和“银色”嵌入相似。通常用余弦相似度计算词向量距离。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>如：king-man+women&#x3D;queen，显示三者内在关系。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/vectors2-300x290.jpg" alt="Studying publicly available pre-trained language models for gender bias  issues – Institute for Mathematical Innovation"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span><strong>词嵌入可视为语言模型预训练技术，如果不用嵌入技术的话其实模型在训练时也可以学到每个单词上下文信息，只不过词嵌入可提前完成。</strong></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>为有效生成密集词嵌入，可以选用各种方法和预训练算法，但 Transformer 用附加的词嵌入且从头训练，不用预初始化参数，让模型根据输入数据上下文和整体结构学习嵌入。词嵌入是 Transformer 首个组件，是通过 单词的独热编码输入 与 反向传播训练的权重矩阵相乘得到 词嵌入向量。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>权重矩阵形状为（词汇量、嵌入维度），按原论文称嵌入维度为“$d_{model}$”，作者设其为 $512$。词向量可看成将独热编码向量映射到低维空间的查找表，通过 输入向量 × 权重矩阵 实现降维，能捕捉单词依赖关系和提供上下文信息。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718218175456.png" alt="img"></p>
<h3 id="第五节-位置编码"><a href="#第五节-位置编码" class="headerlink" title="第五节 位置编码"></a>第五节 位置编码</h3><h4 id="2-5-1-位置编码原理"><a href="#2-5-1-位置编码原理" class="headerlink" title="2.5.1 位置编码原理"></a>2.5.1 位置编码原理</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>Positional Encoding Layer（位置编码层）主要负责赋予序列数据中每个元素其在数据内的位置信息。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer 架构摒弃了基于循环的网络，转而依靠自注意力机制来处理输入序列。虽然这样做能加快训练速度并优化对长距离依赖关系的处理，但它本身存在一个问题，即无法提供有关输入句子的单词相对位置信息。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>例如，“我去打篮球”和“篮球打我”这两个句子中，根据“篮球”的位置传达了完全不同的含义。尽管如此，在这两种情况下“篮球”的词嵌入是相同的。如果是基于循环的模型，由于其按顺序处理信息，所以每个单词的位置自然就有所暗示，但 Transformer 需要额外的信息来区分这些不同位置的“篮球”。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>为了解决这个问题，采用了位置编码，即为每个词嵌入向量添加一个长度为 $d_{model}$ 的独特向量。该位置编码向量由单词在输入序列中的位置决定。这样一来，模型能够提取输入中单词的相对位置，并将此信息纳入其处理过程中。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>位置编码的具体实现方式通过以下两条公式来确定单词的位置信息：<br>$$<br>PE(pos, 2i) &#x3D; \sin\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right)<br>$$</p>
<p>$$<br>PE(pos, 2i + 1) &#x3D; \cos\left(\frac{pos}{10000^{\frac{2i}{d_{model}}}}\right)<br>$$</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在上面的等式中，“pos”表示单词在输入序列中的位置，而“i”表示每个值在词嵌入中的位置。这两个位置编码函数均被应用，为每个“i”值产生两个独特值。所以，要输出长度为 $d_{model}$ 的向量，“i”的值将在 0 到 $d_{model}-1$ 之间。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>此外，位置编码具有一些独特的性质。它使得模型能够捕捉到不同位置之间的相对关系，增加了模型对序列结构的理解能力。并且，位置编码的引入是相对灵活的，可以根据具体需求和场景进行调整和优化。</p>
<p>正弦位置编码具有几个优点：</p>
<ol>
<li>原始论文中已经指出，Transformer 能够利用位置编码函数“推断出比训练期间遇到的序列长度更长的序列”。</li>
<li>单词之间的相对位置可以推断出来，因为对于位置彼此接近的单词，它们的位置编码向量也会相似。</li>
</ol>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718220117815.png" alt="img"></p>
<p>位置编码组件之后，其形状为（序列长度，$d_{model}$）的输出将被传递到由自注意力块和前馈神经网络组成的第一个编码器层。</p>
<p>请注意，解码器的输入序列也使用相同的预处理方案（词嵌入和位置编码），我们将在后面讨论。</p>
<h4 id="2-5-2-具体计算例子"><a href="#2-5-2-具体计算例子" class="headerlink" title="2.5.2 具体计算例子"></a>2.5.2 具体计算例子</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>假设我们的句子是“我去打篮球”，并且我们使用的模型嵌入维度 $d_{model}$ 是 4（为了简单起见，实际模型通常是 512 或 1024 等）。</p>
<p><strong>词语和其位置</strong>：</p>
<p>“我”：位置 0</p>
<p>“去”：位置 1</p>
<p>“打”：位置 2</p>
<p>“篮球”：位置 3</p>
<p><strong>嵌入维度</strong> $d_{model}$ 是 4，所以我们有 $i &#x3D; 0, 1$</p>
<p>位置编码计算</p>
<p><strong>位置 0 (“我”)：</strong></p>
<ul>
<li><p>$i &#x3D; 0$:</p>
<ul>
<li>$PE(0, 0) &#x3D; \sin\left(\frac{0}{10000^{\frac{0}{4}}}\right) &#x3D; \sin(0) &#x3D; 0$</li>
<li>$PE(0, 1) &#x3D; \cos\left(\frac{0}{10000^{\frac{0}{4}}}\right) &#x3D; \cos(0) &#x3D; 1$</li>
</ul>
</li>
<li><p>$i &#x3D; 1$:</p>
<ul>
<li>$PE(0, 2) &#x3D; \sin\left(\frac{0}{10000^{\frac{2}{4}}}\right) &#x3D; \sin(0) &#x3D; 0$</li>
<li>$PE(0, 3) &#x3D; \cos\left(\frac{0}{10000^{\frac{2}{4}}}\right) &#x3D; \cos(0) &#x3D; 1$</li>
</ul>
</li>
</ul>
<p>结果：$[0, 1, 0, 1]$</p>
<p><strong>位置 1 (“去”)</strong></p>
<ul>
<li><p>$i &#x3D; 0$:</p>
<ul>
<li>$PE(1, 0) &#x3D; \sin\left(\frac{1}{10000^{\frac{0}{4}}}\right) &#x3D; \sin(1) \approx 0.8415$</li>
<li>$PE(1, 1) &#x3D; \cos\left(\frac{1}{10000^{\frac{0}{4}}}\right) &#x3D; \cos(1) \approx 0.5403$</li>
</ul>
</li>
<li><p>$i &#x3D; 1$:</p>
<ul>
<li>$PE(1, 2) &#x3D; \sin\left(\frac{1}{10000^{\frac{2}{4}}}\right) &#x3D; \sin(0.0001) \approx 0.0001$</li>
<li>$PE(1, 3) &#x3D; \cos\left(\frac{1}{10000^{\frac{2}{4}}}\right) &#x3D; \cos(0.0001) \approx 1.0000$</li>
</ul>
</li>
</ul>
<p>结果：$[0.8415, 0.5403, 0.0001, 1.0000]$</p>
<p><strong>位置 2 (“打”)</strong></p>
<ul>
<li><p>$i &#x3D; 0$:</p>
<ul>
<li>$PE(2, 0) &#x3D; \sin\left(\frac{2}{10000^{\frac{0}{4}}}\right) &#x3D; \sin(2) \approx 0.9093$</li>
<li>$PE(2, 1) &#x3D; \cos\left(\frac{2}{10000^{\frac{0}{4}}}\right) &#x3D; \cos(2) \approx -0.4161$</li>
</ul>
</li>
<li><p>$i &#x3D; 1$:</p>
<ul>
<li>$PE(2, 2) &#x3D; \sin\left(\frac{2}{10000^{\frac{2}{4}}}\right) &#x3D; \sin(0.0002) \approx 0.0002$</li>
<li>$PE(2, 3) &#x3D; \cos\left(\frac{2}{10000^{\frac{2}{4}}}\right) &#x3D; \cos(0.0002) \approx 0.9999$</li>
</ul>
</li>
</ul>
<p>结果：$[0.9093, -0.4161, 0.0002, 0.9999]$</p>
<p><strong>位置 3 (“篮球”)</strong></p>
<ul>
<li><p>$i &#x3D; 0$:</p>
<ul>
<li>$PE(3, 0) &#x3D; \sin\left(\frac{3}{10000^{\frac{0}{4}}}\right) &#x3D; \sin(3) \approx 0.1411$</li>
<li>$PE(3, 1) &#x3D; \cos\left(\frac{3}{10000^{\frac{0}{4}}}\right) &#x3D; \cos(3) \approx -0.9899$</li>
</ul>
</li>
<li><p>$i &#x3D; 1$:</p>
<ul>
<li>$PE(3, 2) &#x3D; \sin\left(\frac{3}{10000^{\frac{2}{4}}}\right) &#x3D; \sin(0.0003) \approx 0.0003$</li>
<li>$PE(3, 3) &#x3D; \cos\left(\frac{3}{10000^{\frac{2}{4}}}\right) &#x3D; \cos(0.0003) \approx 0.9999$</li>
</ul>
</li>
</ul>
<p>结果：$[0.1411, -0.9899, 0.0003, 0.9999]$</p>
<p>位置编码结果表格：</p>
<table>
<thead>
<tr>
<th align="center">位置</th>
<th align="center">单词</th>
<th align="center">$PE(pos, 0)$</th>
<th align="center">$PE(pos, 1)$</th>
<th align="center">$PE(pos, 2)$</th>
<th align="center">$PE(pos, 3)$</th>
</tr>
</thead>
<tbody><tr>
<td align="center">0</td>
<td align="center">我</td>
<td align="center">0.0000</td>
<td align="center">1.0000</td>
<td align="center">0.0000</td>
<td align="center">1.0000</td>
</tr>
<tr>
<td align="center">1</td>
<td align="center">去</td>
<td align="center">0.8415</td>
<td align="center">0.5403</td>
<td align="center">0.0001</td>
<td align="center">1.0000</td>
</tr>
<tr>
<td align="center">2</td>
<td align="center">打</td>
<td align="center">0.9093</td>
<td align="center">-0.4161</td>
<td align="center">0.0002</td>
<td align="center">0.9999</td>
</tr>
<tr>
<td align="center">3</td>
<td align="center">篮球</td>
<td align="center">0.1411</td>
<td align="center">-0.9899</td>
<td align="center">0.0003</td>
<td align="center">0.9999</td>
</tr>
</tbody></table>
<h4 id="2-5-3-代码实现"><a href="#2-5-3-代码实现" class="headerlink" title="2.5.3 代码实现"></a>2.5.3 代码实现</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">AddPositionalEncoding</span>(nn.Module):</span><br><span class="line">    <span class="comment"># 初始化位置编码类，它是一个PyTorch模型模块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self, d_model: <span class="built_in">int</span>, max_len: <span class="built_in">int</span>, device: torch.device = torch.device(<span class="params"><span class="string">&quot;cpu&quot;</span></span>)</span></span><br><span class="line"><span class="params">    </span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()      <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line">        self.d_model = d_model  <span class="comment"># d_model是模型的维度</span></span><br><span class="line">        self.max_len = max_len  <span class="comment"># max_len是序列的最大长度</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化位置编码权重，并通过to函数移动到指定的设备（CPU或GPU）</span></span><br><span class="line">        positional_encoding_weight: torch.Tensor = self._initialize_weight().to(device)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 注册positional_encoding_weight为模型的缓冲区，这样PyTorch会跟踪其梯度</span></span><br><span class="line">        self.register_buffer(<span class="string">&quot;positional_encoding_weight&quot;</span>, positional_encoding_weight)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, x: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># forward方法，将位置编码添加到输入x上</span></span><br><span class="line">        seq_len = x.size(<span class="number">1</span>)  <span class="comment"># 获取输入序列的长度</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 返回添加了位置编码的输入序列，位置编码的前seq_len个元素与输入序列的每个元素相加</span></span><br><span class="line">        <span class="keyword">return</span> x + self.positional_encoding_weight[:seq_len, :].unsqueeze(<span class="number">0</span>)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">_get_positional_encoding</span>(<span class="params">self, pos: <span class="built_in">int</span>, i: <span class="built_in">int</span></span>) -&gt; <span class="built_in">float</span>:</span><br><span class="line">        <span class="comment"># 私有方法，用于计算单个位置编码的值</span></span><br><span class="line">        w = pos / (<span class="number">10000</span> ** (((<span class="number">2</span> * i) // <span class="number">2</span>) / self.d_model))  <span class="comment"># 计算权重</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 根据i的奇偶性返回正弦或余弦值，用于位置编码</span></span><br><span class="line">        <span class="keyword">if</span> i % <span class="number">2</span> == <span class="number">0</span>:</span><br><span class="line">            <span class="keyword">return</span> np.sin(w)</span><br><span class="line">        <span class="keyword">else</span>:</span><br><span class="line">            <span class="keyword">return</span> np.cos(w)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">_initialize_weight</span>(<span class="params">self</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 私有方法，用于初始化位置编码权重</span></span><br><span class="line">        positional_encoding_weight = [</span><br><span class="line">            [self._get_positional_encoding(pos, i) <span class="keyword">for</span> i <span class="keyword">in</span> <span class="built_in">range</span>(<span class="number">1</span>, self.d_model + <span class="number">1</span>)]</span><br><span class="line">            <span class="keyword">for</span> pos <span class="keyword">in</span> <span class="built_in">range</span>(<span class="number">1</span>, self.max_len + <span class="number">1</span>)</span><br><span class="line">        ]</span><br><span class="line">        <span class="comment"># 将位置编码权重转换为张量并返回</span></span><br><span class="line">        <span class="keyword">return</span> torch.tensor(positional_encoding_weight).<span class="built_in">float</span>()</span><br></pre></td></tr></table></figure>


<h3 id="第六节-注意力机制"><a href="#第六节-注意力机制" class="headerlink" title="第六节 注意力机制"></a>第六节 注意力机制</h3><h4 id="2-6-1-注意力机制原理"><a href="#2-6-1-注意力机制原理" class="headerlink" title="2.6.1 注意力机制原理"></a>2.6.1 注意力机制原理</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>注意力或全局注意力通常是自然语言处理模型取得成功的最重要因素之一。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>注意力的基本思想是：模型可以根据输入词与上下文的相关性，更关注某些输入词。换句话说，模型为每个输入词分配不同程度的“注意力”，越重要的词获得的关注越多。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>比如在“我的狗有黑色、厚厚的皮毛，性格活泼。我还有一只棕色皮毛的猫。我的狗是什么品种的？”这个例子中，没有注意力模型会同等对待猫和狗信息，可能导致错误答案，而有注意力，训练后的语言模型会减少对“棕色皮毛”的关注，因其与问题无关，这种有选择关注重要单词的能力有助于提高自然语言处理模型性能。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/img_keep_kv-710x398.jpg"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>自注意力机制类似于搜索引擎，查询就像您在搜索栏中输入的搜索查询，K键就像数据库中网站的标题，V值就像网站本身。当您输入搜索查询时，系统会将其与数据库中的键进行比较，并根据键与查询的相似程度对值进行排名。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>理解自注意力如何分配 注意力值 一个有用方法：将输入序列的每个元素与序列中的其他元素进行比较来构建相关矩阵。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718220885712.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>自注意力机制由三个部分组成：Q查询、K键和V值。每个单词的向量化表示被投影到三个较小的向量中，分别表示单词的Q查询、K键和V值。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image.png" alt="img"></p>
<h4 id="2-6-2-注意力机制背后的数学原理"><a href="#2-6-2-注意力机制背后的数学原理" class="headerlink" title="2.6.2 注意力机制背后的数学原理"></a>2.6.2 注意力机制背后的数学原理</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>回想一下，位置编码的输出形状为 (序列长度，$d_{model}$)，其中 $d_{model}$ 可以解释为嵌入维度。此矩阵是编码器层的输入。对于第一个编码器层之后的编码器层，它们的输入将是前一个编码器层的输出。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>输入矩阵通过三个单独的权重矩阵线性投影到三个较小的矩阵中，即 Q查询、K键 和 V值。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>这些矩阵的形状为（序列长度：64），其中维度 64 是论文作者选择的任意值。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223050215.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Q查询、K键和V值的权重矩阵分别称为 $W_Q$、$W_K$ 和 $W_V$。这些权重矩阵与整个模型一起通过反向传播进行训练。为矩阵维度选择的值 64 不会影响自注意力的计算。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223082589.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在Transformer中，采用了一种称为ScaledDotProductAttention的方法来计算注意力权重，该方法通过计算 查询$Q$ 和输入 $K$ 的点积来计算 注意力权重。在下一节中，我们将详细看看这个方法。</p>
<h3 id="第七节-缩放点积注意力-Scaled-Dot-Product-Attention"><a href="#第七节-缩放点积注意力-Scaled-Dot-Product-Attention" class="headerlink" title="第七节 缩放点积注意力(Scaled Dot-Product Attention)"></a>第七节 缩放点积注意力(Scaled Dot-Product Attention)</h3><h4 id="2-7-1-缩放点积注意力原理"><a href="#2-7-1-缩放点积注意力原理" class="headerlink" title="2.7.1 缩放点积注意力原理"></a>2.7.1 缩放点积注意力原理</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer 采用一种名为“Scaled Dot-Product Attention（缩放点积注意力）” 的自注意力机制。全局注意力考虑每个单词相对于整个输入序列的重要性，而自注意力则解读序列中单词之间的依赖关系。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>例如，在“我去商店买了很多水果和一些家具。它们的味道很棒”这句话中，人类读者会推断“他们”指的是水果，而不是家具。使用全局注意力的模型可能会为“水果”、“家具”和“很棒”分配更高的注意力值，而无需理解这些词之间的关系。相比之下，自注意力将输入序列中的每个单词与其他每个单词进行比较，能够发现“他们”的本意。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/53cc36cf0a4693c1.jpg" alt="吃水果好处多，不过吃的时候，有3个不能-京东健康"></p>
<p>Q查询矩阵 对应的是 Q查询 中单词的矢量化表示，K键矩阵   对应的是 K键 中单词的矢量化表示，所以：<br>$$<br>Q \times K &#x3D; 权重矩阵<br>$$<br>即如下图：</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223187838.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>二维空间中两个向量之间的点积可以看作是向量之间余弦相似度的度量，由其量级的乘积缩放。</p>
<p>比如，有一个句子：“一个男人走在繁忙的道路上，手里拿着他刚买的几本书。”</p>
<p>我们想要理解这个句子中哪些词对于理解句子的整体含义是最重要的。</p>
<ol start="2">
<li><p><strong>词向量表示</strong>：将句子中的每个词转换成一个向量。在这个简化的例子中，我们假设每个词的向量是二维的。</p>
</li>
<li><p><strong>选择查询词</strong>：我们选择一个词作为“查询”（Q），比如“男人”，我们想要知道这个词在句子中与其他词的关系。</p>
</li>
<li><p><strong>计算相似度</strong>：将“男人”的向量与句子中其他词的向量（这里我们把它们当作“键”K）进行比较，比如“书”和“道路”。通过计算向量间的点积来评估它们之间的相似度。</p>
</li>
<li><p><strong>应用注意力权重</strong>：根据点积的结果，我们给每个词分配一个权重。如果“男人”和“书”的点积很高，意味着它们之间有很强的关联，因此“书”会得到一个较大的权重。</p>
</li>
<li><p><strong>简化决策</strong>：在这个例子中，我们简化了决策过程，认为“男人”和“书”之间的关系比“男人”和“道路”之间的关系更重要，因为“书”直接描述了“男人”的行为。</p>
</li>
<li><p><strong>最终输出</strong>：通过加权这些关系，我们可以得到一个综合的表示，这个表示强调了“男人”和“书”之间的关系，而对“男人”和“道路”的关系给予较少的重视。</p>
</li>
</ol>
<p>通过这种方式，注意力机制帮助我们识别和强调句子中最重要的部分，忽略那些可能不那么关键的信息。在这个例子中，它帮助我们集中关注“男人”和“书”，因为它们对于理解句子可能更为重要。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223207971.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>由 Q查询 和 K键 矩阵的点积生成的 注意力权重矩阵 具有 (序列长度，序列长度) 的形状。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>注意力权重矩阵 中的每个值都除以 K键、Q查询 和 V值 矩阵大小的平方根（在本例中为 8）。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>此步骤用于在训练期间稳定梯度。然后，注意力权重矩阵 通过 softmax 函数，该函数将其值标准化为 0 到 1 之间，并确保矩阵中每行的值总和为 1。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>如前所述，使用 注意力值 和 值 向量进行加权求和。将注意力得分归一化为总和为 1 使得这种加权求和运算成为可能。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>最后，将归一化的 注意力权重矩阵 与 值矩阵 相加，得到一个大小为 (序列长度，64) 的矩阵，该矩阵可以看作是带有注意力信息的输入序列的较小矢量化表示。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>输出矩阵的第一行是V值矩阵中行向量的加权和，权重是输入序列中第一个词对所有其他词的注意力值。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223220433.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>请注意，输出矩阵的大小为 (序列长度，64) 而不是 (序列长度，512)。  </p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>重点要记住，输出矩阵的大小应与原始词嵌入相同，因为它将用作下一个编码器层的输入，在第一个编码层的情况下，该编码器层需要将词嵌入作为输入。</p>
<p>在Transformer中使用的缩放点积注意力权重计算，可以使用查询 $Q(N×D)$ 和输入$K(N×D)$ 以下的公式表示。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718215270297.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在处理问答或机器翻译等任务时，使用Transformer模型，上述公式中的 $Q$ 和 $K$ 分别是表示文章数据的矩阵。</p>
<p>当处理的数据是 “用 $D$ 维词向量表示的 $N$ 个词的文章数据” 时，$Q$ 和 $K$ 是 $N×D$ 大小的矩阵。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>因此，这个计算了 查询$Q$  和 输入数据 $K$ 中的点积。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223187838.png" alt="img"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>向量之间的点积大意味着方向接近，即向量之间的相似性高（词之间的相似性高）。也就是说，如果将文章数据输入到ScaledDotProductAttention 中，$Q$ 和 $K$ 中的词之间的相似性将作为输入的重要性进行加权。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>通过计算上面得到的注意力权重。该权重 和 值$V$ 的乘积，可以得到最终的输出注意力特征。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718223220433.png" alt="img"></p>
<h4 id="2-7-2-代码实现"><a href="#2-7-2-代码实现" class="headerlink" title="2.7.2 代码实现"></a>2.7.2 代码实现</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">ScaledDotProductAttention</span>(nn.Module):</span><br><span class="line">    <span class="comment"># 初始化ScaledDotProductAttention类，它是一个PyTorch模型模块</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params">self, d_k: <span class="built_in">int</span></span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()  <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line">        self.d_k = d_k  <span class="comment"># d_k是输入特征的维度，用于计算缩放因子</span></span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        q: torch.Tensor,  <span class="comment"># 查询（Q），一个张量</span></span></span><br><span class="line"><span class="params">        k: torch.Tensor,  <span class="comment"># 键（K），一个张量</span></span></span><br><span class="line"><span class="params">        v: torch.Tensor,  <span class="comment"># 值（V），一个张量</span></span></span><br><span class="line"><span class="params">        mask: torch.Tensor = <span class="literal">None</span>,  <span class="comment"># 掩码，用于在计算注意力权重时忽略某些位置，默认为None</span></span></span><br><span class="line"><span class="params">    </span>) -&gt; torch.Tensor:  <span class="comment"># 定义forward方法，返回注意力机制的输出</span></span><br><span class="line">        scalar = np.sqrt(self.d_k)  <span class="comment"># 根据d_k计算缩放因子</span></span><br><span class="line">        <span class="comment"># 计算Q和K的点积，然后除以缩放因子，得到未归一化的注意力权重</span></span><br><span class="line">        attention_weight = torch.matmul(q, torch.transpose(k, <span class="number">1</span>, <span class="number">2</span>)) / scalar </span><br><span class="line"></span><br><span class="line">        <span class="comment"># 如果提供了掩码，则在计算注意力权重时将掩码位置的权重置为负无穷</span></span><br><span class="line">        <span class="keyword">if</span> mask <span class="keyword">is</span> <span class="keyword">not</span> <span class="literal">None</span>: </span><br><span class="line">            <span class="keyword">if</span> mask.dim() != attention_weight.dim():</span><br><span class="line">                <span class="keyword">raise</span> ValueError(</span><br><span class="line">                    <span class="string">&quot;掩码的维度与注意力权重的维度不匹配，掩码的维度=&#123;&#125;, 注意力权重的维度=&#123;&#125;&quot;</span>.<span class="built_in">format</span>(</span><br><span class="line">                        mask.dim(), attention_weight.dim()</span><br><span class="line">                    )</span><br><span class="line">                )</span><br><span class="line">            attention_weight = attention_weight.data.masked_fill_(</span><br><span class="line">                mask, -torch.finfo(torch.<span class="built_in">float</span>).<span class="built_in">max</span></span><br><span class="line">            ) </span><br><span class="line"></span><br><span class="line">        <span class="comment"># 对未归一化的注意力权重应用softmax函数，得到归一化的注意力权重</span></span><br><span class="line">        attention_weight = nn.functional.softmax(attention_weight, dim=<span class="number">2</span>) </span><br><span class="line">        <span class="comment"># 计算加权的值，即用归一化的注意力权重乘以V，完成注意力机制的计算</span></span><br><span class="line">        <span class="keyword">return</span> torch.matmul(attention_weight, v) </span><br></pre></td></tr></table></figure>


<p>如果掩码的维度不等于注意力权重的维度，将引发错误。</p>
<p>注意力权重通过softmax函数计算得出：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">attention_weight = nn.functional.softmax(attention_weight, dim=<span class="number">2</span>)  <span class="comment"># 计算注意力权重</span></span><br></pre></td></tr></table></figure>
<p>最终，通过注意力权重和 输入X 的乘积得到加权结果：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">return</span> torch.matmul(attention_weight, v)  <span class="comment"># 通过 (注意力权重) * X 进行加权。</span></span><br></pre></td></tr></table></figure>


<h3 id="第八节-多头注意力机制"><a href="#第八节-多头注意力机制" class="headerlink" title="第八节 多头注意力机制"></a>第八节 多头注意力机制</h3><h4 id="2-8-1-多头注意力机制"><a href="#2-8-1-多头注意力机制" class="headerlink" title="2.8.1 多头注意力机制"></a>2.8.1 多头注意力机制</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>在第上一节中，我们解释了Transformer模型使用Scaled Dot-Product Attention作为其注意力计算方法。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>然而，Transformer中使用的注意力不仅仅是简单的Scaled Dot-Product Attention，实际上，Transformer采用了一种称为Multihead Attention的机制，它并行地执行多个Scaled Dot-Product Attention。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>多头自注意力机制顾名思义就是将多个“注意力头”应用于同一序列。确切的自注意力机制会并行地对同一输入序列重新应用八次。对于每个注意力头，其Q查询、K键和V值权重矩阵 都会随机初始化，期间每个注意力头都能从输入序列中捕获不同类型的信息。 </p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>每个注意力头都会产生一个形状为 (序列长度，64) 的矩阵；然后它们沿其第二维连接起来，创建一个形状为 (序列长度，8*64) 的矩阵。在此矩阵上执行线性投影以“结合”所有注意力头的知识。用于线性投影的权重矩阵与模型的其余部分一起通过反向传播进行训练。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718224590950.png" alt="img"></p>
<p>让我们来看一下论文中Multihead Attention的示意图。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/160265954-9451fb41-3906-4f29-8e74-d4255925141c.png" alt="多头注意力机制"></p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>在 Transformer 的原始论文中，作者使用了 8 个注意力头。但后来的研究表明，这可能没有必要。在论文《<a target="_blank" rel="noopener" href="https://arxiv.org/abs/1905.09418">分析多头自注意力：专用注意力头承担重任，其余部分可以修剪</a>》中，Elena Voita 等人提出，在 8 个注意力头中，有三个“专用”注意力头承担了大部分工作。具体来说，这些专用注意力头的作用被假设如下：</p>
<p>图中的 $h$(头数) 表示并行运行的 ScaledDotProductAttention 的数量。</p>
<p>Multihead Attention执行以下处理：</p>
<ol>
<li>将输入$Q(N_q×d_{model})$、$K(N×d_{model})$、$V(N×d_{model})$复制成 $h$(头数)份。</li>
<li>使用矩阵 $W_i^q(d_{model}×d_k)$、$W_i^k(d_{model}×d_k)$、$W_i^v(d_{model}×d_v)$ 将复制的输入 $Q_i$、$K_i$、$V_i$ 分别线性变换为$d_{model}→d_v,d_k$。</li>
<li>将获得的 $Q_iW_i^q$、$K_iW_i^k$、$V_iW_i^v$ 输入到 $h$ 个存在的 ScaledDotProductAttention 中。</li>
<li>将并行运行的 ScaledDotProductAttention 得到的 $h$ 个输出头 $head(i&#x3D;1 \sim h,N×d_v)$ 连接(concat)起来，得到矩阵$O(N×hd_v)$。</li>
<li>使用 $OW^O$ 将 $O$ 从 $hd_v$ 变换到 $d_{model}$ ，得到的值作为最终输出。</li>
</ol>
<p>公式化表示如下：<br>$$<br>\text{head}_i &#x3D; \text{ScaledDotProductAttention}(Q_iW_i^q, K_iW_i^k, V_iW_i^v) \quad (i&#x3D;1\sim h)<br>$$</p>
<p>$$<br>O &#x3D; \text{Concat}(\text{head}_1, …, \text{head}_h)<br>$$<br>$$<br>\text{MultiHead}(Q, K, V) &#x3D; O W^O<br>$$</p>
<h4 id="2-8-2-代码实现"><a href="#2-8-2-代码实现" class="headerlink" title="2.8.2 代码实现"></a>2.8.2 代码实现</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> layers.transformer.ScaledDotProductAttention <span class="keyword">import</span> ScaledDotProductAttention</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">MultiHeadAttention</span>(nn.Module):</span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params">self, d_model: <span class="built_in">int</span>, h: <span class="built_in">int</span></span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()</span><br><span class="line">        self.d_model = d_model</span><br><span class="line">        self.h = h</span><br><span class="line">        self.d_k = d_model // h</span><br><span class="line">        self.d_v = d_model // h</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 定义参数矩阵</span></span><br><span class="line">        self.W_k = nn.Parameter(</span><br><span class="line">            torch.Tensor(h, d_model, self.d_k)  <span class="comment"># 头数, 输入维度, 输出维度(=输入维度/头数)</span></span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        self.W_q = nn.Parameter(</span><br><span class="line">            torch.Tensor(h, d_model, self.d_k)  <span class="comment"># 头数, 输入维度, 输出维度(=输入维度/头数)</span></span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        self.W_v = nn.Parameter(</span><br><span class="line">            torch.Tensor(h, d_model, self.d_v)  <span class="comment"># 头数, 输入维度, 输出维度(=输入维度/头数)</span></span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        self.scaled_dot_product_attention = ScaledDotProductAttention(self.d_k)</span><br><span class="line"></span><br><span class="line">        self.linear = nn.Linear(h * self.d_v, d_model)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        q: torch.Tensor,</span></span><br><span class="line"><span class="params">        k: torch.Tensor,</span></span><br><span class="line"><span class="params">        v: torch.Tensor,</span></span><br><span class="line"><span class="params">        mask_3d: torch.Tensor = <span class="literal">None</span>,</span></span><br><span class="line"><span class="params">    </span>) -&gt; torch.Tensor:</span><br><span class="line"></span><br><span class="line">        batch_size, seq_len = q.size(<span class="number">0</span>), q.size(<span class="number">1</span>)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 按头数重复Query, Key, Value</span></span><br><span class="line">        q = q.repeat(self.h, <span class="number">1</span>, <span class="number">1</span>, <span class="number">1</span>)  <span class="comment"># head, batch_size, seq_len, d_model</span></span><br><span class="line">        k = k.repeat(self.h, <span class="number">1</span>, <span class="number">1</span>, <span class="number">1</span>)  <span class="comment"># head, batch_size, seq_len, d_model</span></span><br><span class="line">        v = v.repeat(self.h, <span class="number">1</span>, <span class="number">1</span>, <span class="number">1</span>)  <span class="comment"># head, batch_size, seq_len, d_model</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 在缩放点积注意力之前进行线性变换</span></span><br><span class="line">        q = torch.einsum(</span><br><span class="line">            <span class="string">&quot;hijk,hkl-&gt;hijl&quot;</span>, (q, self.W_q)</span><br><span class="line">        )  <span class="comment"># head, batch_size, d_k, seq_len</span></span><br><span class="line">        k = torch.einsum(</span><br><span class="line">            <span class="string">&quot;hijk,hkl-&gt;hijl&quot;</span>, (k, self.W_k)</span><br><span class="line">        )  <span class="comment"># head, batch_size, d_k, seq_len</span></span><br><span class="line">        v = torch.einsum(</span><br><span class="line">            <span class="string">&quot;hijk,hkl-&gt;hijl&quot;</span>, (v, self.W_v)</span><br><span class="line">        )  <span class="comment"># head, batch_size, d_k, seq_len</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 分割头</span></span><br><span class="line">        q = q.view(self.h * batch_size, seq_len, self.d_k)</span><br><span class="line">        k = k.view(self.h * batch_size, seq_len, self.d_k)</span><br><span class="line">        v = v.view(self.h * batch_size, seq_len, self.d_v)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">if</span> mask_3d <span class="keyword">is</span> <span class="keyword">not</span> <span class="literal">None</span>:</span><br><span class="line">            mask_3d = mask_3d.repeat(self.h, <span class="number">1</span>, <span class="number">1</span>)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 缩放点积注意力</span></span><br><span class="line">        attention_output = self.scaled_dot_product_attention(</span><br><span class="line">            q, k, v, mask_3d</span><br><span class="line">        )  <span class="comment"># (head*batch_size, seq_len, d_model)</span></span><br><span class="line"></span><br><span class="line">        attention_output = torch.chunk(attention_output, self.h, dim=<span class="number">0</span>)</span><br><span class="line">        attention_output = torch.cat(attention_output, dim=<span class="number">2</span>)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 在缩放点积注意力之后进行线性变换</span></span><br><span class="line">        output = self.linear(attention_output)</span><br><span class="line">        <span class="keyword">return</span> output</span><br></pre></td></tr></table></figure>


<h3 id="第九节-位置前馈网络"><a href="#第九节-位置前馈网络" class="headerlink" title="第九节 位置前馈网络"></a>第九节 位置前馈网络</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>Position-wise Feed-Forward Networks（FFN）是一个非常简单的层，只包含两个全连接层（Linear）。在第一个层的输出上使用ReLU作为激活函数。</p>
<p>Position-wise Feed-Forward Networks（FFN）的公式化表示如下：<br>$$<br>FFN(x) &#x3D; \max(0, xW_1 + b_1)W_2 + b_2<br>$$</p>
<p>接下来，让我们看看实现。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"><span class="keyword">from</span> torch.nn.functional <span class="keyword">import</span> relu</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">FFN</span>(nn.Module):</span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params">self, d_model: <span class="built_in">int</span>, d_ff: <span class="built_in">int</span></span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="built_in">super</span>().__init__()</span><br><span class="line">        self.linear1 = nn.Linear(d_model, d_ff)</span><br><span class="line">        self.linear2 = nn.Linear(d_ff, d_model)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, x: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="keyword">return</span> self.linear2(relu(self.linear1(x)))</span><br></pre></td></tr></table></figure>


<h3 id="第十节-Transformer完整实现"><a href="#第十节-Transformer完整实现" class="headerlink" title="第十节 Transformer完整实现"></a>第十节 Transformer完整实现</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>到目前为止，我们已经完成了构成Transformer的各个部分的实现，包括Attention、PositionalEncoding、Encoder和Decoder。本章我们将转移到实现Transformer本身。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>但事实上，由于Encoder和Decoder的实现已经完成，模型的实现本身非常简单，只需要将这两者结合起来即可。接下来，让我们看看实现。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br><span class="line">105</span><br><span class="line">106</span><br><span class="line">107</span><br><span class="line">108</span><br><span class="line">109</span><br><span class="line">110</span><br><span class="line">111</span><br><span class="line">112</span><br><span class="line">113</span><br><span class="line">114</span><br><span class="line">115</span><br><span class="line">116</span><br><span class="line">117</span><br><span class="line">118</span><br><span class="line">119</span><br><span class="line">120</span><br><span class="line">121</span><br><span class="line">122</span><br><span class="line">123</span><br><span class="line">124</span><br><span class="line">125</span><br><span class="line">126</span><br><span class="line">127</span><br><span class="line">128</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> layers.transformer.TransformerDecoder <span class="keyword">import</span> TransformerDecoder</span><br><span class="line"><span class="keyword">from</span> layers.transformer.TransformerEncoder <span class="keyword">import</span> TransformerEncoder</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">Transformer</span>(nn.Module):</span><br><span class="line">    <span class="comment"># Transformer模型的初始化方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        src_vocab_size: <span class="built_in">int</span>,                         <span class="comment"># 源语言词汇表大小</span></span></span><br><span class="line"><span class="params">        tgt_vocab_size: <span class="built_in">int</span>,                         <span class="comment"># 目标语言词汇表大小</span></span></span><br><span class="line"><span class="params">        max_len: <span class="built_in">int</span>,                                <span class="comment"># 输入序列的最大长度</span></span></span><br><span class="line"><span class="params">        d_model: <span class="built_in">int</span> = <span class="number">512</span>,                          <span class="comment"># 模型的维度</span></span></span><br><span class="line"><span class="params">        heads_num: <span class="built_in">int</span> = <span class="number">8</span>,                          <span class="comment"># 多头注意力中头的数量</span></span></span><br><span class="line"><span class="params">        d_ff: <span class="built_in">int</span> = <span class="number">2048</span>,                            <span class="comment"># 馈前网络的维度</span></span></span><br><span class="line"><span class="params">        N: <span class="built_in">int</span> = <span class="number">6</span>,                                  <span class="comment"># 编码器和解码器层的数量</span></span></span><br><span class="line"><span class="params">        dropout_rate: <span class="built_in">float</span> = <span class="number">0.1</span>,                   <span class="comment"># dropout率</span></span></span><br><span class="line"><span class="params">        layer_norm_eps: <span class="built_in">float</span> = <span class="number">1e-5</span>,                <span class="comment"># LayerNorm的epsilon值</span></span></span><br><span class="line"><span class="params">        pad_idx: <span class="built_in">int</span> = <span class="number">0</span>,                            <span class="comment"># 填充索引</span></span></span><br><span class="line"><span class="params">        device: torch.device = torch.device(<span class="params"><span class="string">&quot;cpu&quot;</span></span>),  <span class="comment"># 指定设备，默认为CPU</span></span></span><br><span class="line"><span class="params">    </span>):</span><br><span class="line">        <span class="built_in">super</span>().__init__()  <span class="comment"># 调用基类的初始化方法</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化模型参数</span></span><br><span class="line">        self.src_vocab_size = src_vocab_size</span><br><span class="line">        self.tgt_vocab_size = tgt_vocab_size</span><br><span class="line">        self.d_model = d_model</span><br><span class="line">        self.max_len = max_len</span><br><span class="line">        self.heads_num = heads_num</span><br><span class="line">        self.d_ff = d_ff</span><br><span class="line">        self.N = N</span><br><span class="line">        self.dropout_rate = dropout_rate</span><br><span class="line">        self.layer_norm_eps = layer_norm_eps</span><br><span class="line">        self.pad_idx = pad_idx</span><br><span class="line">        self.device = device</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化Transformer的编码器</span></span><br><span class="line">        self.encoder = TransformerEncoder(</span><br><span class="line">            <span class="comment"># 编码器初始化参数</span></span><br><span class="line">            src_vocab_size,</span><br><span class="line">            max_len,</span><br><span class="line">            pad_idx,</span><br><span class="line">            d_model,</span><br><span class="line">            N,</span><br><span class="line">            d_ff,</span><br><span class="line">            heads_num,</span><br><span class="line">            dropout_rate,</span><br><span class="line">            layer_norm_eps,</span><br><span class="line">            device,</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化Transformer的解码器</span></span><br><span class="line">        self.decoder = TransformerDecoder(</span><br><span class="line">            <span class="comment"># 解码器初始化参数</span></span><br><span class="line">            tgt_vocab_size,</span><br><span class="line">            max_len,</span><br><span class="line">            pad_idx,</span><br><span class="line">            d_model,</span><br><span class="line">            N,</span><br><span class="line">            d_ff,</span><br><span class="line">            heads_num,</span><br><span class="line">            dropout_rate,</span><br><span class="line">            layer_norm_eps,</span><br><span class="line">            device,</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 初始化输出层的线性变换</span></span><br><span class="line">        self.linear = nn.Linear(d_model, tgt_vocab_size)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># Transformer模型的前向传播方法</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, src: torch.Tensor, tgt: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="string">&quot;&quot;&quot;</span></span><br><span class="line"><span class="string">        参数:</span></span><br><span class="line"><span class="string">        ----------</span></span><br><span class="line"><span class="string">        src : torch.Tensor</span></span><br><span class="line"><span class="string">            单词的ID序列，形状为[batch_size, max_len]</span></span><br><span class="line"><span class="string">        tgt : torch.Tensor</span></span><br><span class="line"><span class="string">            单词的ID序列，形状为[batch_size, max_len]</span></span><br><span class="line"><span class="string">        &quot;&quot;&quot;</span></span><br><span class="line"></span><br><span class="line">        <span class="comment"># 创建源序列的padding掩码</span></span><br><span class="line">        pad_mask_src = self._pad_mask(src)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 编码器处理源序列</span></span><br><span class="line">        src = self.encoder(src, pad_mask_src)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 创建解码器的掩码，结合了后续掩码和padding掩码</span></span><br><span class="line">        mask_self_attn = torch.logical_or(</span><br><span class="line">            self._subsequent_mask(tgt), self._pad_mask(tgt)</span><br><span class="line">        )</span><br><span class="line">        <span class="comment"># 解码器处理目标序列</span></span><br><span class="line">        dec_output = self.decoder(tgt, src, pad_mask_src, mask_self_attn)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 通过输出层的线性变换</span></span><br><span class="line">        <span class="keyword">return</span> self.linear(dec_output)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 创建源序列的padding掩码</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">_pad_mask</span>(<span class="params">self, x: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="string">&quot;&quot;&quot;根据单词的ID序列创建padding掩码。</span></span><br><span class="line"><span class="string">        参数:</span></span><br><span class="line"><span class="string">        ----------</span></span><br><span class="line"><span class="string">        x : torch.Tensor</span></span><br><span class="line"><span class="string">            单词的ID序列，形状为[batch_size, max_len]</span></span><br><span class="line"><span class="string">        &quot;&quot;&quot;</span></span><br><span class="line">        <span class="comment"># 计算序列长度</span></span><br><span class="line">        seq_len = x.size(<span class="number">1</span>)</span><br><span class="line">        <span class="comment"># 创建一个与序列长度相同的padding掩码，padding位置为True</span></span><br><span class="line">        mask = x.eq(self.pad_idx)  <span class="comment"># 0是词汇表中的&lt;pad&gt;标记</span></span><br><span class="line">        mask = mask.unsqueeze(<span class="number">1</span>)  <span class="comment"># 增加一个维度以匹配序列长度</span></span><br><span class="line">        mask = mask.repeat(<span class="number">1</span>, seq_len, <span class="number">1</span>)  <span class="comment"># 复制掩码以匹配序列长度</span></span><br><span class="line">        <span class="comment"># 将掩码移动到指定的设备</span></span><br><span class="line">        <span class="keyword">return</span> mask.to(self.device)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 创建解码器的后续掩码</span></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">_subsequent_mask</span>(<span class="params">self, x: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="string">&quot;&quot;&quot;为解码器的Masked-Attention创建掩码。</span></span><br><span class="line"><span class="string">        参数:</span></span><br><span class="line"><span class="string">        ----------</span></span><br><span class="line"><span class="string">        x : torch.Tensor</span></span><br><span class="line"><span class="string">            单词的token序列，形状为[batch_size, max_len, d_model]</span></span><br><span class="line"><span class="string">        &quot;&quot;&quot;</span></span><br><span class="line">        <span class="comment"># 获取批次大小和序列最大长度</span></span><br><span class="line">        batch_size = x.size(<span class="number">0</span>)</span><br><span class="line">        max_len = x.size(<span class="number">1</span>)</span><br><span class="line">        <span class="comment"># 创建一个下三角矩阵，用于在解码器中防止未来信息的泄露</span></span><br><span class="line">        <span class="keyword">return</span> (</span><br><span class="line">            torch.tril(torch.ones(batch_size, max_len, max_len)).eq(<span class="number">0</span>).to(self.device)</span><br><span class="line">        )</span><br></pre></td></tr></table></figure>


<h3 id="第十一节-Transformer训练"><a href="#第十一节-Transformer训练" class="headerlink" title="第十一节 Transformer训练"></a>第十一节 Transformer训练</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>现在我们已经实现了Transformer，接下来我们将使用实际的机器翻译数据集来训练它。</p>
<p>为了训练模型，我们在train.py中定义了一个名为Trainer的类，用于训练。</p>
<p>Trainer类参考了PyTorch Lightning的API，包含以下五个方法：</p>
<ul>
<li>loss_fn: 计算损失函数</li>
<li>train_step: 训练中的单步（训练）</li>
<li>val_step: 训练中的单步（验证）</li>
<li>fit: 通过批量学习进行模型的训练和验证</li>
<li>test: 使用测试数据进行模型验证</li>
</ul>
<p>那么我们来看看它的实现。 Trainer类的实现如下。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br><span class="line">105</span><br><span class="line">106</span><br><span class="line">107</span><br><span class="line">108</span><br><span class="line">109</span><br><span class="line">110</span><br><span class="line">111</span><br><span class="line">112</span><br><span class="line">113</span><br><span class="line">114</span><br><span class="line">115</span><br><span class="line">116</span><br><span class="line">117</span><br><span class="line">118</span><br><span class="line">119</span><br><span class="line">120</span><br><span class="line">121</span><br><span class="line">122</span><br><span class="line">123</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">from</span> os.path <span class="keyword">import</span> join</span><br><span class="line"><span class="keyword">from</span> typing <span class="keyword">import</span> <span class="type">List</span>, <span class="type">Tuple</span></span><br><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">from</span> matplotlib <span class="keyword">import</span> pyplot <span class="keyword">as</span> plt</span><br><span class="line"><span class="keyword">from</span> torch <span class="keyword">import</span> nn, optim</span><br><span class="line"><span class="keyword">from</span> torch.utils.data <span class="keyword">import</span> DataLoader</span><br><span class="line"></span><br><span class="line"><span class="comment"># 导入自定义模块和常量</span></span><br><span class="line"><span class="keyword">from</span> const.path <span class="keyword">import</span> FIGURE_PATH, KFTT_TOK_CORPUS_PATH, NN_MODEL_PICKLES_PATH, TANAKA_CORPUS_PATH</span><br><span class="line"><span class="keyword">from</span> models <span class="keyword">import</span> Transformer</span><br><span class="line"><span class="keyword">from</span> utils.dataset.Dataset <span class="keyword">import</span> KfttDataset</span><br><span class="line"><span class="keyword">from</span> utils.evaluation.bleu <span class="keyword">import</span> BleuScore</span><br><span class="line"><span class="keyword">from</span> utils.text.text <span class="keyword">import</span> tensor_to_text, text_to_tensor</span><br><span class="line"><span class="keyword">from</span> utils.text.vocab <span class="keyword">import</span> get_vocab</span><br><span class="line"></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">Trainer</span>:</span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params"></span></span><br><span class="line"><span class="params">        self,</span></span><br><span class="line"><span class="params">        net: nn.Module,</span></span><br><span class="line"><span class="params">        optimizer: optim.Optimizer,</span></span><br><span class="line"><span class="params">        criterion: nn.Module,  <span class="comment"># 修正了变量名拼写错误</span></span></span><br><span class="line"><span class="params">        bleu_score: BleuScore,</span></span><br><span class="line"><span class="params">        device: torch.device,</span></span><br><span class="line"><span class="params">    </span>) -&gt; <span class="literal">None</span>:</span><br><span class="line">        <span class="comment"># 初始化训练器</span></span><br><span class="line">        self.net = net.to(device)  <span class="comment"># 将模型移动到设备上</span></span><br><span class="line">        self.optimizer = optimizer</span><br><span class="line">        self.criterion = criterion  <span class="comment"># 修正了变量名拼写错误</span></span><br><span class="line">        self.device = device</span><br><span class="line">        self.bleu_score = bleu_score</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">loss_fn</span>(<span class="params">self, preds: torch.Tensor, labels: torch.Tensor</span>) -&gt; torch.Tensor:</span><br><span class="line">        <span class="comment"># 定义损失函数</span></span><br><span class="line">        <span class="keyword">return</span> self.criterion(preds, labels)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">train_step</span>(<span class="params">self, src: torch.Tensor, tgt: torch.Tensor</span>) -&gt; <span class="type">Tuple</span>[torch.Tensor, torch.Tensor, <span class="built_in">float</span>]:</span><br><span class="line">        <span class="comment"># 单步训练过程</span></span><br><span class="line">        self.net.train()  <span class="comment"># 设置模型为训练模式</span></span><br><span class="line">        output = self.net(src, tgt)</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 调整目标和预测输出的形状以计算损失</span></span><br><span class="line">        tgt = tgt[:, <span class="number">1</span>:]  <span class="comment"># 忽略序列的第一个元素（通常是&lt;BOS&gt;）</span></span><br><span class="line">        output = output[:, :-<span class="number">1</span>, :]</span><br><span class="line"></span><br><span class="line">        loss = self.loss_fn(</span><br><span class="line">            output.contiguous().view(-<span class="number">1</span>, output.size(-<span class="number">1</span>)),</span><br><span class="line">            tgt.contiguous().view(-<span class="number">1</span>)</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        <span class="comment"># 计算BLEU分数</span></span><br><span class="line">        _, output_ids = torch.<span class="built_in">max</span>(output, dim=-<span class="number">1</span>)</span><br><span class="line">        bleu_score = self.bleu_score(tgt, output_ids)</span><br><span class="line"></span><br><span class="line">        self.optimizer.zero_grad()  <span class="comment"># 清除之前的梯度</span></span><br><span class="line">        loss.backward()             <span class="comment"># 反向传播</span></span><br><span class="line">        self.optimizer.step()       <span class="comment"># 更新参数</span></span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> loss, output, bleu_score</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">val_step</span>(<span class="params">self, src: torch.Tensor, tgt: torch.Tensor</span>) -&gt; <span class="type">Tuple</span>[torch.Tensor, torch.Tensor, <span class="built_in">float</span>]:</span><br><span class="line">        <span class="comment"># 单步验证过程</span></span><br><span class="line">        self.net.<span class="built_in">eval</span>()  <span class="comment"># 设置模型为评估模式</span></span><br><span class="line">        output = self.net(src, tgt)</span><br><span class="line"></span><br><span class="line">        tgt = tgt[:, <span class="number">1</span>:]</span><br><span class="line">        output = output[:, :-<span class="number">1</span>, :]</span><br><span class="line"></span><br><span class="line">        loss = self.loss_fn(</span><br><span class="line">            output.contiguous().view(-<span class="number">1</span>, output.size(-<span class="number">1</span>)),</span><br><span class="line">            tgt.contiguous().view(-<span class="number">1</span>)</span><br><span class="line">        )</span><br><span class="line"></span><br><span class="line">        _, output_ids = torch.<span class="built_in">max</span>(output, dim=-<span class="number">1</span>)</span><br><span class="line">        bleu_score = self.bleu_score(tgt, output_ids)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> loss, output, bleu_score</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">fit</span>(<span class="params">self, train_loader: DataLoader, val_loader: DataLoader, print_log: <span class="built_in">bool</span> = <span class="literal">True</span></span>):</span><br><span class="line">        <span class="comment"># 训练和验证过程</span></span><br><span class="line">        train_losses, train_bleu_scores = [], []</span><br><span class="line">        <span class="keyword">if</span> print_log:</span><br><span class="line">            <span class="built_in">print</span>(<span class="string">f&quot;<span class="subst">&#123;<span class="string">&#x27;-&#x27;</span>*<span class="number">20</span>&#125;</span> Train <span class="subst">&#123;<span class="string">&#x27;-&#x27;</span>*<span class="number">20</span>&#125;</span>&quot;</span>)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">for</span> i, (src, tgt) <span class="keyword">in</span> <span class="built_in">enumerate</span>(train_loader):</span><br><span class="line">            src, tgt = src.to(self.device), tgt.to(self.device)</span><br><span class="line">            loss, _, bleu_score = self.train_step(src, tgt)</span><br><span class="line">            src, tgt = src.to(<span class="string">&quot;cpu&quot;</span>), tgt.to(<span class="string">&quot;cpu&quot;</span>)</span><br><span class="line"></span><br><span class="line">            <span class="keyword">if</span> print_log:</span><br><span class="line">                <span class="built_in">print</span>(<span class="string">f&quot;train loss: <span class="subst">&#123;loss.item()&#125;</span>, bleu score: <span class="subst">&#123;bleu_score&#125;</span>, iter: <span class="subst">&#123;i+<span class="number">1</span>&#125;</span>/<span class="subst">&#123;<span class="built_in">len</span>(train_loader)&#125;</span>&quot;</span>)</span><br><span class="line"></span><br><span class="line">            train_losses.append(loss.item())</span><br><span class="line">            train_bleu_scores.append(bleu_score)</span><br><span class="line"></span><br><span class="line">        val_losses, val_bleu_scores = [], []</span><br><span class="line">        <span class="keyword">if</span> print_log:</span><br><span class="line">            <span class="built_in">print</span>(<span class="string">f&quot;<span class="subst">&#123;<span class="string">&#x27;-&#x27;</span>*<span class="number">20</span>&#125;</span> Validation <span class="subst">&#123;<span class="string">&#x27;-&#x27;</span>*<span class="number">20</span>&#125;</span>&quot;</span>)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">for</span> i, (src, tgt) <span class="keyword">in</span> <span class="built_in">enumerate</span>(val_loader):</span><br><span class="line">            src, tgt = src.to(self.device), tgt.to(self.device)</span><br><span class="line">            loss, _, bleu_score = self.val_step(src, tgt)</span><br><span class="line">            src, tgt = src.to(<span class="string">&quot;cpu&quot;</span>), tgt.to(<span class="string">&quot;cpu&quot;</span>)</span><br><span class="line"></span><br><span class="line">            <span class="keyword">if</span> print_log:</span><br><span class="line">                <span class="built_in">print</span>(<span class="string">f&quot;val loss: <span class="subst">&#123;loss.item()&#125;</span>, iter: <span class="subst">&#123;i+<span class="number">1</span>&#125;</span>/<span class="subst">&#123;<span class="built_in">len</span>(val_loader)&#125;</span>&quot;</span>)</span><br><span class="line"></span><br><span class="line">            val_losses.append(loss.item())</span><br><span class="line">            val_bleu_scores.append(bleu_score)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> train_losses, train_bleu_scores, val_losses, val_bleu_scores</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">test</span>(<span class="params">self, test_data_loader: DataLoader</span>) -&gt; <span class="type">Tuple</span>[<span class="type">List</span>[<span class="built_in">float</span>], <span class="type">List</span>[<span class="built_in">float</span>]]:</span><br><span class="line">        <span class="comment"># 测试过程</span></span><br><span class="line">        test_losses, test_bleu_scores = [], []</span><br><span class="line">        <span class="keyword">for</span> i, (src, tgt) <span class="keyword">in</span> <span class="built_in">enumerate</span>(test_data_loader):</span><br><span class="line">            src, tgt = src.to(self.device), tgt.to(self.device)</span><br><span class="line">            loss, _, bleu_score = self.val_step(src, tgt)  <span class="comment"># 这里应该使用测试步骤，而不是验证步骤</span></span><br><span class="line">            src, tgt = src.to(<span class="string">&quot;cpu&quot;</span>), tgt.to(<span class="string">&quot;cpu&quot;</span>)</span><br><span class="line"></span><br><span class="line">            test_losses.append(loss.item())</span><br><span class="line">            test_bleu_scores.append(bleu_score)</span><br><span class="line"></span><br><span class="line">        <span class="keyword">return</span> test_losses, test_bleu_scores</span><br></pre></td></tr></table></figure>


<p>现在我们来训练一下模型。运行以下命令来训练模型。</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">poetry run python train.py</span><br></pre></td></tr></table></figure>


<h3 id="第十二节-总结"><a href="#第十二节-总结" class="headerlink" title="第十二节 总结"></a>第十二节 总结</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>Transformer模型推出自2017以来已有多年时间，所以不能简单地将其视为一个全新的模型。尽管如此，在近期的自然语言处理技术发展中，大多数被认为是技术前沿（SoTA）的模型都是基于Transformer或注意力（Attention）机制构建的。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>因此，Transformer无疑成为了理解深度学习最新进展的一个关键性模型。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>随着相关库的日益完善，构建像Transformer这样复杂的模型变得更加容易，进入门槛也相应降低。然而，我坚信深入了解模型的内部结构对于提升我们的实际应用能力至关重要。如果你对此感兴趣，我鼓励你亲自尝试实现这些模型，即便这可能意味着要重新发明一些已经存在的概念。</p>
<h2 id="第三章-实验"><a href="#第三章-实验" class="headerlink" title="第三章 实验"></a>第三章 实验</h2><p>参考：</p>
<p><a target="_blank" rel="noopener" href="https://www.datacamp.com/tutorial/building-a-transformer-with-py-torch">https://www.datacamp.com/tutorial/building-a-transformer-with-py-torch</a></p>
<p><a target="_blank" rel="noopener" href="https://github.com/YadaYuki/en_ja_translator_pytorch/tree/master">https://github.com/YadaYuki/en_ja_translator_pytorch/tree/master</a></p>
<p><a target="_blank" rel="noopener" href="https://github.com/karpathy/nanoGPT">https://github.com/karpathy/nanoGPT</a></p>
<p>换源</p>
<figure class="highlight toml"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br></pre></td><td class="code"><pre><span class="line"><span class="section">[tool.poetry]</span></span><br><span class="line"><span class="attr">name</span> = <span class="string">&quot;en_ja_translator_pytorch&quot;</span></span><br><span class="line"><span class="attr">version</span> = <span class="string">&quot;0.1.0&quot;</span></span><br><span class="line"><span class="attr">description</span> = <span class="string">&quot;&quot;</span></span><br><span class="line"><span class="attr">authors</span> = [<span class="string">&quot;YadaYuki &lt;yada.yuki@fuji.waseda.jp&gt;&quot;</span>]</span><br><span class="line"></span><br><span class="line"><span class="section">[[tool.poetry.source]]</span></span><br><span class="line"><span class="attr">name</span> = <span class="string">&quot;aliyun&quot;</span></span><br><span class="line"><span class="attr">url</span> = <span class="string">&quot;http://mirrors.aliyun.com/pypi/simple&quot;</span></span><br><span class="line"><span class="attr">default</span> = <span class="literal">true</span></span><br><span class="line"></span><br><span class="line"><span class="section">[tool.poetry.dependencies]</span></span><br><span class="line"><span class="attr">python</span> = <span class="string">&quot;^3.8&quot;</span></span><br><span class="line"><span class="attr">requests</span> = <span class="string">&quot;^2.27.1&quot;</span></span><br><span class="line"><span class="attr">scikit-learn</span> = <span class="string">&quot;^1.0.2&quot;</span></span><br><span class="line"><span class="attr">torch</span> = <span class="string">&quot;^1.10.2&quot;</span></span><br><span class="line"><span class="attr">pytest</span> = <span class="string">&quot;^7.0.1&quot;</span></span><br><span class="line"><span class="attr">matplotlib</span> = <span class="string">&quot;^3.5.1&quot;</span></span><br><span class="line"><span class="attr">sklearn</span> = <span class="string">&quot;^0.0&quot;</span></span><br><span class="line"><span class="attr">torchtext</span> = <span class="string">&quot;^0.12.0&quot;</span></span><br><span class="line"></span><br><span class="line"><span class="section">[tool.poetry.dev-dependencies]</span></span><br><span class="line"><span class="attr">mypy</span> = <span class="string">&quot;^0.931&quot;</span></span><br><span class="line"><span class="attr">isort</span> = <span class="string">&quot;^5.10.1&quot;</span></span><br><span class="line"><span class="attr">flake8</span> = <span class="string">&quot;^4.0.1&quot;</span></span><br><span class="line"><span class="attr">black</span> = <span class="string">&quot;^22.1.0&quot;</span></span><br><span class="line"><span class="attr">types-requests</span> = <span class="string">&quot;^2.27.10&quot;</span></span><br><span class="line"></span><br><span class="line"><span class="section">[build-system]</span></span><br><span class="line"><span class="attr">requires</span> = [<span class="string">&quot;poetry-core&gt;=1.0.0&quot;</span>]</span><br><span class="line"><span class="attr">build-backend</span> = <span class="string">&quot;poetry.core.masonry.api&quot;</span></span><br></pre></td></tr></table></figure>


<h2 id="阅读扩展"><a href="#阅读扩展" class="headerlink" title="阅读扩展"></a>阅读扩展</h2><h3 id="第一节-Transformer中Add、Norm和前馈网络"><a href="#第一节-Transformer中Add、Norm和前馈网络" class="headerlink" title="第一节 Transformer中Add、Norm和前馈网络"></a>第一节 Transformer中Add、Norm和前馈网络</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>在 Transformer 模型中，多头注意力模块的输出通过层归一化组件进行处理。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>层归一化应用于编码器层的输入，有助于确保输入具有一致的分布，从而提高模型的稳定性和训练速度。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>具体来说，归一化将输入数据的均值和方差调整到标准范围，这减少了数据分布的波动，提高了模型训练的效率。</p>
<h4 id="1-1-层归一化"><a href="#1-1-层归一化" class="headerlink" title="1.1 层归一化"></a>1.1 层归一化</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>Layer Normalization（层归一化）的主要作用是在深度神经网络中稳定和加速训练过程。它通过标准化每一层的输入，减轻了内部协变量转移（Internal Covariate Shift）的问题。具体作用和实现如下：</p>
<p><strong>作用：</strong></p>
<ol>
<li><p><strong>稳定训练过程</strong>：</p>
<ul>
<li>Layer Normalization通过对每个样本的特征进行归一化，使得每层的输入具有相似的分布。这有助于在训练过程中使梯度的变化更加平滑和稳定，减轻梯度爆炸或消失的问题。</li>
</ul>
</li>
<li><p><strong>加速收敛</strong>：</p>
<ul>
<li>归一化可以使模型的优化过程更高效，从而加速收敛。模型的参数更新更趋于稳定，训练速度更快。</li>
</ul>
</li>
<li><p><strong>减少依赖于批大小</strong>：</p>
<ul>
<li>与Batch Normalization不同，Layer Normalization是对单个样本的特征进行归一化，而不是对整个mini-batch进行归一化。这使得它在处理小批量数据甚至单个样本时表现更好，更加稳定。</li>
</ul>
</li>
<li><p><strong>提高模型的泛化能力</strong>：</p>
<ul>
<li>通过减少特征间的相互依赖性，Layer Normalization有助于提高模型在未见数据上的表现，增强模型的泛化能力。</li>
</ul>
</li>
</ol>
<p><strong>实现:</strong></p>
<p>Layer Normalization对每个样本的特征进行归一化处理，即对于一个输入向量 $ x &#x3D; (x_1, x_2, \ldots, x_n) $，其归一化公式如下：</p>
<p>$$<br>\hat{x}_i &#x3D; \frac{x_i - \mu}{\sigma} \cdot \gamma + \beta<br>$$</p>
<p>其中：</p>
<ul>
<li>$ \mu $ 是输入向量的均值：<br>$$<br>\mu &#x3D; \frac{1}{n} \sum_{i&#x3D;1}^{n} x_i<br>$$</li>
<li>$ \sigma $ 是输入向量的标准差：<br>$$<br>\sigma &#x3D; \sqrt{\frac{1}{n} \sum_{i&#x3D;1}^{n} (x_i - \mu)^2}<br>$$</li>
<li>$ \gamma $ 和 $ \beta $ 是可训练的缩放和平移参数。</li>
</ul>
<h4 id="1-2-残差连接的作用"><a href="#1-2-残差连接的作用" class="headerlink" title="1.2 残差连接的作用"></a>1.2 残差连接的作用</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>层归一化组件还引入了残差连接，允许将输入直接添加到归一化层的输出。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>这种残差连接改善了训练期间梯度的流动，使得梯度更容易反向传播，从而提高训练的稳定性和速度。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>残差连接通过绕过某些层将输入直接传递到后面的层，有助于减缓梯度消失问题，并使得更深层次的神经网络能够有效训练。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/006tNc79ly1fmptq2snv9j30j808t74a.jpg" alt="深度残差网络，ResNet · 深度学习入门之PyTorch"></p>
<h4 id="1-3-前馈网络与最终编码表示"><a href="#1-3-前馈网络与最终编码表示" class="headerlink" title="1.3 前馈网络与最终编码表示"></a>1.3 前馈网络与最终编码表示</h4><p>归一化后的输出会通过一个浅层三层前馈网络进行处理，该网络生成输入序列的最终编码表示。</p>
<p>这个前馈网络包括两个线性变换和一个 ReLU 激活函数：</p>
<ol>
<li><strong>第一层线性变换</strong>：将输入映射到高维空间（通常为 2048 个神经元）。</li>
<li><strong>ReLU 激活函数</strong>：引入非线性，使得模型能够捕捉到数据中的复杂关系。</li>
<li><strong>第二层线性变换</strong>：将高维空间的表示映射回输入的原始维度（通常为 512 个神经元）。</li>
</ol>
<p>前馈网络的目的是在局部进行深度特征提取，增强模型的表示能力。经过前馈网络处理后的输出，再次经过层归一化和残差连接（Add &amp; Norm），进一步稳定了训练过程。</p>
<h4 id="1-4-编码层的整体架构"><a href="#1-4-编码层的整体架构" class="headerlink" title="1.4 编码层的整体架构"></a>1.4 编码层的整体架构</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>在 Transformer 模型的编码层中，输入和输出都具有 $d_{model}$个神经元，原始论文中设定为 512 个。中间隐藏层通常有 2048 个神经元。这种设计确保了模型在捕捉复杂特征的同时，保持计算效率。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>综上所述，通过层归一化、残差连接和前馈网络的结合，Transformer 模型能够实现高效、稳定的训练，生成精确的输入序列编码表示。这些组件相互协作，共同提升了模型的性能和训练效果。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718225336337.png" alt="img"></p>
<h3 id="第二节-编码器输出"><a href="#第二节-编码器输出" class="headerlink" title="第二节 编码器输出"></a>第二节 编码器输出</h3><p>最后一个编码器层的输出经过另一组通过反向传播学习的线性投影，类似于在自注意力模块中执行的线性投影，从而产生一个键和一个值矩阵以输入到解码器中。</p>
<p>在对编码器方面进行详尽解释之后，让我们深入研究解码器。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/image-1718225336774.png" alt="img"></p>
<h3 id="第三节-内部协变量偏移问题的产生"><a href="#第三节-内部协变量偏移问题的产生" class="headerlink" title="第三节 内部协变量偏移问题的产生"></a>第三节 内部协变量偏移问题的产生</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>在传统机器学习领域中，常常会碰到协变量偏移这一普遍问题。简单来说，就是数据往往会伴随时间推移而发生变动，当利用基于旧数据训练好的模型去对新数据进行预测时，其所得结果或许就会缺乏准确性。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>将输入数据视作协变量的话，那么机器学习算法就会要求输入数据在训练集与测试集上能够达到相同的分布状态，只有这样，当运用该模型去对新数据进行预测时，才有可能收获较为理想的效果。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/assets/1630478-20190423151240257-1462708834.png" alt="img"></p>
<p>在深层神经网络中，内部协变量偏移（Internal Covarian Shift）可拆成“中间”与“协变量偏移”来解读。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>“中间”意味着神经网络的中间层，也就是隐藏层，</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>“协变量偏移“与传统机器学习的概念相仿。于深层神经网络而言，中间层的输入等于前一层的输出，前一层参数的变化会使中间层输入 $WU+b$ 的分布出现显著差异。当利用随机梯度下降训练网络时，每次参数更新都会引起中间层输入分布的改变，进而导致同一迭代中各中间层的输入分布不一致，不同迭代轮次中同一中间层的输入分布也会发生变化，这就是内部协变量偏移情况。传统机器学习的协变量偏移是因为测试集和训练集中输入分布不相同，而深层神经网络的内部协变量偏移则是不同中间层输入分布的不一致。</p>

                                      </div>
                                      
                                        <div class="prev-or-next">
                                          <div class="post-foot-next">
                                            
                                              <a href="/2024/05/30/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B(Seq2seq)/" target="_self">
                                                <i class="iconfont icon-chevronleft"></i>
                                                <span>
                                                  上一页
                                                </span>
                                              </a>
                                              
                                          </div>
                                          <div class="post-attach">
                                            <span class="post-pubtime">
                                              <i class="iconfont icon-updatetime mr-10"
                                                title="更新时间"></i>
                                              2024-10-22 14:52:45
                                            </span>
                                            
                                              <span class="post-tags">
                                                <i class="iconfont icon-tags mr-10" title="标签"></i>
                                                
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                      #人工智能
                                                    </a>
                                                  </span>
                                                  
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/" title="自然语言处理">
                                                      #自然语言处理
                                                    </a>
                                                  </span>
                                                  
                                              </span>
                                              
                                          </div>
                                          <div class="post-foot-prev">
                                            
                                              <a href="/2024/10/22/%E5%8F%AA%E9%9C%805MB%E6%B5%8F%E8%A7%88%E5%99%A8%E4%B9%9F%E8%83%BD%E5%8F%AF%E5%AE%8C%E6%88%90%E4%BA%BA%E8%84%B8+%E5%85%B3%E9%94%AE%E7%82%B9%E6%A3%80%E6%B5%8B/" target="_self">
                                                <span>
                                                  下一页
                                                </span>
                                                <i class="iconfont icon-chevronright"></i>
                                              </a>
                                              
                                          </div>
                                        </div>
                                        
                                    </div>
                                    
  <div id="btn-catalog" class="btn-catalog">
    <i class="iconfont icon-catalog"></i>
  </div>
  <div class="post-catalog hidden" id="catalog">
    <div class="title">目录</div>
    <div class="catalog-content">
      
        <ol class="toc"><li class="toc-item toc-level-1"><a class="toc-link" href="#%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B"><span class="toc-text">自然语言处理-Transformer模型</span></a><ol class="toc-child"><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E7%AB%A0-Transformer%E4%BB%8B%E7%BB%8D"><span class="toc-text">第一章 Transformer介绍</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E8%8A%82-%E5%BC%95%E8%A8%80"><span class="toc-text">第一节 引言</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E8%8A%82-%E7%AE%80%E5%8C%96%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0Pytorch%E7%89%88%E6%9C%AC"><span class="toc-text">第二节 简化代码实现Pytorch版本</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E7%AB%A0-Transformer%E7%BB%93%E6%9E%84"><span class="toc-text">第二章 Transformer结构</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E8%8A%82-Transformer%E6%80%BB%E4%BD%93%E7%BB%93%E6%9E%84"><span class="toc-text">第一节 Transformer总体结构</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E8%8A%82-%E7%BC%96%E7%A0%81%E5%99%A8"><span class="toc-text">第二节 编码器</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-2-1-%E7%BC%96%E7%A0%81%E5%99%A8%E5%8E%9F%E7%90%86"><span class="toc-text">2.2.1 编码器原理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-2-2-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0"><span class="toc-text">2.2.2 代码实现</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E8%8A%82-%E8%A7%A3%E7%A0%81%E5%99%A8"><span class="toc-text">第三节 解码器</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-3-1-%E8%A7%A3%E7%A0%81%E5%99%A8%E5%8E%9F%E7%90%86"><span class="toc-text">2.3.1 解码器原理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-3-2-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0"><span class="toc-text">2.3.2 代码实现</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%9B%9B%E8%8A%82-%E8%AF%8D%E5%B5%8C%E5%85%A5"><span class="toc-text">第四节 词嵌入</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%94%E8%8A%82-%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81"><span class="toc-text">第五节 位置编码</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-5-1-%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81%E5%8E%9F%E7%90%86"><span class="toc-text">2.5.1 位置编码原理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-5-2-%E5%85%B7%E4%BD%93%E8%AE%A1%E7%AE%97%E4%BE%8B%E5%AD%90"><span class="toc-text">2.5.2 具体计算例子</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-5-3-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0"><span class="toc-text">2.5.3 代码实现</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%85%AD%E8%8A%82-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6"><span class="toc-text">第六节 注意力机制</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-6-1-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E5%8E%9F%E7%90%86"><span class="toc-text">2.6.1 注意力机制原理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-6-2-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E8%83%8C%E5%90%8E%E7%9A%84%E6%95%B0%E5%AD%A6%E5%8E%9F%E7%90%86"><span class="toc-text">2.6.2 注意力机制背后的数学原理</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%83%E8%8A%82-%E7%BC%A9%E6%94%BE%E7%82%B9%E7%A7%AF%E6%B3%A8%E6%84%8F%E5%8A%9B-Scaled-Dot-Product-Attention"><span class="toc-text">第七节 缩放点积注意力(Scaled Dot-Product Attention)</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-7-1-%E7%BC%A9%E6%94%BE%E7%82%B9%E7%A7%AF%E6%B3%A8%E6%84%8F%E5%8A%9B%E5%8E%9F%E7%90%86"><span class="toc-text">2.7.1 缩放点积注意力原理</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-7-2-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0"><span class="toc-text">2.7.2 代码实现</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%85%AB%E8%8A%82-%E5%A4%9A%E5%A4%B4%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6"><span class="toc-text">第八节 多头注意力机制</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-8-1-%E5%A4%9A%E5%A4%B4%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6"><span class="toc-text">2.8.1 多头注意力机制</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-8-2-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0"><span class="toc-text">2.8.2 代码实现</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B9%9D%E8%8A%82-%E4%BD%8D%E7%BD%AE%E5%89%8D%E9%A6%88%E7%BD%91%E7%BB%9C"><span class="toc-text">第九节 位置前馈网络</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E8%8A%82-Transformer%E5%AE%8C%E6%95%B4%E5%AE%9E%E7%8E%B0"><span class="toc-text">第十节 Transformer完整实现</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%B8%80%E8%8A%82-Transformer%E8%AE%AD%E7%BB%83"><span class="toc-text">第十一节 Transformer训练</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%BA%8C%E8%8A%82-%E6%80%BB%E7%BB%93"><span class="toc-text">第十二节 总结</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E7%AB%A0-%E5%AE%9E%E9%AA%8C"><span class="toc-text">第三章 实验</span></a></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E9%98%85%E8%AF%BB%E6%89%A9%E5%B1%95"><span class="toc-text">阅读扩展</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E8%8A%82-Transformer%E4%B8%ADAdd%E3%80%81Norm%E5%92%8C%E5%89%8D%E9%A6%88%E7%BD%91%E7%BB%9C"><span class="toc-text">第一节 Transformer中Add、Norm和前馈网络</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-1-%E5%B1%82%E5%BD%92%E4%B8%80%E5%8C%96"><span class="toc-text">1.1 层归一化</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#1-2-%E6%AE%8B%E5%B7%AE%E8%BF%9E%E6%8E%A5%E7%9A%84%E4%BD%9C%E7%94%A8"><span class="toc-text">1.2 残差连接的作用</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#1-3-%E5%89%8D%E9%A6%88%E7%BD%91%E7%BB%9C%E4%B8%8E%E6%9C%80%E7%BB%88%E7%BC%96%E7%A0%81%E8%A1%A8%E7%A4%BA"><span class="toc-text">1.3 前馈网络与最终编码表示</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#1-4-%E7%BC%96%E7%A0%81%E5%B1%82%E7%9A%84%E6%95%B4%E4%BD%93%E6%9E%B6%E6%9E%84"><span class="toc-text">1.4 编码层的整体架构</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E8%8A%82-%E7%BC%96%E7%A0%81%E5%99%A8%E8%BE%93%E5%87%BA"><span class="toc-text">第二节 编码器输出</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E8%8A%82-%E5%86%85%E9%83%A8%E5%8D%8F%E5%8F%98%E9%87%8F%E5%81%8F%E7%A7%BB%E9%97%AE%E9%A2%98%E7%9A%84%E4%BA%A7%E7%94%9F"><span class="toc-text">第三节 内部协变量偏移问题的产生</span></a></li></ol></li></ol></li></ol>
      
    </div>
  </div>

  
<script src="/js/catalog.js"></script>


                                        <div class="comments-container">
                                          

                                        </div>
                                        
                                  </div>
                                  

          <div id="blockchain"></div>
          <style>
            #hq {
              margin-top: 10px;
              margin-bottom: 10px;
              font-size: 18px;
            }

            #blockchain {
              margin: 0 auto;
              display: none;
              width: 590px;
              flex-direction: column;
              align-items: center;
              background: #ffffffa3;
              border-radius: 5px;
              padding: 5px 10px 10px 10px;
              margin-top: 20px;
            }

            #blockchain .htitle {
              display: flex;
              flex-direction: row;
              align-items: center;
              cursor: pointer;
            }

            #blockchain .hsubtitle {
              color: #555;
              transform: scale(0.8); /* 然后缩小至80% */
              transform-origin: 5px 12px; /* 可能需要指定缩放原点以确保准确缩放 */
            }

            #blockchain .himg {
              width: 25px;
              height: 25px;
              margin-right: 5px;
            }

            #blockchain tr, th {
              font-size: 1.7rem;
              font-weight: normal;
            }

            #blockchain tr, td {
              font-size: 1.6rem;
            }

            #blockchain tr, th, td {
              border: 1px solid #c7c7c7;
              padding: 3px 7px;
            }

            #blockchain table {
              border-collapse: collapse;
              width: 100%;
              font-size: 16px;
              font-family: arial;
            }

            @media (max-width: 800px) {
              #blockchain {
                margin: 0 auto;
                margin-top: 20px;
                display: none;
                /* justify-content: flex-start; */
                padding: 20px 10px;
                width: calc(100% - 40px);
                flex-direction: column;
                align-items: center;
              }
            }
          </style>

          
<script src="/js/axios.min.js"></script>

          <script>
            let ctoname = [
              "BTC",
              "ETH",
              "USDT",
              "BNB",
              "SOL",
              "USDC",
              "XRP",
              "DOGE",
              "ADA",
              "SHIB",
              "AVAX",
              "TRX",
              "DOT",
              "WBTC",
              "BCH",
              "LINK",
              "NEAR",
              "MATIC",
              "ICP",
              "LTC",
              "DAI",
              "UNI",
              "HBAR",
              "ETC",
              "APT",
              "FDUSD",
              "RNDR",
              "ATOM",
              "PEPE",
              "FIL"
            ];

            let ctoname2 = [
                "比特币",
                "以太坊",
                "泰达币",
                "币安币",
                "索拉纳",
                "美元硬币",
                "瑞波币",
                "狗狗币",
                "卡尔达诺",
                "柴犬币",
                "雪崩协议",
                "波场",
                "波卡",
                "包装比特币",
                "比特币现金",
                "链环",
                "近协议",
                "多边形",
                "互联网计算机",
                "莱特币",
                "戴",
                "Uniswap",
                "以太坊经典",
                "赫德拉哈希图",
                "阿普托斯",
                "第一数字美元",
                "渲染令牌",
                "佩佩",
                "宇宙",
                "文件币"
            ];

            let ctoname3 = [
                "Bitcoin",
                "Ethereum",
                "TetherUS",
                "BNB",
                "Solana",
                "USD Coin",
                "Ripple",
                "Dogecoin",
                "Cardano",
                "SHIBA INU",
                "Avalanche",
                "TRON",
                "Polkadot",
                "Wrapped Bitcoin",
                "Bitcoin Cash",
                "ChainLink",
                "NEAR Protocol",
                "Polygon",
                "Internet Computer",
                "Litecoin",
                "Dai",
                "Uniswap",
                "Ethereum Classic",
                "Hedera Hashgraph",
                "Aptos",
                "First Digital USD",
                "Render Token",
                "Pepe",
                "Cosmos",
                "Filecoin"
            ]

            let ctoname4 = [
                "比特币是一种去中心化的数字货币，它允许点对点交易，创建于2009年。",
                "以太坊是一个开源的区块链平台，支持智能合约和去中心化应用，推出于2015年。",
                "泰达币是一种与美元挂钩的稳定币，旨在保持1:1的美元价值。",
                "币安币是币安交易所发行的加密货币，用于支付交易费用和其他服务。",
                "索拉纳是一个高性能区块链平台，旨在提供快速、安全和可扩展的去中心化应用。",
                "USD Coin是一种与美元挂钩的稳定币，由Circle和Coinbase合作推出。",
                "瑞波币是一种由Ripple公司创建的加密货币，旨在促进银行间快速、低成本的跨境支付。",
                "狗狗币是一种基于模因的加密货币，起初作为玩笑创建，但后来因社区支持而流行。",
                "卡尔达诺是一个第三代区块链平台，致力于提供可持续和可扩展的去中心化应用。",
                "柴犬币是一种模仿狗狗币的加密货币，以其社区驱动的发展模式和广泛的在线社区而闻名。",
                "雪崩币是Avalanche区块链平台的原生代币，支持去中心化应用和金融资产。",
                "波场币是波场区块链的原生代币，旨在为数字娱乐产业提供去中心化的内容分享平台。",
                "波卡币是一个多链区块链平台，旨在实现不同区块链之间的互操作性。",
                "包装比特币是比特币在以太坊区块链上的代币化版本，使其能够用于DeFi应用。",
                "比特币现金是比特币的一个分叉，旨在通过增加区块大小来实现更快的交易速度。",
                "Chainlink是一个去中心化的预言机网络，旨在连接智能合约和现实世界的数据。",
                "近邻协议是一个高性能区块链，致力于提供去中心化应用的理想开发平台。",
                "Polygon是一个以太坊扩展解决方案，旨在提供快速、低成本的交易。",
                "Internet Computer是一个去中心化的区块链网络，旨在扩展互联网功能。",
                "莱特币是一种基于比特币协议的加密货币，具有更快的区块生成时间。",
                "Dai是一种由MakerDAO创建的去中心化稳定币，与美元挂钩。",
                "Uniswap是一个基于以太坊的去中心化交易所，允许用户进行代币交换。",
                "Hedera是一个去中心化的公有账本，使用哈希图共识算法。",
                "以太经典是以太坊的一个分叉，保持了原始以太坊链的历史记录。",
                "Aptos是一个新兴的区块链平台，旨在提供高效、安全的去中心化应用。",
                "First Digital USD是一种与美元挂钩的稳定币，旨在提供数字美元的替代方案。",
                "Render Token是一个分布式的GPU渲染网络，旨在提供高效的渲染服务。",
                "宇宙链是一个区块链网络，旨在实现不同区块链之间的互操作性。",
                "Pepe是一种模仿柴犬币的加密货币，以其社区驱动的发展模式而著名。",
                "文件币是一个去中心化的存储网络，旨在利用区块链技术提供安全的数据存储。"
            ];

            async function requestBlockChain() {
              const instance = axios.get("/blockchain")
              let jsonData = (await instance).data

              let table = `<h2 id='hq'>虚拟货币行情</h2>
                <div style="font-size: 1.5rem; font-weight: normal; padding: 0px 0px 10px 0px;">(美元对人民币汇率：${jsonData['exchange']})</div>
                <table border='1'>
                  <tr>
                    <th width="40%">虚拟货币</th>
                    <th width="30%">价格(人民币)</th>
                    <th width="30%">价格(美元)</th>
                  </tr>`;
              
              for (let i = 0; i <= 20; i++) {
                if (!jsonData['list'][ctoname[i]]) {
                  continue;
                }

                let rmb = Math.round(jsonData['list'][ctoname[i]] * jsonData['exchange'] * 100000) / 100000;
                let usd = jsonData['list'][ctoname[i]]

                table += `
                <tr>
                  <td>
                    <div class="htitle" title="${ctoname4[i]}">
                      <img class="himg" src="/images/BlockChain/${ctoname[i]}.jpg" />
                      ${ctoname[i]}
                      <span class="hsubtitle">
                        (${ctoname2[i]})
                      </span>
                    </div>
                  </td>
                  <td>${rmb}</td>
                  <td>${usd}</td>
                </tr>`;
              }

              // for (let currency in jsonData) {
              //   table += `<tr><td>${ctoname[currency].name}</td><td>${jsonData[currency]}</td></tr>`;
              // }
              table += "</table>";

              document.getElementById("blockchain").innerHTML = table;
              document.getElementById("blockchain").style.display = "flex"
            }

            requestBlockChain()
          </script>

          
<div class="footer">
  <div class="social">
    <ul>
      
        <li>
          <a title="github" href="">
            <i class="iconfont icon-"></i>
          </a>
        </li>
      
        <li>
          <a title="wechat" href="">
            <i class="iconfont icon-wechat"></i>
          </a>
        </li>
      
    </ul>
  </div>
  
    
    <div class="footer-more">
      
        <a target="_blank" rel="noopener" href="https://github.com/zchengsite/hexo-theme-oranges">Copyright © 2024 lijunjie</a>
        
    </div>
  
    
    <div class="footer-more">
      
        <a href="https://hahaha.love">Theme by Oranges | Powered by Lijunjie</a>
        
    </div>
  
  
</div>


<script async src="/plugins/consolevideo.js"></script>
        </div>

        <div class="tools-bar">
          <div class="back-to-top tools-bar-item hidden">
  <a href="javascript: void(0)">
    <i class="iconfont icon-chevronup"></i>
  </a>
</div>


<script src="/js/backtotop.js"></script>


  <div class="search-icon tools-bar-item" id="search-icon">
    <a href="javascript: void(0)">
      <i class="iconfont icon-search"></i>
    </a>
  </div>

  <div class="search-overlay hidden">
    <div class="search-content" tabindex="0">
      <div class="search-title">
        <span class="search-icon-input">
          <a href="javascript: void(0)">
            <i class="iconfont icon-search"></i>
          </a>
        </span>
        
          <input type="text" class="search-input" id="search-input" placeholder="搜索...">
        
        <span class="search-close-icon" id="search-close-icon">
          <a href="javascript: void(0)">
            <i class="iconfont icon-close"></i>
          </a>
        </span>
      </div>
      <div class="search-result" id="search-result"></div>
    </div>
  </div>

  <script type="text/javascript">
    var inputArea = document.querySelector("#search-input")
    var searchOverlayArea = document.querySelector(".search-overlay")

    inputArea.onclick = function() {
      getSearchFile()
      this.onclick = null
    }

    inputArea.onkeydown = function() {
      if(event.keyCode == 13)
        return false
    }

    function openOrHideSearchContent() {
      let isHidden = searchOverlayArea.classList.contains('hidden')
      if (isHidden) {
        searchOverlayArea.classList.remove('hidden')
        document.body.classList.add('hidden')
        // inputArea.focus()
      } else {
        searchOverlayArea.classList.add('hidden')
        document.body.classList.remove('hidden')
      }
    }

    function blurSearchContent(e) {
      if (e.target === searchOverlayArea) {
        openOrHideSearchContent()
      }
    }

    document.querySelector("#search-icon").addEventListener("click", openOrHideSearchContent, false)
    document.querySelector("#search-close-icon").addEventListener("click", openOrHideSearchContent, false)
    searchOverlayArea.addEventListener("click", blurSearchContent, false)

    var searchFunc = function (path, search_id, content_id) {
      'use strict';
      var $input = document.getElementById(search_id);
      var $resultContent = document.getElementById(content_id);
      $resultContent.innerHTML = "<ul><span class='local-search-empty'>首次搜索，正在载入索引文件，请稍后……<span></ul>";
      $.ajax({
        // 0x01. load xml file
        url: path,
        dataType: "xml",
        success: function (xmlResponse) {
          // 0x02. parse xml file
          var datas = $("entry", xmlResponse).map(function () {
            return {
              title: $("title", this).text(),
              content: $("content", this).text(),
              url: $("url", this).text()
            };
          }).get();
          $resultContent.innerHTML = "";

          $input.addEventListener('input', function () {
            // 0x03. parse query to keywords list
            var str = '<ul class=\"search-result-list\">';
            var keywords = this.value.trim().toLowerCase().split(/[\s\-]+/);
            $resultContent.innerHTML = "";
            if (this.value.trim().length <= 0) {
              return;
            }
            // 0x04. perform local searching
            datas.forEach(function (data) {
              var isMatch = true;
              var content_index = [];
              if (!data.title || data.title.trim() === '') {
                data.title = "Untitled";
              }
              var orig_data_title = data.title.trim();
              var data_title = orig_data_title.toLowerCase();
              var orig_data_content = data.content.trim().replace(/<[^>]+>/g, "");
              var data_content = orig_data_content.toLowerCase();
              var data_url = data.url;
              var index_title = -1;
              var index_content = -1;
              var first_occur = -1;
              // only match artiles with not empty contents
              if (data_content !== '') {
                keywords.forEach(function (keyword, i) {
                  index_title = data_title.indexOf(keyword);
                  index_content = data_content.indexOf(keyword);

                  if (index_title < 0 && index_content < 0) {
                    isMatch = false;
                  } else {
                    if (index_content < 0) {
                      index_content = 0;
                    }
                    if (i == 0) {
                      first_occur = index_content;
                    }
                    // content_index.push({index_content:index_content, keyword_len:keyword_len});
                  }
                });
              } else {
                isMatch = false;
              }
              // 0x05. show search results
              if (isMatch) {
                str += "<li><a href='" + data_url + "' class='search-result-title'>" + orig_data_title + "</a>";
                var content = orig_data_content;
                if (first_occur >= 0) {
                  // cut out 100 characters
                  var start = first_occur - 20;
                  var end = first_occur + 80;

                  if (start < 0) {
                    start = 0;
                  }

                  if (start == 0) {
                    end = 100;
                  }

                  if (end > content.length) {
                    end = content.length;
                  }

                  var match_content = content.substr(start, end);

                  // highlight all keywords
                  keywords.forEach(function (keyword) {
                    var regS = new RegExp(keyword, "gi");
                    match_content = match_content.replace(regS, "<span class=\"search-keyword\">" + keyword + "</span>");
                  });

                  str += "<p class=\"search-result-abstract\">" + match_content + "...</p>"
                }
                str += "</li>";
              }
            });
            str += "</ul>";
            if (str.indexOf('<li>') === -1) {
              return $resultContent.innerHTML = "<ul><span class='local-search-empty'>没有找到内容，请尝试更换检索词。<span></ul>";
            }
            $resultContent.innerHTML = str;
          });
        },
        error: function(xhr, status, error) {
          $resultContent.innerHTML = ""
          if (xhr.status === 404) {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>未找到search.xml文件，具体请参考：<a href='https://github.com/zchengsite/hexo-theme-oranges#configuration' target='_black'>configuration</a><span></ul>";
          } else {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>请求失败，尝试重新刷新页面或稍后重试。<span></ul>";
          }
        }
      });
      $(document).on('click', '#search-close-icon', function() {
        $('#search-input').val('');
        $('#search-result').html('');
      });
    }

    var getSearchFile = function() {
        var path = "/search.xml";
        searchFunc(path, 'search-input', 'search-result');
    }
  </script>


        </div>
    </div>

  </body>

</html>