<!--                                                                                                                              
                                                                                                                             
                                                                                                                             
                                         ..;+$&& &&&&$Xx;                                                                  
                                      ..;+$&&&&&&&&&&&&&&&&&$Xx;                                                                  
                                      .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&:                                                             
                                   .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                          
                                   X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                       
                                 .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&X:                                                    
                                :X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x                                                   
                              :$&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&.                                                 
                             :$&&&&&&&&&&&&&$$$$$$$$$$$$$$&&&&&&&&&&&&&&&&&&&&&&&+                                                
                            ;$&&&&&&&&&$$$XXXXXXXxxxxxxXXXXXX$$$$&&&&&&&&&&&&&&&&&x                                               
                            X&&&&&&&&$$XXXXXXxXxxxxxxxxxxxxxxxxxxxxX$&&&&&&&&&&&&&&&                                              
                           :&&&&&&&$$$XXXXXXxxxxxxx+x++++++++++++xxxxxxX$&&&&&&&&&&&;                                             
                          .$&&&&&&$$$XXXXXxxxxxxxxxx++++++++++++++++++xxxx$&&&&&&&&&X                                             
                          $&&&&&&$$$XXXXxxxxxxxxx+++++++++++++++++++++++xxxx$&&&&&&&&                                             
                         :&&&&&&$$$XXXXXxxxxxxxxx+++++++++++++;+++++++++++xxxX$&&&&&&.                                            
                         $&&&&&$$$XXXXXXxxxxxxx++++++++++++++++++++++++++++xxxX$&&&&&+                                            
                        .&&&&&&$$XXXXXxxxxxxxxx++++++++++++;;+++++++++++++++xxxX$&&&&+                                            
                        ;&&&&&&$$XXXXxxxxxxxx+++++++++++++++++++++;++++++++++xxxX&&&&x                                            
                        X&&&&&$$XXXXXXXXxxxxx+++++;;+;;;;;;;;;++;;;;++++++++++xxX$&&&&.                                           
                        X&&&&&$XX$&&&&&&&&&$$Xxxx++++++;;;;;+++++;++++++++++++xxX$&&&&X                                           
                        X&&&&$X$&&&&&&&&&&&&&&&$$Xxxxx++++++++++++++++++++++xxxxx$&&&&$                                           
                        &&&&&XX$&&&$$$$$$$$$$&&$$$$XXXx+++++++xxxXXX$$$&&&$$$$$XxX&&&&+                                           
                        X&&&&XXXXXXXxxxx++xxXX$$$$XXXXxx++++xxXXXX$$$&&&&&&&&&&&Xx&&&&.                                           
                        +&&&XXxXXxxxxxx++++++xxxXXXXXxxx++++xxXXXXXXXXxxxxxxX$$$$X&&&x                                            
                        X&&&XXXXXxXX$XXXXxxxX$XxxXXXXxxx+++++xXXXXxxxx++++++++xxxx&&&;                                            
                       ;$&&XxxXXXX$$&&&&&&&&&&$$xXXXXXx++;+++xXXXX$$&&$$$$Xx++++++X&&                                             
                       X$&&xxxxXX$$$$$$&&&&&&X$&$+xxxXx++;+++xxxX&&&&&&&&$&&&$Xx++x&+                                             
                      ;$$&$XxxxxxxxxXxxXXXXxxx+++++xxxx++;++++++++xxX&&&&XXXXXXx+++&$:                                            
                      +$$$$xxxxxxx++xxxxxxxxxx++x+xxxxx++;;+++++++xxx++++++++++++++$$+                                            
                      .XX$$xxxxxxx+++++++++++++++xxxxxx++;+++++++++++xxx+++++++++++Xx+                                            
                       xX$$xxxxxxx++++++++++++++xxxxxxx++;;+++++++;+++;+;;;;;++++++x++                                            
                       ;XX$Xxxxxxx+++++++++++++xxxxxxxx++;+++++++++;;;;;;;;;;+++++++;.                                            
                        +X$XXxxxx+++++++++++++xxXXxxxxx+;;;++++xx+++;;;;;;++++++++++.                                             
                         +$XXXxxxx+++++++++++xxxxxxxxxx+;;;+++++xxx+++;;;+;;;++++++:                                              
                          XXXXxxxx+++++++++xxxxx+++xxxx++++++++++xxx++++++++++++++.                                               
                           ;XXXXxxxx++++xxxxxxxxxxxxxxxx++++++++++xxxx+++++++++++;                                                
                            xXXXXxxxxxxxxxxxxX$$$$&&&$$XXXX$&&$$Xx++xxxx+++++++++:                                                
                            +XXXXXXXXxXxxxxxxX$$$$$$$$$$$$$$$$$$X++++xxxxxxxxx+++                                                 
                            ;XXX$$XXXxxxxxxxxXXXXXXXXXXXXx++++++++++++xxxxxxxxx+;                              ;++;:              
                            .xXX$$$XxxxxxxxxXxxxxxxx++++++++++++++xxx++++xxxxx++                              ;xx++;;             
                             +XXX$XXxxxxxxXXXXxxxxxx++++++++++++++xxxxx+++xxxxx:            .                .xxx+++;             
                              XXXXXXXxxxxX$&&&&&&$$$$XxxxXX$$$$$$&&&$Xx++++xxx;           :+++;.             +xxxx++;             
                              .XXX$XXXxxxxxxXX$$$$$$$$&$$$XxXXXXx+xxXXxx+xxxx;            x+++;;             Xxx+x++:             
                               ;$$$$XXXxxxxxxxxXXX$$$XXxxxxXXxx++++++xxxxxxx+            .xx++;;.           :Xxxxx++.             
                                +$$$$$$XXxxxxxxxxXXXXXXXXXXxxxx++++++xxxxxx;             :xx+++;;           ;Xxxxxx+              
                                 $&$$$$$$XXxxxxxxxxXXXXXXXXxxxx++++xxxxxXx;              :x+++++;           xx+++++:              
                            ..   $&&&$$$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxxxxX:               .Xx+++++          .xx+++++.              
                        X&&&&&&&&&&&&&&&$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxx+                  XXxxx++.         +xx+++++.              
                      $&&&&&&&&&&&&$&&&&&$$$XXXxxxxxxxxxxxxxxxxxxxxXXX+                   +xx+++;;        .Xx++++++               
                   :$&&&&&&&&&&&&&&&&$&&&&&&$$XXXXXXXXXXXXxxxxXXXXXXXx.                   ;Xx+++++.       ;Xxx+++++               
                  $&&&&&&&&&&&&&&$$$&&&&&&&&&&&$$$XXXXXXXXXXXX$$$$$Xxx                    +Xx+++++;       xxx+xxx+;               
             .;&&&&&&&&&&&&&&&&&&$$$$$&&&&&&&&&&&&&&&$$$$$$&&&&$$XXxx+                    +Xxxxx+++      :Xxx+++++:               
       +$&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$&&&&&&&&&&&&&&&&&&&&&$$XXxxxx+                    .$Xxxx+++:     xXxx++++;.               
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$&&&&&&&&&&&&&&&&&&$$XXxxxxx;                     XXx+++++:    .XXxx++++;                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$XXX$$$$&&&&&&$$&&&&&$$$$Xxxxxxxx&.                    +Xx+++++;    ;XXxx++++:                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXXXX$$$$$&&&&&&&$$$$$$XXXxxxxxX&&:                   ;Xxx+++++   .xXxxxxx++                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XxxxXXXX$$$$$$$$$$$XXXXxxxxxxx&&&&                   .$Xxx++++.  +xxxxxxx+;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&xxxxxxxxxxx+++x++xxxxxxxxxxx$&&&&&&&&&&&&X.        .XXxx+++++;;;;+++++++;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x+xxxxxxxxxxxxx+xxxxxxxxxX&&&&&&&&&&&&&&&&&;     .$$Xx+++++++++++++++++;;::.            
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+xxxxxxxx++xxxxxxxxxxXX$&&&&&&&&&&&&&&&&&&&.   .$Xxx++++++++++++++x+++xxxxxx+++       
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxxxxxx+++++xxxxxxxXX$&&&&&&&&&&&&&&&&&&&&X  .$$Xxx++++++++++x++xxxXXxxXxx++;++.    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$xxxxx+++++++xxxxX$$&$&&&&&&&&&&&&&&&&&&&&  $$Xx+++++++++++xx+XXX$$$X$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxx++++++++xxxX$$$$&&&&&&&&&&&&&&&&&&&&&:X$$x+x++xx+x++xxxxX$X$$$$$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xx++++xxxX$$&&&&&&&&&&&&&&&&&&&&&&&&&$$X++x++xx+++xxxXX$$$$$$Xx+++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXX+++++++++xxxXX$$$$$$Xx+++++++x;  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XX$X++++++++xxxXX$$$$$$x++++++++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxx$$x+++++xxxxX$$$$$$Xx+++++++++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxx$Xx+++++xxxX$$$$$Xxx++++++++++++
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxxx$$x++++xXX$$$$$$Xxx+++++x+++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXxxxxX$x+++xXXxxXXxxxxxx+;+xx++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXxxxxxXXXXXxxxxXXXxx++++++xx++++: 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXXX$$$$$Xxx++xxxxxxx+++++xXxx++. 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xx++++xxXXxxx++x+xXXxx:  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xxx+xxxxxxxxxxxXXXXx    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$$XxxxxxxxxxxXxxXXx+.     
    
    这些是HTML代码，真没啥好看的 - 杰
    
-->


<!-- 
conda换源：
conda config --show channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

pip换源：
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
-->


<!DOCTYPE html>
<html lang="zh-CN" color-mode="light">

<head>
  <meta charset="utf-8">
  <!-- <meta name="viewport" content="width=device-width, initial-scale=1" /> -->
  <meta name="viewport" content="width=device-width, initial-scale=0.8, maximum-scale=1, user-scalable=no">

  
  <meta name="author" content="杰" />
  <meta name="description" content="" />
  
  
  <title>
    
      自然语言处理-序列到序列模型(Seq2seq) 
      
      
      |
    
     人工智能小站站
  </title>

  
    <link rel="apple-touch-icon" href="/images/favicon.png">
    <link rel="icon" href="/images/favicon.png">
  

  <!-- Raleway-Font -->
  <!-- <link href="https://fonts.googleapis.com/css?family=Raleway&display=swap" rel="stylesheet"> -->

  <!-- hexo site css -->
  <link rel="stylesheet" href="/css/main.css" />
  <link rel="stylesheet" href="//at.alicdn.com/t/font_1886449_67xjft27j1l.css" />

  <!-- <style>
    @font-face {
      font-family: 'NotoSansSC';
      src: url('https://pub-0a02c629549c4638b41011dd3ce66f6a.r2.dev/NotoSansSC-Regular.ttf') format('truetype');
    }

    body {
      font-family: NotoSansSC,sans-serif;
    }
  </style> -->

  <!-- 代码块风格 -->
  

  <!-- jquery3.3.1 -->
  
    <script defer type="text/javascript" src="/plugins/jquery.min.js"></script>
  

  <!-- fancybox -->
  
    <link href="/plugins/jquery.fancybox.min.css" rel="stylesheet">
    <script defer type="text/javascript" src="/plugins/jquery.fancybox.min.js"></script>
  
  
<script src="/js/fancybox.js"></script>


  <script>
    var html = document.documentElement
    const colorMode = localStorage.getItem('color-mode')
    if (colorMode) {
      document.documentElement.setAttribute('color-mode', colorMode)
    }
  </script>
<!-- hexo injector head_end start -->
<link rel="stylesheet" href="/plugins/katex/dist/katex.min.css">

<link rel="stylesheet" href="/plugins/hexo-math/dist/style.css">
<!-- hexo injector head_end end --><meta name="generator" content="Hexo 7.3.0"></head>


  <body>
    <div id="app">
      <div class="header">
  <div class="avatar">
    <a href="/">
      <!-- 头像取消懒加载，添加no-lazy -->
      
        <img src="/images/avatar.webp" alt="">
      
    </a>
    <div class="nickname"><a href="/">hahaha.love 个人学习笔记</a></div>
  </div>
  <div class="navbar">
    <ul>
      
        <li class="nav-item" data-path="/">
          <a href="/">首页</a>
        </li>
      
        <li class="nav-item" data-path="/tags/编程语言/">
          <a href="/tags/编程语言/">编程语言</a>
        </li>
      
        <li class="nav-item" data-path="/archives/">
          <a href="/archives/">日期归档</a>
        </li>
      
        <li class="nav-item" data-path="/tags/">
          <a href="/tags/">标签</a>
        </li>
      
        <li class="nav-item" data-path="/life/">
          <a href="/life/">生活</a>
        </li>
      
        <li class="nav-item" data-path="/software/">
          <a href="/software/">软件下载</a>
        </li>
      
        <li class="nav-item" data-path="/about/">
          <a href="/about/">关于我</a>
        </li>
      
    </ul>
  </div>
</div>


<script src="/js/activeNav.js"></script>


        <div class="flex-container">
          <!-- 文章详情页，展示文章具体内容，url形式：https://yoursite/文章标题/ -->
<!-- 同时为「标签tag」，「朋友friend」，「分类categories」，「关于about」页面的承载页面，具体展示取决于page.type -->


  <!-- LaTex Display -->

  
    <script async type="text/javascript" src="/plugins/mathjax/tex-chtml.js"></script>
  
  <script>
    MathJax = {
      tex: {
        inlineMath: [['$', '$'], ['\\(', '\\)']]
      }
    }
  </script>


        <!-- clipboard -->

  
    <script async type="text/javascript" src="/plugins/clipboard.min.js"></script>
  
  
<script src="/js/codeCopy.js"></script>


                                  <!-- 文章内容页 url形式：https://yoursite/文章标题/ -->
                                  <div class="container post-details" id="post-details">
                                    <div class="post-content">
                                      <div class="post-title">自然语言处理-序列到序列模型(Seq2seq)</div>
                                      <div class="post-attach">
                                        <span class="post-pubtime">
                                          <i class="iconfont icon-updatetime mr-10" title="更新时间"></i>
                                          2024-10-22 14:52:45
                                        </span>
                                        
                                          <span class="post-tags">
                                            <i class="iconfont icon-tags mr-10" title="标签"></i>
                                            
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                  #人工智能
                                                </a>
                                              </span>
                                              
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/" title="自然语言处理">
                                                  #自然语言处理
                                                </a>
                                              </span>
                                              
                                          </span>
                                          
                                      </div>
                                      <div class="markdown-body">
                                        <h1 id="自然语言处理-序列到序列模型-Seq2seq"><a href="#自然语言处理-序列到序列模型-Seq2seq" class="headerlink" title="自然语言处理-序列到序列模型(Seq2seq)"></a>自然语言处理-序列到序列模型(Seq2seq)</h1><h2 id="第一章-Seq2seq"><a href="#第一章-Seq2seq" class="headerlink" title="第一章 Seq2seq"></a>第一章 Seq2seq</h2><h3 id="第一节-什么是Seq2Seq模型？"><a href="#第一节-什么是Seq2Seq模型？" class="headerlink" title="第一节 什么是Seq2Seq模型？"></a>第一节 什么是Seq2Seq模型？</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>Seq2Seq（序列到序列）模型是一种用于处理顺序数据的机器学习模型，能够将输入序列转换为输出序列。在Seq2Seq模型出现之前，机器翻译系统主要依赖于统计方法和基于短语的方法，最流行的是基于短语的统计机器翻译（SMT）系统。然而，这些方法在处理长距离依赖关系和捕捉全局上下文方面存在局限性。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Seq2Seq模型利用神经网络，尤其是循环神经网络（RNN），解决了这些问题。谷歌在题为“使用神经网络进行序列到序列学习”的论文中首次提出了Seq2Seq模型的概念。这篇研究论文介绍的架构成为自然语言处理任务的基本框架。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Seq2Seq模型采用编码器-解码器（encoder-decoder）结构。编码器处理输入序列并将其转换为固定大小的隐藏表示，解码器则使用隐藏表示来生成输出序列。编码器-解码器结构允许模型处理不同长度的输入和输出序列，使其能够高效地处理顺序数据。Seq2Seq模型通过输入-输出对的数据集进行训练，其中输入和输出都是一系列标记。模型通过最大化在给定输入序列情况下生成正确输出序列的可能性进行训练。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>神经网络架构的进步推动了更强大的Seq2Seq模型的发展，例如Transformer模型。《Attention is all you need》是一篇研究论文，首次介绍了Transformer模型。这种模型引入了注意力机制和独立的编码器与解码器堆栈，大大提高了处理语言相关任务的效率和效果。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B(Seq2seq)/assets/YjlBt.png" alt="tensorflow - Understanding Seq2Seq model - Stack Overflow"></p>
<h3 id="第二节-Seq2seq模型基本思想"><a href="#第二节-Seq2seq模型基本思想" class="headerlink" title="第二节 Seq2seq模型基本思想"></a>第二节 Seq2seq模型基本思想</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>Seq2Seq模型是一种强大的神经网络架构，用于将一个序列转换为另一个序列，广泛应用于自然语言处理（NLP）等领域。这种模型特别擅长处理输入和输出长度可能不同的任务，例如机器翻译、文本摘要和对话生成。Seq2Seq模型的核心在于其编码器-解码器结构，其中编码器将输入序列编码成固定大小的隐藏表示，解码器利用这个表示生成输出序列。</p>
<p>机器翻译：</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B(Seq2seq)/assets/aHR0cDovL3BpYy5ybWIuYmRzdGF0aWMuY29tL2JmMGYyZDQ2MTI3NmZlZTJmYjlmYjNjYWMxODczMzYzLmpwZWdAd21fMix0XzU1bSs1YTYyNVkrM0wxQmhaR1JzWlZCaFpHUnNaUT09LGZjX2ZmZmZmZixmZl9VMmx0U0dWcCxzel8yNyx4XzE3LHlfMTc.png" alt="神经网络机器翻译技术及应用（上）_百度神经网络翻译-CSDN博客"></p>
<p>文本摘要：</p>
<p><img src="https://miro.medium.com/v2/1*GIVviyN9Q0cqObcy-q-juQ.png" alt="Text Summarization Techniques(assets/1_GIVviyN9Q0cqObcy-q-juQ.png) — 概述| by Moris | NLP &amp; Speech Recognition  Note | Medium"></p>
<h3 id="第三节-Seq2Seq-模型中的输入和输出"><a href="#第三节-Seq2Seq-模型中的输入和输出" class="headerlink" title="第三节 Seq2Seq 模型中的输入和输出"></a>第三节 Seq2Seq 模型中的输入和输出</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>在Seq2Seq模型中，输入序列和输出序列分别记为 $X$ 和 $Y$。输入序列的第 $i$ 个元素表示为 $x_i$，输出序列的第 $j$ 个元素表示为 $y_j$。通常 $x_i$ 和 $y_j$ 是 one-hot 向量。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>例如，在自然语言处理（NLP）中，one-hot 向量表示单词，其大小等于词汇量。假设输入和输出的词汇表分别为 $V^{(s)}$ 和 $V^{(t)}$，则所有元素 $x_i$ 和 $y_j$ 满足 $x_i \in \mathbb{R}^{|V^{(s)}|}$ 和 $y_i \in \mathbb{R}^{|V^{(t)}|}$。</p>
<p>输入序列 $X$ 和输出序列 $Y$ 可以表示为：</p>
$$
X = (x_1, \ldots, x_I) = (x_i)_{i=1}^I 
$$


$$
Y = (y_1, \ldots, y_J) = (y_j)_{j=1}^J
$$

<p> <span style='display: inline-block; width: 3.6rem;'></span>其中， $I$ 和 $J$ 分别是输入序列和输出序列的长度。使用典型的NLP符号， $y_0$ 是BOS（句子开头的符号）的one-hot向量，表示句子开头的虚拟词，而 $y_{J+1}$ 是EOS（句子结尾的符号）的one-hot向量，表示句子结尾的虚拟词。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>通过这种方式，Seq2Seq模型能够处理不同长度的输入和输出序列，并且通过训练数据中的输入-输出对，最大化在给定输入序列时生成正确输出序列的概率。这使得Seq2Seq模型在许多需要处理顺序数据的任务中表现出色。</p>
<h3 id="第四节-条件概率符号"><a href="#第四节-条件概率符号" class="headerlink" title="第四节 条件概率符号 "></a>第四节 条件概率符号 $P(Y|X)$</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>让我们来探讨条件概率 $P(Y|X)$，即在给定输入序列 $X$ 的情况下生成输出序列 $Y$ 的概率。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>Seq2Seq模型的目标是对这一概率进行建模。然而，Seq2Seq模型并不是直接对 $P(Y|X)$ 进行建模，而是对 $ P(y_j|Y_{\lt j}, X) $  进行建模，即在给定输入序列 $X$ 和前面的输出序列 $Y_{\lt j}$ 的情况下，生成第 $j$ 个输出元素 $y_j$ 的概率。</p>
<p>这里，$Y_{\lt j}$ 表示输出序列中的前 $j-1$ 个元素，或者 $(y_1, y_2, \ldots, y_{j-1})$。</p>
<p>通过这种方式，可以将模型 $P_{\theta}(Y|X)$ 表示为各个条件概率 $P_{\theta}(y_j|Y_{\lt j}, X)$ 的乘积：</p>
$$
P_{\theta}(Y|X) = \prod_{j=1}^{J+1} P_{\theta}(y_j|Y_{\lt j}, X)
$$


<p> <span style='display: inline-block; width: 3.6rem;'></span>这里，$J$ 是输出序列 $Y$ 的长度，而 $J+1$ 表示包括了句子结尾符号（EOS）的概率。通过这种分解方式，Seq2Seq模型能够逐步生成输出序列，每一步生成一个输出元素，并且每一步都依赖于之前生成的输出和输入序列。</p>
<h3 id="第五节-Seq2Seq-模型的处理步骤"><a href="#第五节-Seq2Seq-模型的处理步骤" class="headerlink" title="第五节 Seq2Seq 模型的处理步骤"></a>第五节 Seq2Seq 模型的处理步骤</h3><p>Seq2Seq 模型的特点在于它由两个过程组成：</p>
<ol>
<li><strong>生成固定大小向量 $z$ 的过程</strong>：从输入序列 $X$ 中生成固定大小的向量 $z$。</li>
<li><strong>生成输出序列的过程</strong>：从向量 $z$ 生成输出序列 $Y$。</li>
</ol>
<p>换句话说，输出序列 $Y$ 是从向量 $z$ 生成的，概率  $P_{\theta}(y_j | Y_{\lt j} , X)$ 实际上是通过计算 $P_{\theta}(y_j | Y_{\lt j}, z)$ 得出的。</p>
<p>首先，我们用函数 $\Lambda$ 表示从输入序列 $X$ 生成向量 $ z $ 的过程：</p>
$$
z = \Lambda(X)
$$

<p>函数 $\Lambda$ 可能是循环神经网络（RNN），例如 LSTM。</p>
<p>其次，我们用以下公式表示从向量 $z$ 生成输出序列 $Y$ 的过程：</p>
$$
\begin{split}
P_{\theta}(y_j | Y_{\lt j}, X) = \Upsilon(h_j^{(t)}, y_j) \\
h_j^{(t)} = \Psi(h_{j-1}^{(t)}, y_{j-1})
\end{split}
$$

<p>其中：</p>
<ul>
<li>$\Psi$ 是生成隐藏向量 $h_j^{(t)}$ 的函数。</li>
<li>$\Upsilon$ 是计算独热向量 $y_j$ 的生成概率的函数。</li>
</ul>
<p>当 $j = 1$ 时，$h_{j-1}^{(t)}$ 或 $h_0^{(t)}$ 是由 $\Lambda(X)$ 生成的 $z$，而 $y_{j-1}$ 或 $y_0$ 是 BOS（序列开始）的独热向量。</p>
<h3 id="第六节-Seq2Seq-模型架构"><a href="#第六节-Seq2Seq-模型架构" class="headerlink" title="第六节 Seq2Seq 模型架构"></a>第六节 Seq2Seq 模型架构</h3><p>eq2Seq 模型的架构可以分为五个主要角色：</p>
<ol>
<li><strong>编码器嵌入层</strong></li>
<li><strong>编码器循环层</strong></li>
<li><strong>解码器嵌入层</strong></li>
<li><strong>解码器循环层</strong></li>
<li><strong>解码器输出层</strong></li>
</ol>
<p>这些角色分别承担不同的任务，共同完成输入序列到输出序列的转换。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B(Seq2seq)/assets/seq2seq.png" alt="复制代码"></p>
<p>编码器由两层组成：嵌入层和循环层，解码器由三层组成：嵌入层、循环层和输出层。</p>
<p><strong>符号及定义：</strong></p>
<table>
<thead>
<tr>
<th>参数</th>
<th>定义</th>
</tr>
</thead>
<tbody><tr>
<td>H</td>
<td>隐藏向量的大小</td>
</tr>
<tr>
<td>D</td>
<td>嵌入向量的大小</td>
</tr>
<tr>
<td>$x_i$</td>
<td>one-hot 向量，输入句子中的第 i 个单词</td>
</tr>
<tr>
<td>$\bar x_i$</td>
<td>嵌入向量，输入句子中的第 i 个单词</td>
</tr>
<tr>
<td>$E^{(s)}$</td>
<td>编码器的嵌入矩阵</td>
</tr>
<tr>
<td>$h_i^{(s)}$</td>
<td>编码器的第 i 个隐藏向量</td>
</tr>
<tr>
<td>$y_j$</td>
<td>one-hot 向量，输出句子中的第 j 个单词</td>
</tr>
<tr>
<td>$\bar y_j$</td>
<td>嵌入向量，输出句子中的第 j 个单词</td>
</tr>
<tr>
<td>$E^{(t)}$</td>
<td>解码器的嵌入矩阵</td>
</tr>
<tr>
<td>$h_j^{(t)}$</td>
<td>解码器的第 j 个隐藏向量</td>
</tr>
</tbody></table>
<p>Seq2Seq 模型有许多不同的变体。我们可以根据以下方面使用不同的 RNN 模型：</p>
<ol>
<li><strong>方向性</strong>：单向或双向</li>
<li><strong>深度</strong>：单层或多层</li>
<li><strong>类型</strong>：普通 RNN、长短期记忆 (LSTM) 或门控循环单元 (GRU)</li>
<li><strong>附加功能</strong>：注意机制（Attention Mechanism）</li>
</ol>
<h4 id="6-1-编码器嵌入层"><a href="#6-1-编码器嵌入层" class="headerlink" title="6.1 编码器嵌入层"></a>6.1 编码器嵌入层</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>第一层为编码器嵌入层，将输入句子中的每个单词转换为嵌入向量。在处理输入句子中的第 $i$ 个单词时，该层的输入和输出如下：</p>
<ul>
<li>输入是 $x_i$ ：表示第 $x_i$ 个单词的独热向量。</li>
<li>输出是 $x_i$ ：表示第 $\bar{x}_i$ 个单词的嵌入向量。</li>
</ul>
<p>每个嵌入向量通过以下公式计算：</p>
$$
x_i = E^{(s)} x_i
$$

<p>其中，$E^{(s)} \in \mathbb{R}^{D \times |\mathcal{V}^{(s)}|}$ 是编码器的嵌入矩阵。</p>
<hr>
<p><strong>计算例子：</strong></p>
<p>通过一个具体的例子来解释。</p>
<p>假设我们有以下词汇表和嵌入矩阵：</p>
$$
\begin{align*}
\mathcal{V}^{(s)} &= \{ \text{"I"}, \text{"am"}, \text{"happy"} \} \\
E^{(s)} &= \begin{bmatrix}
0.1 & 0.2 & 0.3 \\
0.4 & 0.5 & 0.6 \\
0.7 & 0.8 & 0.9 \\
0.2 & 0.3 & 0.4 \\
\end{bmatrix}
\end{align*}
$$

<p>现在，我们来计算每个单词的嵌入向量。</p>
<ol>
<li>对于单词 “I”：</li>
</ol>
$$
x_{\text{"I"}} = E^{(s)} [:, 1] = \begin{bmatrix} 0.1 \\ 0.4 \\ 0.7 \\ 0.2 \end{bmatrix}
$$

<ol start="2">
<li>对于单词 “am”：</li>
</ol>
$$
x_{\text{"am"}} = E^{(s)} [:, 2] = \begin{bmatrix} 0.2 \\ 0.5 \\ 0.8 \\ 0.3 \end{bmatrix}
$$

<ol start="3">
<li>对于单词 “happy”：</li>
</ol>
$$
x_{\text{"happy"}} = E^{(s)} [:, 3] = \begin{bmatrix} 0.3 \\ 0.6 \\ 0.9 \\ 0.4 \end{bmatrix}
$$

<p>这样，我们就得到了每个单词的嵌入向量。</p>
<hr>
<h4 id="6-2-编码器循环层"><a href="#6-2-编码器循环层" class="headerlink" title="6.2 编码器循环层"></a>6.2 编码器循环层</h4><p>编码器循环层从嵌入向量生成隐藏向量。在处理第 $i$ 个嵌入向量时，该层的输入和输出如下：</p>
<ul>
<li>输入是 $x_i$：表示第 $i$ 个单词的嵌入向量。</li>
<li>输出是 $h_i^{(s)}$：第 $i$ 个隐藏向量。</li>
</ul>
<p>例如，当使用单层单向 RNN 时，该过程可以表示为函数 $\Psi^{(s)}$ ：</p>
$$
\begin{split}
h_i^{(s)} &= \Psi^{(s)}(x_i, h_{i-1}^{(s)}) \\
                   &= \tanh \left( W^{(s)} \left[ \begin{array}{c} h_{i-1}^{(s)} \\ x_i \end{array} \right] + b^{(s)} \right)
\end{split}
$$

<p>在这种情况下，我们使用 $\tanh$ 作为激活函数。</p>
<hr>
<p><strong>计算例子：</strong></p>
<p>假设以下参数值：</p>
<ul>
<li>隐藏状态维度 $H = 3$</li>
<li>嵌入向量维度 $D = 2$</li>
</ul>
<p>并给定以下嵌入向量和先前的隐藏状态：</p>
<ul>
<li>嵌入向量 $x_i = [0.1, 0.2]$</li>
<li>先前的隐藏状态 $h_{i-1}^{(s)} = [0.3, 0.4, 0.5]$</li>
</ul>
<p>假设我们的权重矩阵 $W^{(s)}$ 和偏置向量 $b^{(s)}$ 如下：</p>
$$
W^{(s)} = \begin{bmatrix}
0.1 & 0.2 & 0.3 \\
0.4 & 0.5 & 0.6 \\
\end{bmatrix}, \quad
b^{(s)} = \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
\end{bmatrix}
$$

<p>现在我们来计算隐藏状态 $h_i^{(s)}$。</p>
$$
\begin{split}
h_i^{(s)} &= \tanh \left( W^{(s)} \left[ \begin{array}{c} h_{i-1}^{(s)} \\ x_i \end{array} \right] + b^{(s)} \right) \\
&= \tanh \left( \begin{bmatrix}
0.1 & 0.2 & 0.3 \\
0.4 & 0.5 & 0.6 \\
\end{bmatrix} \begin{bmatrix}
0.3 \\
0.4 \\
0.5 \\
0.1 \\
0.2 \\
\end{bmatrix} + \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
\end{bmatrix} \right) \\
&= \tanh \left( \begin{bmatrix}
0.58 \\
1.34 \\
\end{bmatrix} + \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
\end{bmatrix} \right) \\
&= \tanh \left( \begin{bmatrix}
0.68 \\
1.54 \\
\end{bmatrix} \right) \\
&= \begin{bmatrix}
0.5920 \\
0.9171 \\
\end{bmatrix}
\end{split}
$$

<p>因此，根据给定的参数和输入，我们得到了新的隐藏状态 $h_i^{(s)} = [0.5920, 0.9171]$。</p>
<hr>
<h4 id="6-3-解码器嵌入层"><a href="#6-3-解码器嵌入层" class="headerlink" title="6.3 解码器嵌入层"></a>6.3 解码器嵌入层</h4><p>解码器嵌入层将输出句子中的每个单词转换为嵌入向量。在处理输出句子中的第 $j$ 个词时，该层的输入和输出如下：</p>
<ul>
<li>输入是 $y_{j-1}$ ：表示第 $(j-1)$ 个单词的独热向量。</li>
<li>输出是 $y_j$ ：表示第 $(j-1)$ 个单词的嵌入向量。</li>
</ul>
<p>每个嵌入向量通过以下公式计算：</p>
$$
y_j = E^{(t)} y_{j-1}
$$

<p>其中，$E^{(t)} \in \mathbb{R}^{D \times |\mathcal{V}^{(t)}|}$ 是解码器的嵌入矩阵。</p>
<hr>
<p><strong>计算例子：</strong></p>
<p>假设以下参数值：</p>
<ul>
<li>嵌入向量维度 $ D = 3 $</li>
<li>输出词汇表大小 $ |\mathcal{V}^{(t)}| = 4 $</li>
</ul>
<p>并给定以下独热向量表示的前一个单词：</p>
<ul>
<li>独热向量 $y_{j-1}$ 对应的是第 $j-1$ 个单词，比如 $y_{j-1} = [0, 1, 0, 0]$ 表示第 $j-1$ 个单词是词汇表中的第二个单词。</li>
</ul>
<p>假设我们的解码器嵌入矩阵 $E^{(t)}$ 如下：</p>
$$
E^{(t)} = \begin{bmatrix}
0.1 & 0.2 & 0.3 & 0.4 \\
0.5 & 0.6 & 0.7 & 0.8 \\
0.9 & 1.0 & 1.1 & 1.2 \\
\end{bmatrix}
$$

<p>现在我们来计算输出的嵌入向量 $y_j$。</p>
$$
\begin{split}
y_j &= E^{(t)} y_{j-1} \\
&= \begin{bmatrix}
0.1 & 0.2 & 0.3 & 0.4 \\
0.5 & 0.6 & 0.7 & 0.8 \\
0.9 & 1.0 & 1.1 & 1.2 \\
\end{bmatrix} \begin{bmatrix}
0 \\
1 \\
0 \\
0 \\
\end{bmatrix} \\
&= \begin{bmatrix}
0.5 \\
0.6 \\
0.7 \\
\end{bmatrix}
\end{split}
$$

<p>因此，根据给定的参数和输入，我们得到了输出的嵌入向量 $y_j = [0.5, 0.6, 0.7]$。</p>
<hr>
<h4 id="6-4-解码器循环层"><a href="#6-4-解码器循环层" class="headerlink" title="6.4 解码器循环层"></a>6.4 解码器循环层</h4><p>回忆一下RNN，图中的 $X$ 就相当于下面即将介绍的$h_j^{(t)}$。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B(Seq2seq)/assets/What-is-Recurrent-Neural-Network-660.webp" alt="什么是循环神经网络"></p>
<p>解码器循环层从嵌入向量生成隐藏向量。在处理第 $j$ 个嵌入向量时，该层的输入和输出如下：</p>
<ul>
<li>输入是 $y_j$：嵌入向量。</li>
<li>输出是 $h_j^{(t)}$：第 $j$ 个隐藏向量。</li>
</ul>
<p>例如，当使用单层单向 RNN 时，该过程可以表示为函数 $\Psi^{(t)}$：</p>
$$
\begin{split}
h_j^{(t)} &= \Psi^{(t)}(y_j, h_{j-1}^{(t)}) \\
                   &= \tanh \left( W^{(t)} \left[ \begin{array}{c} h_{j-1}^{(t)} \\ y_j \end{array} \right] + b^{(t)} \right)
\end{split}
$$

<p>通常 $\Psi$ 符号表示函数，它通常表示为一个激活函数（例如 tanh 或 ReLU）。</p>
<p>在这种情况下，我们使用 $\tanh$ 作为激活函数。我们必须使用编码器最后一个位置的隐藏向量作为解码器第一个位置的隐藏向量，如下所示：</p>
$$
h_0^{(t)} = z = h_I^{(s)}
$$

<hr>
<p><strong>计算例子：</strong></p>
<p>假设以下参数值：</p>
<ul>
<li>嵌入向量维度 $ D = 3 $</li>
<li>隐藏状态维度 $ H = 4 $</li>
</ul>
<p>并给定以下嵌入向量和先前的隐藏状态：</p>
<ul>
<li>嵌入向量 $y_j = [0.5, 0.6, 0.7]$</li>
<li>先前的隐藏状态 $h_{j-1}^{(t)} = [0.1, 0.2, 0.3, 0.4]$</li>
</ul>
<p>假设我们的权重矩阵 $W^{(t)}$ 和偏置向量 $b^{(t)}$ 如下：</p>
$$
W^{(t)} = \begin{bmatrix}
0.1 & 0.2 & 0.3 & 0.4 & 0.5 & 0.6 & 0.7 \\
0.8 & 0.9 & 1.0 & 1.1 & 1.2 & 1.3 & 1.4 \\
1.5 & 1.6 & 1.7 & 1.8 & 1.9 & 2.0 & 2.1 \\
2.2 & 2.3 & 2.4 & 2.5 & 2.6 & 2.7 & 2.8 \\
\end{bmatrix}, \quad
b^{(t)} = \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
\end{bmatrix}
$$

<p>现在我们来计算新的隐藏状态 $h_j^{(t)}$。</p>
$$
\begin{split}
h_j^{(t)} &= \tanh \left( W^{(t)} \left[ \begin{array}{c} h_{j-1}^{(t)} \\ y_j \end{array} \right] + b^{(t)} \right) \\
&= \tanh \left( W^{(t)} \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
0.5 \\
0.6 \\
0.7 \\
\end{bmatrix} + \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
\end{bmatrix} \right) \\
&= \tanh \left( \begin{bmatrix}
0.1 \times 0.1 + 0.2 \times 0.2 + 0.3 \times 0.3 + 0.4 \times 0.4 + 0.5 \times 0.5 + 0.6 \times 0.6 + 0.7 \times 0.7 \\
0.8 \times 0.1 + 0.9 \times 0.2 + 1.0 \times 0.3 + 1.1 \times 0.4 + 1.2 \times 0.5 + 1.3 \times 0.6 + 1.4 \times 0.7 \\
1.5 \times 0.1 + 1.6 \times 0.2 + 1.7 \times 0.3 + 1.8 \times 0.4 + 1.9 \times 0.5 + 2.0 \times 0.6 + 2.1 \times 0.7 \\
2.2 \times 0.1 + 2.3 \times 0.2 + 2.4 \times 0.3 + 2.5 \times 0.4 + 2.6 \times 0.5 + 2.7 \times 0.6 + 2.8 \times 0.7 \\
\end{bmatrix} + \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
\end{bmatrix} \right) \\
&= \tanh \left( \begin{bmatrix}
0.1 + 0.04 + 0.09 + 0.16 + 0.25 + 0.36 + 0.49 \\
0.08 + 0.18 + 0.3 + 0.44 + 0.6 + 0.78 + 0.98 \\
0.15 + 0.32 + 0.51 + 0.72 + 0.95 + 1.2 + 1.47 \\
0.22 + 0.46 + 0.72 + 1.0 + 1.3 + 1.62 + 1.96 \\
\end{bmatrix} + \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
\end{bmatrix} \right) \\
&= \tanh \left( \begin{bmatrix}
1.49 + 0.1 \\
3.36 + 0.2 \\
5.32 + 0.3 \\
7.28 + 0.4 \\
\end{bmatrix} \right) \\
&= \tanh \left( \begin{bmatrix}
1.59 \\
3.56 \\
5.62 \\
7.68 \\
\end{bmatrix} \right) \\
&= \begin{bmatrix}
\tanh(1.59) \\
\tanh(3.56) \\
\tanh(5.62) \\
\tanh(7.68) \\
\end{bmatrix} \\
&= \begin{bmatrix}
0.920 \\
0.998 \\
0.999 \\
0.999 \\
\end{bmatrix}
\end{split}
$$

<p>因此，根据给定的参数和输入，我们得到了新的隐藏状态 $h_j^{(t)} = [0.920, 0.998, 0.999, 0.999]$。</p>
<hr>
<h4 id="6-5-解码器输出层"><a href="#6-5-解码器输出层" class="headerlink" title="6.5 解码器输出层"></a>6.5 解码器输出层</h4><p>解码器输出层生成输出句子的第 $j$ 个单词。在处理第 $j$ 个嵌入向量时，该层的输入和输出如下：</p>
<ul>
<li>输入是 $h_j^{(t)}$：第 $j$ 个隐藏向量。</li>
<li>输出是 $p_j$：生成第 $j$ 个单词 $y_j$ 的独热向量的概率。</li>
</ul>
$$
\begin{split}
p_j &= P_{\theta}(y_j | Y_{\lt j}) = \text{softmax}(o_j) \cdot y_j \\
    &= \text{softmax}(W^{(o)} h_j^{(t)} + b^{(o)}) \cdot y_j
\end{split}
$$

<p>其中，softmax 函数用于计算生成独热向量的概率。</p>
<hr>
<p><strong>计算过程:</strong></p>
<p>假设我们有以下参数：</p>
<ul>
<li>隐藏状态维度 $H = 4$</li>
<li>输出词汇表的大小 $|\mathcal{V}^{(t)}| = 5$（假设词汇表包含5个单词）</li>
</ul>
<p>给定以下隐藏状态：</p>
<ul>
<li>$h_j^{(t)} = [0.1, 0.2, 0.3, 0.4]$</li>
</ul>
<p>假设我们的权重矩阵 $W^{(o)}$ 和偏置向量 $b^{(o)}$ 如下：</p>
$$
W^{(o)} = \begin{bmatrix}
0.1 & 0.2 & 0.3 & 0.4 \\
0.5 & 0.6 & 0.7 & 0.8 \\
0.9 & 1.0 & 1.1 & 1.2 \\
1.3 & 1.4 & 1.5 & 1.6 \\
0.2 & 0.3 & 0.4 & 0.5 \\
\end{bmatrix}, \quad
b^{(o)} = \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
0.5 \\
\end{bmatrix}
$$

<p>我们首先将隐藏状态 $h_j^{(t)}$ 乘以权重矩阵 $W^{(o)}$，然后加上偏置向量 $b^{(o)}$。</p>
<p>最后，我们将结果通过 softmax 函数，得到生成每个单词的概率。</p>
<ol>
<li>计算加权输入：</li>
</ol>
$$
\begin{aligned}
o_j &= W^{(o)} h_j^{(t)} + b^{(o)} \\
&= \begin{bmatrix}
0.1 & 0.2 & 0.3 & 0.4 \\
0.5 & 0.6 & 0.7 & 0.8 \\
0.9 & 1.0 & 1.1 & 1.2 \\
1.3 & 1.4 & 1.5 & 1.6 \\
0.2 & 0.3 & 0.4 & 0.5 \\
\end{bmatrix} \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
\end{bmatrix} + \begin{bmatrix}
0.1 \\
0.2 \\
0.3 \\
0.4 \\
0.5 \\
\end{bmatrix} \\
&= \begin{bmatrix}
0.1 \times 0.1 + 0.2 \times 0.2 + 0.3 \times 0.3 + 0.4 \times 0.4 + 0.1 \\
0.5 \times 0.1 + 0.6 \times 0.2 + 0.7 \times 0.3 + 0.8 \times 0.4 + 0.2 \\
0.9 \times 0.1 + 1.0 \times 0.2 + 1.1 \times 0.3 + 1.2 \times 0.4 + 0.3 \\
1.3 \times 0.1 + 1.4 \times 0.2 + 1.5 \times 0.3 + 1.6 \times 0.4 + 0.4 \\
0.2 \times 0.1 + 0.3 \times 0.2 + 0.4 \times 0.3 + 0.5 \times 0.4 + 0.5 \\
\end{bmatrix} \\
&= \begin{bmatrix}
0.3 \\
1.2 \\
2.1 \\
3.0 \\
0.6 \\
\end{bmatrix}
\end{aligned}
$$

<ol start="2">
<li>应用 softmax 函数：</li>
</ol>
$$
\text{softmax}(o_j) = \text{softmax} \left( \begin{bmatrix} 0.3 \\ 1.2 \\ 2.1 \\ 3.0 \\ 0.6 \end{bmatrix} \right)
$$

<p>Softmax 函数的定义是：</p>
$$
\text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{j=1}^N e^{z_j}}
$$
<p>对于我们的例子，我们计算：</p>
$$
\begin{aligned}
\text{softmax}(o_j)_1 &= \frac{e^{0.3}}{e^{0.3} + e^{1.2} + e^{2.1} + e^{3.0} + e^{0.6}} \\
&\approx \frac{1.3499}{1.3499 + 3.3201 + 8.1662 + 20.0855 + 1.8221} \\
&\approx \frac{1.3499}{34.7438} \\
&\approx 0.0388
\end{aligned}
$$

$$
\begin{aligned}
\text{softmax}(o_j)_2 &= \frac{e^{1.2}}{e^{0.3} + e^{1.2} + e^{2.1} + e^{3.0} + e^{0.6}} \\
&\approx \frac{3.3201}{1.3499 + 3.3201 + 8.1662 + 20.0855 + 1.8221} \\
&\approx \frac{3.3201}{34.7438} \\
&\approx 0.0955
\end{aligned}
$$
<p>以此类推，我们计算出所有类别的概率。</p>
<ol start="3">
<li>最后，我们计算生成每个单词的概率 $p_j$，根据给定的当前单词向量 $y_j$。假设我们的目标单词是第 2 个单词，即 $y_j = [0, 1, 0, 0, 0]$，那么：$$
\begin{aligned}
p_j &= \text{softmax}(o_j) \cdot y_j 
\\&= [0.0388, 0.0955, 0, 0, 0] \cdot [0, 1, 0, 0, 0]
\\&= 0.0955
\end{aligned}
$$</li>
</ol>
<p>因此，根据给定的参数和输入，生成第 2 个单词的概率 $p_j$ 为 0.0955。</p>
<hr>
<h4 id="6-6-模型架构替换"><a href="#6-6-模型架构替换" class="headerlink" title="6.6 模型架构替换"></a>6.6 模型架构替换</h4><p> <span style='display: inline-block; width: 3.6rem;'></span>Seq2Seq 模型除了可以使用 RNN 实现，还可以使用 LSTM 实现。</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span>LSTM 作为一种特殊类型的 RNN，能够更有效地捕捉序列数据中的长程依赖关系，因此在处理更复杂和更长的输入序列时表现更好。通过将 LSTM 用于编码器和解码器，Seq2Seq 模型可以增强其对长序列和复杂依赖关系的处理能力，从而提升整体性能和鲁棒性。</p>
<p><img src="/./images/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B(Seq2seq)/assets/lstm-rnn.png" alt="查看 lstm-rnn 的源文件"></p>
<h5 id="6-6-1-使用-LSTM-作为-Encoder"><a href="#6-6-1-使用-LSTM-作为-Encoder" class="headerlink" title="6.6.1 使用 LSTM 作为 Encoder"></a>6.6.1 使用 LSTM 作为 Encoder</h5><p>在 Encoder 部分，LSTM 接收输入序列，并将其转换为一个固定大小的上下文向量（或隐藏状态）：</p>
<ol>
<li><strong>编码器嵌入层</strong>：将输入句子的每个单词转换为嵌入向量。</li>
<li><strong>编码器 LSTM 层</strong>：处理嵌入向量序列，生成隐藏状态和细胞状态。</li>
</ol>
<p>示例公式：</p>
$$
h_i^{(s)}, c_i^{(s)} = \text{LSTM}(x_i, h_{i-1}^{(s)}, c_{i-1}^{(s)})
$$


<h5 id="6-6-2-使用-LSTM-作为-Decoder"><a href="#6-6-2-使用-LSTM-作为-Decoder" class="headerlink" title="6.6.2 使用 LSTM 作为 Decoder"></a>6.6.2 使用 LSTM 作为 Decoder</h5><p>在 Decoder 部分，LSTM 接收前一步的输出和编码器的上下文向量（或隐藏状态），并生成当前步骤的输出：</p>
<ol>
<li><strong>解码器嵌入层</strong>：将解码器前一步生成的单词转换为嵌入向量。</li>
<li><strong>解码器 LSTM 层</strong>：处理嵌入向量和前一步的隐藏状态，生成新的隐藏状态和细胞状态。</li>
<li><strong>解码器输出层</strong>：将隐藏状态转换为输出概率分布。</li>
</ol>
<p>示例公式：</p>
$$
h_j^{(t)}, c_j^{(t)} = \text{LSTM}(y_j, h_{j-1}^{(t)}, c_{j-1}^{(t)})
$$

<p>通过使用 LSTM 作为 Encoder 和 Decoder，Seq2Seq 模型可以更好地处理长序列和复杂的依赖关系，提升模型的性能和鲁棒性。</p>
<h2 id="第二章-代码实现"><a href="#第二章-代码实现" class="headerlink" title="第二章 代码实现"></a>第二章 代码实现</h2><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br><span class="line">38</span><br><span class="line">39</span><br><span class="line">40</span><br><span class="line">41</span><br><span class="line">42</span><br><span class="line">43</span><br><span class="line">44</span><br><span class="line">45</span><br><span class="line">46</span><br><span class="line">47</span><br><span class="line">48</span><br><span class="line">49</span><br><span class="line">50</span><br><span class="line">51</span><br><span class="line">52</span><br><span class="line">53</span><br><span class="line">54</span><br><span class="line">55</span><br><span class="line">56</span><br><span class="line">57</span><br><span class="line">58</span><br><span class="line">59</span><br><span class="line">60</span><br><span class="line">61</span><br><span class="line">62</span><br><span class="line">63</span><br><span class="line">64</span><br><span class="line">65</span><br><span class="line">66</span><br><span class="line">67</span><br><span class="line">68</span><br><span class="line">69</span><br><span class="line">70</span><br><span class="line">71</span><br><span class="line">72</span><br><span class="line">73</span><br><span class="line">74</span><br><span class="line">75</span><br><span class="line">76</span><br><span class="line">77</span><br><span class="line">78</span><br><span class="line">79</span><br><span class="line">80</span><br><span class="line">81</span><br><span class="line">82</span><br><span class="line">83</span><br><span class="line">84</span><br><span class="line">85</span><br><span class="line">86</span><br><span class="line">87</span><br><span class="line">88</span><br><span class="line">89</span><br><span class="line">90</span><br><span class="line">91</span><br><span class="line">92</span><br><span class="line">93</span><br><span class="line">94</span><br><span class="line">95</span><br><span class="line">96</span><br><span class="line">97</span><br><span class="line">98</span><br><span class="line">99</span><br><span class="line">100</span><br><span class="line">101</span><br><span class="line">102</span><br><span class="line">103</span><br><span class="line">104</span><br><span class="line">105</span><br><span class="line">106</span><br><span class="line">107</span><br><span class="line">108</span><br><span class="line">109</span><br><span class="line">110</span><br><span class="line">111</span><br><span class="line">112</span><br><span class="line">113</span><br><span class="line">114</span><br><span class="line">115</span><br><span class="line">116</span><br><span class="line">117</span><br><span class="line">118</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> torch</span><br><span class="line"><span class="keyword">import</span> torch.nn <span class="keyword">as</span> nn</span><br><span class="line"><span class="keyword">import</span> torch.optim <span class="keyword">as</span> optim</span><br><span class="line"></span><br><span class="line"><span class="comment"># 定义编码器模型</span></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">Encoder</span>(nn.Module):</span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params">self, input_size, hidden_size</span>):</span><br><span class="line">        <span class="built_in">super</span>(Encoder, self).__init__()</span><br><span class="line">        self.hidden_size = hidden_size</span><br><span class="line">        <span class="comment"># 初始化嵌入层，将输入序列中的每个单词映射到一个向量表示</span></span><br><span class="line">        self.embedding = nn.Embedding(input_size, hidden_size)</span><br><span class="line">        <span class="comment"># 初始化LSTM循环层，处理嵌入向量序列并输出隐藏状态</span></span><br><span class="line">        self.rnn = nn.LSTM(hidden_size, hidden_size)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, <span class="built_in">input</span>, hidden</span>):</span><br><span class="line">        <span class="comment"># 将输入序列中的每个单词转换为嵌入向量</span></span><br><span class="line">        embedded = self.embedding(<span class="built_in">input</span>).view(<span class="number">1</span>, <span class="number">1</span>, -<span class="number">1</span>)</span><br><span class="line">        <span class="comment"># 将嵌入向量序列输入到LSTM循环层中，并返回输出和隐藏状态</span></span><br><span class="line">        output, hidden = self.rnn(embedded, hidden)</span><br><span class="line">        <span class="keyword">return</span> output, hidden</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">init_hidden</span>(<span class="params">self</span>):</span><br><span class="line">        <span class="comment"># 初始化编码器的初始隐藏状态</span></span><br><span class="line">        <span class="keyword">return</span> (torch.zeros(<span class="number">1</span>, <span class="number">1</span>, self.hidden_size), torch.zeros(<span class="number">1</span>, <span class="number">1</span>, self.hidden_size))</span><br><span class="line"></span><br><span class="line"><span class="comment"># 定义解码器模型</span></span><br><span class="line"><span class="keyword">class</span> <span class="title class_">Decoder</span>(nn.Module):</span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">__init__</span>(<span class="params">self, hidden_size, output_size</span>):</span><br><span class="line">        <span class="built_in">super</span>(Decoder, self).__init__()</span><br><span class="line">        self.hidden_size = hidden_size</span><br><span class="line">        <span class="comment"># 初始化嵌入层，将输出序列中的每个单词映射到一个向量表示</span></span><br><span class="line">        self.embedding = nn.Embedding(output_size, hidden_size)</span><br><span class="line">        <span class="comment"># 初始化LSTM循环层，处理嵌入向量序列并输出隐藏状态</span></span><br><span class="line">        self.rnn = nn.LSTM(hidden_size, hidden_size)</span><br><span class="line">        <span class="comment"># 初始化输出层，将隐藏状态映射到输出词汇表中的单词概率分布</span></span><br><span class="line">        self.out = nn.Linear(hidden_size, output_size)</span><br><span class="line">        <span class="comment"># 初始化softmax函数，将输出转换为概率分布</span></span><br><span class="line">        self.softmax = nn.LogSoftmax(dim=<span class="number">1</span>)</span><br><span class="line"></span><br><span class="line">    <span class="keyword">def</span> <span class="title function_">forward</span>(<span class="params">self, <span class="built_in">input</span>, hidden</span>):</span><br><span class="line">        <span class="comment"># 将输入序列中的每个单词转换为嵌入向量</span></span><br><span class="line">        output = self.embedding(<span class="built_in">input</span>).view(<span class="number">1</span>, <span class="number">1</span>, -<span class="number">1</span>)</span><br><span class="line">        <span class="comment"># 应用ReLU激活函数</span></span><br><span class="line">        output = nn.functional.relu(output)</span><br><span class="line">        <span class="comment"># 将嵌入向量序列输入到LSTM循环层中，并返回输出和隐藏状态</span></span><br><span class="line">        output, hidden = self.rnn(output, hidden)</span><br><span class="line">        <span class="comment"># 将LSTM的输出通过输出层和softmax函数，得到单词的概率分布</span></span><br><span class="line">        output = self.softmax(self.out(output[<span class="number">0</span>]))</span><br><span class="line">        <span class="keyword">return</span> output, hidden</span><br><span class="line"></span><br><span class="line"><span class="comment"># 训练函数</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">train</span>(<span class="params">input_tensor, target_tensor, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion, max_length=<span class="number">10</span></span>):</span><br><span class="line">    <span class="comment"># 初始化编码器的隐藏状态</span></span><br><span class="line">    encoder_hidden = encoder.init_hidden()</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 清空优化器的梯度</span></span><br><span class="line">    encoder_optimizer.zero_grad()</span><br><span class="line">    decoder_optimizer.zero_grad()</span><br><span class="line"></span><br><span class="line">    input_length = input_tensor.size(<span class="number">0</span>)</span><br><span class="line">    target_length = target_tensor.size(<span class="number">0</span>)</span><br><span class="line"></span><br><span class="line">    loss = <span class="number">0</span></span><br><span class="line"></span><br><span class="line">    <span class="comment"># 编码器的前向传播</span></span><br><span class="line">    <span class="keyword">for</span> ei <span class="keyword">in</span> <span class="built_in">range</span>(input_length):</span><br><span class="line">        encoder_output, encoder_hidden = encoder(</span><br><span class="line">            input_tensor[ei], encoder_hidden)</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 初始化解码器的输入，使用特殊的起始标记</span></span><br><span class="line">    decoder_input = torch.tensor([[SOS_token]])</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 解码器的初始隐藏状态为编码器的最终隐藏状态</span></span><br><span class="line">    decoder_hidden = encoder_hidden</span><br><span class="line"></span><br><span class="line">    <span class="comment"># 解码器的前向传播</span></span><br><span class="line">    <span class="keyword">for</span> di <span class="keyword">in</span> <span class="built_in">range</span>(target_length):</span><br><span class="line">        decoder_output, decoder_hidden = decoder(</span><br><span class="line">            decoder_input, decoder_hidden)</span><br><span class="line">        topv, topi = decoder_output.topk(<span class="number">1</span>)</span><br><span class="line">        decoder_input = topi.squeeze().detach()  <span class="comment"># 前一个输出作为下一个输入</span></span><br><span class="line"></span><br><span class="line">        loss += criterion(decoder_output, target_tensor[di])</span><br><span class="line">        <span class="keyword">if</span> decoder_input.item() == EOS_token:</span><br><span class="line">            <span class="keyword">break</span></span><br><span class="line"></span><br><span class="line">    <span class="comment"># 反向传播和优化</span></span><br><span class="line">    loss.backward()</span><br><span class="line"></span><br><span class="line">    encoder_optimizer.step()</span><br><span class="line">    decoder_optimizer.step()</span><br><span class="line"></span><br><span class="line">    <span class="keyword">return</span> loss.item() / target_length</span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用一个简单的数据集进行训练</span></span><br><span class="line">input_tensor = torch.tensor([[<span class="number">0</span>], [<span class="number">1</span>], [<span class="number">2</span>], [<span class="number">3</span>], [<span class="number">4</span>]])</span><br><span class="line">target_tensor = torch.tensor([[<span class="number">0</span>], [<span class="number">1</span>], [<span class="number">2</span>], [<span class="number">3</span>], [<span class="number">4</span>]])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 定义参数</span></span><br><span class="line">input_size = <span class="number">5</span></span><br><span class="line">output_size = <span class="number">5</span></span><br><span class="line">hidden_size = <span class="number">64</span></span><br><span class="line">SOS_token = <span class="number">0</span></span><br><span class="line">EOS_token = <span class="number">4</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 初始化模型、优化器和损失函数</span></span><br><span class="line">encoder = Encoder(input_size, hidden_size)</span><br><span class="line">decoder = Decoder(hidden_size, output_size)</span><br><span class="line">encoder_optimizer = optim.SGD(encoder.parameters(), lr=<span class="number">0.01</span>)</span><br><span class="line">decoder_optimizer = optim.SGD(decoder.parameters(), lr=<span class="number">0.01</span>)</span><br><span class="line">criterion = nn.NLLLoss()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 训练模型</span></span><br><span class="line">n_iters = <span class="number">100</span></span><br><span class="line"><span class="keyword">for</span> <span class="built_in">iter</span> <span class="keyword">in</span> <span class="built_in">range</span>(<span class="number">1</span>, n_iters + <span class="number">1</span>):</span><br><span class="line">    loss = train(input_tensor, target_tensor, encoder, decoder, encoder_optimizer, decoder_optimizer, criterion)</span><br><span class="line">    <span class="built_in">print</span>(<span class="string">&#x27;Iteration: &#123;&#125;, Loss: &#123;&#125;&#x27;</span>.<span class="built_in">format</span>(<span class="built_in">iter</span>, loss))</span><br><span class="line"></span><br></pre></td></tr></table></figure>


                                      </div>
                                      
                                        <div class="prev-or-next">
                                          <div class="post-foot-next">
                                            
                                              <a href="/2024/05/27/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BE%AA%E7%8E%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C(RNN%20BRNN%20LSTM%20GRU)/" target="_self">
                                                <i class="iconfont icon-chevronleft"></i>
                                                <span>
                                                  上一页
                                                </span>
                                              </a>
                                              
                                          </div>
                                          <div class="post-attach">
                                            <span class="post-pubtime">
                                              <i class="iconfont icon-updatetime mr-10"
                                                title="更新时间"></i>
                                              2024-10-22 14:52:45
                                            </span>
                                            
                                              <span class="post-tags">
                                                <i class="iconfont icon-tags mr-10" title="标签"></i>
                                                
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                      #人工智能
                                                    </a>
                                                  </span>
                                                  
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/" title="自然语言处理">
                                                      #自然语言处理
                                                    </a>
                                                  </span>
                                                  
                                              </span>
                                              
                                          </div>
                                          <div class="post-foot-prev">
                                            
                                              <a href="/2024/06/16/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-Transformer%E6%A8%A1%E5%9E%8B/" target="_self">
                                                <span>
                                                  下一页
                                                </span>
                                                <i class="iconfont icon-chevronright"></i>
                                              </a>
                                              
                                          </div>
                                        </div>
                                        
                                    </div>
                                    
  <div id="btn-catalog" class="btn-catalog">
    <i class="iconfont icon-catalog"></i>
  </div>
  <div class="post-catalog hidden" id="catalog">
    <div class="title">目录</div>
    <div class="catalog-content">
      
        <ol class="toc"><li class="toc-item toc-level-1"><a class="toc-link" href="#%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86-%E5%BA%8F%E5%88%97%E5%88%B0%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B-Seq2seq"><span class="toc-text">自然语言处理-序列到序列模型(Seq2seq)</span></a><ol class="toc-child"><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E7%AB%A0-Seq2seq"><span class="toc-text">第一章 Seq2seq</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E8%8A%82-%E4%BB%80%E4%B9%88%E6%98%AFSeq2Seq%E6%A8%A1%E5%9E%8B%EF%BC%9F"><span class="toc-text">第一节 什么是Seq2Seq模型？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E8%8A%82-Seq2seq%E6%A8%A1%E5%9E%8B%E5%9F%BA%E6%9C%AC%E6%80%9D%E6%83%B3"><span class="toc-text">第二节 Seq2seq模型基本思想</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E8%8A%82-Seq2Seq-%E6%A8%A1%E5%9E%8B%E4%B8%AD%E7%9A%84%E8%BE%93%E5%85%A5%E5%92%8C%E8%BE%93%E5%87%BA"><span class="toc-text">第三节 Seq2Seq 模型中的输入和输出</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%9B%9B%E8%8A%82-%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87%E7%AC%A6%E5%8F%B7"><span class="toc-text">第四节 条件概率符号 $P(Y|X)$</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E4%BA%94%E8%8A%82-Seq2Seq-%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%A4%84%E7%90%86%E6%AD%A5%E9%AA%A4"><span class="toc-text">第五节 Seq2Seq 模型的处理步骤</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#%E7%AC%AC%E5%85%AD%E8%8A%82-Seq2Seq-%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84"><span class="toc-text">第六节 Seq2Seq 模型架构</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#6-1-%E7%BC%96%E7%A0%81%E5%99%A8%E5%B5%8C%E5%85%A5%E5%B1%82"><span class="toc-text">6.1 编码器嵌入层</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-2-%E7%BC%96%E7%A0%81%E5%99%A8%E5%BE%AA%E7%8E%AF%E5%B1%82"><span class="toc-text">6.2 编码器循环层</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-3-%E8%A7%A3%E7%A0%81%E5%99%A8%E5%B5%8C%E5%85%A5%E5%B1%82"><span class="toc-text">6.3 解码器嵌入层</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-4-%E8%A7%A3%E7%A0%81%E5%99%A8%E5%BE%AA%E7%8E%AF%E5%B1%82"><span class="toc-text">6.4 解码器循环层</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-5-%E8%A7%A3%E7%A0%81%E5%99%A8%E8%BE%93%E5%87%BA%E5%B1%82"><span class="toc-text">6.5 解码器输出层</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-6-%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E6%9B%BF%E6%8D%A2"><span class="toc-text">6.6 模型架构替换</span></a><ol class="toc-child"><li class="toc-item toc-level-5"><a class="toc-link" href="#6-6-1-%E4%BD%BF%E7%94%A8-LSTM-%E4%BD%9C%E4%B8%BA-Encoder"><span class="toc-text">6.6.1 使用 LSTM 作为 Encoder</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#6-6-2-%E4%BD%BF%E7%94%A8-LSTM-%E4%BD%9C%E4%B8%BA-Decoder"><span class="toc-text">6.6.2 使用 LSTM 作为 Decoder</span></a></li></ol></li></ol></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E7%AB%A0-%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0"><span class="toc-text">第二章 代码实现</span></a></li></ol></li></ol>
      
    </div>
  </div>

  
<script src="/js/catalog.js"></script>


                                        <div class="comments-container">
                                          

                                        </div>
                                        
                                  </div>
                                  

          <div id="blockchain"></div>
          <style>
            #hq {
              margin-top: 10px;
              margin-bottom: 10px;
              font-size: 18px;
            }

            #blockchain {
              margin: 0 auto;
              display: none;
              width: 590px;
              flex-direction: column;
              align-items: center;
              background: #ffffffa3;
              border-radius: 5px;
              padding: 5px 10px 10px 10px;
              margin-top: 20px;
            }

            #blockchain .htitle {
              display: flex;
              flex-direction: row;
              align-items: center;
              cursor: pointer;
            }

            #blockchain .hsubtitle {
              color: #555;
              transform: scale(0.8); /* 然后缩小至80% */
              transform-origin: 5px 12px; /* 可能需要指定缩放原点以确保准确缩放 */
            }

            #blockchain .himg {
              width: 25px;
              height: 25px;
              margin-right: 5px;
            }

            #blockchain tr, th {
              font-size: 1.7rem;
              font-weight: normal;
            }

            #blockchain tr, td {
              font-size: 1.6rem;
            }

            #blockchain tr, th, td {
              border: 1px solid #c7c7c7;
              padding: 3px 7px;
            }

            #blockchain table {
              border-collapse: collapse;
              width: 100%;
              font-size: 16px;
              font-family: arial;
            }

            @media (max-width: 800px) {
              #blockchain {
                margin: 0 auto;
                margin-top: 20px;
                display: none;
                /* justify-content: flex-start; */
                padding: 20px 10px;
                width: calc(100% - 40px);
                flex-direction: column;
                align-items: center;
              }
            }
          </style>

          
<script src="/js/axios.min.js"></script>

          <script>
            let ctoname = [
              "BTC",
              "ETH",
              "USDT",
              "BNB",
              "SOL",
              "USDC",
              "XRP",
              "DOGE",
              "ADA",
              "SHIB",
              "AVAX",
              "TRX",
              "DOT",
              "WBTC",
              "BCH",
              "LINK",
              "NEAR",
              "MATIC",
              "ICP",
              "LTC",
              "DAI",
              "UNI",
              "HBAR",
              "ETC",
              "APT",
              "FDUSD",
              "RNDR",
              "ATOM",
              "PEPE",
              "FIL"
            ];

            let ctoname2 = [
                "比特币",
                "以太坊",
                "泰达币",
                "币安币",
                "索拉纳",
                "美元硬币",
                "瑞波币",
                "狗狗币",
                "卡尔达诺",
                "柴犬币",
                "雪崩协议",
                "波场",
                "波卡",
                "包装比特币",
                "比特币现金",
                "链环",
                "近协议",
                "多边形",
                "互联网计算机",
                "莱特币",
                "戴",
                "Uniswap",
                "以太坊经典",
                "赫德拉哈希图",
                "阿普托斯",
                "第一数字美元",
                "渲染令牌",
                "佩佩",
                "宇宙",
                "文件币"
            ];

            let ctoname3 = [
                "Bitcoin",
                "Ethereum",
                "TetherUS",
                "BNB",
                "Solana",
                "USD Coin",
                "Ripple",
                "Dogecoin",
                "Cardano",
                "SHIBA INU",
                "Avalanche",
                "TRON",
                "Polkadot",
                "Wrapped Bitcoin",
                "Bitcoin Cash",
                "ChainLink",
                "NEAR Protocol",
                "Polygon",
                "Internet Computer",
                "Litecoin",
                "Dai",
                "Uniswap",
                "Ethereum Classic",
                "Hedera Hashgraph",
                "Aptos",
                "First Digital USD",
                "Render Token",
                "Pepe",
                "Cosmos",
                "Filecoin"
            ]

            let ctoname4 = [
                "比特币是一种去中心化的数字货币，它允许点对点交易，创建于2009年。",
                "以太坊是一个开源的区块链平台，支持智能合约和去中心化应用，推出于2015年。",
                "泰达币是一种与美元挂钩的稳定币，旨在保持1:1的美元价值。",
                "币安币是币安交易所发行的加密货币，用于支付交易费用和其他服务。",
                "索拉纳是一个高性能区块链平台，旨在提供快速、安全和可扩展的去中心化应用。",
                "USD Coin是一种与美元挂钩的稳定币，由Circle和Coinbase合作推出。",
                "瑞波币是一种由Ripple公司创建的加密货币，旨在促进银行间快速、低成本的跨境支付。",
                "狗狗币是一种基于模因的加密货币，起初作为玩笑创建，但后来因社区支持而流行。",
                "卡尔达诺是一个第三代区块链平台，致力于提供可持续和可扩展的去中心化应用。",
                "柴犬币是一种模仿狗狗币的加密货币，以其社区驱动的发展模式和广泛的在线社区而闻名。",
                "雪崩币是Avalanche区块链平台的原生代币，支持去中心化应用和金融资产。",
                "波场币是波场区块链的原生代币，旨在为数字娱乐产业提供去中心化的内容分享平台。",
                "波卡币是一个多链区块链平台，旨在实现不同区块链之间的互操作性。",
                "包装比特币是比特币在以太坊区块链上的代币化版本，使其能够用于DeFi应用。",
                "比特币现金是比特币的一个分叉，旨在通过增加区块大小来实现更快的交易速度。",
                "Chainlink是一个去中心化的预言机网络，旨在连接智能合约和现实世界的数据。",
                "近邻协议是一个高性能区块链，致力于提供去中心化应用的理想开发平台。",
                "Polygon是一个以太坊扩展解决方案，旨在提供快速、低成本的交易。",
                "Internet Computer是一个去中心化的区块链网络，旨在扩展互联网功能。",
                "莱特币是一种基于比特币协议的加密货币，具有更快的区块生成时间。",
                "Dai是一种由MakerDAO创建的去中心化稳定币，与美元挂钩。",
                "Uniswap是一个基于以太坊的去中心化交易所，允许用户进行代币交换。",
                "Hedera是一个去中心化的公有账本，使用哈希图共识算法。",
                "以太经典是以太坊的一个分叉，保持了原始以太坊链的历史记录。",
                "Aptos是一个新兴的区块链平台，旨在提供高效、安全的去中心化应用。",
                "First Digital USD是一种与美元挂钩的稳定币，旨在提供数字美元的替代方案。",
                "Render Token是一个分布式的GPU渲染网络，旨在提供高效的渲染服务。",
                "宇宙链是一个区块链网络，旨在实现不同区块链之间的互操作性。",
                "Pepe是一种模仿柴犬币的加密货币，以其社区驱动的发展模式而著名。",
                "文件币是一个去中心化的存储网络，旨在利用区块链技术提供安全的数据存储。"
            ];

            async function requestBlockChain() {
              const instance = axios.get("/blockchain")
              let jsonData = (await instance).data

              let table = `<h2 id='hq'>虚拟货币行情</h2>
                <div style="font-size: 1.5rem; font-weight: normal; padding: 0px 0px 10px 0px;">(美元对人民币汇率：${jsonData['exchange']})</div>
                <table border='1'>
                  <tr>
                    <th width="40%">虚拟货币</th>
                    <th width="30%">价格(人民币)</th>
                    <th width="30%">价格(美元)</th>
                  </tr>`;
              
              for (let i = 0; i <= 20; i++) {
                if (!jsonData['list'][ctoname[i]]) {
                  continue;
                }

                let rmb = Math.round(jsonData['list'][ctoname[i]] * jsonData['exchange'] * 100000) / 100000;
                let usd = jsonData['list'][ctoname[i]]

                table += `
                <tr>
                  <td>
                    <div class="htitle" title="${ctoname4[i]}">
                      <img class="himg" src="/images/BlockChain/${ctoname[i]}.jpg" />
                      ${ctoname[i]}
                      <span class="hsubtitle">
                        (${ctoname2[i]})
                      </span>
                    </div>
                  </td>
                  <td>${rmb}</td>
                  <td>${usd}</td>
                </tr>`;
              }

              // for (let currency in jsonData) {
              //   table += `<tr><td>${ctoname[currency].name}</td><td>${jsonData[currency]}</td></tr>`;
              // }
              table += "</table>";

              document.getElementById("blockchain").innerHTML = table;
              document.getElementById("blockchain").style.display = "flex"
            }

            requestBlockChain()
          </script>

          
<div class="footer">
  <div class="social">
    <ul>
      
        <li>
          <a title="github" href="">
            <i class="iconfont icon-"></i>
          </a>
        </li>
      
        <li>
          <a title="wechat" href="">
            <i class="iconfont icon-wechat"></i>
          </a>
        </li>
      
    </ul>
  </div>
  
    
    <div class="footer-more">
      
        <a target="_blank" rel="noopener" href="https://github.com/zchengsite/hexo-theme-oranges">Copyright © 2024 lijunjie</a>
        
    </div>
  
    
    <div class="footer-more">
      
        <a href="https://hahaha.love">Theme by Oranges | Powered by Lijunjie</a>
        
    </div>
  
  
</div>


<script async src="/plugins/consolevideo.js"></script>
        </div>

        <div class="tools-bar">
          <div class="back-to-top tools-bar-item hidden">
  <a href="javascript: void(0)">
    <i class="iconfont icon-chevronup"></i>
  </a>
</div>


<script src="/js/backtotop.js"></script>


  <div class="search-icon tools-bar-item" id="search-icon">
    <a href="javascript: void(0)">
      <i class="iconfont icon-search"></i>
    </a>
  </div>

  <div class="search-overlay hidden">
    <div class="search-content" tabindex="0">
      <div class="search-title">
        <span class="search-icon-input">
          <a href="javascript: void(0)">
            <i class="iconfont icon-search"></i>
          </a>
        </span>
        
          <input type="text" class="search-input" id="search-input" placeholder="搜索...">
        
        <span class="search-close-icon" id="search-close-icon">
          <a href="javascript: void(0)">
            <i class="iconfont icon-close"></i>
          </a>
        </span>
      </div>
      <div class="search-result" id="search-result"></div>
    </div>
  </div>

  <script type="text/javascript">
    var inputArea = document.querySelector("#search-input")
    var searchOverlayArea = document.querySelector(".search-overlay")

    inputArea.onclick = function() {
      getSearchFile()
      this.onclick = null
    }

    inputArea.onkeydown = function() {
      if(event.keyCode == 13)
        return false
    }

    function openOrHideSearchContent() {
      let isHidden = searchOverlayArea.classList.contains('hidden')
      if (isHidden) {
        searchOverlayArea.classList.remove('hidden')
        document.body.classList.add('hidden')
        // inputArea.focus()
      } else {
        searchOverlayArea.classList.add('hidden')
        document.body.classList.remove('hidden')
      }
    }

    function blurSearchContent(e) {
      if (e.target === searchOverlayArea) {
        openOrHideSearchContent()
      }
    }

    document.querySelector("#search-icon").addEventListener("click", openOrHideSearchContent, false)
    document.querySelector("#search-close-icon").addEventListener("click", openOrHideSearchContent, false)
    searchOverlayArea.addEventListener("click", blurSearchContent, false)

    var searchFunc = function (path, search_id, content_id) {
      'use strict';
      var $input = document.getElementById(search_id);
      var $resultContent = document.getElementById(content_id);
      $resultContent.innerHTML = "<ul><span class='local-search-empty'>首次搜索，正在载入索引文件，请稍后……<span></ul>";
      $.ajax({
        // 0x01. load xml file
        url: path,
        dataType: "xml",
        success: function (xmlResponse) {
          // 0x02. parse xml file
          var datas = $("entry", xmlResponse).map(function () {
            return {
              title: $("title", this).text(),
              content: $("content", this).text(),
              url: $("url", this).text()
            };
          }).get();
          $resultContent.innerHTML = "";

          $input.addEventListener('input', function () {
            // 0x03. parse query to keywords list
            var str = '<ul class=\"search-result-list\">';
            var keywords = this.value.trim().toLowerCase().split(/[\s\-]+/);
            $resultContent.innerHTML = "";
            if (this.value.trim().length <= 0) {
              return;
            }
            // 0x04. perform local searching
            datas.forEach(function (data) {
              var isMatch = true;
              var content_index = [];
              if (!data.title || data.title.trim() === '') {
                data.title = "Untitled";
              }
              var orig_data_title = data.title.trim();
              var data_title = orig_data_title.toLowerCase();
              var orig_data_content = data.content.trim().replace(/<[^>]+>/g, "");
              var data_content = orig_data_content.toLowerCase();
              var data_url = data.url;
              var index_title = -1;
              var index_content = -1;
              var first_occur = -1;
              // only match artiles with not empty contents
              if (data_content !== '') {
                keywords.forEach(function (keyword, i) {
                  index_title = data_title.indexOf(keyword);
                  index_content = data_content.indexOf(keyword);

                  if (index_title < 0 && index_content < 0) {
                    isMatch = false;
                  } else {
                    if (index_content < 0) {
                      index_content = 0;
                    }
                    if (i == 0) {
                      first_occur = index_content;
                    }
                    // content_index.push({index_content:index_content, keyword_len:keyword_len});
                  }
                });
              } else {
                isMatch = false;
              }
              // 0x05. show search results
              if (isMatch) {
                str += "<li><a href='" + data_url + "' class='search-result-title'>" + orig_data_title + "</a>";
                var content = orig_data_content;
                if (first_occur >= 0) {
                  // cut out 100 characters
                  var start = first_occur - 20;
                  var end = first_occur + 80;

                  if (start < 0) {
                    start = 0;
                  }

                  if (start == 0) {
                    end = 100;
                  }

                  if (end > content.length) {
                    end = content.length;
                  }

                  var match_content = content.substr(start, end);

                  // highlight all keywords
                  keywords.forEach(function (keyword) {
                    var regS = new RegExp(keyword, "gi");
                    match_content = match_content.replace(regS, "<span class=\"search-keyword\">" + keyword + "</span>");
                  });

                  str += "<p class=\"search-result-abstract\">" + match_content + "...</p>"
                }
                str += "</li>";
              }
            });
            str += "</ul>";
            if (str.indexOf('<li>') === -1) {
              return $resultContent.innerHTML = "<ul><span class='local-search-empty'>没有找到内容，请尝试更换检索词。<span></ul>";
            }
            $resultContent.innerHTML = str;
          });
        },
        error: function(xhr, status, error) {
          $resultContent.innerHTML = ""
          if (xhr.status === 404) {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>未找到search.xml文件，具体请参考：<a href='https://github.com/zchengsite/hexo-theme-oranges#configuration' target='_black'>configuration</a><span></ul>";
          } else {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>请求失败，尝试重新刷新页面或稍后重试。<span></ul>";
          }
        }
      });
      $(document).on('click', '#search-close-icon', function() {
        $('#search-input').val('');
        $('#search-result').html('');
      });
    }

    var getSearchFile = function() {
        var path = "/search.xml";
        searchFunc(path, 'search-input', 'search-result');
    }
  </script>


        </div>
    </div>

  </body>

</html>