<!--                                                                                                                              
                                                                                                                             
                                                                                                                             
                                         ..;+$&& &&&&$Xx;                                                                  
                                      ..;+$&&&&&&&&&&&&&&&&&$Xx;                                                                  
                                      .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&:                                                             
                                   .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                          
                                   X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&;                                                       
                                 .x&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&X:                                                    
                                :X&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x                                                   
                              :$&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&.                                                 
                             :$&&&&&&&&&&&&&$$$$$$$$$$$$$$&&&&&&&&&&&&&&&&&&&&&&&+                                                
                            ;$&&&&&&&&&$$$XXXXXXXxxxxxxXXXXXX$$$$&&&&&&&&&&&&&&&&&x                                               
                            X&&&&&&&&$$XXXXXXxXxxxxxxxxxxxxxxxxxxxxX$&&&&&&&&&&&&&&&                                              
                           :&&&&&&&$$$XXXXXXxxxxxxx+x++++++++++++xxxxxxX$&&&&&&&&&&&;                                             
                          .$&&&&&&$$$XXXXXxxxxxxxxxx++++++++++++++++++xxxx$&&&&&&&&&X                                             
                          $&&&&&&$$$XXXXxxxxxxxxx+++++++++++++++++++++++xxxx$&&&&&&&&                                             
                         :&&&&&&$$$XXXXXxxxxxxxxx+++++++++++++;+++++++++++xxxX$&&&&&&.                                            
                         $&&&&&$$$XXXXXXxxxxxxx++++++++++++++++++++++++++++xxxX$&&&&&+                                            
                        .&&&&&&$$XXXXXxxxxxxxxx++++++++++++;;+++++++++++++++xxxX$&&&&+                                            
                        ;&&&&&&$$XXXXxxxxxxxx+++++++++++++++++++++;++++++++++xxxX&&&&x                                            
                        X&&&&&$$XXXXXXXXxxxxx+++++;;+;;;;;;;;;++;;;;++++++++++xxX$&&&&.                                           
                        X&&&&&$XX$&&&&&&&&&$$Xxxx++++++;;;;;+++++;++++++++++++xxX$&&&&X                                           
                        X&&&&$X$&&&&&&&&&&&&&&&$$Xxxxx++++++++++++++++++++++xxxxx$&&&&$                                           
                        &&&&&XX$&&&$$$$$$$$$$&&$$$$XXXx+++++++xxxXXX$$$&&&$$$$$XxX&&&&+                                           
                        X&&&&XXXXXXXxxxx++xxXX$$$$XXXXxx++++xxXXXX$$$&&&&&&&&&&&Xx&&&&.                                           
                        +&&&XXxXXxxxxxx++++++xxxXXXXXxxx++++xxXXXXXXXXxxxxxxX$$$$X&&&x                                            
                        X&&&XXXXXxXX$XXXXxxxX$XxxXXXXxxx+++++xXXXXxxxx++++++++xxxx&&&;                                            
                       ;$&&XxxXXXX$$&&&&&&&&&&$$xXXXXXx++;+++xXXXX$$&&$$$$Xx++++++X&&                                             
                       X$&&xxxxXX$$$$$$&&&&&&X$&$+xxxXx++;+++xxxX&&&&&&&&$&&&$Xx++x&+                                             
                      ;$$&$XxxxxxxxxXxxXXXXxxx+++++xxxx++;++++++++xxX&&&&XXXXXXx+++&$:                                            
                      +$$$$xxxxxxx++xxxxxxxxxx++x+xxxxx++;;+++++++xxx++++++++++++++$$+                                            
                      .XX$$xxxxxxx+++++++++++++++xxxxxx++;+++++++++++xxx+++++++++++Xx+                                            
                       xX$$xxxxxxx++++++++++++++xxxxxxx++;;+++++++;+++;+;;;;;++++++x++                                            
                       ;XX$Xxxxxxx+++++++++++++xxxxxxxx++;+++++++++;;;;;;;;;;+++++++;.                                            
                        +X$XXxxxx+++++++++++++xxXXxxxxx+;;;++++xx+++;;;;;;++++++++++.                                             
                         +$XXXxxxx+++++++++++xxxxxxxxxx+;;;+++++xxx+++;;;+;;;++++++:                                              
                          XXXXxxxx+++++++++xxxxx+++xxxx++++++++++xxx++++++++++++++.                                               
                           ;XXXXxxxx++++xxxxxxxxxxxxxxxx++++++++++xxxx+++++++++++;                                                
                            xXXXXxxxxxxxxxxxxX$$$$&&&$$XXXX$&&$$Xx++xxxx+++++++++:                                                
                            +XXXXXXXXxXxxxxxxX$$$$$$$$$$$$$$$$$$X++++xxxxxxxxx+++                                                 
                            ;XXX$$XXXxxxxxxxxXXXXXXXXXXXXx++++++++++++xxxxxxxxx+;                              ;++;:              
                            .xXX$$$XxxxxxxxxXxxxxxxx++++++++++++++xxx++++xxxxx++                              ;xx++;;             
                             +XXX$XXxxxxxxXXXXxxxxxx++++++++++++++xxxxx+++xxxxx:            .                .xxx+++;             
                              XXXXXXXxxxxX$&&&&&&$$$$XxxxXX$$$$$$&&&$Xx++++xxx;           :+++;.             +xxxx++;             
                              .XXX$XXXxxxxxxXX$$$$$$$$&$$$XxXXXXx+xxXXxx+xxxx;            x+++;;             Xxx+x++:             
                               ;$$$$XXXxxxxxxxxXXX$$$XXxxxxXXxx++++++xxxxxxx+            .xx++;;.           :Xxxxx++.             
                                +$$$$$$XXxxxxxxxxXXXXXXXXXXxxxx++++++xxxxxx;             :xx+++;;           ;Xxxxxx+              
                                 $&$$$$$$XXxxxxxxxxXXXXXXXXxxxx++++xxxxxXx;              :x+++++;           xx+++++:              
                            ..   $&&&$$$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxxxxX:               .Xx+++++          .xx+++++.              
                        X&&&&&&&&&&&&&&&$$XXXxxxxxxxxxxxxxxxxxxxxxxxxxx+                  XXxxx++.         +xx+++++.              
                      $&&&&&&&&&&&&$&&&&&$$$XXXxxxxxxxxxxxxxxxxxxxxXXX+                   +xx+++;;        .Xx++++++               
                   :$&&&&&&&&&&&&&&&&$&&&&&&$$XXXXXXXXXXXXxxxxXXXXXXXx.                   ;Xx+++++.       ;Xxx+++++               
                  $&&&&&&&&&&&&&&$$$&&&&&&&&&&&$$$XXXXXXXXXXXX$$$$$Xxx                    +Xx+++++;       xxx+xxx+;               
             .;&&&&&&&&&&&&&&&&&&$$$$$&&&&&&&&&&&&&&&$$$$$$&&&&$$XXxx+                    +Xxxxx+++      :Xxx+++++:               
       +$&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$&&&&&&&&&&&&&&&&&&&&&$$XXxxxx+                    .$Xxxx+++:     xXxx++++;.               
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$&&&&&&&&&&&&&&&&&&$$XXxxxxx;                     XXx+++++:    .XXxx++++;                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$XXX$$$$&&&&&&$$&&&&&$$$$Xxxxxxxx&.                    +Xx+++++;    ;XXxx++++:                
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXXXX$$$$$&&&&&&&$$$$$$XXXxxxxxX&&:                   ;Xxx+++++   .xXxxxxx++                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XxxxXXXX$$$$$$$$$$$XXXXxxxxxxx&&&&                   .$Xxx++++.  +xxxxxxx+;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&xxxxxxxxxxx+++x++xxxxxxxxxxx$&&&&&&&&&&&&X.        .XXxx+++++;;;;+++++++;                 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&x+xxxxxxxxxxxxx+xxxxxxxxxX&&&&&&&&&&&&&&&&&;     .$$Xx+++++++++++++++++;;::.            
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&+xxxxxxxx++xxxxxxxxxxXX$&&&&&&&&&&&&&&&&&&&.   .$Xxx++++++++++++++x+++xxxxxx+++       
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxxxxxx+++++xxxxxxxXX$&&&&&&&&&&&&&&&&&&&&X  .$$Xxx++++++++++x++xxxXXxxXxx++;++.    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$xxxxx+++++++xxxxX$$&$&&&&&&&&&&&&&&&&&&&&  $$Xx+++++++++++xx+XXX$$$X$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xxx++++++++xxxX$$$$&&&&&&&&&&&&&&&&&&&&&:X$$x+x++xx+x++xxxxX$X$$$$$Xx++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&Xx++++xxxX$$&&&&&&&&&&&&&&&&&&&&&&&&&$$X++x++xx+++xxxXX$$$$$$Xx+++++++.   
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXX+++++++++xxxXX$$$$$$Xx+++++++x;  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XX$X++++++++xxxXX$$$$$$x++++++++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxx$$x+++++xxxxX$$$$$$Xx+++++++++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxx$Xx+++++xxxX$$$$$Xxx++++++++++++
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$Xxxxx$$x++++xXX$$$$$$Xxx+++++x+++++:
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&XXxxxxX$x+++xXXxxXXxxxxxx+;+xx++++; 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXxxxxxXXXXXxxxxXXXxx++++++xx++++: 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$XXXX$$$$$Xxx++xxxxxxx+++++xXxx++. 
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xx++++xxXXxxx++x+xXXxx:  
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$Xxx+xxxxxxxxxxxXXXXx    
     &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&$$$$$$$$$$$XxxxxxxxxxxXxxXXx+.     
    
    这些是HTML代码，真没啥好看的 - 杰
    
-->


<!-- 
conda换源：
conda config --show channels
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/

pip换源：
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
-->


<!DOCTYPE html>
<html lang="zh-CN" color-mode="light">

<head>
  <meta charset="utf-8">
  <!-- <meta name="viewport" content="width=device-width, initial-scale=1" /> -->
  <meta name="viewport" content="width=device-width, initial-scale=0.8, maximum-scale=1, user-scalable=no">

  
  <meta name="author" content="杰" />
  <meta name="description" content="" />
  
  
  <title>
    
      Pandas基础 
      
      
      |
    
     人工智能小站站
  </title>

  
    <link rel="apple-touch-icon" href="/images/favicon.png">
    <link rel="icon" href="/images/favicon.png">
  

  <!-- Raleway-Font -->
  <!-- <link href="https://fonts.googleapis.com/css?family=Raleway&display=swap" rel="stylesheet"> -->

  <!-- hexo site css -->
  <link rel="stylesheet" href="/css/main.css" />
  <link rel="stylesheet" href="//at.alicdn.com/t/font_1886449_67xjft27j1l.css" />

  <!-- <style>
    @font-face {
      font-family: 'NotoSansSC';
      src: url('https://pub-0a02c629549c4638b41011dd3ce66f6a.r2.dev/NotoSansSC-Regular.ttf') format('truetype');
    }

    body {
      font-family: NotoSansSC,sans-serif;
    }
  </style> -->

  <!-- 代码块风格 -->
  

  <!-- jquery3.3.1 -->
  
    <script defer type="text/javascript" src="/plugins/jquery.min.js"></script>
  

  <!-- fancybox -->
  
    <link href="/plugins/jquery.fancybox.min.css" rel="stylesheet">
    <script defer type="text/javascript" src="/plugins/jquery.fancybox.min.js"></script>
  
  
<script src="/js/fancybox.js"></script>


  <script>
    var html = document.documentElement
    const colorMode = localStorage.getItem('color-mode')
    if (colorMode) {
      document.documentElement.setAttribute('color-mode', colorMode)
    }
  </script>
<!-- hexo injector head_end start -->
<link rel="stylesheet" href="/plugins/katex/dist/katex.min.css">

<link rel="stylesheet" href="/plugins/hexo-math/dist/style.css">
<!-- hexo injector head_end end --><meta name="generator" content="Hexo 7.3.0"></head>


  <body>
    <div id="app">
      <div class="header">
  <div class="avatar">
    <a href="/">
      <!-- 头像取消懒加载，添加no-lazy -->
      
        <img src="/images/avatar.webp" alt="">
      
    </a>
    <div class="nickname"><a href="/">hahaha.love 个人学习笔记</a></div>
  </div>
  <div class="navbar">
    <ul>
      
        <li class="nav-item" data-path="/">
          <a href="/">首页</a>
        </li>
      
        <li class="nav-item" data-path="/tags/编程语言/">
          <a href="/tags/编程语言/">编程语言</a>
        </li>
      
        <li class="nav-item" data-path="/archives/">
          <a href="/archives/">日期归档</a>
        </li>
      
        <li class="nav-item" data-path="/tags/">
          <a href="/tags/">标签</a>
        </li>
      
        <li class="nav-item" data-path="/life/">
          <a href="/life/">生活</a>
        </li>
      
        <li class="nav-item" data-path="/software/">
          <a href="/software/">软件下载</a>
        </li>
      
        <li class="nav-item" data-path="/about/">
          <a href="/about/">关于我</a>
        </li>
      
    </ul>
  </div>
</div>


<script src="/js/activeNav.js"></script>


        <div class="flex-container">
          <!-- 文章详情页，展示文章具体内容，url形式：https://yoursite/文章标题/ -->
<!-- 同时为「标签tag」，「朋友friend」，「分类categories」，「关于about」页面的承载页面，具体展示取决于page.type -->


  <!-- LaTex Display -->

  
    <script async type="text/javascript" src="/plugins/mathjax/tex-chtml.js"></script>
  
  <script>
    MathJax = {
      tex: {
        inlineMath: [['$', '$'], ['\\(', '\\)']]
      }
    }
  </script>


        <!-- clipboard -->

  
    <script async type="text/javascript" src="/plugins/clipboard.min.js"></script>
  
  
<script src="/js/codeCopy.js"></script>


                                  <!-- 文章内容页 url形式：https://yoursite/文章标题/ -->
                                  <div class="container post-details" id="post-details">
                                    <div class="post-content">
                                      <div class="post-title">Pandas基础</div>
                                      <div class="post-attach">
                                        <span class="post-pubtime">
                                          <i class="iconfont icon-updatetime mr-10" title="更新时间"></i>
                                          2024-10-22 14:52:45
                                        </span>
                                        
                                          <span class="post-tags">
                                            <i class="iconfont icon-tags mr-10" title="标签"></i>
                                            
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                  #人工智能
                                                </a>
                                              </span>
                                              
                                              <span class="span--tag mr-8">
                                                <a href="/tags/%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86/" title="数据处理">
                                                  #数据处理
                                                </a>
                                              </span>
                                              
                                          </span>
                                          
                                      </div>
                                      <div class="markdown-body">
                                        <h1 id="Pandas基础"><a href="#Pandas基础" class="headerlink" title="Pandas基础"></a>Pandas基础</h1><p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1200px-Pandas_logo.svg_.png" alt="Primeros pasos con Pandas - Adictos al trabajo Tutoriales"></p>
<h2 id="1、什么是Pandas？"><a href="#1、什么是Pandas？" class="headerlink" title="1、什么是Pandas？"></a>1、什么是Pandas？</h2><p>Pandas 是一个强大的开源 Python 库，构建在 NumPy 和 Matplotlib 的基础之上，被广泛认为是数据分析的“三剑客”之一。这三个工具分别是 NumPy、Matplotlib 和 Pandas。Pandas 已成为 Python 数据分析的关键工具之一，旨在提供强大且灵活的数据分析功能，可用于支持多种编程语言。</p>
<h3 id="1-1、Pandas概述"><a href="#1-1、Pandas概述" class="headerlink" title="1.1、Pandas概述:"></a>1.1、Pandas概述:</h3><p>Pandas是一个强大的开源Python库，组合了面板数据（Panel Data）和数据分析（data analysis）的概念，广泛用于数据分析领域。最初应用于金融量化交易，现在在多个行业中得到广泛应用。</p>
<h3 id="1-2、发展历史"><a href="#1-2、发展历史" class="headerlink" title="1.2、发展历史:"></a>1.2、发展历史:</h3><p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/wes1.jpg" alt="Wes McKinney · GitHub"></p>
<p>Pandas最初由Wes McKinney于2008年开发，并于2009年开源。目前，由PyData团队进行日常维护。</p>
<h3 id="1-3、Pandas的作用"><a href="#1-3、Pandas的作用" class="headerlink" title="1.3、Pandas的作用:"></a>1.3、Pandas的作用:</h3><p> 在Pandas出现之前，Python主要用于数据采集和数据预处理，但其支持数据分析的能力有限。Pandas的出现显著提升了Python在数据分析领域的能力，它实现了数据分析的五个关键环节：加载数据、整理数据、操作数据、构建数据模型和分析数据。</p>
<h3 id="1-4、Pandas的主要特点"><a href="#1-4、Pandas的主要特点" class="headerlink" title="1.4、Pandas的主要特点:"></a>1.4、Pandas的主要特点:</h3><ul>
<li>提供了带有默认标签的DataFrame对象，适用于数据分析。</li>
<li>能够从不同格式的文件加载数据，并转换为可处理的对象。</li>
<li>支持按行和列标签进行分组、聚合和转换操作。</li>
<li>方便的数据归一化和处理缺失值。</li>
<li>简单地对数据列进行增加、修改或删除。</li>
<li>处理不同数据集格式，如矩阵数据、异构数据表和时间序列等。</li>
<li>提供多种处理数据集的方法，如构建子集、切片、过滤和重新排序。</li>
</ul>
<h3 id="1-5、Pandas的主要优势"><a href="#1-5、Pandas的主要优势" class="headerlink" title="1.5、Pandas的主要优势:"></a>1.5、Pandas的主要优势:</h3><p>Pandas相对于其他语言的数据分析包具有以下优势：</p>
<ul>
<li>提供了适用于数据分析的数据结构，如DataFrame和Series。</li>
<li>具有简洁的API，使用户能够专注于核心编程任务。</li>
<li>集成了其他库，如Scipy、scikit-learn和Matplotlib。</li>
<li>提供完善的资料支持和强大的社区环境。</li>
</ul>
<h3 id="1-6、Pandas内置数据结构"><a href="#1-6、Pandas内置数据结构" class="headerlink" title="1.6、Pandas内置数据结构:"></a>1.6、Pandas内置数据结构:</h3><p>Pandas内置了两种主要数据结构：</p>
<ul>
<li>Series：带标签的一维数组，标签可以是字符类型。</li>
<li>DataFrame：表格型数据结构，具有行标签和列标签。</li>
</ul>
<p>下面表对数据结构做简单地的说明：</p>
<table>
<thead>
<tr>
<th><strong>数据结构</strong></th>
<th><strong>维度说明</strong></th>
</tr>
</thead>
<tbody><tr>
<td>Series</td>
<td>该结构能够存储各种数据类型，包括字符、整数、浮点数、Python对象等。Series使用name和index属性来描述数据值。Series是一维数据结构，用于表示序列数据。</td>
</tr>
<tr>
<td>DataFrame</td>
<td>该结构能够存储各种数据类型，包括字符、整数、浮点数、Python对象等。DataFrame使用columns和index属性来描述数据值。DataFrame是二维数据结构，用于表示表格型数据。</td>
</tr>
</tbody></table>
<h2 id="2、Pandas安装"><a href="#2、Pandas安装" class="headerlink" title="2、Pandas安装"></a>2、Pandas安装</h2><h3 id="2-1、Python环境准备"><a href="#2-1、Python环境准备" class="headerlink" title="2.1、Python环境准备"></a>2.1、Python环境准备</h3><p>首先你需要准备一个Python环境。</p>
<p>Python下载地址：<a target="_blank" rel="noopener" href="https://www.python.org/downloads/">https://www.python.org/downloads/</a></p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1699018057984.png" alt="1699018057984"></p>
<p>下载好后双击打开Python安装包。</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1699018320242.png" alt="1699018320242"></p>
<p>将<code>Add Python.exe to Path</code>打勾，点击<code>Install Now</code>即可。</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/python%E5%AE%89%E8%A3%85.jpg" alt="python安装"></p>
<h3 id="2-2、Pandas安装"><a href="#2-2、Pandas安装" class="headerlink" title="2.2、Pandas安装"></a>2.2、Pandas安装</h3><p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/Insert-Windows-Key-Symbol.jpg" alt="How to Create a Keyboard Shortcut to Insert the Windows Key Symbol |  @cdsmythe"></p>
<p>在键盘中按组合键：<code>Win键+R</code>，输入<code>cmd</code>呼出终端，输入如下命令。</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pip install pandas</span><br></pre></td></tr></table></figure>

<p>看到红框中的字样则代表已经成功安装Pandas了。</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1699019040639.png" alt="1699019040639"></p>
<h2 id="3、Series入门"><a href="#3、Series入门" class="headerlink" title="3、Series入门"></a>3、Series入门</h2><p><strong>Series结构简介：</strong> Series，也称为Series序列，是Pandas中常用的数据结构之一。它类似于一维数组，由一组数据值（value）和一组标签（index）组成，其中标签与数据值一一对应。</p>
<p><strong>Series的特点：</strong></p>
<ul>
<li>Series可以保存各种数据类型，包括整数、字符串、浮点数、Python对象等。</li>
<li>默认情况下，Series的标签是整数，从0开始依次递增。</li>
<li>Series的结构图如下所示：</li>
</ul>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1699018952648.png" alt="1699018952648"></p>
<h3 id="3-1、创建Series对象"><a href="#3-1、创建Series对象" class="headerlink" title="3.1、创建Series对象"></a>3.1、创建Series对象</h3><p>当使用Pandas库时，可以通过调用<code>Series()</code>函数来创建Series对象。通过这个对象，你可以使用各种方法和属性来处理数据，以达到数据处理的目的。</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">import pandas as pd</span><br><span class="line"></span><br><span class="line">s = pd.Series(data, index, dtype, copy)</span><br></pre></td></tr></table></figure>

<p>参数说明：</p>
<table>
<thead>
<tr>
<th align="left">参数名称</th>
<th align="left">描述</th>
</tr>
</thead>
<tbody><tr>
<td align="left">data</td>
<td align="left">输入的数据，可以是列表、常量、ndarray 数组等。</td>
</tr>
<tr>
<td align="left">index</td>
<td align="left">索引值必须是惟一的，如果没有传递索引，则默认为 np.arrange(n)。</td>
</tr>
<tr>
<td align="left">dtype</td>
<td align="left">dtype表示数据类型，如果没有提供，则会自动判断得出。</td>
</tr>
<tr>
<td align="left">copy</td>
<td align="left">表示对 data 进行拷贝，默认为 False。</td>
</tr>
</tbody></table>
<p>我们可以使用不同方法来创建Pandas Series对象，包括使用数组、字典、标量值或Python对象。以下是展示创建Series对象的不同方法：</p>
<h4 id="1-创建一个空Series对象"><a href="#1-创建一个空Series对象" class="headerlink" title="1) 创建一个空Series对象"></a>1) 创建一个空Series对象</h4><p>使用以下方法可以创建一个空的 Series 对象，如下所示：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series()</span><br><span class="line"><span class="built_in">print</span>(s)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">Series([], dtype: object)</span><br></pre></td></tr></table></figure>


<h4 id="2-ndarray创建Series对象"><a href="#2-ndarray创建Series对象" class="headerlink" title="2) ndarray创建Series对象"></a>2) ndarray创建Series对象</h4><p>ndarray是NumPy中的数组类型。当数据（data）是ndarray时，传递的索引长度必须与数组相同。如果未显式传递索引参数，那么默认情况下，索引将使用<code>range</code>函数生成。下面是使用默认索引创建Series序列对象的示例，输出结果如下：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">data = np.array([<span class="string">&#x27;a&#x27;</span>,<span class="string">&#x27;b&#x27;</span>,<span class="string">&#x27;c&#x27;</span>,<span class="string">&#x27;d&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 隐式索引（索引从0开始）</span></span><br><span class="line">h = pd.Series(data)</span><br><span class="line"><span class="built_in">print</span>(h)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 自定义索引标签（即显示索引）</span></span><br><span class="line">s = pd.Series(data, index=[<span class="number">100</span>, <span class="number">101</span>, <span class="number">102</span>, <span class="number">103</span>])</span><br><span class="line"><span class="built_in">print</span>(s)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">100  a</span><br><span class="line">101  b</span><br><span class="line">102  c</span><br><span class="line">103  d</span><br><span class="line">dtype: object</span><br></pre></td></tr></table></figure>


<h4 id="3-dict创建Series对象"><a href="#3-dict创建Series对象" class="headerlink" title="3) dict创建Series对象"></a>3) dict创建Series对象</h4><p>你可以将字典作为输入数据。</p>
<p>如果没有传入索引，将会使用字典的键来构造索引。</p>
<p>反之，如果传递了索引，需要确保索引标签与字典中的值一一对应。</p>
<p>以下是两组示例，分别演示了上述两种情况：</p>
<p>示例 1：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">import pandas as pd</span><br><span class="line"></span><br><span class="line">data = &#123;&#x27;a&#x27;: 0., &#x27;b&#x27;: 1., &#x27;c&#x27;: 2.&#125;</span><br><span class="line">s = pd.Series(data)</span><br><span class="line"></span><br><span class="line">print(s)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">a    0.0</span><br><span class="line">b    1.0</span><br><span class="line">c    2.0</span><br><span class="line">dtype: float64</span><br></pre></td></tr></table></figure>


<p>示例 2：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">import pandas as pd</span><br><span class="line"></span><br><span class="line">data = &#123;&#x27;a&#x27;: 0., &#x27;b&#x27;: 1., &#x27;c&#x27;: 2.&#125;</span><br><span class="line">s = pd.Series(data, index=[&#x27;b&#x27;, &#x27;c&#x27;, &#x27;d&#x27;, &#x27;a&#x27;])</span><br><span class="line"></span><br><span class="line">print(s)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">b    1.0</span><br><span class="line">c    2.0</span><br><span class="line">d    NaN</span><br><span class="line">a    0.0</span><br><span class="line">dtype: float64</span><br></pre></td></tr></table></figure>

<p>当传递的索引值无法找到与其对应的值时，就会使用 NaN（非数字）来进行填充。</p>
<h4 id="4-标量创建Series对象"><a href="#4-标量创建Series对象" class="headerlink" title="4) 标量创建Series对象"></a>4) 标量创建Series对象</h4><p>如果 data 是标量值，则必须提供索引，示例如下：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">import pandas as pd</span><br><span class="line"></span><br><span class="line">s = pd.Series(5, index=[0, 1, 2, 3])</span><br><span class="line">print(s)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">0    5</span><br><span class="line">1    5</span><br><span class="line">2    5</span><br><span class="line">3    5</span><br><span class="line">dtype: int64</span><br></pre></td></tr></table></figure>

<p>标量值按照 index 的数量进行重复，并与其一一对应。</p>
<h3 id="3-2、访问Series数据"><a href="#3-2、访问Series数据" class="headerlink" title="3.2、访问Series数据"></a>3.2、访问Series数据</h3><p>上述讲解了创建 Series 对象的多种方式，那么我们应该如何访问 Series 序列中元素呢？</p>
<p>分为两种方式：</p>
<ul>
<li><p>位置索引访问</p>
</li>
<li><p>标签索引访问</p>
</li>
</ul>
<p>这种访问方式与 ndarray 和 list 相同，使用元素自身的下标进行访问。我们知道数组的索引计数从 0 开始，这表示第一个元素存储在第 0 个索引位置上，以此类推，就可以获得 Series 序列中的每个元素。</p>
<h4 id="1-位置索引访问"><a href="#1-位置索引访问" class="headerlink" title="1) 位置索引访问"></a>1) 位置索引访问</h4><p>例 1：通过索引下标访问元素</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 索引下标</span></span><br><span class="line"><span class="built_in">print</span>(s[<span class="number">0</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">1</span><br></pre></td></tr></table></figure>


<p>例 2：通过切片的方式访问 Series 序列中的数据</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(s[:<span class="number">3</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">a    1</span><br><span class="line">b    2</span><br><span class="line">c    3</span><br><span class="line">dtype: int64</span><br></pre></td></tr></table></figure>


<p>如果想要获取最后三个元素，也可以使用下面的方式：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(s[-<span class="number">3</span>:])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">c    3</span><br><span class="line">d    4</span><br><span class="line">e    5</span><br><span class="line">dtype: int64</span><br></pre></td></tr></table></figure>


<h4 id="2-索引标签访问"><a href="#2-索引标签访问" class="headerlink" title="2) 索引标签访问"></a>2) 索引标签访问</h4><p>Series类似于固定大小的字典，其中将索引标签视为键（key），将序列中的元素值视为对应的值（value）。通过索引标签可以访问或修改元素的值。</p>
<p>例 1：通过标签下标访问元素</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series([<span class="number">6</span>, <span class="number">7</span>, <span class="number">8</span>, <span class="number">9</span>, <span class="number">10</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(s[<span class="string">&#x27;a&#x27;</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">6</span><br></pre></td></tr></table></figure>


<p>例 2：使用索引标签访问多个元素值</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series([<span class="number">6</span>, <span class="number">7</span>, <span class="number">8</span>, <span class="number">9</span>, <span class="number">10</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(s[[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>]])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">a    6</span><br><span class="line">c    8</span><br><span class="line">d    9</span><br><span class="line">dtype: int64</span><br></pre></td></tr></table></figure>


<p>例 3：使用不存在的标签下标访问元素</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">s = pd.Series([<span class="number">6</span>, <span class="number">7</span>, <span class="number">8</span>, <span class="number">9</span>, <span class="number">10</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># f标签不存在</span></span><br><span class="line"><span class="built_in">print</span>(s[<span class="string">&#x27;f&#x27;</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">.</span><br><span class="line">.</span><br><span class="line">.</span><br><span class="line">KeyError: &#x27;f&#x27;</span><br></pre></td></tr></table></figure>


<h3 id="3-3、Series常用属性"><a href="#3-3、Series常用属性" class="headerlink" title="3.3、Series常用属性"></a>3.3、Series常用属性</h3><p>下面我们介绍 Series 的常用属性和方法。在下表列出了 Series 对象的常用属性。</p>
<table>
<thead>
<tr>
<th>名称</th>
<th>属性</th>
</tr>
</thead>
<tbody><tr>
<td>axes</td>
<td>返回所有行索引标签的列表。</td>
</tr>
<tr>
<td>dtype</td>
<td>返回对象的数据类型。</td>
</tr>
<tr>
<td>empty</td>
<td>返回一个空的Series对象。</td>
</tr>
<tr>
<td>ndim</td>
<td>返回输入数据的维数。</td>
</tr>
<tr>
<td>size</td>
<td>返回输入数据的元素数量。</td>
</tr>
<tr>
<td>values</td>
<td>以ndarray的形式返回Series对象的值。</td>
</tr>
<tr>
<td>index</td>
<td>返回一个RangeIndex对象，用来描述索引的取值范围。</td>
</tr>
</tbody></table>
<p>现在创建一个 Series 对象，并演示如何使用上述表格中的属性。</p>
<h4 id="1-axes"><a href="#1-axes" class="headerlink" title="1) axes"></a>1) axes</h4><p>返回所有行索引标签的列表</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;The axes are:&quot;</span>)</span><br><span class="line"><span class="built_in">print</span>(s.axes)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">The axes are:</span><br><span class="line">[RangeIndex(start=0, stop=5, step=1)]</span><br></pre></td></tr></table></figure>


<h4 id="2-dtype"><a href="#2-dtype" class="headerlink" title="2) dtype"></a>2) dtype</h4><p>返回对象的数据类型</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span> (<span class="string">&quot;The dtype is:&quot;</span>)</span><br><span class="line"><span class="built_in">print</span>(s.dtype)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">The dtype is:</span><br><span class="line">float64</span><br></pre></td></tr></table></figure>


<h4 id="3-empty"><a href="#3-empty" class="headerlink" title="3) empty"></a>3) empty</h4><p>返回一个空的Series对象</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;是否为空对象?&quot;</span>)</span><br><span class="line"><span class="built_in">print</span>(s.empty)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">是否为空对象?</span><br><span class="line">False</span><br></pre></td></tr></table></figure>


<h4 id="4-ndim"><a href="#4-ndim" class="headerlink" title="4) ndim"></a>4) ndim</h4><p>返回输入数据的维数</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(s)</span><br><span class="line"><span class="built_in">print</span>(s.ndim)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">0    1.819675</span><br><span class="line">1   -1.136730</span><br><span class="line">2   -0.136101</span><br><span class="line">3   -0.116809</span><br><span class="line">4   -1.983604</span><br><span class="line">dtype: float64</span><br><span class="line">1</span><br></pre></td></tr></table></figure>


<h4 id="5-size"><a href="#5-size" class="headerlink" title="5) size"></a>5) size</h4><p>返回 Series 对象的大小(长度)</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">3</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(s)</span><br><span class="line"><span class="built_in">print</span>(s.size)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">0   -1.124088</span><br><span class="line">1   -0.163374</span><br><span class="line">2    0.924159</span><br><span class="line">dtype: float64</span><br><span class="line">3</span><br></pre></td></tr></table></figure>


<h4 id="6-values"><a href="#6-values" class="headerlink" title="6) values"></a>6) values</h4><p>以数组的形式返回 Series 对象中的数据。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">6</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(s)</span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;输出series中数据&quot;</span>)</span><br><span class="line"><span class="built_in">print</span>(s.values)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line">0    0.718159</span><br><span class="line">1    0.956541</span><br><span class="line">2    0.442963</span><br><span class="line">3    0.624989</span><br><span class="line">4   -1.189655</span><br><span class="line">5    1.048448</span><br><span class="line">dtype: float64</span><br><span class="line">输出series中数据</span><br><span class="line">[ 0.71815888  0.9565413   0.44296345  0.62498872 -1.18965528  1.04844774]</span><br></pre></td></tr></table></figure>


<h4 id="7-index"><a href="#7-index" class="headerlink" title="7) index"></a>7) index</h4><p>返回一个RangeIndex对象，用来描述索引的取值范围</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line"><span class="comment"># 现式索引</span></span><br><span class="line">s = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">5</span>, <span class="number">8</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(s.index)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 隐式索引</span></span><br><span class="line">s1 = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">5</span>, <span class="number">8</span>])</span><br><span class="line"><span class="built_in">print</span>(s1.index)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">Index([&#x27;a&#x27;, &#x27;b&#x27;, &#x27;c&#x27;, &#x27;d&#x27;], dtype=&#x27;object&#x27;)</span><br><span class="line">RangeIndex(start=0, stop=4, step=1)</span><br></pre></td></tr></table></figure>


<h3 id="3-4、-Series常用方法"><a href="#3-4、-Series常用方法" class="headerlink" title="3.4、 Series常用方法"></a>3.4、 Series常用方法</h3><h4 id="1-head、tail函数查看数据"><a href="#1-head、tail函数查看数据" class="headerlink" title="1) head、tail函数查看数据"></a>1) head、tail函数查看数据</h4><p>要查看Series的一部分数据，可以使用<code>head()</code>或<code>tail()</code>方法。<code>head()</code>方法返回前n行数据，如果不指定n，默认显示前5行数据。</p>
<h5 id="head函数"><a href="#head函数" class="headerlink" title="head函数"></a>head函数</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;原始数据:\n&quot;</span>, s)</span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;头三行数据：\n&quot;</span>, s.head(<span class="number">3</span>))</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line">原始数据：</span><br><span class="line"> 0   -0.988700</span><br><span class="line">1   -0.657522</span><br><span class="line">2    0.726581</span><br><span class="line">3   -0.179344</span><br><span class="line">4   -0.709970</span><br><span class="line">dtype: float64</span><br><span class="line">头三行数据：</span><br><span class="line"> 0   -0.988700</span><br><span class="line">1   -0.657522</span><br><span class="line">2    0.726581</span><br><span class="line">dtype: float64</span><br></pre></td></tr></table></figure>


<h5 id="tail函数"><a href="#tail函数" class="headerlink" title="tail函数"></a>tail函数</h5><p>tail() 返回的是后 n 行数据，默认为后 5 行</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s = pd.Series(np.random.randn(<span class="number">5</span>))</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;原始数据:\n&quot;</span>, s)</span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;尾四行数据：\n&quot;</span>, s.tail(<span class="number">4</span>))</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line">原始数据:</span><br><span class="line"> 0    0.593810</span><br><span class="line">1    0.878496</span><br><span class="line">2    0.348062</span><br><span class="line">3   -0.563124</span><br><span class="line">4    1.182473</span><br><span class="line">dtype: float64</span><br><span class="line">尾四行数据：</span><br><span class="line"> 1    0.878496</span><br><span class="line">2    0.348062</span><br><span class="line">3   -0.563124</span><br><span class="line">4    1.182473</span><br><span class="line">dtype: float64</span><br></pre></td></tr></table></figure>


<h4 id="2-isnull、nonull函数检测缺失值"><a href="#2-isnull、nonull函数检测缺失值" class="headerlink" title="2) isnull、nonull函数检测缺失值"></a>2) isnull、nonull函数检测缺失值</h4><p><code>isnull()</code>和<code>notnull()</code>方法用于检测Series中的缺失值。缺失值是指数据中不存在、丢失或缺少的值。</p>
<ul>
<li><code>isnull()</code>: 如果值不存在或缺失，则返回True。</li>
<li><code>notnull()</code>: 如果值不存在或缺失，则返回False。</li>
</ul>
<p>在实际数据分析中，数据的收集通常经历复杂的过程，可能由于不可抗力或人为因素导致数据丢失。为了处理这些缺失值，可以使用这两种方法，例如进行均值插值或数据补齐等处理。以下是示例代码和输出结果：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line"><span class="comment"># None代表缺失数据</span></span><br><span class="line">s = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">5</span>, <span class="literal">None</span>])</span><br><span class="line"><span class="built_in">print</span>(pd.isnull(s))  <span class="comment"># 是空值返回True</span></span><br><span class="line"><span class="built_in">print</span>(pd.notnull(s)) <span class="comment"># 空值返回False</span></span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line">0    False</span><br><span class="line">1    False</span><br><span class="line">2    False</span><br><span class="line">3     True</span><br><span class="line">dtype: bool</span><br><span class="line">0     True</span><br><span class="line">1     True</span><br><span class="line">2     True</span><br><span class="line">3    False</span><br><span class="line">dtype: bool</span><br></pre></td></tr></table></figure>


<h2 id="4、DataFrame入门"><a href="#4、DataFrame入门" class="headerlink" title="4、DataFrame入门"></a>4、DataFrame入门</h2><p>DataFrame是Pandas中的关键数据结构之一，也是在数据分析中最常用的结构之一。可以说，熟练掌握DataFrame的用法将为学习数据分析提供坚实的基础能力。</p>
<h3 id="4-1、认识DataFrame结构"><a href="#4-1、认识DataFrame结构" class="headerlink" title="4.1、认识DataFrame结构"></a>4.1、认识DataFrame结构</h3><p>DataFrame是一种表格型的数据结构，它同时具有行标签（index）和列标签（columns），因此也被称为异构数据表。异构表示表格中每列的数据类型可以不同，可以包括字符串、整数、浮点数等。</p>
<p>如下表：第一列的属于索引列，而<code>name</code>，<code>age</code>，<code>gender</code>，<code>rating</code>属于列标签。</p>
<table>
<thead>
<tr>
<th>index</th>
<th>name</th>
<th>age</th>
<th>gender</th>
<th>rating</th>
</tr>
</thead>
<tbody><tr>
<td>0</td>
<td>Alice</td>
<td>28</td>
<td>Female</td>
<td>4.5</td>
</tr>
<tr>
<td>1</td>
<td>Bob</td>
<td>35</td>
<td>Male</td>
<td>4.0</td>
</tr>
<tr>
<td>2</td>
<td>Charlie</td>
<td>22</td>
<td>Male</td>
<td>3.5</td>
</tr>
<tr>
<td>3</td>
<td>Diana</td>
<td>30</td>
<td>Female</td>
<td>4.2</td>
</tr>
<tr>
<td>4</td>
<td>Eve</td>
<td>25</td>
<td>Female</td>
<td>4.8</td>
</tr>
</tbody></table>
<p>DataFrame 的每一行数据都可以看成一个 Series 结构，只不过，DataFrame 为这些行中每个数据值增加了一个列标签。因此 DataFrame 其实是从 Series 的基础上演变而来。在数据分析任务中 DataFrame 的应用非常广泛，因为它描述数据的更为清晰、直观。</p>
<p>DataFrame也自带行标签索引，默认使用“隐式索引”，从0开始递增。当然，你也可以使用“显式索引”的方式来设置行标签。</p>
<p>以下是对DataFrame数据结构的特点的简要总结：</p>
<ul>
<li>DataFrame每列的标签值可以使用不同的数据类型。</li>
<li>DataFrame是一种表格型数据结构，包括行和列。</li>
<li>DataFrame中的每个数据值都可以被修改。</li>
<li>DataFrame的行数和列数可以动态增加或删除。</li>
<li>DataFrame有两个方向的标签轴，分别是行标签和列标签。</li>
<li>DataFrame可以执行行和列级别的算术运算。</li>
</ul>
<p>上表每一个列标签所对应数据类型如下所示：</p>
<table>
<thead>
<tr>
<th align="left">字段</th>
<th>含义</th>
<th align="left">类型</th>
</tr>
</thead>
<tbody><tr>
<td align="left">name</td>
<td>姓名</td>
<td align="left">String</td>
</tr>
<tr>
<td align="left">age</td>
<td>年龄</td>
<td align="left">integer</td>
</tr>
<tr>
<td align="left">gender</td>
<td>性别</td>
<td align="left">String</td>
</tr>
<tr>
<td align="left">rating</td>
<td>评级</td>
<td align="left">Float</td>
</tr>
</tbody></table>
<h3 id="4-2、创建DataFrame对象"><a href="#4-2、创建DataFrame对象" class="headerlink" title="4.2、创建DataFrame对象"></a>4.2、创建DataFrame对象</h3><p>创建 DataFrame 对象的语法格式如下：</p>
 <figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">import pandas as pd</span><br><span class="line"></span><br><span class="line">pd.DataFrame(data, index, columns, dtype, copy)</span><br></pre></td></tr></table></figure>

<p>参数说明：</p>
<table>
<thead>
<tr>
<th align="left">参数名称</th>
<th align="left">说明</th>
</tr>
</thead>
<tbody><tr>
<td align="left">data</td>
<td align="left">输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame。</td>
</tr>
<tr>
<td align="left">index</td>
<td align="left">行标签，如果没有传递 index 值，则默认行标签是 np.arange(n)，n 代表 data 的元素个数。</td>
</tr>
<tr>
<td align="left">columns</td>
<td align="left">列标签，如果没有传递 columns 值，则默认列标签是 np.arange(n)。</td>
</tr>
<tr>
<td align="left">dtype</td>
<td align="left">dtype表示每一列的数据类型。</td>
</tr>
<tr>
<td align="left">copy</td>
<td align="left">默认为 False，表示复制数据 data。</td>
</tr>
</tbody></table>
<p>Pandas 提供了多种创建 DataFrame 对象的方式，主要包含以下五种，分别进行介绍。</p>
<p>使用下列方式创建一个空的 DataFrame，这是 DataFrame 最基本的创建方法。</p>
<h4 id="1-创建空的DataFrame对象"><a href="#1-创建空的DataFrame对象" class="headerlink" title="1) 创建空的DataFrame对象"></a>1) 创建空的DataFrame对象</h4><p>使用下列方式创建一个空的 DataFrame，这是 DataFrame 最基本的创建方法。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df = pd.DataFrame()</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">Empty DataFrame</span><br><span class="line">Columns: []</span><br><span class="line">Index: []</span><br></pre></td></tr></table></figure>


<h4 id="2-列表创建DataFame对象"><a href="#2-列表创建DataFame对象" class="headerlink" title="2) 列表创建DataFame对象"></a>2) 列表创建DataFame对象</h4><p>可以使用单一列表或嵌套列表来创建一个 DataFrame。</p>
<p><strong>例 1：</strong>单一列表创建 DataFrame：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = [<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]</span><br><span class="line">df = pd.DataFrame(data)</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">   0</span><br><span class="line">0  1</span><br><span class="line">1  2</span><br><span class="line">2  3</span><br><span class="line">3  4</span><br><span class="line">4  5</span><br></pre></td></tr></table></figure>


<p><strong>例 2：</strong>使用嵌套列表创建 DataFrame 对象</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = [[<span class="string">&#x27;Alex&#x27;</span>, <span class="number">10</span>], [<span class="string">&#x27;Bob&#x27;</span>, <span class="number">12</span>], [<span class="string">&#x27;Clarke&#x27;</span>, <span class="number">13</span>]]</span><br><span class="line">df = pd.DataFrame(data, columns=[<span class="string">&#x27;Name&#x27;</span>, <span class="string">&#x27;Age&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">     Name  Age</span><br><span class="line">0    Alex   10</span><br><span class="line">1     Bob   12</span><br><span class="line">2  Clarke   13</span><br></pre></td></tr></table></figure>


<p><strong>例 3：</strong>指定数值元素的数据类型为 float</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = [[<span class="string">&#x27;Alex&#x27;</span>, <span class="number">10</span>], [<span class="string">&#x27;Bob&#x27;</span>, <span class="number">12</span>], [<span class="string">&#x27;Clarke&#x27;</span>, <span class="number">13</span>]]</span><br><span class="line">df = pd.DataFrame(data, columns=[<span class="string">&#x27;Name&#x27;</span>, <span class="string">&#x27;Age&#x27;</span>])</span><br><span class="line">df[<span class="string">&#x27;Age&#x27;</span>] = df[<span class="string">&#x27;Age&#x27;</span>].astype(<span class="string">&#x27;float&#x27;</span>)</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>
<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">     Name   Age</span><br><span class="line">0    Alex  10.0</span><br><span class="line">1     Bob  12.0</span><br><span class="line">2  Clarke  13.0</span><br></pre></td></tr></table></figure>


<h4 id="3-字典嵌套列表创建"><a href="#3-字典嵌套列表创建" class="headerlink" title="3) 字典嵌套列表创建"></a>3) 字典嵌套列表创建</h4><p>在数据字典中，每个键对应的值都必须具有相同的元素长度，也就是说它们的列表长度必须相同。</p>
<p><strong>例 1：</strong>如果没有传递<code>index</code>索引参数，那么默认情况下，索引将被设置为 <code>range(n)</code>，其中 n 表示数组的长度。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = &#123;<span class="string">&#x27;Name&#x27;</span>: [<span class="string">&#x27;Tom&#x27;</span>, <span class="string">&#x27;Jack&#x27;</span>, <span class="string">&#x27;Steve&#x27;</span>, <span class="string">&#x27;Ricky&#x27;</span>], <span class="string">&#x27;Age&#x27;</span>: [<span class="number">28</span>, <span class="number">34</span>, <span class="number">29</span>, <span class="number">42</span>]&#125;</span><br><span class="line">df = pd.DataFrame(data)</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>


<p><strong>例 2：</strong>自定义索引，index 参数是一个数组，每个元素对应一行。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = &#123;<span class="string">&#x27;Name&#x27;</span>: [<span class="string">&#x27;Tom&#x27;</span>, <span class="string">&#x27;Jack&#x27;</span>, <span class="string">&#x27;Steve&#x27;</span>, <span class="string">&#x27;Ricky&#x27;</span>], <span class="string">&#x27;Age&#x27;</span>: [<span class="number">28</span>, <span class="number">34</span>, <span class="number">29</span>, <span class="number">42</span>]&#125;</span><br><span class="line">df = pd.DataFrame(data, index=[<span class="string">&#x27;rank1&#x27;</span>, <span class="string">&#x27;rank2&#x27;</span>, <span class="string">&#x27;rank3&#x27;</span>, <span class="string">&#x27;rank4&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果如下：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">        Name  Age</span><br><span class="line">rank1    Tom   28</span><br><span class="line">rank2   Jack   34</span><br><span class="line">rank3  Steve   29</span><br><span class="line">rank4  Ricky   42</span><br></pre></td></tr></table></figure>


<h4 id="4-列表嵌套字典创建DataFrame对象"><a href="#4-列表嵌套字典创建DataFrame对象" class="headerlink" title="4) 列表嵌套字典创建DataFrame对象"></a>4) 列表嵌套字典创建DataFrame对象</h4><p><strong>例 1：</strong>列表嵌套字典可以作为输入数据传递给 DataFrame 构造函数。默认情况下，字典的键被用作列名。</p>
<p>注意：如果其中某个元素值缺失，也就是字典的 key 无法找到对应的 value，将使用 NaN 代替。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = [</span><br><span class="line">    &#123;<span class="string">&#x27;a&#x27;</span>: <span class="number">1</span>, <span class="string">&#x27;b&#x27;</span>: <span class="number">2</span>&#125;, </span><br><span class="line">    &#123;<span class="string">&#x27;a&#x27;</span>: <span class="number">5</span>, <span class="string">&#x27;b&#x27;</span>: <span class="number">10</span>, <span class="string">&#x27;c&#x27;</span>: <span class="number">20</span>&#125;</span><br><span class="line">]</span><br><span class="line">df = pd.DataFrame(data)</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">   a   b     c</span><br><span class="line">0  1   2   NaN</span><br><span class="line">1  5  10  20.0</span><br></pre></td></tr></table></figure>


<p><strong>例2：</strong>添加行标签索引</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = [</span><br><span class="line">    &#123;<span class="string">&#x27;a&#x27;</span>: <span class="number">1</span>, <span class="string">&#x27;b&#x27;</span>: <span class="number">2</span>&#125;,</span><br><span class="line">    &#123;<span class="string">&#x27;a&#x27;</span>: <span class="number">5</span>, <span class="string">&#x27;b&#x27;</span>: <span class="number">10</span>, <span class="string">&#x27;c&#x27;</span>: <span class="number">20</span>&#125;</span><br><span class="line">]</span><br><span class="line">df = pd.DataFrame(data, index=[<span class="string">&#x27;first&#x27;</span>, <span class="string">&#x27;second&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">        a   b     c</span><br><span class="line">first   1   2   NaN</span><br><span class="line">second  5  10  20.0</span><br></pre></td></tr></table></figure>


<p><strong>例 3:</strong> 使用字典嵌套列表以及行、列索引表创建一个 DataFrame 对象。</p>
<p>注意：因为 b1 在字典键中不存在，所以对应值为 NaN。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = [</span><br><span class="line">    &#123;<span class="string">&#x27;a&#x27;</span>: <span class="number">1</span>, <span class="string">&#x27;b&#x27;</span>: <span class="number">2</span>&#125;,</span><br><span class="line">    &#123;<span class="string">&#x27;a&#x27;</span>: <span class="number">5</span>, <span class="string">&#x27;b&#x27;</span>: <span class="number">10</span>, <span class="string">&#x27;c&#x27;</span>: <span class="number">20</span>&#125;</span><br><span class="line">]</span><br><span class="line">df1 = pd.DataFrame(data, index=[<span class="string">&#x27;first&#x27;</span>, <span class="string">&#x27;second&#x27;</span>], columns=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>])</span><br><span class="line">df2 = pd.DataFrame(data, index=[<span class="string">&#x27;first&#x27;</span>, <span class="string">&#x27;second&#x27;</span>], columns=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b1&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(df1)</span><br><span class="line"><span class="built_in">print</span>(<span class="string">&quot;----------------------------&quot;</span>)</span><br><span class="line"><span class="built_in">print</span>(df2)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">        a   b</span><br><span class="line">first   1   2</span><br><span class="line">second  5  10</span><br><span class="line">----------------------------</span><br><span class="line">        a  b1</span><br><span class="line">first   1 NaN</span><br><span class="line">second  5 NaN</span><br></pre></td></tr></table></figure>


<h4 id="5-Series创建DataFrame对象"><a href="#5-Series创建DataFrame对象" class="headerlink" title="5) Series创建DataFrame对象"></a>5) Series创建DataFrame对象</h4><p>注意：对于 one 列而言，此处虽然显示了行索引 ‘d’，但由于没有与其对应的值，所以它的值为 NaN。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;one&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;two&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line">&#125;</span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">   one  two</span><br><span class="line">a  1.0    1</span><br><span class="line">b  2.0    2</span><br><span class="line">c  3.0    3</span><br><span class="line">d  NaN    4</span><br></pre></td></tr></table></figure>


<h3 id="4-3、列索引操作"><a href="#4-3、列索引操作" class="headerlink" title="4.3、列索引操作"></a>4.3、列索引操作</h3><p>DataFrame 可以使用列索（columns index）引来完成数据的选取、添加和删除操作。下面依次对这些操作进行介绍。</p>
<h4 id="1-列索引选取数据列"><a href="#1-列索引选取数据列" class="headerlink" title="1) 列索引选取数据列"></a>1) 列索引选取数据列</h4><p>使用列索引，轻松实现数据选取</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;one&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;two&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line">&#125;</span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"><span class="built_in">print</span>(df[<span class="string">&#x27;one&#x27;</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">a    1.0</span><br><span class="line">b    2.0</span><br><span class="line">c    3.0</span><br><span class="line">d    NaN</span><br><span class="line">Name: one, dtype: float64</span><br></pre></td></tr></table></figure>


<h4 id="2-列索引添加数据列"><a href="#2-列索引添加数据列" class="headerlink" title="2) 列索引添加数据列"></a>2) 列索引添加数据列</h4><p><strong>例 1：</strong>使用 columns 列索引表标签可以实现添加新的数据</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;one&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;two&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line">&#125;</span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用df[&#x27;列&#x27;] = 值，插入新的数据列</span></span><br><span class="line">df[<span class="string">&#x27;three&#x27;</span>] = pd.Series([<span class="number">10</span>, <span class="number">20</span>, <span class="number">30</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(df)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 将已经存在的数据列做相加运算</span></span><br><span class="line">df[<span class="string">&#x27;four&#x27;</span>] = df[<span class="string">&#x27;one&#x27;</span>] + df[<span class="string">&#x27;three&#x27;</span>]</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line">   one  two  three</span><br><span class="line">a  1.0    1   10.0</span><br><span class="line">b  2.0    2   20.0</span><br><span class="line">c  3.0    3   30.0</span><br><span class="line">d  NaN    4    NaN</span><br><span class="line">-------------------------------------------------</span><br><span class="line">   one  two  three  four</span><br><span class="line">a  1.0    1   10.0  11.0</span><br><span class="line">b  2.0    2   20.0  22.0</span><br><span class="line">c  3.0    3   30.0  33.0</span><br><span class="line">d  NaN    4    NaN   NaN</span><br></pre></td></tr></table></figure>


<p>上述示例，我们初次使用了 DataFrame 的算术运算，这和 NumPy 非常相似。</p>
<p><strong>例 2：</strong>除了使用<code>df[] = value</code>的方式外，还可以使用 insert() 方法插入新的列。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">info = [</span><br><span class="line">    [<span class="string">&#x27;Jack&#x27;</span>, <span class="number">18</span>],</span><br><span class="line">    [<span class="string">&#x27;Helen&#x27;</span>, <span class="number">19</span>],</span><br><span class="line">    [<span class="string">&#x27;John&#x27;</span>, <span class="number">17</span>]</span><br><span class="line">]</span><br><span class="line">df = pd.DataFrame(info, columns=[<span class="string">&#x27;name&#x27;</span>, <span class="string">&#x27;age&#x27;</span>])</span><br><span class="line"><span class="built_in">print</span>(df)</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&#x27;--------------------------------------&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 数值1代表插入到columns列表的索引位置</span></span><br><span class="line">values = pd.Series([<span class="number">91</span>, <span class="number">90</span>, <span class="number">75</span>], name=<span class="string">&#x27;score&#x27;</span>)</span><br><span class="line"><span class="comment"># 注意是column参数</span></span><br><span class="line">df.insert(<span class="number">1</span>, column=<span class="string">&#x27;score&#x27;</span>, value=values)</span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line">    name  age</span><br><span class="line">0   Jack   18</span><br><span class="line">1  Helen   19</span><br><span class="line">2   John   17</span><br><span class="line">--------------------------------------</span><br><span class="line">    name  score  age</span><br><span class="line">0   Jack     91   18</span><br><span class="line">1  Helen     90   19</span><br><span class="line">2   John     75   17</span><br></pre></td></tr></table></figure>


<h4 id="3-列索引删除数据列"><a href="#3-列索引删除数据列" class="headerlink" title="3) 列索引删除数据列"></a>3) 列索引删除数据列</h4><p>通过 del 和 pop() 都能够删除 DataFrame 中的数据列</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br></pre></td><td class="code"><pre><span class="line">import pandas as pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    &#x27;one&#x27;: pd.Series([1, 2, 3], index=[&#x27;a&#x27;, &#x27;b&#x27;, &#x27;c&#x27;]),</span><br><span class="line">    &#x27;two&#x27;: pd.Series([1, 2, 3, 4], index=[&#x27;a&#x27;, &#x27;b&#x27;, &#x27;c&#x27;, &#x27;d&#x27;]),</span><br><span class="line">    &#x27;three&#x27;: pd.Series([10,20,30], index=[&#x27;a&#x27;, &#x27;b&#x27;, &#x27;c&#x27;])</span><br><span class="line">&#125;</span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line">print(&quot;Our dataframe is:&quot;)</span><br><span class="line">print(df)</span><br><span class="line"></span><br><span class="line">print(&#x27;---------------------------------&#x27;)</span><br><span class="line"></span><br><span class="line"># 使用del删除</span><br><span class="line">del df[&#x27;one&#x27;]</span><br><span class="line">print(df)</span><br><span class="line"></span><br><span class="line">print(&#x27;---------------------------------&#x27;)</span><br><span class="line"></span><br><span class="line"># 使用pop方法删除</span><br><span class="line">df.pop(&#x27;two&#x27;)</span><br><span class="line">print(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br></pre></td><td class="code"><pre><span class="line">Our dataframe is:</span><br><span class="line">   one  two  three</span><br><span class="line">a  1.0    1   10.0</span><br><span class="line">b  2.0    2   20.0</span><br><span class="line">c  3.0    3   30.0</span><br><span class="line">d  NaN    4    NaN</span><br><span class="line">---------------------------------</span><br><span class="line">   two  three</span><br><span class="line">a    1   10.0</span><br><span class="line">b    2   20.0</span><br><span class="line">c    3   30.0</span><br><span class="line">d    4    NaN</span><br><span class="line">---------------------------------</span><br><span class="line">   three</span><br><span class="line">a   10.0</span><br><span class="line">b   20.0</span><br><span class="line">c   30.0</span><br><span class="line">d    NaN</span><br></pre></td></tr></table></figure>


<h3 id="4-4、行索引操作"><a href="#4-4、行索引操作" class="headerlink" title="4.4、行索引操作"></a>4.4、行索引操作</h3><p>理解了上述的列索引操作后，行索引操作就变的简单。下面看一下，如何使用行索引来选取 DataFrame 中的数据。</p>
<h4 id="1-标签索引选取"><a href="#1-标签索引选取" class="headerlink" title="1)  标签索引选取"></a>1)  标签索引选取</h4><p>可以将行标签传递给 loc 函数，来选取数据。</p>
<p>注意：loc 允许接两个参数分别是行和列，参数之间需要使用“逗号”隔开，但该函数只能接收标签索引。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;one&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;two&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"><span class="built_in">print</span>(df.loc[<span class="string">&#x27;b&#x27;</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">one    2.0</span><br><span class="line">two    2.0</span><br><span class="line">Name: b, dtype: float64</span><br></pre></td></tr></table></figure>


<h4 id="2-整数索引选取"><a href="#2-整数索引选取" class="headerlink" title="2) 整数索引选取"></a>2) 整数索引选取</h4><p>通过将数据行所在的索引位置传递给 iloc 函数，也可以实现数据行选取。</p>
<p>注意：iloc 允许接受两个参数分别是行和列，参数之间使用“逗号”隔开，但该函数只能接收整数索引。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;one&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;two&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"><span class="built_in">print</span>(df.iloc[<span class="number">2</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">one    3.0</span><br><span class="line">two    3.0</span><br><span class="line">Name: c, dtype: float64</span><br></pre></td></tr></table></figure>


<h4 id="3-切片操作多行选取"><a href="#3-切片操作多行选取" class="headerlink" title="3) 切片操作多行选取"></a>3) 切片操作多行选取</h4><p>你也可以使用切片的方式同时选取多行。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;one&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;two&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;d&#x27;</span>])</span><br><span class="line">&#125;</span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 左闭右开</span></span><br><span class="line"><span class="built_in">print</span>(df[<span class="number">2</span>:<span class="number">4</span>])</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">   one  two</span><br><span class="line">c  3.0    3</span><br><span class="line">d  NaN    4</span><br></pre></td></tr></table></figure>


<h4 id="4-添加数据行"><a href="#4-添加数据行" class="headerlink" title="4) 添加数据行"></a>4) 添加数据行</h4><p>使用 append() 函数，该函数会在行末追加数据行。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df1 = pd.DataFrame([[<span class="number">1</span>, <span class="number">2</span>], [<span class="number">3</span>, <span class="number">4</span>]], columns=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>])</span><br><span class="line">df2 = pd.DataFrame([[<span class="number">5</span>, <span class="number">6</span>], [<span class="number">7</span>, <span class="number">8</span>]], columns=[<span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;b&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 两DataFrame拼接</span></span><br><span class="line">out = pd.concat([df1, df2])</span><br><span class="line"><span class="built_in">print</span>(out)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">   a  b</span><br><span class="line">0  1  2</span><br><span class="line">1  3  4</span><br><span class="line">0  5  6</span><br><span class="line">1  7  8</span><br></pre></td></tr></table></figure>


<h4 id="5-删除数据行"><a href="#5-删除数据行" class="headerlink" title="5) 删除数据行"></a>5) 删除数据行</h4><p>可以使用<code>drop</code>函数传入行索引标签，从 DataFrame 中删除某一行数据。</p>
<p>如果索引标签存在重复，那么它们将被一起删除</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df1 = pd.DataFrame([[<span class="number">1</span>, <span class="number">2</span>], [<span class="number">3</span>, <span class="number">4</span>]], columns = [<span class="string">&#x27;a&#x27;</span>,<span class="string">&#x27;b&#x27;</span>])</span><br><span class="line">df2 = pd.DataFrame([[<span class="number">5</span>, <span class="number">6</span>], [<span class="number">7</span>, <span class="number">8</span>]], columns = [<span class="string">&#x27;a&#x27;</span>,<span class="string">&#x27;b&#x27;</span>])</span><br><span class="line"></span><br><span class="line">output = pd.concat([df1, df2])</span><br><span class="line"><span class="built_in">print</span>(output)</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&#x27;-----------------------------------&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 注意此处调用了drop()方法</span></span><br><span class="line">output = output.drop(<span class="number">0</span>)</span><br><span class="line"><span class="built_in">print</span>(output)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line">   a  b</span><br><span class="line">0  1  2</span><br><span class="line">1  3  4</span><br><span class="line">0  5  6</span><br><span class="line">1  7  8</span><br><span class="line">-----------------------------------</span><br><span class="line">   a  b</span><br><span class="line">1  3  4</span><br><span class="line">1  7  8</span><br></pre></td></tr></table></figure>


<h3 id="4-5、常用属性和方法汇总"><a href="#4-5、常用属性和方法汇总" class="headerlink" title="4.5、常用属性和方法汇总"></a>4.5、常用属性和方法汇总</h3><p>DataFrame 的属性和方法，与 Series 相差无几。</p>
<table>
<thead>
<tr>
<th align="left">名称</th>
<th align="left">属性&amp;方法描述</th>
</tr>
</thead>
<tbody><tr>
<td align="left">T</td>
<td align="left">行和列转置。</td>
</tr>
<tr>
<td align="left">axes</td>
<td align="left">返回一个仅以行轴标签和列轴标签为成员的列表。</td>
</tr>
<tr>
<td align="left">dtypes</td>
<td align="left">返回每列数据的数据类型。</td>
</tr>
<tr>
<td align="left">empty</td>
<td align="left">DataFrame中没有数据或者任意坐标轴的长度为0，则返回True。</td>
</tr>
<tr>
<td align="left">ndim</td>
<td align="left">轴的数量，也指数组的维数。</td>
</tr>
<tr>
<td align="left">shape</td>
<td align="left">返回一个元组，表示了 DataFrame 维度。</td>
</tr>
<tr>
<td align="left">size</td>
<td align="left">DataFrame中的元素数量。</td>
</tr>
<tr>
<td align="left">values</td>
<td align="left">使用 numpy 数组表示 DataFrame 中的元素值。</td>
</tr>
<tr>
<td align="left">head()</td>
<td align="left">返回前 n 行数据。</td>
</tr>
<tr>
<td align="left">tail()</td>
<td align="left">返回后 n 行数据。</td>
</tr>
<tr>
<td align="left">shift()</td>
<td align="left">将行或列移动指定的步幅长度</td>
</tr>
</tbody></table>
<p>下面对 DataFrame 常用属性进行演示，首先我们创建一个 DataFrame 对象。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 输出series</span></span><br><span class="line"><span class="built_in">print</span>(df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">     Name  years  Rating</span><br><span class="line">0      百度      1    4.95</span><br><span class="line">1   360搜索      2    4.95</span><br><span class="line">2      谷歌      3    4.55</span><br><span class="line">3      淘宝      4    4.95</span><br><span class="line">4  Bing搜索      5    4.95</span><br></pre></td></tr></table></figure>


<h4 id="1-T（Transpose）转置"><a href="#1-T（Transpose）转置" class="headerlink" title="1) T（Transpose）转置"></a>1) T（Transpose）转置</h4><p>返回 DataFrame 的转置，也就是把行和列进行交换</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment">#输出DataFrame的转置</span></span><br><span class="line"><span class="built_in">print</span>(df.T)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">           0      1     2     3       4</span><br><span class="line">Name      百度  360搜索    谷歌    淘宝  Bing搜索</span><br><span class="line">years      1      2     3     4       5</span><br><span class="line">Rating  4.95   4.95  4.55  4.95    4.95</span><br></pre></td></tr></table></figure>


<h4 id="2-axes"><a href="#2-axes" class="headerlink" title="2) axes"></a>2) axes</h4><p>返回一个行标签、列标签组成的列表</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 输出行、列标签</span></span><br><span class="line"><span class="built_in">print</span>(df.axes)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">[RangeIndex(start=0, stop=5, step=1), Index([&#x27;Name&#x27;, &#x27;years&#x27;, &#x27;Rating&#x27;], dtype=&#x27;object&#x27;)]</span><br></pre></td></tr></table></figure>


<h4 id="3-dtypes"><a href="#3-dtypes" class="headerlink" title="3) dtypes"></a>3) dtypes</h4><p>返回每一列的数据类型</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 输出行、列标签</span></span><br><span class="line"><span class="built_in">print</span>(df.dtypes)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">Name       object</span><br><span class="line">years       int64</span><br><span class="line">Rating    float64</span><br><span class="line">dtype: object</span><br></pre></td></tr></table></figure>


<h4 id="4-empty"><a href="#4-empty" class="headerlink" title="4) empty"></a>4) empty</h4><p>返回一个布尔值，判断输出的数据对象是否为空，若为 True 表示对象为空。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 判断输入数据是否为空</span></span><br><span class="line"><span class="built_in">print</span>(df.empty)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">False</span><br></pre></td></tr></table></figure>


<h4 id="5-ndim"><a href="#5-ndim" class="headerlink" title="5) ndim"></a>5) ndim</h4><p>返回数据对象的维数。DataFrame 是一个二维数据结构</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># DataFrame的维度</span></span><br><span class="line"><span class="built_in">print</span>(df.ndim)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">2</span><br></pre></td></tr></table></figure>


<h4 id="6-shape"><a href="#6-shape" class="headerlink" title="6) shape"></a>6) shape</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># DataFrame的形状</span></span><br><span class="line"><span class="built_in">print</span>(df.shape)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">(5, 3)</span><br></pre></td></tr></table></figure>


<h4 id="7-size"><a href="#7-size" class="headerlink" title="7) size"></a>7) size</h4><p>返回 DataFrame 中的元素数量</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># DataFrame的中元素个数</span></span><br><span class="line"><span class="built_in">print</span>(df.size)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">15</span><br></pre></td></tr></table></figure>


<h4 id="8-values"><a href="#8-values" class="headerlink" title="8) values"></a>8) values</h4><p>以 ndarray 数组的形式返回 DataFrame 中的数据。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># DataFrame的数据</span></span><br><span class="line"><span class="built_in">print</span>(df.values)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">[[&#x27;百度&#x27; 1 4.95]</span><br><span class="line"> [&#x27;360搜索&#x27; 2 4.95]</span><br><span class="line"> [&#x27;谷歌&#x27; 3 4.55]</span><br><span class="line"> [&#x27;淘宝&#x27; 4 4.95]</span><br><span class="line"> [&#x27;Bing搜索&#x27; 5 4.95]]</span><br></pre></td></tr></table></figure>


<h4 id="9-head、tail函数查看数据"><a href="#9-head、tail函数查看数据" class="headerlink" title="9) head、tail函数查看数据"></a>9) head、tail函数查看数据</h4><p>如果想要查看 DataFrame 的一部分数据，可以使用 head() 或者 tail() 方法。其中 head() 返回前 n 行数据，默认显示前 5 行数据。</p>
<p><strong>例 1：</strong>head() 函数返回头部数据</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 返回头两行数据</span></span><br><span class="line"><span class="built_in">print</span>(df.head(<span class="number">2</span>))</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">    Name  years  Rating</span><br><span class="line">0     百度      1    4.95</span><br><span class="line">1  360搜索      2    4.95</span><br></pre></td></tr></table></figure>


<p><strong>例 2：</strong>tail() 函数返回尾部数据</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">d = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&quot;百度&quot;</span>, <span class="string">&#x27;360搜索&#x27;</span>, <span class="string">&#x27;谷歌&#x27;</span>, <span class="string">&#x27;淘宝&#x27;</span>, <span class="string">&#x27;Bing搜索&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;years&#x27;</span>: pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">4.95</span>, <span class="number">4.95</span>, <span class="number">4.55</span>, <span class="number">4.95</span>, <span class="number">4.95</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line"><span class="comment"># 构建DataFrame</span></span><br><span class="line">df = pd.DataFrame(d)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 返回尾三行数据</span></span><br><span class="line"><span class="built_in">print</span>(df.tail(<span class="number">3</span>))</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">     Name  years  Rating</span><br><span class="line">2      谷歌      3    4.55</span><br><span class="line">3      淘宝      4    4.95</span><br><span class="line">4  Bing搜索      5    4.95</span><br></pre></td></tr></table></figure>


<h4 id="10-shift函数移动行或列"><a href="#10-shift函数移动行或列" class="headerlink" title="10) shift函数移动行或列"></a>10) shift函数移动行或列</h4><p>如果您想要移动 DataFrame 中的某一行&#x2F;列，可以使用 shift() 函数实现。它提供了一个<code>periods</code>参数，该参数表示在特定的轴上移动指定的步幅。</p>
<p>shif() 函数的语法格式如下：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">DataFrame.shift(periods=1, freq=None, axis=0)  </span><br></pre></td></tr></table></figure>

<p>参数说明如下：</p>
<table>
<thead>
<tr>
<th align="left">参数名称</th>
<th align="left">说明</th>
</tr>
</thead>
<tbody><tr>
<td align="left">peroids</td>
<td align="left">类型为int，表示移动的幅度，可以是正数，也可以是负数，默认值为1。</td>
</tr>
<tr>
<td align="left">freq</td>
<td align="left">日期偏移量，默认值为None，适用于时间序。取值为符合时间规则的字符串。</td>
</tr>
<tr>
<td align="left">axis</td>
<td align="left">如果是 0 或者 “index” 表示上下移动，如果是 1 或者 “columns” 则会左右移动。</td>
</tr>
<tr>
<td align="left">fill_value</td>
<td align="left">该参数用来填充缺失值。</td>
</tr>
</tbody></table>
<p>该函数的返回值是移动后的 DataFrame 副本。</p>
<h5 id="10-1-shift的peroids参数"><a href="#10-1-shift的peroids参数" class="headerlink" title="10.1) shift的peroids参数"></a>10.1) shift的peroids参数</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">info = pd.DataFrame(</span><br><span class="line">    &#123;</span><br><span class="line">        <span class="string">&#x27;a_data&#x27;</span>: [<span class="number">40</span>, <span class="number">28</span>, <span class="number">39</span>, <span class="number">32</span>, <span class="number">18</span>],</span><br><span class="line">        <span class="string">&#x27;b_data&#x27;</span>: [<span class="number">20</span>, <span class="number">37</span>, <span class="number">41</span>, <span class="number">35</span>, <span class="number">45</span>],</span><br><span class="line">        <span class="string">&#x27;c_data&#x27;</span>: [<span class="number">22</span>, <span class="number">17</span>, <span class="number">11</span>, <span class="number">25</span>, <span class="number">15</span>]</span><br><span class="line">    &#125;</span><br><span class="line">)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 移动幅度为3</span></span><br><span class="line">info = info.shift(periods=<span class="number">3</span>)</span><br><span class="line"><span class="built_in">print</span>(info)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">   a_data  b_data  c_data</span><br><span class="line">0     NaN     NaN     NaN</span><br><span class="line">1     NaN     NaN     NaN</span><br><span class="line">2     NaN     NaN     NaN</span><br><span class="line">3    40.0    20.0    22.0</span><br><span class="line">4    28.0    37.0    17.0</span><br></pre></td></tr></table></figure>


<h5 id="10-2-shift的fill-value参数"><a href="#10-2-shift的fill-value参数" class="headerlink" title="10.2) shift的fill_value参数"></a>10.2) shift的fill_value参数</h5><p>下面使用 fill_value 参数填充 DataFrame 中的缺失值。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">info = pd.DataFrame(</span><br><span class="line">    &#123;</span><br><span class="line">        <span class="string">&#x27;a_data&#x27;</span>: [<span class="number">40</span>, <span class="number">28</span>, <span class="number">39</span>, <span class="number">32</span>, <span class="number">18</span>],</span><br><span class="line">        <span class="string">&#x27;b_data&#x27;</span>: [<span class="number">20</span>, <span class="number">37</span>, <span class="number">41</span>, <span class="number">35</span>, <span class="number">45</span>],</span><br><span class="line">        <span class="string">&#x27;c_data&#x27;</span>: [<span class="number">22</span>, <span class="number">17</span>, <span class="number">11</span>, <span class="number">25</span>, <span class="number">15</span>]</span><br><span class="line">    &#125;</span><br><span class="line">)</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(info)</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(<span class="string">&#x27;--------------------------------------&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 将缺失值填充为替换为999</span></span><br><span class="line">info = info.shift(periods=<span class="number">3</span>, axis=<span class="number">0</span>, fill_value=<span class="number">999</span>)</span><br><span class="line"><span class="built_in">print</span>(info)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">   a_data  b_data  c_data</span><br><span class="line">0     999     999     999</span><br><span class="line">1     999     999     999</span><br><span class="line">2     999     999     999</span><br><span class="line">3      40      20      22</span><br><span class="line">4      28      37      17</span><br></pre></td></tr></table></figure>


<h2 id="5、Pandas描述性统计"><a href="#5、Pandas描述性统计" class="headerlink" title="5、Pandas描述性统计"></a>5、Pandas描述性统计</h2><p>描述统计学（descriptive statistics）是统计学领域的分支，专注于获取反映客观现象的数据并通过图表展示和汇总统计量来全面描述和分析数据特征。</p>
<p>Pandas库充分应用了描述统计学的理论，没有这一理论基础，Pandas库的存在可能无从谈起。以下总结了Pandas库中常用的统计学函数：</p>
<table>
<thead>
<tr>
<th align="left">函数名称</th>
<th align="left">描述说明</th>
</tr>
</thead>
<tbody><tr>
<td align="left">count()</td>
<td align="left">统计某个非空值的数量。</td>
</tr>
<tr>
<td align="left">sum()</td>
<td align="left">求和</td>
</tr>
<tr>
<td align="left">mean()</td>
<td align="left">求均值</td>
</tr>
<tr>
<td align="left">median()</td>
<td align="left">求中位数</td>
</tr>
<tr>
<td align="left">mode()</td>
<td align="left">求众数</td>
</tr>
<tr>
<td align="left">std()</td>
<td align="left">求标准差</td>
</tr>
<tr>
<td align="left">min()</td>
<td align="left">求最小值</td>
</tr>
<tr>
<td align="left">max()</td>
<td align="left">求最大值</td>
</tr>
<tr>
<td align="left">abs()</td>
<td align="left">求绝对值</td>
</tr>
<tr>
<td align="left">prod()</td>
<td align="left">求所有数值的乘积。</td>
</tr>
<tr>
<td align="left">cumsum()</td>
<td align="left">计算累计和，axis&#x3D;0，按照行累加；axis&#x3D;1，按照列累加。</td>
</tr>
<tr>
<td align="left">cumprod()</td>
<td align="left">计算累计积，axis&#x3D;0，按照行累积；axis&#x3D;1，按照列累积。</td>
</tr>
<tr>
<td align="left">corr()</td>
<td align="left">计算数列或变量之间的相关系数，取值-1到1，值越大表示关联性越强。</td>
</tr>
</tbody></table>
<p>从描述统计学角度出发，我们可以对 DataFrame 结构执行聚合计算等其他操作，比如 sum() 求和、mean()求均值等方法。</p>
<ul>
<li>对行操作，默认使用 axis&#x3D;0 或者使用 “index”；</li>
<li>对列操作，默认使用 axis&#x3D;1 或者使用 “columns”。</li>
</ul>
<p>创建一个 DataFrame 结构。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&#x27;Alice&#x27;</span>, <span class="string">&#x27;Bob&#x27;</span>, <span class="string">&#x27;Charlie&#x27;</span>, <span class="string">&#x27;David&#x27;</span>, <span class="string">&#x27;Eve&#x27;</span>, <span class="string">&#x27;Frank&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;Age&#x27;</span>: pd.Series([<span class="number">29</span>, <span class="number">22</span>, <span class="number">31</span>, <span class="number">25</span>, <span class="number">27</span>, <span class="number">33</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">3.75</span>, <span class="number">4.0</span>, <span class="number">3.5</span>, <span class="number">2.9</span>, <span class="number">4.2</span>, <span class="number">3.9</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line">new_df = pd.DataFrame(data)</span><br><span class="line"><span class="built_in">print</span>(new_df)</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">      Name  Age  Rating</span><br><span class="line">0    Alice   29    3.75</span><br><span class="line">1      Bob   22    4.00</span><br><span class="line">2  Charlie   31    3.50</span><br><span class="line">3    David   25    2.90</span><br><span class="line">4      Eve   27    4.20</span><br><span class="line">5    Frank   33    3.90</span><br></pre></td></tr></table></figure>


<h3 id="1-sum-求和"><a href="#1-sum-求和" class="headerlink" title="1) sum()求和"></a>1) sum()求和</h3><p>在默认情况下，返回 axis&#x3D;0 的所有值的和。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">data = &#123;</span><br><span class="line">    <span class="string">&#x27;Name&#x27;</span>: pd.Series([<span class="string">&#x27;Alice&#x27;</span>, <span class="string">&#x27;Bob&#x27;</span>, <span class="string">&#x27;Charlie&#x27;</span>, <span class="string">&#x27;David&#x27;</span>, <span class="string">&#x27;Eve&#x27;</span>, <span class="string">&#x27;Frank&#x27;</span>]),</span><br><span class="line">    <span class="string">&#x27;Age&#x27;</span>: pd.Series([<span class="number">29</span>, <span class="number">22</span>, <span class="number">31</span>, <span class="number">25</span>, <span class="number">27</span>, <span class="number">33</span>]),</span><br><span class="line">    <span class="string">&#x27;Rating&#x27;</span>: pd.Series([<span class="number">3.75</span>, <span class="number">4.0</span>, <span class="number">3.5</span>, <span class="number">2.9</span>, <span class="number">4.2</span>, <span class="number">3.9</span>])</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line">new_df = pd.DataFrame(data)</span><br><span class="line"></span><br><span class="line"><span class="built_in">print</span>(new_df.<span class="built_in">sum</span>())</span><br></pre></td></tr></table></figure>

<p>输出结果：</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">Name      AliceBobCharlieDavidEveFrank</span><br><span class="line">Age                                167</span><br><span class="line">Rating                           22.25</span><br><span class="line">dtype: object</span><br></pre></td></tr></table></figure>


<h1 id="通过例子学习Pandas"><a href="#通过例子学习Pandas" class="headerlink" title="通过例子学习Pandas"></a>通过例子学习Pandas</h1><p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1_pJnfAWcDbz7qnQr7at3jkw.png" alt="img"></p>
<h2 id="第一章-Pandas简介"><a href="#第一章-Pandas简介" class="headerlink" title="第一章 Pandas简介"></a>第一章 Pandas简介</h2><h3 id="1-1-什么是Pandas？"><a href="#1-1-什么是Pandas？" class="headerlink" title="1.1 什么是Pandas？"></a>1.1 什么是Pandas？</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>Pandas是一个开源的Python库，用于数据分析和数据处理。它为Python提供了快速、灵活且表达能力强的数据结构，旨在使“关系”或“标签”数据的操作既简单又直观。Pandas特别适用于处理诸如表格数据、有序和无序的时间序列、任意矩阵数据（具有行和列标签）的混杂数据类型以及观察统计数据集。</p>
<p>Pandas主要有两种数据结构：</p>
<ul>
<li>Series：一维标签数组，能够保存任何数据类型（整数、字符串、浮点数、Python对象等）。Series中的轴标签被统称为索引。</li>
<li>DataFrame：二维标签数据结构，可以看作是一个Series的容器。DataFrame有行索引和列索引，可以被看作是一个有序的字典，存储了列数据。</li>
</ul>
<p>很方便和其它类库一起使用:</p>
<ul>
<li>numpy:用于数学计算</li>
<li>scikit-learn:用于机器学习</li>
</ul>
<h3 id="1-2-安装Pandas"><a href="#1-2-安装Pandas" class="headerlink" title="1.2 安装Pandas"></a>1.2 安装Pandas</h3><p>1、下载使用Python类库集成安装包:anaconda</p>
<p> <span style='display: inline-block; width: 3.6rem;'></span><a target="_blank" rel="noopener" href="https://www.anaconda.com/">https://www.anaconda.com</a></p>
<p>当今最流行的Python数据分析发行版已经安装了数据分析需要的几乎所有的类库</p>
<p>2、pip install pandas</p>
<h3 id="1-3-开发工具"><a href="#1-3-开发工具" class="headerlink" title="1.3 开发工具"></a>1.3 开发工具</h3><ul>
<li><p>使用jupyter notebook演示</p>
<p>jupyter:交互性、探索性的开发神器，适合学习语法、数据分析;<br>pycharm:大而全的集成开发环境，适合复杂项目的开发;</p>
</li>
<li><p>使用真实数据集做演示</p>
</li>
<li><p>jupyter、代码，提供github仓库下载</p>
</li>
</ul>
<h2 id="第二章-Pandas数据读取"><a href="#第二章-Pandas数据读取" class="headerlink" title="第二章 Pandas数据读取"></a>第二章 Pandas数据读取</h2><h3 id="2-1-可读取的数据类型"><a href="#2-1-可读取的数据类型" class="headerlink" title="2.1 可读取的数据类型"></a>2.1 可读取的数据类型</h3><p>Pandas需要先读取<strong>表格类型</strong>的数据，然后进行分析</p>
<table>
<thead>
<tr>
<th>数据类型</th>
<th>说明</th>
<th>Pandas读取方法</th>
</tr>
</thead>
<tbody><tr>
<td>csv、tsv、txt</td>
<td>用逗号分隔、tab分割的纯文本文件</td>
<td>pd.read_csv</td>
</tr>
<tr>
<td>excel</td>
<td>微软xls或者xlsx文件</td>
<td>pd.read_excel</td>
</tr>
<tr>
<td>mysql</td>
<td>关系型数据库表</td>
<td>pd.read_sql</td>
</tr>
</tbody></table>
<h3 id="2-2-例子"><a href="#2-2-例子" class="headerlink" title="2.2 例子"></a>2.2 例子</h3><h4 id="2-1-1-Pandas读取纯文本文件。"><a href="#2-1-1-Pandas读取纯文本文件。" class="headerlink" title="2.1.1 Pandas读取纯文本文件。"></a>2.1.1 Pandas读取纯文本文件。</h4><p>读取csv文件</p>
<p>另存为csv文件：ratings.csv</p>
<blockquote>
<p>1,室里,0991-3190109,<a href="mailto:&#97;&#119;&#x59;&#121;&#98;&#100;&#x7a;&#x4e;&#x65;&#114;&#81;&#x38;&#50;&#83;&#68;&#x42;&#119;&#x4e;&#65;&#105;&#122;&#x70;&#x52;&#x33;&#65;&#56;&#121;&#81;&#64;&#104;&#110;&#117;&#102;&#46;&#x63;&#110;">&#97;&#119;&#x59;&#121;&#98;&#100;&#x7a;&#x4e;&#x65;&#114;&#81;&#x38;&#50;&#83;&#68;&#x42;&#119;&#x4e;&#65;&#105;&#122;&#x70;&#x52;&#x33;&#65;&#56;&#121;&#81;&#64;&#104;&#110;&#117;&#102;&#46;&#x63;&#110;</a><br>2,巴天石,022-82113117,<a href="mailto:&#x41;&#x32;&#x45;&#101;&#101;&#x51;&#53;&#122;&#53;&#107;&#x64;&#x6a;&#104;&#x50;&#x5f;&#x73;&#x4e;&#97;&#115;&#102;&#x57;&#112;&#x6a;&#x78;&#x77;&#55;&#64;&#x6c;&#100;&#117;&#x2e;&#101;&#x64;&#117;&#x2e;&#x63;&#110;">&#x41;&#x32;&#x45;&#101;&#101;&#x51;&#53;&#122;&#53;&#107;&#x64;&#x6a;&#104;&#x50;&#x5f;&#x73;&#x4e;&#97;&#115;&#102;&#x57;&#112;&#x6a;&#x78;&#x77;&#55;&#64;&#x6c;&#100;&#117;&#x2e;&#101;&#x64;&#117;&#x2e;&#x63;&#110;</a><br>3,方人智,0375-6019666,<a href="mailto:&#x4b;&#x36;&#109;&#x5a;&#x57;&#66;&#51;&#x73;&#120;&#x33;&#54;&#x34;&#82;&#x73;&#82;&#x57;&#x63;&#x65;&#116;&#83;&#x37;&#66;&#105;&#114;&#x6b;&#x58;&#55;&#x38;&#104;&#x6b;&#74;&#x40;&#x6e;&#99;&#105;&#97;&#x65;&#x2e;&#101;&#x64;&#117;&#x2e;&#x63;&#110;">&#x4b;&#x36;&#109;&#x5a;&#x57;&#66;&#51;&#x73;&#120;&#x33;&#54;&#x34;&#82;&#x73;&#82;&#x57;&#x63;&#x65;&#116;&#83;&#x37;&#66;&#105;&#114;&#x6b;&#x58;&#55;&#x38;&#104;&#x6b;&#74;&#x40;&#x6e;&#99;&#105;&#97;&#x65;&#x2e;&#101;&#x64;&#117;&#x2e;&#x63;&#110;</a><br>4,范百龄,0769-22861919,<a href="mailto:&#x4e;&#x42;&#74;&#x70;&#x51;&#x6b;&#106;&#90;&#109;&#66;&#53;&#78;&#x62;&#x63;&#122;&#67;&#x40;&#x68;&#108;&#97;&#x75;&#46;&#99;&#x6e;">&#x4e;&#x42;&#74;&#x70;&#x51;&#x6b;&#106;&#90;&#109;&#66;&#53;&#78;&#x62;&#x63;&#122;&#67;&#x40;&#x68;&#108;&#97;&#x75;&#46;&#99;&#x6e;</a><br>5,严三星,024-23894405,<a href="mailto:&#88;&#112;&#x46;&#114;&#116;&#x32;&#x40;&#104;&#110;&#x73;&#x6f;&#x66;&#116;&#x65;&#100;&#x75;&#46;&#99;&#x6f;&#109;">&#88;&#112;&#x46;&#114;&#116;&#x32;&#x40;&#104;&#110;&#x73;&#x6f;&#x66;&#116;&#x65;&#100;&#x75;&#46;&#99;&#x6f;&#109;</a><br>6,枯荣长老,021-62488077,<a href="mailto:&#97;&#x32;&#x37;&#x50;&#x6e;&#80;&#106;&#56;&#x46;&#78;&#116;&#83;&#66;&#71;&#116;&#83;&#98;&#x4e;&#95;&#x46;&#x52;&#x4d;&#x40;&#104;&#104;&#105;&#116;&#46;&#101;&#100;&#117;&#x2e;&#x63;&#x6e;">&#97;&#x32;&#x37;&#x50;&#x6e;&#80;&#106;&#56;&#x46;&#78;&#116;&#83;&#66;&#71;&#116;&#83;&#98;&#x4e;&#95;&#x46;&#x52;&#x4d;&#x40;&#104;&#104;&#105;&#116;&#46;&#101;&#100;&#117;&#x2e;&#x63;&#x6e;</a><br>7,天山童姥,021-68021662,<a href="mailto:&#x4e;&#x53;&#120;&#x42;&#115;&#x32;&#112;&#68;&#116;&#67;&#x53;&#x51;&#x6a;&#x4e;&#x51;&#107;&#66;&#121;&#64;&#106;&#110;&#x7a;&#106;&#120;&#x79;&#46;&#99;&#111;&#109;&#46;&#99;&#x6e;">&#x4e;&#x53;&#120;&#x42;&#115;&#x32;&#112;&#68;&#116;&#67;&#x53;&#x51;&#x6a;&#x4e;&#x51;&#107;&#66;&#121;&#64;&#106;&#110;&#x7a;&#106;&#120;&#x79;&#46;&#99;&#111;&#109;&#46;&#99;&#x6e;</a></p>
</blockquote>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">fpath = <span class="string">&quot;./ratings.csv&quot;</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用pd.read_csv(fpath)</span></span><br><span class="line">ratings = pd.read_csv(fpath)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看前几行数据</span></span><br><span class="line">ratings.head()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看数据的形状，返回（行数、列数）</span></span><br><span class="line">ratings.shape</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看列名列表</span></span><br><span class="line">ratings.columns</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看索引列</span></span><br><span class="line">ratings.index</span><br></pre></td></tr></table></figure>


<p>读取txt文件</p>
<p>另存为csv文件：data.txt</p>
<blockquote>
<p>1	5&#x2F;14&#x2F;2046	2	26<br>2	4&#x2F;8&#x2F;2041	18	76<br>3	10&#x2F;6&#x2F;2116	45	100<br>4	7&#x2F;14&#x2F;2046	69	4<br>5	5&#x2F;13&#x2F;2124	94	36<br>6	5&#x2F;29&#x2F;2113	14	62<br>7	4&#x2F;21&#x2F;2094	86	22<br>8	1&#x2F;8&#x2F;2098	21	18</p>
</blockquote>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">fpath = <span class="string">&quot;./data.txt&quot;</span></span><br><span class="line">pvuv = pd.read_csv(</span><br><span class="line">    fpath,</span><br><span class="line">    sep=<span class="string">&quot;\t&quot;</span>,</span><br><span class="line">    header=<span class="literal">None</span>,</span><br><span class="line">    names=[<span class="string">&#x27;pdate&#x27;</span>, <span class="string">&#x27;pv&#x27;</span>, <span class="string">&#x27;uv&#x27;</span>]</span><br><span class="line">)</span><br><span class="line"></span><br><span class="line">pvuv</span><br></pre></td></tr></table></figure>


<h4 id="2-1-2-Pandas读取xlsx格式excel文件"><a href="#2-1-2-Pandas读取xlsx格式excel文件" class="headerlink" title="2.1.2 Pandas读取xlsx格式excel文件"></a>2.1.2 Pandas读取xlsx格式excel文件</h4><p>读取excel文件前需要安装openpyxl</p>
<p>点击下载 <a href="./images/pandas%E5%9F%BA%E7%A1%80/assets/abc.xlsx">abc.xlsx</a></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pip install openpyxl</span><br></pre></td></tr></table></figure>


<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">fpath = <span class="string">&quot;./abc.xlsx&quot;</span></span><br><span class="line">pvuv = pd.read_excel(fpath)</span><br><span class="line">pvuv</span><br></pre></td></tr></table></figure>


<h4 id="2-1-3-Pandas读取mysql数据表"><a href="#2-1-3-Pandas读取mysql数据表" class="headerlink" title="2.1.3 Pandas读取mysql数据表"></a>2.1.3 Pandas读取mysql数据表</h4><p>数据表格式：</p>
<blockquote>
<p>CREATE TABLE <code>student</code>  (<br>  <code>id</code> int(10) UNSIGNED NOT NULL AUTO_INCREMENT,<br>  <code>name</code> varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,<br>  <code>birthday</code> varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL,<br>  <code>score</code> int(11) NULL DEFAULT NULL,<br>  PRIMARY KEY (<code>id</code>) USING BTREE<br>) ENGINE &#x3D; MyISAM AUTO_INCREMENT &#x3D; 9 CHARACTER SET &#x3D; utf8mb4 COLLATE &#x3D; utf8mb4_general_ci ROW_FORMAT &#x3D; Dynamic;</p>
</blockquote>
<blockquote>
<p>INSERT INTO <code>student</code> VALUES (1, ‘左子穆’, ‘1993-1-11’, 4);<br>INSERT INTO <code>student</code> VALUES (2, ‘侯通海’, ‘1992-5-18’, 47);<br>INSERT INTO <code>student</code> VALUES (3, ‘万大平’, ‘1992-3-29’, 93);<br>INSERT INTO <code>student</code> VALUES (4, ‘瘦丐’, ‘2000-12-6’, 58);<br>INSERT INTO <code>student</code> VALUES (5, ‘阿朱’, ‘1999-11-14’, 75);<br>INSERT INTO <code>student</code> VALUES (6, ‘木华黎’, ‘1998-2-20’, 67);<br>INSERT INTO <code>student</code> VALUES (7, ‘辛国梁’, ‘1992-6-16’, 43);<br>INSERT INTO <code>student</code> VALUES (8, ‘绿竹翁’, ‘1994-8-25’, 88);</p>
</blockquote>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> pymysql</span><br><span class="line"></span><br><span class="line">conn = pymysql.connect(</span><br><span class="line">    host=<span class="string">&#x27;127.0.0.1&#x27;</span>,</span><br><span class="line">    user=<span class="string">&#x27;root&#x27;</span>,</span><br><span class="line">    password=<span class="string">&#x27;12345678&#x27;</span>,</span><br><span class="line">    database=<span class="string">&#x27;test&#x27;</span>,</span><br><span class="line">    charset=<span class="string">&#x27;utf8&#x27;</span></span><br><span class="line">)</span><br><span class="line"></span><br><span class="line">mysql_page = pd.read_sql(<span class="string">&#x27;SELECT * FROM student&#x27;</span>, con=conn)</span><br><span class="line">mysql_page</span><br></pre></td></tr></table></figure>


<h2 id="第三章-Pandas数据结构"><a href="#第三章-Pandas数据结构" class="headerlink" title="第三章 Pandas数据结构"></a>第三章 Pandas数据结构</h2><h3 id="3-1-Series"><a href="#3-1-Series" class="headerlink" title="3.1 Series"></a>3.1 Series</h3><p> <span style='display: inline-block; width: 3.6rem;'></span>一维标签数组，能够保存任何数据类型（整数、字符串、浮点数、Python对象等）。Series中的轴标签被统称为索引。</p>
<h3 id="3-2-DataFrame"><a href="#3-2-DataFrame" class="headerlink" title="3.2 DataFrame"></a>3.2 DataFrame</h3><p>二维标签数据结构，可以看作是一个Series的容器。DataFrame有行索引和列索引，可以被看作是一个有序的字典，存储了列数据。</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1708762512206.png" alt="1708762512206"></p>
<h3 id="3-3-例子"><a href="#3-3-例子" class="headerlink" title="3.3 例子"></a>3.3 例子</h3><h4 id="3-3-1-Series"><a href="#3-3-1-Series" class="headerlink" title="3.3.1 Series"></a>3.3.1 Series</h4><h5 id="3-3-1-1-Series例子1：简单例子"><a href="#3-3-1-1-Series例子1：简单例子" class="headerlink" title="3.3.1.1 Series例子1：简单例子"></a>3.3.1.1 Series例子1：简单例子</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s2 = pd.Series([<span class="number">1</span>, <span class="string">&#x27;a&#x27;</span>, <span class="number">5</span>, <span class="number">2</span>, <span class="number">7</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 左侧为索引，右侧是数据</span></span><br><span class="line"><span class="built_in">print</span>(s2)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 获取索引</span></span><br><span class="line"><span class="built_in">print</span>(s2.index)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 获取数据</span></span><br><span class="line"><span class="built_in">print</span>(s2.values)</span><br></pre></td></tr></table></figure>


<h5 id="3-3-1-2-Series例子2：自定义索引例子"><a href="#3-3-1-2-Series例子2：自定义索引例子" class="headerlink" title="3.3.1.2 Series例子2：自定义索引例子"></a>3.3.1.2 Series例子2：自定义索引例子</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">s2 = pd.Series([<span class="number">1</span>, <span class="string">&#x27;a&#x27;</span>, <span class="number">5</span>, <span class="number">2</span>, <span class="number">7</span>], index=[<span class="string">&#x27;d&#x27;</span>, <span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;a&#x27;</span>, <span class="string">&#x27;c&#x27;</span>, <span class="string">&#x27;e&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 左侧为索引，右侧是数据</span></span><br><span class="line"><span class="built_in">print</span>(s2)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 获取索引</span></span><br><span class="line"><span class="built_in">print</span>(s2.index)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 获取数据</span></span><br><span class="line"><span class="built_in">print</span>(s2.values)</span><br></pre></td></tr></table></figure>


<h5 id="3-3-1-3-Series例子3：使用Python字典创建Series"><a href="#3-3-1-3-Series例子3：使用Python字典创建Series" class="headerlink" title="3.3.1.3 Series例子3：使用Python字典创建Series"></a>3.3.1.3 Series例子3：使用Python字典创建Series</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">sdata = &#123;</span><br><span class="line">  <span class="string">&#x27;Ohio&#x27;</span>: <span class="number">35000</span>,</span><br><span class="line">  <span class="string">&#x27;Texas&#x27;</span>: <span class="number">72000</span>,</span><br><span class="line">  <span class="string">&#x27;Oregon&#x27;</span>: <span class="number">16000</span>,</span><br><span class="line">  <span class="string">&#x27;Utah&#x27;</span>: <span class="number">5000</span></span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line">s3 = pd.Series(sdata)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 左侧为索引，右侧是数据</span></span><br><span class="line"><span class="built_in">print</span>(s3)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 获取索引</span></span><br><span class="line"><span class="built_in">print</span>(s3.index)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 获取数据</span></span><br><span class="line"><span class="built_in">print</span>(s3.values)</span><br></pre></td></tr></table></figure>


<h5 id="3-3-1-4-Series例子4：根据标签索引查询数据"><a href="#3-3-1-4-Series例子4：根据标签索引查询数据" class="headerlink" title="3.3.1.4 Series例子4：根据标签索引查询数据"></a>3.3.1.4 Series例子4：根据标签索引查询数据</h5><p>类似Python的字典Dict</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">s2</span><br><span class="line">s2[<span class="string">&#x27;a&#x27;</span>]</span><br><span class="line"><span class="built_in">type</span>(s2[<span class="string">&#x27;a&#x27;</span>])</span><br><span class="line">s2[[<span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;a&#x27;</span>]]</span><br><span class="line"><span class="built_in">type</span>(s2[[<span class="string">&#x27;b&#x27;</span>, <span class="string">&#x27;a&#x27;</span>]])</span><br></pre></td></tr></table></figure>

<h4 id="3-3-2-DataFrame"><a href="#3-3-2-DataFrame" class="headerlink" title="3.3.2 DataFrame"></a>3.3.2 DataFrame</h4><p>DataFrame是一个表格型的数据结构</p>
<ul>
<li>每列可以是不同的值类型(数值、字符串、布尔值等)</li>
<li>既有行索引index也有列索引columns</li>
<li>可以被看做由Series组成的字典</li>
</ul>
<p>创建dataframe最常用的方法，见02节读取纯文本文件、excel、mysql数据库</p>
<h5 id="3-3-2-1-例子"><a href="#3-3-2-1-例子" class="headerlink" title="3.3.2.1 例子"></a>3.3.2.1 例子</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">data = &#123;</span><br><span class="line">	<span class="string">&#x27;state&#x27;</span>: [<span class="string">&#x27;Ohio&#x27;</span>, <span class="string">&#x27;Ohio&#x27;</span>, <span class="string">&#x27;Ohio&#x27;</span>, <span class="string">&#x27;Nevada&#x27;</span>, <span class="string">&#x27;Nevada&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;year&#x27;</span>: [<span class="number">2000</span>, <span class="number">2001</span>, <span class="number">2002</span>, <span class="number">2001</span>, <span class="number">2002</span>],</span><br><span class="line">	<span class="string">&#x27;pop&#x27;</span>: [<span class="number">1.5</span>, <span class="number">1.7</span>, <span class="number">3.6</span>, <span class="number">2.4</span>, <span class="number">2.9</span>]</span><br><span class="line">&#125;</span><br><span class="line"></span><br><span class="line">df = pd.DataFrame(data)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 类型</span></span><br><span class="line"><span class="built_in">print</span>(df.dtypes)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 列</span></span><br><span class="line"><span class="built_in">print</span>(df.columns)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 索引</span></span><br><span class="line"><span class="built_in">print</span>(df.index)</span><br></pre></td></tr></table></figure>


<h4 id="3-3-3-从DataFrame中查询出Series"><a href="#3-3-3-从DataFrame中查询出Series" class="headerlink" title="3.3.3 从DataFrame中查询出Series"></a>3.3.3 从DataFrame中查询出Series</h4><p>如果只查询一行、一列，返回的是pd.Series</p>
<p>如果查询多行、多列，返回的是pd.DataFrame</p>
<h5 id="3-3-3-1-DataFrame例子1：查询列"><a href="#3-3-3-1-DataFrame例子1：查询列" class="headerlink" title="3.3.3.1 DataFrame例子1：查询列"></a>3.3.3.1 DataFrame例子1：查询列</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&#x27;year&#x27;</span>]</span><br><span class="line"><span class="built_in">type</span>(df[<span class="string">&#x27;year&#x27;</span>])</span><br></pre></td></tr></table></figure>


<h5 id="3-3-3-2-DataFrame例子2：查询多列，结果是一个pd-DataFrame"><a href="#3-3-3-2-DataFrame例子2：查询多列，结果是一个pd-DataFrame" class="headerlink" title="3.3.3.2 DataFrame例子2：查询多列，结果是一个pd.DataFrame"></a>3.3.3.2 DataFrame例子2：查询多列，结果是一个pd.DataFrame</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df[[<span class="string">&#x27;year&#x27;</span>, <span class="string">&#x27;pop&#x27;</span>]]</span><br><span class="line"><span class="built_in">type</span>(df[[<span class="string">&#x27;year&#x27;</span>, <span class="string">&#x27;pop&#x27;</span>]])</span><br></pre></td></tr></table></figure>


<h5 id="3-3-3-3-DataFrame例子3：查询一行"><a href="#3-3-3-3-DataFrame例子3：查询一行" class="headerlink" title="3.3.3.3 DataFrame例子3：查询一行"></a>3.3.3.3 DataFrame例子3：查询一行</h5><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df.loc[<span class="number">1</span>]</span><br><span class="line"><span class="built_in">type</span>(df.loc[<span class="number">1</span>])</span><br></pre></td></tr></table></figure>


<h5 id="3-3-3-4-查询多行，结果是一个pd-DataFrame"><a href="#3-3-3-4-查询多行，结果是一个pd-DataFrame" class="headerlink" title="3.3.3.4 查询多行，结果是一个pd.DataFrame"></a>3.3.3.4 查询多行，结果是一个pd.DataFrame</h5><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df.loc[1:3]</span><br><span class="line">type(df.loc[1:3])</span><br></pre></td></tr></table></figure>


<h2 id="第四章-Pandas数据查询"><a href="#第四章-Pandas数据查询" class="headerlink" title="第四章 Pandas数据查询"></a>第四章 Pandas数据查询</h2><p>Pandas查询数据的几种方法</p>
<h3 id="4-1-df-loc方法，根据行、列的标签值查询"><a href="#4-1-df-loc方法，根据行、列的标签值查询" class="headerlink" title="4.1 df.loc方法，根据行、列的标签值查询"></a>4.1 df.loc方法，根据行、列的标签值查询</h3><p>将如下数据另存为：beijing_tianqi_2018.csv文件</p>
<blockquote>
<p>ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel<br>2018-01-01,3℃,-6℃,晴<del>多云,东北风,1-2级,59,良,2<br>2018-01-02,2℃,-5℃,阴</del>多云,东北风,1-2级,49,优,1<br>2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1<br>2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1<br>2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1</p>
</blockquote>
<p>数据预处理：</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df = pd.read_csv(<span class="string">&#x27;./beijing_tianqi_2018.csv&#x27;</span>)</span><br><span class="line"><span class="comment"># df.head()</span></span><br><span class="line"></span><br><span class="line">df.set_index(<span class="string">&#x27;ymd&#x27;</span>, inplace=<span class="literal">True</span>)</span><br><span class="line"><span class="comment"># df.index</span></span><br><span class="line"><span class="comment"># df.head()</span></span><br><span class="line"></span><br><span class="line">df.loc[:, <span class="string">&#x27;bWendu&#x27;</span>] = df[<span class="string">&#x27;bWendu&#x27;</span>].<span class="built_in">str</span>.replace(<span class="string">&#x27;℃&#x27;</span>, <span class="string">&quot;&quot;</span>).astype(<span class="string">&#x27;int32&#x27;</span>)</span><br><span class="line">df.loc[:, <span class="string">&#x27;yWendu&#x27;</span>] = df[<span class="string">&#x27;yWendu&#x27;</span>].<span class="built_in">str</span>.replace(<span class="string">&#x27;℃&#x27;</span>, <span class="string">&quot;&quot;</span>).astype(<span class="string">&#x27;int32&#x27;</span>)</span><br><span class="line"></span><br><span class="line">df.dtypes</span><br><span class="line"></span><br><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<p>Pandas使用df.loc查询数据的方法</p>
<h4 id="4-1-1-使用单个label值查询数据"><a href="#4-1-1-使用单个label值查询数据" class="headerlink" title="4.1.1 使用单个label值查询数据"></a>4.1.1 使用单个label值查询数据</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 得到单个值</span></span><br><span class="line">df.loc[<span class="string">&#x27;2018-01-03&#x27;</span>, <span class="string">&#x27;bWendu&#x27;</span>]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 得到一个Series</span></span><br><span class="line">df.loc[<span class="string">&#x27;2018-01-03&#x27;</span>, [<span class="string">&#x27;bWendu&#x27;</span>, <span class="string">&#x27;yWendu&#x27;</span>]]</span><br></pre></td></tr></table></figure>


<h4 id="4-1-2-使用值列表批量查询"><a href="#4-1-2-使用值列表批量查询" class="headerlink" title="4.1.2 使用值列表批量查询"></a>4.1.2 使用值列表批量查询</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 得到Series</span></span><br><span class="line">df.loc[[<span class="string">&#x27;2018-01-03&#x27;</span>, <span class="string">&#x27;2018-01-04&#x27;</span>, <span class="string">&#x27;2018-01-05&#x27;</span>], <span class="string">&#x27;bWendu&#x27;</span>]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 得到DataFrame</span></span><br><span class="line">df.loc[[<span class="string">&#x27;2018-01-03&#x27;</span>, <span class="string">&#x27;2018-01-04&#x27;</span>, <span class="string">&#x27;2018-01-05&#x27;</span>], [<span class="string">&#x27;bWendu&#x27;</span>, <span class="string">&#x27;yWendu&#x27;</span>]]</span><br></pre></td></tr></table></figure>


<h4 id="4-1-3-使用数值区间进行范围查询"><a href="#4-1-3-使用数值区间进行范围查询" class="headerlink" title="4.1.3 使用数值区间进行范围查询"></a>4.1.3 使用数值区间进行范围查询</h4><p>注意：区间既包含开始，也包含结束</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 行index按区间</span></span><br><span class="line">df.loc[<span class="string">&#x27;2018-01-03&#x27;</span>:<span class="string">&#x27;2018-01-05&#x27;</span>, <span class="string">&#x27;bWendu&#x27;</span>]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 列index按区间</span></span><br><span class="line">df.loc[<span class="string">&#x27;2018-01-03&#x27;</span>, <span class="string">&#x27;bWendu&#x27;</span>:<span class="string">&#x27;fengxiang&#x27;</span>]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 行和列都按区间查询</span></span><br><span class="line">df.loc[<span class="string">&#x27;2018-01-03&#x27;</span>:<span class="string">&#x27;2018-01-05&#x27;</span>, <span class="string">&#x27;bWendu&#x27;</span>:<span class="string">&#x27;fengxiang&#x27;</span>]</span><br></pre></td></tr></table></figure>


<h4 id="4-1-4-使用条件表达式查询"><a href="#4-1-4-使用条件表达式查询" class="headerlink" title="4.1.4 使用条件表达式查询"></a>4.1.4 使用条件表达式查询</h4><p>bool列表的长度得等于行数或者列数</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 简单条件查询，最低温度低于-10度的列表</span></span><br><span class="line">df.loc[df[<span class="string">&#x27;yWendu&#x27;</span>]&lt;-<span class="number">5</span>, :]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 观察一下这里的boolean条件</span></span><br><span class="line">df[<span class="string">&#x27;yWendu&#x27;</span>]&lt;-<span class="number">10</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 查询最高温度小于30度，而且最低温度大于15度，并且是晴天，并且天气为优的数据</span></span><br><span class="line">df.loc[(df[<span class="string">&#x27;bWendu&#x27;</span>]&lt;=<span class="number">30</span>) &amp; (df[<span class="string">&#x27;yWendu&#x27;</span>]&gt;=<span class="number">15</span>) &amp; (df[<span class="string">&#x27;tianqi&#x27;</span>]==<span class="string">&#x27;晴&#x27;</span>) &amp; (df[<span class="string">&#x27;aqiLevel&#x27;</span>]==<span class="number">1</span>), :]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 再次观察这里的boolean条件</span></span><br><span class="line">(df[<span class="string">&#x27;bWendu&#x27;</span>]&lt;=<span class="number">30</span>) &amp; (df[<span class="string">&#x27;yWendu&#x27;</span>]&gt;=<span class="number">15</span>) &amp; (df[<span class="string">&#x27;tianqi&#x27;</span>]==<span class="string">&#x27;晴&#x27;</span>) &amp; (df[<span class="string">&#x27;aqiLevel&#x27;</span>]==<span class="number">1</span>)</span><br></pre></td></tr></table></figure>


<h4 id="4-1-5-调用函数查询"><a href="#4-1-5-调用函数查询" class="headerlink" title="4.1.5 调用函数查询"></a>4.1.5 调用函数查询</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 直接写lambda表达式</span></span><br><span class="line">df.loc[<span class="keyword">lambda</span> df:(df[<span class="string">&#x27;bWendu&#x27;</span>]&lt;=<span class="number">30</span>) &amp; (df[<span class="string">&#x27;yWendu&#x27;</span>]&gt;=<span class="number">15</span>), :]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 编写自己的函数，查询9月份，空气质量好的数据</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">query_my_data</span>(<span class="params">df</span>):</span><br><span class="line">    <span class="keyword">return</span> df.index.<span class="built_in">str</span>.startswith(<span class="string">&#x27;2018-09&#x27;</span>) &amp; df[<span class="string">&#x27;aqiLevel&#x27;</span>] == <span class="number">1</span></span><br><span class="line"></span><br><span class="line">df.loc[query_my_data, :]</span><br></pre></td></tr></table></figure>


<p>注意：</p>
<ul>
<li>以上查询方法，既适用于行，也适用于列</li>
<li>注意观察降维dataFrame&gt;Series&gt;值</li>
</ul>
<h3 id="4-2-df-iloc方法，根据行、列的数字位置查询"><a href="#4-2-df-iloc方法，根据行、列的数字位置查询" class="headerlink" title="4.2 df.iloc方法，根据行、列的数字位置查询"></a>4.2 df.iloc方法，根据行、列的数字位置查询</h3><p><code>df.iloc</code> 方法是 pandas DataFrame 的一个功能强大的索引器，用于基于行、列的整数位置进行数据选择。它允许你通过指定明确的行和列的位置索引来选取数据子集。<code>iloc</code> 方法接受两个主要参数：<code>iloc[row_indexer, column_indexer]</code>。</p>
<ul>
<li><code>row_indexer</code> 表示行的位置索引，可以是单个整数、整数列表或整数切片。</li>
<li><code>column_indexer</code> 表示列的位置索引，同样可以是单个整数、整数列表或整数切片。<br>下面是一些使用 <code>df.iloc</code> 的例子：<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 选择第一行</span></span><br><span class="line">first_row = df.iloc[<span class="number">0</span>]</span><br><span class="line"><span class="comment"># 选择第一列</span></span><br><span class="line">first_column = df.iloc[:, <span class="number">0</span>]</span><br><span class="line"><span class="comment"># 选择第一行第一列的单个值</span></span><br><span class="line">first_value = df.iloc[<span class="number">0</span>, <span class="number">0</span>]</span><br><span class="line"><span class="comment"># 选择前五行和前两列</span></span><br><span class="line">first_five_rows_two_columns = df.iloc[:<span class="number">5</span>, :<span class="number">2</span>]</span><br><span class="line"><span class="comment"># 选择特定的几行和几列</span></span><br><span class="line">rows_and_columns = df.iloc[<span class="number">1</span>:<span class="number">4</span>, <span class="number">0</span>:<span class="number">3</span>]</span><br></pre></td></tr></table></figure>
使用 <code>iloc</code> 时，索引是从 0 开始的，并且与 DataFrame 的实际行列位置一一对应。</li>
</ul>
<h3 id="4-3-df-where方法"><a href="#4-3-df-where方法" class="headerlink" title="4.3 df.where方法"></a>4.3 df.where方法</h3><p><code>df.where</code> 方法用于根据指定的条件来替换 DataFrame 中的值。它允许你将不符合条件的值替换为一个指定的值，而不改变其他值。<code>where</code> 方法通常与 <code>other</code> 参数一起使用，<code>other</code> 参数指定了不符合条件的值应当被替换成的值。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 将 DataFrame 中所有小于 0 的值替换为 0</span></span><br><span class="line">df.where(df &lt; <span class="number">0</span>, <span class="number">0</span>)</span><br><span class="line"><span class="comment"># 将 DataFrame 中满足某个条件的值替换为另一个值</span></span><br><span class="line">condition = df[<span class="string">&#x27;yWendu&#x27;</span>]&lt;-<span class="number">5</span></span><br><span class="line">df.where(condition, df[<span class="string">&#x27;yWendu&#x27;</span>] * <span class="number">100</span>, axis=<span class="number">0</span>)</span><br></pre></td></tr></table></figure>
<p><code>df.where</code> 方法不会修改原始 DataFrame，它会返回一个新的 DataFrame。</p>
<h3 id="4-4-df-query方法"><a href="#4-4-df-query方法" class="headerlink" title="4.4 df.query方法"></a>4.4 df.query方法</h3><p><code>df.query</code> 方法允许你通过字符串表达式来筛选 DataFrame 中的数据。这个方法非常方便，尤其是当你需要根据复杂的条件筛选数据时。你可以使用标准的 Python 表达式以及列名来编写查询字符串。</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 筛选 &#x27;column_name&#x27; 列中值大于 10 的行</span></span><br><span class="line">filtered_df = df.query(<span class="string">&#x27;yWendu &gt; -6&#x27;</span>)</span><br><span class="line"><span class="comment"># 可以使用 and/or 来组合多个条件</span></span><br><span class="line">filtered_df = df.query(<span class="string">&#x27;yWendu &gt; -6 and yWendu &lt; 0&#x27;</span>)</span><br><span class="line"><span class="comment"># 使用内置的函数，如 sqrt，计算平方根</span></span><br><span class="line">filtered_df = df.query(<span class="string">&#x27;sqrt(yWendu) &gt; 2&#x27;</span>)</span><br></pre></td></tr></table></figure>
<p><code>df.query</code> 方法同样不会修改原始 DataFrame，而是返回一个新的 DataFrame，其中只包含满足查询条件的行。</p>
<h2 id="第五章-Pandas新增数据"><a href="#第五章-Pandas新增数据" class="headerlink" title="第五章 Pandas新增数据"></a>第五章 Pandas新增数据</h2><p>在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析。</p>
<h3 id="5-1-直接赋值"><a href="#5-1-直接赋值" class="headerlink" title="5.1 直接赋值"></a>5.1 直接赋值</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 替换掉温度的后缀℃</span></span><br><span class="line">df.loc[:, <span class="string">&quot;bWendu&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;℃&quot;</span>, <span class="string">&quot;&quot;</span>).astype(<span class="string">&quot;int32&quot;</span>)</span><br><span class="line">df.loc[:, <span class="string">&quot;yWendu&quot;</span>] = df[<span class="string">&quot;yWendu&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;℃&quot;</span>, <span class="string">&quot;&quot;</span>).astype(<span class="string">&quot;int32&quot;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 注意，df[&quot;bWendu&quot;]其实是一个Series,后面的减法返回的是Series</span></span><br><span class="line">df.loc[:, <span class="string">&quot;wencha&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>]</span><br><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<h3 id="5-2-df-apply方法"><a href="#5-2-df-apply方法" class="headerlink" title="5.2 df.apply方法"></a>5.2 df.apply方法</h3><p>沿DataFrame的轴应用函数。<br>传递给该函数的对象是Series对象，其索引是DataFrame的索引(轴&#x3D;0)或DataFrame的列(轴&#x3D;1)。</p>
<p>实例：添加一列温度类型:</p>
<ul>
<li>如果最高温度大于33度就是高温</li>
<li>低于-10度是低温</li>
<li>否则是常温</li>
</ul>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">get_wendu_type</span>(<span class="params">x</span>):</span><br><span class="line">  <span class="keyword">if</span> x[<span class="string">&#x27;bWendu&#x27;</span>] &gt; <span class="number">33</span>:</span><br><span class="line">    <span class="keyword">return</span> <span class="string">&#x27;高温&#x27;</span></span><br><span class="line">  <span class="keyword">elif</span> x[<span class="string">&#x27;yWendu&#x27;</span>] &lt; -<span class="number">10</span>:</span><br><span class="line">    <span class="keyword">return</span> <span class="string">&#x27;低温&#x27;</span></span><br><span class="line">  <span class="keyword">return</span> <span class="string">&#x27;常温&#x27;</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 注意需要设置axis==1, 这是series的index是columns</span></span><br><span class="line">df.loc[:, <span class="string">&#x27;wendu_type&#x27;</span>] = df.apply(get_wendu_type, axis=<span class="number">1</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看温度类型的计数</span></span><br><span class="line">df[<span class="string">&#x27;wendu_type&#x27;</span>].value_counts()</span><br></pre></td></tr></table></figure>


<h3 id="5-3-df-assign方法"><a href="#5-3-df-assign方法" class="headerlink" title="5.3 df.assign方法"></a>5.3 df.assign方法</h3><p>为DataFrame分配新列。<br>返回一个新对象，除新列外，还包含所有原始列。</p>
<p>实例：将温度从摄氏度变成华氏度</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 可以同时添加多个新的列</span></span><br><span class="line">df.assign(</span><br><span class="line">  yWendu_huashi = <span class="keyword">lambda</span> x: x[<span class="string">&#x27;yWendu&#x27;</span>] * <span class="number">9</span> / <span class="number">5</span> + <span class="number">32</span>,</span><br><span class="line">  <span class="comment"># 摄氏度转华氏度</span></span><br><span class="line">  bWendu_huashi = <span class="keyword">lambda</span> x: x[<span class="string">&#x27;bWendu&#x27;</span>] * <span class="number">9</span> / <span class="number">5</span> + <span class="number">32</span></span><br><span class="line">)</span><br></pre></td></tr></table></figure>


<h3 id="5-4-按条件选择分组分别赋值"><a href="#5-4-按条件选择分组分别赋值" class="headerlink" title="5.4 按条件选择分组分别赋值"></a>5.4 按条件选择分组分别赋值</h3><p>按条件先选择数据，然后对这部分数据赋值新列</p>
<p>实例:高低温差大于10度，则认为温差大</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment">#先创建空列(这是第一种创建新列的方法)</span></span><br><span class="line">df[<span class="string">&#x27;wencha_type&#x27;</span>] = <span class="string">&#x27;&#x27;</span></span><br><span class="line">df.loc[df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>] &gt; <span class="number">10</span>, <span class="string">&quot;wencha_type&quot;</span>] = <span class="string">&quot;温差大&quot;</span></span><br><span class="line">df.loc[df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>] &lt;= <span class="number">10</span>, <span class="string">&quot;wencha_type&quot;</span>] = <span class="string">&quot;温差正常&quot;</span></span><br><span class="line"></span><br><span class="line">df[<span class="string">&quot;wencha_type&quot;</span>].value_counts()</span><br></pre></td></tr></table></figure>


<h2 id="第六章-Pandas数据统计函数"><a href="#第六章-Pandas数据统计函数" class="headerlink" title="第六章 Pandas数据统计函数"></a>第六章 Pandas数据统计函数</h2><h3 id="6-1-汇总类统计"><a href="#6-1-汇总类统计" class="headerlink" title="6.1 汇总类统计"></a>6.1 汇总类统计</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 提示所有数字列统计结果</span></span><br><span class="line">df.describe()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看单个Series的数据</span></span><br><span class="line">df[<span class="string">&quot;bWendu&quot;</span>].mean()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 最高温</span></span><br><span class="line">df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">max</span>()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 最低温</span></span><br><span class="line">df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">min</span>()</span><br></pre></td></tr></table></figure>


<h3 id="6-2-唯一去重和按值计数"><a href="#6-2-唯一去重和按值计数" class="headerlink" title="6.2 唯一去重和按值计数"></a>6.2 唯一去重和按值计数</h3><p>一般不用于数值列，而是枚举、分类列。</p>
<h4 id="6-2-1-唯一性去重"><a href="#6-2-1-唯一性去重" class="headerlink" title="6.2.1 唯一性去重"></a>6.2.1 唯一性去重</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&quot;fengxiang&quot;</span>].unique()</span><br><span class="line">df[<span class="string">&quot;tianqi&quot;</span>].unique()</span><br><span class="line">df[<span class="string">&quot;fengli&quot;</span>].unique()</span><br></pre></td></tr></table></figure>


<h4 id="6-2-2-按值计数"><a href="#6-2-2-按值计数" class="headerlink" title="6.2.2 按值计数"></a>6.2.2 按值计数</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&quot;fengxiang&quot;</span>].value_counts()</span><br><span class="line">df[<span class="string">&quot;tianqi&quot;</span>].value_counts()</span><br><span class="line">df[<span class="string">&quot;fengli&quot;</span>].value_counts()</span><br></pre></td></tr></table></figure>


<h3 id="6-3-相关系数与协方差"><a href="#6-3-相关系数与协方差" class="headerlink" title="6.3 相关系数与协方差"></a>6.3 相关系数与协方差</h3><p><strong>应用场景</strong>（非常强大）:</p>
<ol>
<li>判断两只股票是否同涨同跌，以及相关程度和方向（正相关或负相关）。</li>
<li>分析产品销量波动与各种因素之间的相关性，判断是正相关还是负相关，并量化其程度。<br><strong>知乎解释</strong>：<br>对于两个变量X和Y：</li>
<li><strong>协方差</strong>：衡量两个变量同向或反向变化的程度。协方差为正表示X和Y同向变化，协方差值越大，同向程度越高；协方差为负表示X和Y反向变化，协方差值越小，反向程度越高。</li>
<li><strong>相关系数</strong>：衡量两个变量变化时的相似度。相关系数为1时，表示两个变量完全正相关；相关系数为-1时，表示两个变量完全负相关。<br><strong>代码示例</strong>：<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 计算协方差矩阵</span></span><br><span class="line">cov_matrix = df.cov()</span><br><span class="line"><span class="comment"># 计算相关系数矩阵</span></span><br><span class="line">corr_matrix = df.corr()</span><br><span class="line"><span class="comment"># 查看空气质量和最高温度的相关系数</span></span><br><span class="line">aqi_bWendu_corr = df[<span class="string">&quot;aqi&quot;</span>].corr(df[<span class="string">&quot;bWendu&quot;</span>])</span><br><span class="line">aqi_yWendu_corr = df[<span class="string">&quot;aqi&quot;</span>].corr(df[<span class="string">&quot;yWendu&quot;</span>])</span><br><span class="line"><span class="comment"># 查看空气质量和温差的相关系数</span></span><br><span class="line">aqi_temp_diff_corr = df[<span class="string">&quot;aqi&quot;</span>].corr(df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>])</span><br></pre></td></tr></table></figure>
通过上述代码，我们可以得到数据框（DataFrame）中各变量间的协方差矩阵和相关系数矩阵，以及特定变量间（如空气质量和温度）的相关系数。这些统计量有助于我们深入理解变量间的相互关系。</li>
</ol>
<p>协方差用于衡量两个变量的总体误差。计算公式如下：<br>$$<br> \text{协方差}(X, Y) &#x3D; \frac{\sum_{i&#x3D;1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{n-1}<br>$$<br>其中：</p>
<ul>
<li>$ X $ 和 $ Y $ 是两个变量。</li>
<li>$ x_i $ 和 $ y_i $ 分别是两个变量的观测值。</li>
<li>$ \bar{x} $ 和 $ \bar{y} $ 是两个变量的均值。</li>
<li>$ n $ 是观测值的数量。<br>这个公式可以分解为以下几个步骤：</li>
</ul>
<ol>
<li>对于每个变量，从其每个观测值中减去该变量的均值，得到偏差。</li>
<li>将一个变量的偏差与另一个变量的偏差相乘。</li>
<li>将所有这些乘积相加。</li>
<li>将总和除以 $ n-1 $（这是为了得到样本协方差，如果是总体协方差，则除以 $ n $）。<br>现在，我将使用Python来演示如何计算两个数据序列的协方差。<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"><span class="comment"># 示例数据</span></span><br><span class="line">x = np.array([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>, <span class="number">5</span>])</span><br><span class="line">y = np.array([<span class="number">5</span>, <span class="number">4</span>, <span class="number">3</span>, <span class="number">2</span>, <span class="number">1</span>])</span><br><span class="line"><span class="comment"># 计算均值</span></span><br><span class="line">mean_x = np.mean(x)</span><br><span class="line">mean_y = np.mean(y)</span><br><span class="line"><span class="comment"># 计算协方差</span></span><br><span class="line">cov_xy = np.<span class="built_in">sum</span>((x - mean_x) * (y - mean_y)) / (<span class="built_in">len</span>(x) - <span class="number">1</span>)</span><br><span class="line">cov_xy</span><br></pre></td></tr></table></figure></li>
</ol>
<p>-2.5</p>
<p>计算结果显示，这两个数据序列 $ x $ 和 $ y $ 的协方差为 -2.5。这表明它们之间存在负相关关系，即当一个变量增加时，另一个变量倾向于减少。</p>
<h2 id="第七章-Pandas缺失值处理"><a href="#第七章-Pandas缺失值处理" class="headerlink" title="第七章 Pandas缺失值处理"></a>第七章 Pandas缺失值处理</h2><h3 id="7-1-缺失值填充函数"><a href="#7-1-缺失值填充函数" class="headerlink" title="7.1 缺失值填充函数"></a>7.1 缺失值填充函数</h3><p>Pandas使用这些函数处理缺失值:</p>
<ul>
<li><p>isnull和notnull：检测是否是空值，可用于df和series</p>
</li>
<li><p>dropna：丢弃、删除缺失值</p>
<ol>
<li>axis：删除行还是列，{0 or ‘index’,1 or ‘columns”}, default 0</li>
<li>how：如果等于any则任何值为空都删除，如果等于al则所有值都为空才删除</li>
<li>inplace：如果为True则修改当前df，否则返回新的df</li>
</ol>
</li>
<li><p>fillna：填充空值</p>
<ol>
<li>value：用于填充的值，可以是单个值，或者字典(key是列名，value是值)</li>
<li>method：等于fill使用前一个不为空的值填充forword fill; 等于bfill使用后一个不为空的值填充backword fill</li>
<li>axis：按行还是列填充，{0 or ‘index’, 1 or ‘columns’}</li>
<li>inplace：如果为True则修改当前df，否则返回新的df</li>
</ol>
</li>
</ul>
<h3 id="7-2-例子："><a href="#7-2-例子：" class="headerlink" title="7.2 例子："></a>7.2 例子：</h3><p>示例数据：<a href="./images/pandas%E5%9F%BA%E7%A1%80/assets/student_data_example.xlsx">student_data_example.xlsx</a></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 步骤1：读取excel的时候，忽略前几个空行</span></span><br><span class="line">studf = pd.read_excel(<span class="string">&quot;./student_data_example.xlsx&quot;</span>, skiprows=<span class="number">2</span>)</span><br><span class="line">studf</span><br><span class="line"></span><br><span class="line"><span class="comment"># 步骤2：检测空值</span></span><br><span class="line">studf.isnull()</span><br><span class="line">studf[<span class="string">&quot;分数&quot;</span>].isnull()</span><br><span class="line">studf[<span class="string">&quot;分数&quot;</span>].notnull()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 筛选没有空分数的所有行</span></span><br><span class="line">studf.loc[studf[<span class="string">&quot;分数&quot;</span>].notnull(), :]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 步骤3：删除掉全是空值的列</span></span><br><span class="line">studf.dropna(axis=<span class="string">&quot;columns&quot;</span>, how=<span class="string">&quot;all&quot;</span>, inplace=<span class="literal">True</span>)</span><br><span class="line">studf</span><br><span class="line"></span><br><span class="line"><span class="comment"># 步骤4：删除掉全是空值的行</span></span><br><span class="line">studf.dropna(axis=<span class="string">&quot;index&quot;</span>, how=<span class="string">&quot;all&quot;</span>, inplace=<span class="literal">True</span>)</span><br><span class="line">studf</span><br><span class="line"></span><br><span class="line"><span class="comment"># 步骤5：将分数列为空的填充为0分</span></span><br><span class="line">studf.fillna(&#123;<span class="string">&quot;分数&quot;</span>: <span class="number">0</span>&#125;)</span><br><span class="line"><span class="comment"># 等同于</span></span><br><span class="line">studf.loc[:, <span class="string">&quot;分数&quot;</span>] = studf[<span class="string">&quot;分数&quot;</span>].fillna(<span class="number">0</span>)</span><br><span class="line">studf</span><br><span class="line"></span><br><span class="line"><span class="comment"># 步骤6：将姓名的缺失值填充</span></span><br><span class="line"><span class="comment"># 使用前面的有效值填充，使用ffill: forward fill</span></span><br><span class="line">studf.loc[:, <span class="string">&quot;姓名&quot;</span>] = studf[<span class="string">&quot;姓名&quot;</span>].fillna(method=<span class="string">&quot;ffill&quot;</span>)</span><br><span class="line">studf</span><br><span class="line"></span><br><span class="line"><span class="comment"># 步骤7：将清洗好的excel保存</span></span><br><span class="line">studf.to_excel(<span class="string">&quot;./student_excel_clean2.xlsx&quot;</span>, index=<span class="literal">False</span>)</span><br></pre></td></tr></table></figure>


<h2 id="第八章-Pandas的SettingWithCopyWarning报警"><a href="#第八章-Pandas的SettingWithCopyWarning报警" class="headerlink" title="第八章 Pandas的SettingWithCopyWarning报警"></a>第八章 Pandas的SettingWithCopyWarning报警</h2><h3 id="8-1-错误的复现"><a href="#8-1-错误的复现" class="headerlink" title="8.1 错误的复现"></a>8.1 错误的复现</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df = pd.read_csv(<span class="string">&#x27;./beijing_tianqi_2018.csv&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 只选出3月份的数据用于分析</span></span><br><span class="line">condition = df[<span class="string">&quot;ymd&quot;</span>].<span class="built_in">str</span>.startswith(<span class="string">&quot;2018-03&quot;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 设置温差</span></span><br><span class="line">df[condition][<span class="string">&quot;wen_cha&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 查看是否修改成功</span></span><br><span class="line">df[condition].head()</span><br></pre></td></tr></table></figure>


<h3 id="8-2-原因"><a href="#8-2-原因" class="headerlink" title="8.2 原因"></a>8.2 原因</h3><p>发出警告的代码 <code>df[condition][&quot;wen_cha&quot;] = df[&quot;bWendu&quot;] - df[&quot;yWendu&quot;]</code></p>
<p>相当于:<code>df.get(condition).set(wen cha)</code>，第一步骤的get发出了报警</p>
<p><strong>链式操作其实是两个步骤，先get后set，get得到的dataframe可能是view也可能是copy，pandas发出警告</strong></p>
<p>官网文档:<a target="_blank" rel="noopener" href="https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy">https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy</a></p>
<p>核心要诀：pandas的dataframe的修改写操作，只允许在源dataframe上进行，一步到位</p>
<h3 id="8-3-解决方法"><a href="#8-3-解决方法" class="headerlink" title="8.3 解决方法"></a>8.3 解决方法</h3><h4 id="8-3-1-方案1"><a href="#8-3-1-方案1" class="headerlink" title="8.3.1 方案1"></a>8.3.1 方案1</h4><p>将get+set的两步操作，改成set的一步操作</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df.loc[condition, <span class="string">&quot;wen_cha&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>]</span><br><span class="line">df[condition].head()</span><br></pre></td></tr></table></figure>


<h4 id="8-3-2-方案2"><a href="#8-3-2-方案2" class="headerlink" title="8.3.2 方案2"></a>8.3.2 方案2</h4><p>如果需要预筛选数据做后续的处理分析，使用copy复制dataframe</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">df_month3 = df[condition].copy()</span><br><span class="line">df_month3.head()</span><br><span class="line">df_month3[<span class="string">&quot;wen_cha&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>]</span><br><span class="line">df_month3.head()</span><br></pre></td></tr></table></figure>


<p><strong>总之，pandas不允许先筛选子dataframe，再进行修改写入</strong></p>
<p>要么使用.loc实现一个步骤直接修改源dataframe</p>
<p>要么先复制一个子dataframe再一个步骤执行修改</p>
<h2 id="第九章-Pandas数据排序"><a href="#第九章-Pandas数据排序" class="headerlink" title="第九章 Pandas数据排序"></a>第九章 Pandas数据排序</h2><p>Series的排序:</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">Series.sort_values(ascending=True, inplace=False)</span><br></pre></td></tr></table></figure>

<p>参数说明:</p>
<ul>
<li>ascending:默认为True升序排序，为False降序排序。</li>
<li>inplace:是否修改原始Series</li>
</ul>
<p>DataFrame的排序:</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">DataFrame.sort_values(by, ascending=True, inplace=False)</span><br></pre></td></tr></table></figure>

<p>参数说明:</p>
<ul>
<li>by:字符串或者List&lt;字符串&gt;，单列排序或者多列排序</li>
<li>ascending:bool或者List，升序还是降序，如果是list对应by的多列</li>
<li>inplace:是否修改原始DataFrame</li>
</ul>
<h3 id="9-1-Series排序"><a href="#9-1-Series排序" class="headerlink" title="9.1 Series排序"></a>9.1 Series排序</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&quot;aqi&quot;</span>].sort_values()</span><br><span class="line">df[<span class="string">&quot;aqi&quot;</span>].sort_values(ascending=<span class="literal">False</span>)</span><br><span class="line">df[<span class="string">&quot;tianqi&quot;</span>].sort_values()</span><br></pre></td></tr></table></figure>


<h3 id="9-2-DataFrame排序"><a href="#9-2-DataFrame排序" class="headerlink" title="9.2 DataFrame排序"></a>9.2 DataFrame排序</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 按空气质量等级、最高温度排序，默认升序</span></span><br><span class="line">df.sort_values(by=[<span class="string">&quot;aqiLevel&quot;</span>, <span class="string">&quot;bWendu&quot;</span>])</span><br><span class="line"></span><br><span class="line"><span class="comment"># 两个字段都是降序</span></span><br><span class="line">df.sort_values(by=[<span class="string">&quot;aqiLevel&quot;</span>, <span class="string">&quot;bWendu&quot;</span>], ascending=<span class="literal">False</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 分别指定升序和降序</span></span><br><span class="line">df.sort_values(by=[<span class="string">&quot;aqiLevel&quot;</span>, <span class="string">&quot;bWendu&quot;</span>], ascending=[<span class="literal">True</span>, <span class="literal">False</span>])</span><br></pre></td></tr></table></figure>


<h2 id="第十章-Pandas字符串处理"><a href="#第十章-Pandas字符串处理" class="headerlink" title="第十章 Pandas字符串处理"></a>第十章 Pandas字符串处理</h2><p>前面我们已经使用了字符串的处理函数:</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df[&quot;bWendu&quot;].str.replace(&quot;℃&quot;, &quot;&quot;).astype(&quot;int32&quot;)</span><br></pre></td></tr></table></figure>

<p>Pandas的字符串处理:</p>
<ol>
<li>使用方法:先获取Series的str属性，然后在属性上调用函数</li>
<li>只能在字符串列上使用，不能数字列上使用</li>
<li>Dataframe上没有str属性和处理方法</li>
<li>Series.str并不是Python原生字符串，而是自己的一套方法,，不过大部分和原生str很相似</li>
</ol>
<p>Series.str字符串方法列表参考文档:<br><a target="_blank" rel="noopener" href="https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling">https://pandas.pydata.org/pandas-docs/stable/reference/series.html#string-handling</a></p>
<h3 id="10-1-获取Series的str属性，使用各种字符串处理函数"><a href="#10-1-获取Series的str属性，使用各种字符串处理函数" class="headerlink" title="10.1 获取Series的str属性，使用各种字符串处理函数"></a>10.1 获取Series的str属性，使用各种字符串处理函数</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">str</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 字符串替换函数</span></span><br><span class="line">df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;℃&quot;</span>, <span class="string">&quot;&quot;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 判断是不是数字</span></span><br><span class="line">df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">str</span>.isnumeric()</span><br><span class="line"></span><br><span class="line">df[<span class="string">&quot;aqi&quot;</span>].<span class="built_in">str</span>.<span class="built_in">len</span>()</span><br></pre></td></tr></table></figure>


<h3 id="10-2-使用str的startswith、contains等得到bool的Series可以做条件查询"><a href="#10-2-使用str的startswith、contains等得到bool的Series可以做条件查询" class="headerlink" title="10.2 使用str的startswith、contains等得到bool的Series可以做条件查询"></a>10.2 使用str的startswith、contains等得到bool的Series可以做条件查询</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">condition = df[<span class="string">&quot;ymd&quot;</span>].<span class="built_in">str</span>.startswith(<span class="string">&quot;2018-03&quot;</span>)</span><br><span class="line"></span><br><span class="line">condition</span><br><span class="line"></span><br><span class="line">df[condition].head()</span><br></pre></td></tr></table></figure>


<h3 id="10-3-需要多次str处理的链式操作"><a href="#10-3-需要多次str处理的链式操作" class="headerlink" title="10.3 需要多次str处理的链式操作"></a>10.3 需要多次str处理的链式操作</h3><p>怎样提取201803这样的数字月份？</p>
<ul>
<li>先将日期2018-03-31替换成20180331的形式</li>
<li>提取月份字符串201803</li>
</ul>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&quot;ymd&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;-&quot;</span>, <span class="string">&quot;&quot;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 每次调用函数，都返回一个新Series</span></span><br><span class="line">df[<span class="string">&quot;ymd&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;-&quot;</span>, <span class="string">&quot;&quot;</span>).<span class="built_in">slice</span>(<span class="number">0</span>, <span class="number">6</span>)</span><br><span class="line">df[<span class="string">&quot;ymd&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;-&quot;</span>, <span class="string">&quot;&quot;</span>).<span class="built_in">str</span>.<span class="built_in">slice</span>(<span class="number">0</span>, <span class="number">6</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># slice就是切片语法，可以直接用</span></span><br><span class="line">df[<span class="string">&quot;ymd&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;-&quot;</span>, <span class="string">&quot;&quot;</span>).<span class="built_in">str</span>[<span class="number">0</span>:<span class="number">6</span>]</span><br></pre></td></tr></table></figure>


<h3 id="10-4-使用正则表达式的处理"><a href="#10-4-使用正则表达式的处理" class="headerlink" title="10.4 使用正则表达式的处理"></a>10.4 使用正则表达式的处理</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 添加新列</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">get_nianyueri</span>(<span class="params">x</span>):</span><br><span class="line">	year,month,day = x[<span class="string">&quot;ymd&quot;</span>].split(<span class="string">&quot;-&quot;</span>)</span><br><span class="line">	<span class="keyword">return</span> <span class="string">f&quot;<span class="subst">&#123;year&#125;</span>年<span class="subst">&#123;month&#125;</span>月<span class="subst">&#123;day&#125;</span>日&quot;</span></span><br><span class="line"></span><br><span class="line">df[<span class="string">&quot;中文日期&quot;</span>] = df.apply(get_nianyueri, axis=<span class="number">1</span>)</span><br><span class="line">df[<span class="string">&quot;中文日期&quot;</span>]</span><br></pre></td></tr></table></figure>


<p>问题：怎样将”2018年12月31日”中的年、月、日三个中文字符去除？</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 方法1：链式replace</span></span><br><span class="line">df[<span class="string">&quot;中文日期&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;年&quot;</span>, <span class="string">&quot;&quot;</span>).<span class="built_in">str</span>.replace(<span class="string">&quot;月&quot;</span>, <span class="string">&quot;&quot;</span>).<span class="built_in">str</span>.replace(<span class="string">&quot;日&quot;</span>, <span class="string">&quot;&quot;</span>)</span><br></pre></td></tr></table></figure>

<p><strong>Series.str默认就开启了正则表达式模式</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 方法2：正则表达式替换</span></span><br><span class="line">df[<span class="string">&quot;中文日期&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;[年月日]&quot;</span>, <span class="string">&quot;&quot;</span>)</span><br></pre></td></tr></table></figure>


<h2 id="第十一章-Pandas的axis参数"><a href="#第十一章-Pandas的axis参数" class="headerlink" title="第十一章 Pandas的axis参数"></a>第十一章 Pandas的axis参数</h2><p>Pandas的axis参数怎么理解?</p>
<ol>
<li><p>axis&#x3D;0或者”index”:</p>
<ul>
<li>如果是单行操作，就指的是某一行</li>
<li>如果是聚合操作，指的是跨行cross rows。</li>
</ul>
</li>
<li><p>axis&#x3D;1或者”columns”</p>
<ul>
<li>如果是单列操作，就指的是某一列</li>
<li>如果是聚合操作，指的是跨列cross columns</li>
</ul>
</li>
</ol>
<p><strong>按哪个axis，就是这个axis要动起来(类似被or遍用)，其它的axis保持不动</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line">df = pd.DataFrame(</span><br><span class="line">	np.arange(<span class="number">12</span>).reshape(<span class="number">3</span>, <span class="number">4</span>),</span><br><span class="line">	columns=[<span class="string">&quot;A&quot;</span>, <span class="string">&quot;B&quot;</span>, <span class="string">&quot;C&quot;</span>, <span class="string">&quot;D&quot;</span>]</span><br><span class="line">)</span><br><span class="line">df</span><br></pre></td></tr></table></figure>


<h3 id="11-1-单列drop，就是删除某一列"><a href="#11-1-单列drop，就是删除某一列" class="headerlink" title="11.1 单列drop，就是删除某一列"></a>11.1 单列drop，就是删除某一列</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 代表的就是删除某列</span></span><br><span class="line">df.drop(<span class="string">&quot;A&quot;</span>, axis=<span class="number">1</span>)</span><br></pre></td></tr></table></figure>


<h3 id="11-2-单行drop，就是删除某一行"><a href="#11-2-单行drop，就是删除某一行" class="headerlink" title="11.2 单行drop，就是删除某一行"></a>11.2 单行drop，就是删除某一行</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 代表的就是删除某行</span></span><br><span class="line">df.drop(<span class="number">1</span>, axis=<span class="number">0</span>)</span><br></pre></td></tr></table></figure>


<h3 id="11-3-按axis-0-index执行mean聚合操作"><a href="#11-3-按axis-0-index执行mean聚合操作" class="headerlink" title="11.3 按axis&#x3D;0&#x2F;index执行mean聚合操作"></a>11.3 按axis&#x3D;0&#x2F;index执行mean聚合操作</h3><p>反直觉：输出的不是每行的结果，而是每列的结果</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.mean(axis=<span class="number">0</span>)</span><br></pre></td></tr></table></figure>


<p><strong>指定了按哪个axis，就是这个axis要动起来（类似被for遍历），其它的axis保持不动</strong></p>
<h2 id="第十二章-Pandas的索引index"><a href="#第十二章-Pandas的索引index" class="headerlink" title="第十二章 Pandas的索引index"></a>第十二章 Pandas的索引index</h2><p>把数据存储于普通的column列也能用于数据查询，那使用index有什么好处?</p>
<p>index的用途总结:</p>
<ol>
<li>更方便的数据查询;</li>
<li>使用index可以获得性能提升;</li>
<li>自动的数据对齐功能;</li>
<li>更多更强大的数据结构支持</li>
</ol>
<h3 id="12-1-使用index查询数据"><a href="#12-1-使用index查询数据" class="headerlink" title="12.1 使用index查询数据"></a>12.1 使用index查询数据</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># drop==False, 让索引列还保持在column</span></span><br><span class="line">df.set_index(<span class="string">&quot;userId&quot;</span>, inplace=<span class="literal">True</span>, drop=<span class="literal">False</span>)</span><br><span class="line"></span><br><span class="line">df.head()</span><br><span class="line"></span><br><span class="line">df.index</span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用index的查询方法</span></span><br><span class="line">df.loc[<span class="number">500</span>].head(<span class="number">5</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 使用column的condition查询方法</span></span><br><span class="line">df.loc[df[<span class="string">&quot;userId&quot;</span>] == <span class="number">500</span>].head()</span><br></pre></td></tr></table></figure>


<h3 id="12-2-使用index会提升查询性能"><a href="#12-2-使用index会提升查询性能" class="headerlink" title="12.2 使用index会提升查询性能"></a>12.2 使用index会提升查询性能</h3><ul>
<li>如果index是唯一的，Pandas会使用哈希表优化，查询性能为O(1);</li>
<li>如果index不是唯一的，但是有序，Pandas会使用二分查找算法，查询性能为O(logN);</li>
<li>如果index是完全随机的，那么每次查询都要扫描全表，查询性能为O(N);</li>
</ul>
<h4 id="12-2-1-实验1"><a href="#12-2-1-实验1" class="headerlink" title="12.2.1 实验1"></a>12.2.1 实验1</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 将数据随机打散</span></span><br><span class="line"><span class="keyword">from</span> sklearn.utils <span class="keyword">import</span> shuffle</span><br><span class="line">df_shuffle = shuffle(df)</span><br><span class="line"></span><br><span class="line">df_shuffle.head()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 索引是否是递增的</span></span><br><span class="line">df_shuffle.index.is_monotonic_increasing</span><br><span class="line">df_shuffle.index.is_unique</span><br><span class="line"></span><br><span class="line"><span class="comment"># 计时，查询id==500数据性能</span></span><br><span class="line">%timeit df_shuffle.loc[<span class="number">500</span>]</span><br></pre></td></tr></table></figure>


<h4 id="12-2-2-实验2"><a href="#12-2-2-实验2" class="headerlink" title="12.2.2 实验2"></a>12.2.2 实验2</h4><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br></pre></td><td class="code"><pre><span class="line">df_sorted = df_shuffle.sort_index()</span><br><span class="line">df_sorted.head()</span><br><span class="line"></span><br><span class="line"><span class="comment"># 索引是否是递增的</span></span><br><span class="line">df_sorted.index.is_monotonic_increasing</span><br><span class="line">df_sorted.index.is_unique</span><br><span class="line"></span><br><span class="line">%timeit df_sorted.loc[<span class="number">500</span>]</span><br></pre></td></tr></table></figure>


<h3 id="12-3-使用index能自动对齐数据"><a href="#12-3-使用index能自动对齐数据" class="headerlink" title="12.3 使用index能自动对齐数据"></a>12.3 使用index能自动对齐数据</h3><p>包括series和dataframe</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">s1 = pd.Series([<span class="number">1</span>, <span class="number">2</span>, <span class="number">3</span>], index=<span class="built_in">list</span>(<span class="string">&quot;abc&quot;</span>))</span><br><span class="line">s1</span><br><span class="line"></span><br><span class="line">s2 = pd.Series([<span class="number">2</span>, <span class="number">3</span>, <span class="number">4</span>], index=<span class="built_in">list</span>(<span class="string">&quot;bcd&quot;</span>))</span><br><span class="line">s2</span><br><span class="line"></span><br><span class="line">s1 + s2</span><br></pre></td></tr></table></figure>


<h3 id="12-4-使用index更多更强大的数据结构支持"><a href="#12-4-使用index更多更强大的数据结构支持" class="headerlink" title="12.4 使用index更多更强大的数据结构支持"></a>12.4 使用index更多更强大的数据结构支持</h3><p>很多强大的索引数据结构</p>
<ul>
<li>Categoricallndex，基于分类数据的Index，提升性能</li>
<li>Multilndex，多维索引，用于groupby多维聚合后结果等</li>
<li>Datetimelndex，时间类型索引，强大的日期和时间的方法支持</li>
</ul>
<h2 id="第十三章-Pandas的Merge语法"><a href="#第十三章-Pandas的Merge语法" class="headerlink" title="第十三章 Pandas的Merge语法"></a>第十三章 Pandas的Merge语法</h2><p>Pandas的Merge，相当于Sql的Join，将不同的表按key关联到一个表</p>
<p><strong>merge的语法:</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.merge(left, right, how=&#x27;inner&#x27;, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=(&#x27;_x&#x27;,&#x27;_y&#x27;), copy=True, indicator=False, validate=None)</span><br></pre></td></tr></table></figure>

<ul>
<li>left，right：要merge的dataframe或者有name的Series</li>
<li>how： join类型，”left’,’right’, ‘outer, “inner’</li>
<li>on：join的key，left和right都需要有这个key</li>
<li>left on：left的df或者series的key</li>
<li>right on：right的df或者seires的key</li>
<li>left_index，right_index：使用index而不是普通的column做join</li>
<li>suffixes：两个元素的后缀，如果列有重名，自动添加后缀，默认是(‘_X，’_y’)</li>
</ul>
<p>文档地址：<a target="_blank" rel="noopener" href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html">https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html</a></p>
<p>本次讲解提纲:</p>
<ol>
<li>电影数据集的join实例</li>
<li>理解merge时一对一、一对多、多对多的数量对齐关系</li>
<li>理解left join、right join、inner join、outer join的区别</li>
<li>如果出现非Key的字段重名怎么办</li>
</ol>
<h3 id="13-1-电影数据集的join实例"><a href="#13-1-电影数据集的join实例" class="headerlink" title="13.1 电影数据集的join实例"></a>13.1 电影数据集的join实例</h3><p><strong>电影评分数据集</strong><br>是推荐系统研究的很好的数据集</p>
<p>位于本代码目录：.&#x2F;datas&#x2F;movielens-1m</p>
<p>包含三个文件:</p>
<ol>
<li>用户对电影的评分数据 ratings.dat</li>
<li>用户本身的信息数据 users.dat</li>
<li>电影本身的数据 movies.dat</li>
</ol>
<p>可以关联三个表，得到一个完整的大表<br>数据集官方地址：<a target="_blank" rel="noopener" href="https://grouplens.org/datasets/movielens/">https://grouplens.org/datasets/movielens/</a></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br><span class="line">18</span><br><span class="line">19</span><br><span class="line">20</span><br><span class="line">21</span><br><span class="line">22</span><br><span class="line">23</span><br><span class="line">24</span><br><span class="line">25</span><br><span class="line">26</span><br><span class="line">27</span><br><span class="line">28</span><br><span class="line">29</span><br><span class="line">30</span><br><span class="line">31</span><br><span class="line">32</span><br><span class="line">33</span><br><span class="line">34</span><br><span class="line">35</span><br><span class="line">36</span><br><span class="line">37</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df_ratings = pd.read_csv(</span><br><span class="line">	<span class="string">&quot;./datas/movielens-1m/ratings.dat&quot;</span>,</span><br><span class="line">	sep=<span class="string">&quot;::&quot;</span>,</span><br><span class="line">	engine=<span class="string">&quot;python&quot;</span>,</span><br><span class="line">	names=<span class="string">&quot;UserID::MovieID::Rating::Timestamp&quot;</span>.split(<span class="string">&quot;::&quot;</span>)</span><br><span class="line">)</span><br><span class="line">df_ratings.head()</span><br><span class="line"></span><br><span class="line"></span><br><span class="line">df_users = pd.read_csv(</span><br><span class="line">	<span class="string">&quot;./datas/movielens-1m/users.dat&quot;</span>,</span><br><span class="line">	sep=<span class="string">&quot;::&quot;</span>,</span><br><span class="line">	engine=<span class="string">&quot;python&quot;</span>,</span><br><span class="line">	names=<span class="string">&quot;UserID::Gender::Age::Occupation::Zip-code&quot;</span>.split(<span class="string">&quot;::&quot;</span>)</span><br><span class="line">)</span><br><span class="line">df_users.head()</span><br><span class="line"></span><br><span class="line">df_movies = pd.read_csv(</span><br><span class="line">	<span class="string">&quot;./datas/movielens-1m/movies.dat&quot;</span>,</span><br><span class="line">	sep=<span class="string">&quot;::&quot;</span>,</span><br><span class="line">	engine=<span class="string">&quot;python&quot;</span>,</span><br><span class="line">	names=<span class="string">&quot;MovieID::Title::Genres&quot;</span>.split(<span class="string">&quot;::&quot;</span>)</span><br><span class="line">)</span><br><span class="line">df_movies.head()</span><br><span class="line"></span><br><span class="line"></span><br><span class="line">df_ratings_users = pd.merge(</span><br><span class="line">	df_ratins, df_users, left_on=<span class="string">&quot;UserID&quot;</span>, right_on=<span class="string">&quot;UserID&quot;</span>, how=<span class="string">&quot;inner&quot;</span></span><br><span class="line">)</span><br><span class="line"></span><br><span class="line">df_ratings_users.head()</span><br><span class="line"></span><br><span class="line">df_ratings_users_movies = pd.merge(</span><br><span class="line">	df_ratings_users, df_movies, left_on=<span class="string">&quot;MovieID&quot;</span>, right_on=<span class="string">&quot;MovieID&quot;</span>, how=<span class="string">&quot;inner&quot;</span></span><br><span class="line">)</span><br></pre></td></tr></table></figure>


<h3 id="13-2-理解merge时数量的对齐关系"><a href="#13-2-理解merge时数量的对齐关系" class="headerlink" title="13.2 理解merge时数量的对齐关系"></a>13.2 理解merge时数量的对齐关系</h3><p>以下关系要正确理解:</p>
<ul>
<li><p>one-to-one：一对一关系，关联的key都是唯一的<br>比如(学号，姓名)merge(学号，年龄)<br>结果条数为:1*1</p>
</li>
<li><p>one-to-many：一对多关系，左边唯-key，右边不唯-key。<br>比如(学号，姓名) merge (学号，[语文成绩、数学成绩、英语成绩])<br>结果条数为:1*N</p>
</li>
<li><p>many-to-many：多对多关系，左边右边都不是唯一的<br>比如(学号，[语文成绩、数学成绩、英语成绩]) merge(学号，[篮球、足球、乒乓球])<br>结果条数为:M*N</p>
</li>
</ul>
<h4 id="13-2-1-one-to-one-一对一关系的merge"><a href="#13-2-1-one-to-one-一对一关系的merge" class="headerlink" title="13.2.1 one-to-one 一对一关系的merge"></a>13.2.1 one-to-one 一对一关系的merge</h4><p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1708944858233.png" alt="1708944858233"></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br></pre></td><td class="code"><pre><span class="line">left = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;sno&#x27;</span>: [<span class="number">11</span>, <span class="number">12</span>, <span class="number">13</span>, <span class="number">14</span>],</span><br><span class="line">	<span class="string">&#x27;name&#x27;</span>: [<span class="string">&#x27;name_a&#x27;</span>, <span class="string">&#x27;name_b&#x27;</span>, <span class="string">&#x27;name_c&#x27;</span>, <span class="string">&#x27;name_d&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line">left</span><br><span class="line"></span><br><span class="line">right = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;sno&#x27;</span>: [<span class="number">11</span>, <span class="number">12</span>, <span class="number">13</span>, <span class="number">14</span>],</span><br><span class="line">	<span class="string">&#x27;age&#x27;</span>: [<span class="string">&#x27;12&#x27;</span>, <span class="string">&#x27;22&#x27;</span>, <span class="string">&#x27;23&#x27;</span>, <span class="string">&#x27;24&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line">right</span><br><span class="line"></span><br><span class="line"><span class="comment"># 一对一关系，结果中有4条</span></span><br><span class="line">pd.merge(left, right, on=<span class="string">&#x27;sno&#x27;</span>)</span><br></pre></td></tr></table></figure>


<h4 id="13-2-2-one-to-many-一对多关系的merge"><a href="#13-2-2-one-to-many-一对多关系的merge" class="headerlink" title="13.2.2 one-to-many 一对多关系的merge"></a>13.2.2 one-to-many 一对多关系的merge</h4><p>注意：数据会被复制</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1708945093187.png" alt="1708945093187"></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br></pre></td><td class="code"><pre><span class="line">left = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;sno&#x27;</span>: [<span class="number">11</span>, <span class="number">12</span>, <span class="number">13</span>, <span class="number">14</span>],</span><br><span class="line">	<span class="string">&#x27;name&#x27;</span>: [<span class="string">&#x27;name_a&#x27;</span>, <span class="string">&#x27;name_b&#x27;</span>, <span class="string">&#x27;name_c&#x27;</span>, <span class="string">&#x27;name_d&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line">left</span><br><span class="line"></span><br><span class="line">right = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;sno&#x27;</span>: [<span class="number">11</span>, <span class="number">12</span>, <span class="number">13</span>, <span class="number">14</span>],</span><br><span class="line">	<span class="string">&#x27;age&#x27;</span>: [<span class="string">&#x27;12&#x27;</span>, <span class="string">&#x27;22&#x27;</span>, <span class="string">&#x27;23&#x27;</span>, <span class="string">&#x27;24&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line">right</span><br><span class="line"></span><br><span class="line"><span class="comment"># 数量以多的一边为准</span></span><br><span class="line">pd.merge(left, right, on=<span class="string">&#x27;sno&#x27;</span>)</span><br></pre></td></tr></table></figure>


<h4 id="13-2-3-many-to-many-多对多关系的merge"><a href="#13-2-3-many-to-many-多对多关系的merge" class="headerlink" title="13.2.3 many-to-many 多对多关系的merge"></a>13.2.3 many-to-many 多对多关系的merge</h4><p>注意:结果数量会出现乘法</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1708945142710.png" alt="1708945142710"></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line">left = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;sno&#x27;</span>: [<span class="number">11</span>, <span class="number">11</span>, <span class="number">12</span>, <span class="number">12</span>, <span class="number">12</span>],</span><br><span class="line">	<span class="string">&#x27;爱好&#x27;</span>: [<span class="string">&#x27;篮球&#x27;</span>, <span class="string">&#x27;羽毛球&#x27;</span>, <span class="string">&#x27;乒乓球&#x27;</span>, <span class="string">&#x27;篮球&#x27;</span>, <span class="string">&#x27;足球&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line"></span><br><span class="line">right = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;sno&#x27;</span>: [<span class="number">11</span>, <span class="number">11</span>, <span class="number">12</span>, <span class="number">12</span>, <span class="number">12</span>],</span><br><span class="line">	<span class="string">&#x27;grade&#x27;</span>: [<span class="string">&#x27;语文88&#x27;</span>, <span class="string">&#x27;数学90&#x27;</span>, <span class="string">&#x27;英语75&#x27;</span>, <span class="string">&#x27;语文66&#x27;</span>, <span class="string">&#x27;数学55&#x27;</span>, <span class="string">&#x27;英语29&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line"></span><br><span class="line">pd.merge(left, right, on=<span class="string">&#x27;sno&#x27;</span>)</span><br></pre></td></tr></table></figure>


<h3 id="13-3-理解left-join、right-join、inner-join、outer-join的区别"><a href="#13-3-理解left-join、right-join、inner-join、outer-join的区别" class="headerlink" title="13.3 理解left join、right join、inner join、outer join的区别"></a>13.3 理解left join、right join、inner join、outer join的区别</h3><p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1708945404353.png" alt="1708945404353"></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line">left = pd.DataFrame(&#123;</span><br><span class="line">  <span class="string">&#x27;key&#x27;</span>: [<span class="string">&#x27;K0&#x27;</span>, <span class="string">&#x27;K1&#x27;</span>, <span class="string">&#x27;K2&#x27;</span>, <span class="string">&#x27;K3&#x27;</span>],</span><br><span class="line">  <span class="string">&#x27;A&#x27;</span>: [<span class="string">&#x27;A0&#x27;</span>, <span class="string">&#x27;A1&#x27;</span>, <span class="string">&#x27;A2&#x27;</span>, <span class="string">&#x27;A3&#x27;</span>],</span><br><span class="line">  <span class="string">&#x27;B&#x27;</span>: [<span class="string">&#x27;B0&#x27;</span>, <span class="string">&#x27;B1&#x27;</span>, <span class="string">&#x27;B2&#x27;</span>, <span class="string">&#x27;B3&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line"></span><br><span class="line">right = pd.DataFrame(&#123;</span><br><span class="line">  <span class="string">&#x27;key&#x27;</span>: [<span class="string">&#x27;K0&#x27;</span>, <span class="string">&#x27;K1&#x27;</span>, <span class="string">&#x27;K4&#x27;</span>, <span class="string">&#x27;K5&#x27;</span>],</span><br><span class="line">  <span class="string">&#x27;C&#x27;</span>: [<span class="string">&#x27;C0&#x27;</span>, <span class="string">&#x27;C1&#x27;</span>, <span class="string">&#x27;C4&#x27;</span>, <span class="string">&#x27;C5&#x27;</span>],</span><br><span class="line">  <span class="string">&#x27;D&#x27;</span>: [<span class="string">&#x27;D0&#x27;</span>, <span class="string">&#x27;D1&#x27;</span>, <span class="string">&#x27;D4&#x27;</span>, <span class="string">&#x27;D5&#x27;</span>]</span><br><span class="line">&#125;)</span><br></pre></td></tr></table></figure>


<h4 id="13-3-1-inner-join-默认"><a href="#13-3-1-inner-join-默认" class="headerlink" title="13.3.1 inner join 默认"></a>13.3.1 inner join 默认</h4><p>左边和右边的key都有，才会出现在结果里面</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.merge(left, right, how=<span class="string">&quot;inner&quot;</span>)</span><br></pre></td></tr></table></figure>


<h4 id="13-3-2-left-join"><a href="#13-3-2-left-join" class="headerlink" title="13.3.2 left join"></a>13.3.2 left join</h4><p>左边的都会出现在结果里，右边的如果没法匹配则为Null</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.merge(left, right, how=<span class="string">&quot;left&quot;</span>)</span><br></pre></td></tr></table></figure>


<h4 id="13-3-3-right-join"><a href="#13-3-3-right-join" class="headerlink" title="13.3.3 right join"></a>13.3.3 right join</h4><p>右边的都会出现在结果里，左边的如果无法匹配则为Null</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.merge(left, right, how=<span class="string">&#x27;right&#x27;</span>)</span><br></pre></td></tr></table></figure>


<h4 id="13-3-4-outer-join"><a href="#13-3-4-outer-join" class="headerlink" title="13.3.4 outer join"></a>13.3.4 outer join</h4><p>左边、右边的都会出现在结果里，如果无法匹配则为Null</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.merge(left, right, how=<span class="string">&#x27;outer&#x27;</span>)</span><br></pre></td></tr></table></figure>


<h3 id="13-4-如果出现非Key的字段重名怎么办？"><a href="#13-4-如果出现非Key的字段重名怎么办？" class="headerlink" title="13.4 如果出现非Key的字段重名怎么办？"></a>13.4 如果出现非Key的字段重名怎么办？</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br></pre></td><td class="code"><pre><span class="line">left = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;key&#x27;</span>: [<span class="string">&#x27;K0&#x27;</span>, <span class="string">&#x27;K1&#x27;</span>, <span class="string">&#x27;K2&#x27;</span>, <span class="string">&#x27;K3&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;A&#x27;</span>: [<span class="string">&#x27;A0&#x27;</span>, <span class="string">&#x27;A1&#x27;</span>, <span class="string">&#x27;A2&#x27;</span>, <span class="string">&#x27;A3&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;B&#x27;</span>: [<span class="string">&#x27;B0&#x27;</span>, <span class="string">&#x27;B1&#x27;</span>, <span class="string">&#x27;B2&#x27;</span>, <span class="string">&#x27;B3&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line"></span><br><span class="line">right = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;key&#x27;</span>: [<span class="string">&#x27;K0&#x27;</span>, <span class="string">&#x27;K1&#x27;</span>, <span class="string">&#x27;K4&#x27;</span>, <span class="string">&#x27;K5&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;A&#x27;</span>: [<span class="string">&#x27;A10&#x27;</span>, <span class="string">&#x27;A11&#x27;</span>, <span class="string">&#x27;A12&#x27;</span>, <span class="string">&#x27;A13&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;D&#x27;</span>: [<span class="string">&#x27;D0&#x27;</span>, <span class="string">&#x27;D1&#x27;</span>, <span class="string">&#x27;D2&#x27;</span>, <span class="string">&#x27;D5&#x27;</span>]</span><br><span class="line">&#125;)</span><br><span class="line"></span><br><span class="line">pd.merge(left, right, on=<span class="string">&#x27;key&#x27;</span>)</span><br><span class="line">pd.merge(left, right, on=<span class="string">&#x27;key&#x27;</span>, suffixes=(<span class="string">&#x27;_left&#x27;</span>, <span class="string">&#x27;_right&#x27;</span>))</span><br></pre></td></tr></table></figure>


<h2 id="第十四章-Pandas的Concat合并"><a href="#第十四章-Pandas的Concat合并" class="headerlink" title="第十四章 Pandas的Concat合并"></a>第十四章 Pandas的Concat合并</h2><p><strong>使用场景:</strong></p>
<p>批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列</p>
<p><strong>一句话说明concat语法:</strong></p>
<ul>
<li>使用某种合并方式(inner&#x2F;outer)</li>
<li>沿着某个轴向(axis&#x3D;0&#x2F;1)</li>
<li>把多个Pandas对象(DataFrame&#x2F;Series)合并成一个。</li>
</ul>
<p><strong>concat语法：pandas.concat(objs, axis&#x3D;0, join&#x3D;’outer’, ignore_index&#x3D;False)</strong></p>
<ul>
<li>objs:一个列表，内容可以是DataFrame或者Series，可以混合。axis:默认是0代表按行合并，如果等于1代表按列合并</li>
<li>join:合并的时候索引的对齐方式，默认是outerjoin，也可以是inner join</li>
<li>ignore_index:是否忽略掉原来的数据索引</li>
</ul>
<p><strong>append语法:DataFrame.append(other,  ignore_index&#x3D;False)</strong></p>
<p>append只有按行合并，没有按列合并，相当于concat按行的简写形式</p>
<ul>
<li>other:单个dataframe、series、dict，或者列表</li>
<li>ignore_index:是否忽略掉原来的数据索引</li>
</ul>
<p>参考文档:<br>pandas.concat的api文档:<a target="_blank" rel="noopener" href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.htm">https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.htm</a><br>pandas.concat的教程:<a target="_blank" rel="noopener" href="https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html">https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html</a><br>pandas.append的api文档:<a target="_blank" rel="noopener" href="https://pandas.pydata.org/pandas-docs/reference/api/pandas.DataFrame.append.html">https://pandas.pydata.org/pandas-docs/reference/api/pandas.DataFrame.append.html</a></p>
<h3 id="14-1-使用pandas-concat合并数据"><a href="#14-1-使用pandas-concat合并数据" class="headerlink" title="14.1 使用pandas.concat合并数据"></a>14.1 使用pandas.concat合并数据</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br></pre></td><td class="code"><pre><span class="line">df1 = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;A&#x27;</span>: [<span class="string">&quot;A0&quot;</span>, <span class="string">&quot;A1&quot;</span>, <span class="string">&quot;A2&quot;</span>, <span class="string">&quot;A3&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;B&#x27;</span>: [<span class="string">&quot;B0&quot;</span>, <span class="string">&quot;B1&quot;</span>, <span class="string">&quot;B2&quot;</span>, <span class="string">&quot;B3&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;C&#x27;</span>: [<span class="string">&quot;C0&quot;</span>, <span class="string">&quot;C1&quot;</span>, <span class="string">&quot;C2&quot;</span>, <span class="string">&quot;C3&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;D&#x27;</span>: [<span class="string">&quot;D0&quot;</span>, <span class="string">&quot;D1&quot;</span>, <span class="string">&quot;D2&quot;</span>, <span class="string">&quot;D3&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;E&#x27;</span>: [<span class="string">&quot;E0&quot;</span>, <span class="string">&quot;E1&quot;</span>, <span class="string">&quot;E2&quot;</span>, <span class="string">&quot;E3&quot;</span>],</span><br><span class="line">&#125;)</span><br><span class="line"></span><br><span class="line">df2 = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;A&#x27;</span>: [<span class="string">&quot;A4&quot;</span>, <span class="string">&quot;A5&quot;</span>, <span class="string">&quot;A6&quot;</span>, <span class="string">&quot;A7&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;B&#x27;</span>: [<span class="string">&quot;B4&quot;</span>, <span class="string">&quot;B5&quot;</span>, <span class="string">&quot;B6&quot;</span>, <span class="string">&quot;B7&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;C&#x27;</span>: [<span class="string">&quot;C4&quot;</span>, <span class="string">&quot;C5&quot;</span>, <span class="string">&quot;C6&quot;</span>, <span class="string">&quot;C7&quot;</span>],</span><br><span class="line">	<span class="string">&#x27;D&#x27;</span>: [<span class="string">&quot;D4&quot;</span>, <span class="string">&quot;D5&quot;</span>, <span class="string">&quot;D6&quot;</span>, <span class="string">&quot;D7&quot;</span>],</span><br><span class="line">	<span class="comment"># 此处不同</span></span><br><span class="line">	<span class="string">&#x27;F&#x27;</span>: [<span class="string">&quot;F4&quot;</span>, <span class="string">&quot;F5&quot;</span>, <span class="string">&quot;F6&quot;</span>, <span class="string">&quot;F7&quot;</span>],</span><br><span class="line">&#125;)</span><br></pre></td></tr></table></figure>


<p><strong>14.1.1 默认的concat, 参数为axis&#x3D;0，join&#x3D;outer，ignore_index&#x3D;False</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.concat([df1, df2])</span><br></pre></td></tr></table></figure>


<p><strong>14.1.2 使用ignore_index&#x3D;True可以忽略原来的索引</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.concat([df1, df2], ignore_index=<span class="literal">True</span>)</span><br></pre></td></tr></table></figure>


<p><strong>14.1.3 使用join&#x3D;inner过滤掉不匹配的列</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">pd.concat([df1, df2], ignore_index=True, join=&quot;inner&quot;)</span><br></pre></td></tr></table></figure>


<p><strong>14.1.4 使用axis&#x3D;1相当于添加新列</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br><span class="line">15</span><br><span class="line">16</span><br><span class="line">17</span><br></pre></td><td class="code"><pre><span class="line">df1</span><br><span class="line"></span><br><span class="line"><span class="comment"># A: 添加一列Series</span></span><br><span class="line">s1 = pd.Series(<span class="built_in">list</span>(<span class="built_in">range</span>(<span class="number">4</span>)), name=<span class="string">&#x27;F&#x27;</span>)</span><br><span class="line">pd.concat([df1, s1], axis=<span class="number">1</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># B：添加多列Series</span></span><br><span class="line">s2 = df1.apply(<span class="keyword">lambda</span> x: x[<span class="string">&quot;A&quot;</span>] + <span class="string">&quot;_GG&quot;</span>, axis=<span class="number">1</span>)</span><br><span class="line">s2</span><br><span class="line">s2.name = <span class="string">&quot;G&quot;</span></span><br><span class="line">pd.concat([df1, s1, s2], axis=<span class="number">1</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 列表可以只有Series</span></span><br><span class="line">pd.concat([s1, s2], axis=<span class="number">1</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 列表可以混合顺序的</span></span><br><span class="line">pd.concat([s1, df1, s2], axis=<span class="number">1</span>)</span><br></pre></td></tr></table></figure>


<h3 id="14-2-使用DataFrame-append按行合并数据"><a href="#14-2-使用DataFrame-append按行合并数据" class="headerlink" title="14.2 使用DataFrame.append按行合并数据"></a>14.2 使用DataFrame.append按行合并数据</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line">df1 = pd.DataFrame([[<span class="number">1</span>, <span class="number">2</span>], [<span class="number">3</span>, <span class="number">4</span>]], columns=<span class="built_in">list</span>(<span class="string">&#x27;AB&#x27;</span>))</span><br><span class="line">df1</span><br><span class="line"></span><br><span class="line">df2 = pd.DataFrame([[<span class="number">5</span>, <span class="number">6</span>], [<span class="number">7</span>, <span class="number">8</span>]], columns=<span class="built_in">list</span>(<span class="string">&#x27;AB&#x27;</span>))</span><br><span class="line">df2</span><br></pre></td></tr></table></figure>


<p><strong>14.2.1 给1个dataframe添加另一个dataframe</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df1.append(df2)</span><br></pre></td></tr></table></figure>


<p><strong>14.2.2 忽略原来的索引ignore_index&#x3D;True</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df1.append(df2, ignore_index=True)</span><br></pre></td></tr></table></figure>


<p><strong>14.2.3 可以一行一行的给DataFrame添加数据</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 一个空的df</span></span><br><span class="line">df = pd.DataFrame(columns=[<span class="string">&#x27;A&#x27;</span>])</span><br><span class="line">df</span><br></pre></td></tr></table></figure>


<p><strong>A: 低性能版本</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">for</span> i <span class="keyword">in</span> <span class="built_in">range</span>(<span class="number">5</span>):</span><br><span class="line">	<span class="comment"># 注意这里每次都在复制</span></span><br><span class="line">	df = df.append(&#123;<span class="string">&#x27;A&#x27;</span>: i&#125;, ignore_index=<span class="literal">True</span>)</span><br><span class="line">df</span><br></pre></td></tr></table></figure>


<p><strong>B：性能较好的版本</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 第一个入参是一个列表，避免了多次复制</span></span><br><span class="line">pd.concat(</span><br><span class="line">	[pd.DataFrame([i], columns=[<span class="string">&#x27;A&#x27;</span>]) <span class="keyword">for</span> i <span class="keyword">in</span> <span class="built_in">range</span>(<span class="number">5</span>)],</span><br><span class="line">	ignore_index=<span class="literal">True</span></span><br><span class="line">)</span><br></pre></td></tr></table></figure>


<h2 id="第十五章-Pandas批量拆分与合并Excel文件"><a href="#第十五章-Pandas批量拆分与合并Excel文件" class="headerlink" title="第十五章 Pandas批量拆分与合并Excel文件"></a>第十五章 Pandas批量拆分与合并Excel文件</h2><p>实例演示:</p>
<ol>
<li><p>将一个大Excel等份拆成多个Excel</p>
</li>
<li><p>将多个小Excel合并成一个大Excel并标记来源</p>
</li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line">work_dir = <span class="string">&quot;./course_datas/c15_excel_split_merge&quot;</span></span><br><span class="line">splits_dir = <span class="string">f&quot;<span class="subst">&#123;work_dir&#125;</span>/splits&quot;</span></span><br><span class="line"></span><br><span class="line"><span class="keyword">import</span> os</span><br><span class="line"><span class="keyword">if</span> <span class="keyword">not</span> os.path.exists(splits_dir):</span><br><span class="line">	os.mkdir(splits_dir)</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df_source = pd.read_excel(<span class="string">f&quot;<span class="subst">&#123;work_dir&#125;</span>/abc.xlsx&quot;</span>)</span><br><span class="line">df_source.head()</span><br><span class="line">df_source.index</span><br><span class="line">df_source.shape</span><br><span class="line"></span><br><span class="line">total_row_count = df_source.shape[<span class="number">0</span>]</span><br><span class="line">total_row_count</span><br></pre></td></tr></table></figure>


<h3 id="15-1-将一个大Excel等份拆成多个Excel"><a href="#15-1-将一个大Excel等份拆成多个Excel" class="headerlink" title="15.1 将一个大Excel等份拆成多个Excel"></a>15.1 将一个大Excel等份拆成多个Excel</h3><ol>
<li><p>使用df.iloc方法，将一个大的dataframe，拆分成多个小dataframe</p>
</li>
<li><p>将使用dataframe.to_excel保存每个小Excel</p>
</li>
<li><p><strong>计算拆分后的每个excel的行数</strong></p>
</li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 这个大excel，会拆分给这几个人</span></span><br><span class="line">user_names = [<span class="string">&quot;xiao_shuai&quot;</span>, <span class="string">&quot;xiao_wang&quot;</span>, <span class="string">&quot;xiao_ming&quot;</span>, <span class="string">&quot;xiao_lei&quot;</span>, <span class="string">&quot;xiao_bo&quot;</span>, <span class="string">&quot;xiao_hong&quot;</span>]</span><br><span class="line"></span><br><span class="line"><span class="comment"># 每个人的任务数目</span></span><br><span class="line">split_size = total_row_count // <span class="built_in">len</span>(user_names)</span><br><span class="line"><span class="keyword">if</span> total_row_count % <span class="built_in">len</span>(user_names) != <span class="number">0</span>:</span><br><span class="line">    split_size += <span class="number">1</span></span><br><span class="line">    </span><br><span class="line">split_size</span><br></pre></td></tr></table></figure>


<ol start="2">
<li><strong>拆分成多个dataframe</strong></li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line">df_subs = []</span><br><span class="line"></span><br><span class="line"><span class="keyword">if</span> idx, user_name <span class="keyword">in</span> <span class="built_in">enumerate</span>(user_name):</span><br><span class="line">	<span class="comment"># iloc的开始索引</span></span><br><span class="line">    begin = idx * split_size</span><br><span class="line">    <span class="comment"># iloc的结束索引</span></span><br><span class="line">    end = begin + split_size</span><br><span class="line">    <span class="comment"># 实现df按照iloc拆分</span></span><br><span class="line">    df_sub = df_source.iloc[begin:end]</span><br><span class="line">    <span class="comment"># 将每个子df存入列表</span></span><br><span class="line">    df_subs.append((idx, user_name, df_sub))</span><br></pre></td></tr></table></figure>


<ol start="3">
<li><strong>将每个datafame存入excel</strong><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">for</span> idx, user_name, df_sub <span class="keyword">in</span> df_subs:</span><br><span class="line">    file_name = <span class="string">f&quot;<span class="subst">&#123;splits_dir&#125;</span>/abc_<span class="subst">&#123;idx&#125;</span>_<span class="subst">&#123;user_name&#125;</span>.xlsx&quot;</span></span><br><span class="line">    df_sub.to_excel(file_name, index=<span class="literal">False</span>)</span><br></pre></td></tr></table></figure></li>
</ol>
<h3 id="15-2-合并多个小Excel到一个大Excel"><a href="#15-2-合并多个小Excel到一个大Excel" class="headerlink" title="15.2 合并多个小Excel到一个大Excel"></a>15.2 合并多个小Excel到一个大Excel</h3><ol>
<li><strong>遍历文件夹，得到要合并的Excel文件列表</strong></li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> os</span><br><span class="line"></span><br><span class="line">excel_names = []</span><br><span class="line"><span class="keyword">for</span> excel_name <span class="keyword">in</span> os.listdir(splits_dir):</span><br><span class="line">    excel_names.append(excel_name)</span><br><span class="line">excel_names</span><br></pre></td></tr></table></figure>


<ol start="2">
<li><strong>分别读取到dataframe，给每个df添加一列用于标记来源</strong></li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br><span class="line">14</span><br></pre></td><td class="code"><pre><span class="line">df_list = []</span><br><span class="line"></span><br><span class="line"><span class="keyword">for</span> excel_name <span class="keyword">in</span> excel_names</span><br><span class="line">	<span class="comment"># 读取每个excel到df</span></span><br><span class="line">    excel_path = <span class="string">f&quot;<span class="subst">&#123;splits_dir&#125;</span>/<span class="subst">&#123;excel_name&#125;</span>&quot;</span></span><br><span class="line">    df_split = pd.read_excel(excel_path)</span><br><span class="line">    </span><br><span class="line">    <span class="comment"># 得到username</span></span><br><span class="line">    username = excel_name.replace(<span class="string">&quot;abcd_articles_&quot;</span>, <span class="string">&quot;&quot;</span>).replace(<span class="string">&quot;.xlsx&quot;</span>, <span class="string">&quot;&quot;</span>)[<span class="number">2</span>:]</span><br><span class="line">    <span class="built_in">print</span>(excel_name, username)</span><br><span class="line">    <span class="comment"># 给每个df添加1列，即用户名字</span></span><br><span class="line">    df_split[<span class="string">&#x27;username&#x27;</span>] = username</span><br><span class="line">    </span><br><span class="line">    df_list.append(df_split)</span><br></pre></td></tr></table></figure>


<ol start="3">
<li><strong>使用pd.concat进行df批量合并</strong></li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">df_merged = pd.concat(df_list)</span><br><span class="line">df_merged.shape</span><br><span class="line">df_merged.head()</span><br><span class="line">df_merged[<span class="string">&quot;username&quot;</span>].value_counts()</span><br></pre></td></tr></table></figure>


<ol start="4">
<li>将合并后的dataframe输出到excel</li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_merged.to_excel(<span class="string">f&quot;<span class="subst">&#123;work_dir&#125;</span>/dec.xlsx&quot;</span>, index=<span class="literal">False</span>)</span><br></pre></td></tr></table></figure>


<h2 id="第十六章-Pandas实现groupby分组统计"><a href="#第十六章-Pandas实现groupby分组统计" class="headerlink" title="第十六章 Pandas实现groupby分组统计"></a>第十六章 Pandas实现groupby分组统计</h2><p>类似SQL:</p>
<figure class="highlight sql"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">select</span> city, <span class="built_in">max</span>(temperature) <span class="keyword">from</span> city_weather <span class="keyword">group</span> <span class="keyword">by</span> city</span><br></pre></td></tr></table></figure>

<p>groupby:先对数据分组，然后在每个分组上应用聚合函数、转换函数</p>
<p>本次演示:</p>
<ol>
<li>分组使用聚合函数做数据统计</li>
<li>遍历groupby的结果理解执行流程</li>
<li>实例分组探索天气数据</li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line"></span><br><span class="line"><span class="comment"># 加上这一句，能在jupyter notebook展示matplot图表</span></span><br><span class="line">%matplotlib inline</span><br><span class="line"></span><br><span class="line">df = pd.DataFrame(&#123;</span><br><span class="line">	<span class="string">&#x27;A&#x27;</span>: [<span class="string">&#x27;foo&#x27;</span>, <span class="string">&#x27;bar&#x27;</span>, <span class="string">&#x27;foo&#x27;</span>, <span class="string">&#x27;bar&#x27;</span>, <span class="string">&#x27;foo&#x27;</span>, <span class="string">&#x27;bar&#x27;</span>, <span class="string">&#x27;foo&#x27;</span>, <span class="string">&#x27;foo&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;B&#x27;</span>: [<span class="string">&#x27;one&#x27;</span>, <span class="string">&#x27;one&#x27;</span>, <span class="string">&#x27;two&#x27;</span>, <span class="string">&#x27;three&#x27;</span>, <span class="string">&#x27;two&#x27;</span>, <span class="string">&#x27;two&#x27;</span>, <span class="string">&#x27;one&#x27;</span>, <span class="string">&#x27;three&#x27;</span>],</span><br><span class="line">	<span class="string">&#x27;C&#x27;</span>: np.random.randn(<span class="number">8</span>),</span><br><span class="line">	<span class="string">&#x27;D&#x27;</span>: np.random.randn(<span class="number">8</span>)</span><br><span class="line">&#125;)</span><br></pre></td></tr></table></figure>


<h3 id="16-1-分组使用聚合函数做数据统计"><a href="#16-1-分组使用聚合函数做数据统计" class="headerlink" title="16.1 分组使用聚合函数做数据统计"></a>16.1 分组使用聚合函数做数据统计</h3><p><strong>16.1.1 单个列groupby，查询所有数据列的统计</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.groupby(&#x27;A&#x27;).sum()</span><br></pre></td></tr></table></figure>


<p>我们看到:</p>
<ol>
<li><p>groupby中的’A’变成了数据的索引列</p>
</li>
<li><p>因为要统计sum，但B列不是数字，所以被自动忽略掉</p>
</li>
</ol>
<p><strong>16.1.2 多个列groupby，查询所有数据列的统计</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.groupby([<span class="string">&#x27;A&#x27;</span>, <span class="string">&#x27;B&#x27;</span>]).mean()</span><br></pre></td></tr></table></figure>

<p>我们看到：(‘A’, ‘B’)成对变成了二级索引</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.groupby([<span class="string">&#x27;A&#x27;</span>, <span class="string">&#x27;B&#x27;</span>], as_index=<span class="literal">False</span>).mean()</span><br></pre></td></tr></table></figure>


<p><strong>16.1.3 同时查看多种数据统计</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.groupby(<span class="string">&#x27;A&#x27;</span>).agg([np.<span class="built_in">sum</span>, np.mean, np.std])</span><br></pre></td></tr></table></figure>


<p><strong>16.1.4 查看单列的结果数据统计</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"># 方法1：预过滤，性能更好</span><br><span class="line">df.groupby(&#x27;A&#x27;)[&#x27;C&#x27;].agg([np.sum, np.mean, np.std])</span><br><span class="line"></span><br><span class="line"># 方法2</span><br><span class="line">df.groupby(&#x27;A&#x27;).agg([np.sum, np.mean, np.std])[&#x27;C&#x27;]</span><br></pre></td></tr></table></figure>


<p><strong>16.1.5 不同列使用不同的聚合函数</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.groupby(&#x27;A&#x27;).agg(&#123;&#x27;C&#x27;: np.sum, &#x27;D&#x27;: np.mean&#125;)</span><br></pre></td></tr></table></figure>


<h3 id="16-2-遍历groupby的结果理解执行流程"><a href="#16-2-遍历groupby的结果理解执行流程" class="headerlink" title="16.2 遍历groupby的结果理解执行流程"></a>16.2 遍历groupby的结果理解执行流程</h3><p>for循环可以直接遍历每个group</p>
<p><strong>16.2.1 遍历单个列聚合的分组</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line">g = df.groupby(<span class="string">&#x27;A&#x27;</span>)</span><br><span class="line"></span><br><span class="line"><span class="keyword">for</span> name, group <span class="keyword">in</span> g:</span><br><span class="line">	<span class="built_in">print</span>(name)</span><br><span class="line">	<span class="built_in">print</span>(group)</span><br><span class="line">	<span class="built_in">print</span>()</span><br><span class="line">	</span><br><span class="line"><span class="comment"># 可以获取单个分组的数据</span></span><br><span class="line">g.get_group(<span class="string">&#x27;bar&#x27;</span>)</span><br></pre></td></tr></table></figure>


<p><strong>16.2.2 遍历多个列聚合的分组</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line">g = df.groupby([<span class="string">&#x27;A&#x27;</span>, <span class="string">&#x27;B&#x27;</span>])</span><br><span class="line"></span><br><span class="line"><span class="keyword">for</span> name,group <span class="keyword">in</span> g:</span><br><span class="line">	<span class="built_in">print</span>(name)</span><br><span class="line">	<span class="built_in">print</span>(group)</span><br><span class="line">	<span class="built_in">print</span>()</span><br><span class="line">    </span><br><span class="line"><span class="comment"># 可以看到，name是一个2个元素的tuple，代表不同的列</span></span><br><span class="line">g.get_group((<span class="string">&#x27;foo&#x27;</span>, <span class="string">&#x27;one&#x27;</span>))</span><br></pre></td></tr></table></figure>

<p>可以直接查询group后的某个列，生成Series或者子DataFrame</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">g[<span class="string">&#x27;C&#x27;</span>]</span><br><span class="line"></span><br><span class="line"><span class="keyword">for</span> name, group <span class="keyword">in</span> g[<span class="string">&#x27;C&#x27;</span>]:</span><br><span class="line">	<span class="built_in">print</span>(name)</span><br><span class="line">	<span class="built_in">print</span>(group)</span><br><span class="line">	<span class="built_in">print</span>(<span class="built_in">type</span>(group))</span><br><span class="line">	<span class="built_in">print</span>()</span><br></pre></td></tr></table></figure>

<p>其实所有的聚合统计，都是在datafame和series上进行的；</p>
<h3 id="16-3-实例分组探索天气数据"><a href="#16-3-实例分组探索天气数据" class="headerlink" title="16.3 实例分组探索天气数据"></a>16.3 实例分组探索天气数据</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line">fpath = &#x27;./datas/beijing_tianqi/beijing_tianqi_2018.csv&#x27;</span><br><span class="line">df = pd.read_csv(fpath)</span><br><span class="line"></span><br><span class="line"># 替换掉温度的后缀℃</span><br><span class="line">df.loc[:, &#x27;bWendu&#x27;] = df[&#x27;bWendu&#x27;].str.replace(&quot;℃&quot;, &quot;&quot;).astype(&#x27;int32&#x27;)</span><br><span class="line">df.loc[:, &#x27;yWendu&#x27;] = df[&#x27;yWendu&#x27;].str.replace(&quot;℃&quot;, &quot;&quot;).astype(&#x27;int32&#x27;)</span><br><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 新增一列为月份</span></span><br><span class="line">df[<span class="string">&#x27;month&#x27;</span>] = df[<span class="string">&#x27;ymd&#x27;</span>].<span class="built_in">str</span>[:<span class="number">7</span>]</span><br><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<p><strong>16.3.1、查看每个月的最高温度</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">data = df.groupby(<span class="string">&#x27;month&#x27;</span>)[<span class="string">&#x27;bWendu&#x27;</span>].<span class="built_in">max</span>()</span><br><span class="line">data</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">type(data)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">data.plot()</span><br></pre></td></tr></table></figure>


<p><strong>16.3.2 查看每个月的最高温度、最低温度、平均空气质量指数</strong></p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">group_data = df.groupby(<span class="string">&#x27;month&#x27;</span>).agg(&#123;<span class="string">&quot;bWendu&quot;</span>: np.<span class="built_in">max</span>, <span class="string">&quot;yWendu&quot;</span>: np.<span class="built_in">min</span>, <span class="string">&quot;aqi&quot;</span>: np.mean&#125;)</span><br><span class="line">group_data</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">group_data.plot()</span><br></pre></td></tr></table></figure>


<h2 id="第十七章-Pandas的分层索引Multilndex"><a href="#第十七章-Pandas的分层索引Multilndex" class="headerlink" title="第十七章 Pandas的分层索引Multilndex"></a>第十七章 Pandas的分层索引Multilndex</h2><p>本实验的数据，可以在：<a target="_blank" rel="noopener" href="http://tushare.org/index.html#id5%E8%BF%9B%E8%A1%8C%E4%B8%8B%E8%BD%BD">http://tushare.org/index.html#id5进行下载</a></p>
<p><strong>为什么要学习分层索引Multilndex?</strong></p>
<ul>
<li>分层索引:在一个轴向上拥有多个索引层级，可以表达更高维度数据的形式;</li>
<li>可以更方便的进行数据筛选，如果有序则性能更好;</li>
<li>groupby等操作的结果，如果是多KEY，结果是分层索引，需要会使用。</li>
<li>一般不需要自己创建分层索引(Multilndex有构造函数但一般不用)</li>
<li>演示数据:百度、阿里巴巴、爱奇艺、京东四家公司的10天股票数据<br>数据来自:英为财经 <a target="_blank" rel="noopener" href="https://cn.investing.com/">https://cn.investing.com/</a></li>
</ul>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line">%matplotlib inline</span><br><span class="line"></span><br><span class="line">stocks = pd.read_excel(<span class="string">&#x27;./datas/stocks/互联网公司股票.xlsx&#x27;</span>)</span><br><span class="line">stocks.shape</span><br><span class="line">stocks.head(<span class="number">3</span>)</span><br><span class="line">stocks[<span class="string">&#x27;公司&#x27;</span>].unique()</span><br><span class="line">stocks.index</span><br><span class="line">stocks.groupby(<span class="string">&#x27;公司&#x27;</span>)[<span class="string">&#x27;收盘&#x27;</span>].mean()</span><br></pre></td></tr></table></figure>


<h3 id="17-1-Series的分层索引Multilndex"><a href="#17-1-Series的分层索引Multilndex" class="headerlink" title="17.1 Series的分层索引Multilndex"></a>17.1 Series的分层索引Multilndex</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">ser = stocks.groupby([<span class="string">&#x27;公司&#x27;</span>, <span class="string">&#x27;日期&#x27;</span>])[<span class="string">&#x27;收盘&#x27;</span>].mean()</span><br><span class="line">ser</span><br></pre></td></tr></table></figure>

<p>多维索引中，空白的意思是：使用上面的值</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ser.index</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"># unstack把二级索引变成列</span><br><span class="line">ser.unstack()</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">ser</span><br><span class="line">ser.reset_index()</span><br></pre></td></tr></table></figure>


<h3 id="17-2-Series有多层索引怎样筛选数据"><a href="#17-2-Series有多层索引怎样筛选数据" class="headerlink" title="17.2 Series有多层索引怎样筛选数据?"></a>17.2 Series有多层索引怎样筛选数据?</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ser</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ser.loc[&#x27;BIDU&#x27;]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"># 多层索引，可以用元组的形式筛选</span><br><span class="line">ser.loc[(&#x27;BIDU&#x27;, &#x27;2019-10-02&#x27;)]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ser.loc[:, &#x27;2019-10-02&#x27;]</span><br></pre></td></tr></table></figure>


<h3 id="17-3-DataFrame的多层索引Multilndex"><a href="#17-3-DataFrame的多层索引Multilndex" class="headerlink" title="17.3 DataFrame的多层索引Multilndex"></a>17.3 DataFrame的多层索引Multilndex</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">stocks.set_index([&#x27;公司&#x27;, &#x27;日期&#x27;], inplace=True)</span><br><span class="line">stocks</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.index</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">stocks.sort_index(inplace=True)</span><br><span class="line">stocks</span><br></pre></td></tr></table></figure>


<h3 id="17-4-DataFrame有多层索引怎样筛选数据"><a href="#17-4-DataFrame有多层索引怎样筛选数据" class="headerlink" title="17.4 DataFrame有多层索引怎样筛选数据?"></a>17.4 DataFrame有多层索引怎样筛选数据?</h3><p>【重要知识】在选择数据时</p>
<ul>
<li>元组(key1, key2)代表筛选多层索引，其中key1是索引第一级，key2是第二级，比如key1&#x3D;JD，key2&#x3D;2019-10-02</li>
<li>列表(key1, key2)代表同一层的多个KEY，其中key1和key2是并列的同级索引，比如key1&#x3D;JD，key2&#x3D;BIDU</li>
</ul>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[&#x27;BIDU&#x27;]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[&#x27;BIDU&#x27;, &#x27;2019-10-02&#x27;, :]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[(&#x27;BIDU&#x27;, &#x27;2019-10-02&#x27;, &#x27;开盘&#x27;)]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[[&#x27;BIDU&#x27;, &#x27;JD&#x27;], :]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[([&#x27;BIDU&#x27;, &#x27;JD&#x27;], &#x27;2019-10-03&#x27;), :]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[([&#x27;BIDU&#x27;, &#x27;JD&#x27;], &#x27;2019-10-03&#x27;), &#x27;收盘&#x27;]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.loc[(&#x27;BIDU&#x27;, [&#x27;2019-10-02&#x27;, &#x27;2019-10-03&#x27;]), &#x27;收盘&#x27;]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"># slice(None)代表筛选这一索引的所有内容</span><br><span class="line">stocks.loc[(slice(None), [&#x27;2019-10-02&#x27;, &#x27;2019-10-03&#x27;]), :]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.reset_index()</span><br></pre></td></tr></table></figure>


<h2 id="第十八章-Pandas的数据转换函数map、apply、applymap"><a href="#第十八章-Pandas的数据转换函数map、apply、applymap" class="headerlink" title="第十八章 Pandas的数据转换函数map、apply、applymap"></a>第十八章 Pandas的数据转换函数map、apply、applymap</h2><p>数据转换函数对比:map、apply、applymap:</p>
<ol>
<li>map: 只用于Series，实现每个值-&gt;值的映射;</li>
<li>apply: 用于Series实现每个值的处理，用于Dataframe实现某个轴的Series的处理;</li>
<li>applymap: 只能用于DataFrame，用于处理该DataFrame的每个元素;</li>
</ol>
<h3 id="18-1-map用于Series值的转换"><a href="#18-1-map用于Series值的转换" class="headerlink" title="18.1 map用于Series值的转换"></a>18.1 map用于Series值的转换</h3><p>实例：将股票代码英文转换成中文名字</p>
<p>Series.map(dict) or Series.map(function) 均可</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line">stocks = pd.read_excel(<span class="string">&#x27;./datas/stocks/互联网公司股票.xlsx&#x27;</span>)</span><br><span class="line">stocks.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks[&#x27;公司&#x27;].unique()</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 公司股票代码到中文的映射，注意这里是小写</span></span><br><span class="line">dict_company_names = &#123;</span><br><span class="line">	<span class="string">&#x27;bidu&#x27;</span>: <span class="string">&quot;百度&quot;</span>,</span><br><span class="line">	<span class="string">&#x27;baba&#x27;</span>: <span class="string">&quot;阿里巴巴&quot;</span>,</span><br><span class="line">	<span class="string">&#x27;iq&#x27;</span>: <span class="string">&quot;爱奇艺&quot;</span>,</span><br><span class="line">	<span class="string">&#x27;jd&#x27;</span>: <span class="string">&quot;京东&quot;</span></span><br><span class="line">&#125;</span><br></pre></td></tr></table></figure>


<p><strong>方法1：Series.map(dict)</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">stocks[<span class="string">&quot;公司中文1&quot;</span>] = stocks[<span class="string">&quot;公司&quot;</span>].<span class="built_in">str</span>.lower().<span class="built_in">map</span>(dict_company_names)</span><br><span class="line">stocks.head()</span><br></pre></td></tr></table></figure>


<p><strong>方法2：Series.map(function)</strong></p>
<p>function的参数是Series的每个元素的值</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks[<span class="string">&#x27;公司中文2&#x27;</span>] = stocks[<span class="string">&#x27;公司&#x27;</span>].<span class="built_in">map</span>(<span class="keyword">lambda</span> x: dict_company_names[x.lower()])</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.head()</span><br></pre></td></tr></table></figure>


<h3 id="18-2-apply用于Series和DataFrame的转换"><a href="#18-2-apply用于Series和DataFrame的转换" class="headerlink" title="18.2 apply用于Series和DataFrame的转换"></a>18.2 apply用于Series和DataFrame的转换</h3><ul>
<li>Series.apply(function), 函数的参数是每个值</li>
<li>DataFrame.apply(function), 函数的参数是Series</li>
</ul>
<p><strong>Series.apply(function)</strong></p>
<p>function的参数是Series的每个值</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks[&quot;公司中文3&quot;] = stocks[&quot;公司&quot;].apply(lambda x: dict_company_names[x.lower()])</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.head()</span><br></pre></td></tr></table></figure>


<p><strong>DataFrame.apply(function)</strong></p>
<p>function的参数是对应轴的Series</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line">stocks[&quot;公司中文4&quot;] = stocks.apply(</span><br><span class="line">	lambda x: dict_company_names[x[&quot;公司&quot;].lower()],</span><br><span class="line">	axis=1</span><br><span class="line">)</span><br></pre></td></tr></table></figure>

<p>注意这个代码：</p>
<ol>
<li><p>apply是在stocks这个DataFrame上调用：</p>
</li>
<li><p>lambda x的x是一个Series，因为指定了axis&#x3D;1所以Seires的key是列名，可以x[‘公司’]获取</p>
</li>
</ol>
<h3 id="18-3-applymap用于DataFrame所有值的转换"><a href="#18-3-applymap用于DataFrame所有值的转换" class="headerlink" title="18.3 applymap用于DataFrame所有值的转换"></a>18.3 applymap用于DataFrame所有值的转换</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">sub_df = stocks[[<span class="string">&#x27;收盘&#x27;</span>, <span class="string">&#x27;开盘&#x27;</span>, <span class="string">&#x27;高&#x27;</span>, <span class="string">&#x27;低&#x27;</span>, <span class="string">&#x27;交易量&#x27;</span>]]</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">sub_df.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 将这些数字取整数，应用于所有元素</span></span><br><span class="line">sub_df.applymap(<span class="keyword">lambda</span> x: <span class="built_in">int</span>(x))</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 直接修改原df的这几列</span></span><br><span class="line">stocks.loc[:, [<span class="string">&#x27;收盘&#x27;</span>, <span class="string">&#x27;开盘&#x27;</span>, <span class="string">&#x27;高&#x27;</span>, <span class="string">&#x27;低&#x27;</span>, <span class="string">&#x27;交易量&#x27;</span>]] = sub_df.applymap(<span class="keyword">lambda</span> x: <span class="built_in">int</span>(x))</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">stocks.head()</span><br></pre></td></tr></table></figure>


<h2 id="第十九章-Pandas对每个分组应用apply函数"><a href="#第十九章-Pandas对每个分组应用apply函数" class="headerlink" title="第十九章 Pandas对每个分组应用apply函数"></a>第十九章 Pandas对每个分组应用apply函数</h2><p><strong>知识：Pandas的GroupBy遵从split、apply、combine模式</strong></p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1709018241710.png" alt="1709018241710"></p>
<p>这里的split指的是pandas的groupby，我们自己实现apply函数，apply返回的结果由pandas进行combine得到结果</p>
<p><strong>GroupBy.apply(function)</strong></p>
<ul>
<li>function的第一个参数是dataframe</li>
<li>function的返回结果，可是dataframe、series、单个值，甚至和输入dataframe完全没关系</li>
</ul>
<p><strong>本次实例演示:</strong></p>
<ol>
<li>怎样对数值列按分组的归一化?</li>
<li>怎样取每个分组的TOPN数据?</li>
</ol>
<p><strong>实例1:怎样对数值列按分组的归一化??</strong><br>将不同范围的数值列进行归一化，映射到[0,1]区间:</p>
<ul>
<li> <span style='display: inline-block; width: 3.6rem;'></span>更容易做数据横向对比，比如价格字段是几百到几千，增幅字段是0到100</li>
<li> <span style='display: inline-block; width: 3.6rem;'></span>机器学习模型学的更快性能更好</li>
</ul>
<p>归一化的公式:</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1709022834956.png" alt="1709022834956"></p>
<p>数据下载：<a href="./images/pandas%E5%9F%BA%E7%A1%80/assets/ml-1m.zip">ml-1m.zip</a></p>
<p><strong>演示：用户对电影评分的归一化</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">ratings = pd.read_csv(</span><br><span class="line">	<span class="string">&quot;./datas/movielens-1m/ratings.dat&quot;</span>,</span><br><span class="line">	sep=<span class="string">&quot;::&quot;</span>,</span><br><span class="line">    engine=<span class="string">&quot;python&quot;</span>,</span><br><span class="line">    names=<span class="string">&quot;UserID::MovieID::Rating::Timestamp&quot;</span>.split(<span class="string">&quot;::&quot;</span>)</span><br><span class="line">)</span><br><span class="line"></span><br><span class="line">ratings.head()</span><br></pre></td></tr></table></figure>


<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br><span class="line">12</span><br><span class="line">13</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 实现按照用户ID分组，然后对其中一列归一化</span></span><br><span class="line"><span class="keyword">def</span> <span class="title function_">ratings_norm</span>(<span class="params">df</span>):</span><br><span class="line">    <span class="string">&quot;&quot;&quot;</span></span><br><span class="line"><span class="string">    @param df：每个用户分组的dataframe</span></span><br><span class="line"><span class="string">    &quot;&quot;&quot;</span></span><br><span class="line">    min_value = df[<span class="string">&quot;Rating&quot;</span>].<span class="built_in">min</span>()</span><br><span class="line">    max_value = df[<span class="string">&quot;Rating&quot;</span>].<span class="built_in">max</span>()</span><br><span class="line">    df[<span class="string">&quot;Rating_norm&quot;</span>] = df[<span class="string">&quot;Rating&quot;</span>].apply(</span><br><span class="line">    	<span class="keyword">lambda</span> x: (x - min_value) / (max_value - min_value)</span><br><span class="line">    )</span><br><span class="line">    <span class="keyword">return</span> df</span><br><span class="line"></span><br><span class="line">ratings = ratings.groupby(<span class="string">&quot;UserID&quot;</span>).apply(ratings_norm)</span><br></pre></td></tr></table></figure>


<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">ratings[ratings[&quot;UserID&quot;] == 1].head()</span><br></pre></td></tr></table></figure>

<p>可以看到UserID&#x3D;&#x3D;1这个用户，Rating==3是他的最低分，是个乐观派，我们归一化到0分。</p>
<p><strong>实例2：怎样取每个分组的TOPN数据？</strong></p>
<p>获取2018年每个月温度最高的2天数据</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br></pre></td><td class="code"><pre><span class="line">fpath = <span class="string">&quot;./datas/beijing_tianqi/beijing_tianqi_2018.csv&quot;</span></span><br><span class="line">df = pd.read_csv(fpath)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 替换掉温度的后缀℃</span></span><br><span class="line">df.loc[:, <span class="string">&quot;bWendu&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;℃&quot;</span>, <span class="string">&quot;&quot;</span>).astype(<span class="string">&quot;int32&quot;</span>)</span><br><span class="line">df.loc[:, <span class="string">&quot;yWendu&quot;</span>] = df[<span class="string">&quot;yWendu&quot;</span>].<span class="built_in">str</span>.replace(<span class="string">&quot;℃&quot;</span>, <span class="string">&quot;&quot;</span>).astype(<span class="string">&quot;int32&quot;</span>)</span><br><span class="line"></span><br><span class="line"><span class="comment"># 新增一列为月份</span></span><br><span class="line">df[<span class="string">&#x27;month&#x27;</span>] = df[<span class="string">&#x27;ymd&#x27;</span>].<span class="built_in">str</span>[:<span class="number">7</span>]</span><br><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">getWenduTopN</span>(<span class="params">df, topn</span>):</span><br><span class="line">	<span class="string">&quot;&quot;&quot;</span></span><br><span class="line"><span class="string">	这里的df，是每个月份分组group的df</span></span><br><span class="line"><span class="string">	&quot;&quot;&quot;</span></span><br><span class="line">    <span class="keyword">return</span> df.sort_values(by=<span class="string">&quot;bWendu&quot;</span>)[[<span class="string">&quot;ymd&quot;</span>, <span class="string">&#x27;bWendu&#x27;</span>]][-topn:]</span><br><span class="line"></span><br><span class="line">df.groupby(<span class="string">&quot;month&quot;</span>).apply(getWenduTopN, topn=<span class="number">2</span>).head()</span><br></pre></td></tr></table></figure>

<p>我们看到，groupby的apply函数返回的dataframe，其实和原来的dataframe其实可以完全不一样</p>
<h2 id="第二十章-Pandas使用stack和pivot实现数据透视"><a href="#第二十章-Pandas使用stack和pivot实现数据透视" class="headerlink" title="第二十章 Pandas使用stack和pivot实现数据透视"></a>第二十章 Pandas使用stack和pivot实现数据透视</h2><p>将列式数据变成二维交叉形式，便于分析，叫做重塑或透视</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1709023710600.png" alt="1709023710600"></p>
<h3 id="20-1-经过统计得到多维度指标数据"><a href="#20-1-经过统计得到多维度指标数据" class="headerlink" title="20.1 经过统计得到多维度指标数据"></a>20.1 经过统计得到多维度指标数据</h3><figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br><span class="line">10</span><br><span class="line">11</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"><span class="keyword">import</span> numpy <span class="keyword">as</span> np</span><br><span class="line">%matplotlib inline</span><br><span class="line"></span><br><span class="line">df = pd.read_csv(</span><br><span class="line">	<span class="string">&quot;./datas/movielens-1m/ratings.dat&quot;</span>,</span><br><span class="line">	header=<span class="literal">None</span>,</span><br><span class="line">	names=<span class="string">&quot;UserID::MovieID::Rating::Timestamp&quot;</span>.split(<span class="string">&quot;::&quot;</span>),</span><br><span class="line">	sep=<span class="string">&quot;::&quot;</span>,</span><br><span class="line">	engine=<span class="string">&quot;python&quot;</span></span><br><span class="line">)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df[<span class="string">&quot;pdate&quot;</span>] = pd.to_datetime(df[<span class="string">&quot;Timestamp&quot;</span>], unit=<span class="string">&#x27;s&#x27;</span>)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.dtypes</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 实现数据统计</span></span><br><span class="line">df_group = df.groupby([df[<span class="string">&#x27;pdate&#x27;</span>].dt.month, <span class="string">&quot;rating&quot;</span>])[<span class="string">&quot;UserID&quot;</span>].agg(pv=np.<span class="built_in">sum</span>)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_group.head(20)</span><br></pre></td></tr></table></figure>

<p>对这样格式的数据，我想查看按月份，不同评分的次数趋势，是没法实现的</p>
<p>需要将数据转换成每个评分是一列才可以实现</p>
<h3 id="20-2-使用unstack实现数据二维透视"><a href="#20-2-使用unstack实现数据二维透视" class="headerlink" title="20.2 使用unstack实现数据二维透视"></a>20.2 使用unstack实现数据二维透视</h3><p>目的：想要画图对比按照月份的不同评分的数量趋势</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df_stack = df_group.unstack()</span><br><span class="line">df_stack</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_stack.plot()</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># unstack和stack是互逆操作</span></span><br><span class="line">df_stack.stack().head(<span class="number">20</span>)</span><br></pre></td></tr></table></figure>


<h3 id="20-3-使用pivot简化透视"><a href="#20-3-使用pivot简化透视" class="headerlink" title="20.3 使用pivot简化透视"></a>20.3 使用pivot简化透视</h3><figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_group.head(20)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">df_reset = df_group.reset_index()</span><br><span class="line">df_reset.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_pivot = df_reset.pivot(&quot;pdate&quot;, &quot;Rating&quot;, &quot;pv&quot;)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_pivot.head()</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df_pivot.plot()</span><br></pre></td></tr></table></figure>


<p><strong>pivot方法相当于对df使用set_index创建分层索引，然后调用unstack</strong></p>
<h3 id="20-4-stack、unstack、pivot的语法"><a href="#20-4-stack、unstack、pivot的语法" class="headerlink" title="20.4 stack、unstack、pivot的语法"></a>20.4 stack、unstack、pivot的语法</h3><p><strong>stack：DataFrame.stack(level&#x3D;-1, dropna&#x3D;True)，将column变成index，类似把横放的书籍变成竖放</strong></p>
<p>level&#x3D;-1代表多层索引的最内层，可以通过&#x3D;&#x3D;0、1、2指定多层索引的对应层</p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1709024719116.png" alt="1709024719116"></p>
<p><strong>unstack：DataFrame.unstack(level&#x3D;-1, fill_value&#x3D;None)，将index变成column，类似把竖放的书籍变成横放</strong></p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1709024787250.png" alt="1709024787250"></p>
<p><strong>pivot: DataFrame.pivot(index&#x3D;None, columns&#x3D;None, values&#x3D;None),指定index、columns、values实现二维透视</strong></p>
<p><img src="/images/pandas%E5%9F%BA%E7%A1%80/assets/1709024861419.png" alt="1709024861419"></p>
<h2 id="第二十一章-Pandas使用apply函数给表格添加多列"><a href="#第二十一章-Pandas使用apply函数给表格添加多列" class="headerlink" title="第二十一章 Pandas使用apply函数给表格添加多列"></a>第二十一章 Pandas使用apply函数给表格添加多列</h2><p><strong>知识回忆：怎样给表格添加一列</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">my_func</span>(<span class="params">row</span>):</span><br><span class="line">	new_column = row[<span class="string">&quot;a&quot;</span>] + row[<span class="string">&quot;b&quot;</span>]</span><br><span class="line">	<span class="keyword">return</span> new_column</span><br><span class="line"></span><br><span class="line">df[<span class="string">&quot;new_column&quot;</span>] = df.apply(my_func, axis=<span class="number">1</span>)</span><br></pre></td></tr></table></figure>


<p><strong>新的知识：怎样同时添加多列？</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">my_func</span>(<span class="params">row</span>):</span><br><span class="line">	newa, newb = row[<span class="string">&quot;a&quot;</span>] + row[<span class="string">&quot;b&quot;</span>], row[<span class="string">&quot;a&quot;</span>] - row[<span class="string">&quot;b&quot;</span>]</span><br><span class="line">    <span class="keyword">return</span> newa, newb</span><br><span class="line"></span><br><span class="line">df[[<span class="string">&quot;newa&quot;</span>, <span class="string">&quot;newb&quot;</span>]] = df.apply(my_func, axis=<span class="number">1</span>, result_type=<span class="string">&quot;expand&quot;</span>)</span><br></pre></td></tr></table></figure>


<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">import</span> pandas <span class="keyword">as</span> pd</span><br><span class="line"></span><br><span class="line">df = pd.read_csv(<span class="string">&quot;./datas/beijing_tiangi/beijing_tiangi_2017-2019.csv&quot;</span>)</span><br><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<p>同时添加温差，平均温度</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">my_func</span>(<span class="params">row</span>):</span><br><span class="line">	<span class="keyword">return</span> row[<span class="string">&quot;bWendu&quot;</span>] - row[<span class="string">&quot;yWendu&quot;</span>], (row[<span class="string">&quot;bWendu&quot;</span>] + row[<span class="string">&quot;yWendu&quot;</span>]) / <span class="number">2</span></span><br><span class="line"></span><br><span class="line">df[[<span class="string">&quot;wencha&quot;</span>, <span class="string">&quot;avg&quot;</span>]] = df.apply(my_func, axis=<span class="number">1</span>, result_type=<span class="string">&quot;expand&quot;</span>)</span><br></pre></td></tr></table></figure>


<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<h2 id="第二十二章-Pandas新增数据列"><a href="#第二十二章-Pandas新增数据列" class="headerlink" title="第二十二章 Pandas新增数据列"></a>第二十二章 Pandas新增数据列</h2><p>在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析。</p>
<p><strong>读取csv数据到dataframe</strong></p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line">fpath = <span class="string">&quot;./datas/beijing_tianqi/beijing_tianqi_2018.csv&quot;</span></span><br><span class="line">df = pd.read_csv(fpath)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<h3 id="21-1-直接赋值"><a href="#21-1-直接赋值" class="headerlink" title="21.1 直接赋值"></a>21.1 直接赋值</h3><p>实例：清理温度列，变成数字类型</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br></pre></td><td class="code"><pre><span class="line"># 替换掉温度的后缀℃</span><br><span class="line">df[&#x27;bWendu&#x27;] = df[&#x27;bWendu&#x27;].str.replace(&quot;℃&quot;, &quot;&quot;).astype(&quot;int32&quot;)</span><br><span class="line">df[&quot;yWendu&quot;] = df[&quot;yWendu&quot;].str.replace(&quot;℃&quot;, &quot;&quot;).astype(&quot;int32&quot;)</span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>

<p>实例：计算温差</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 注意，df[&quot;bWendu&quot;]其实是一个Series，后面的减法返回的是Series</span></span><br><span class="line">df[<span class="string">&quot;wencha&quot;</span>] = df[<span class="string">&quot;bWendu&quot;</span>] - df[<span class="string">&quot;yWendu&quot;</span>]</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df.head()</span><br></pre></td></tr></table></figure>


<h3 id="21-2-df-apply方法"><a href="#21-2-df-apply方法" class="headerlink" title="21.2 df.apply方法"></a>21.2 df.apply方法</h3><p>沿DataFrame的轴应用函数。<br>传递给该函数的对象是Series对象，其索引是DataFrame的索引(轴&#x3D;0)或DataFrame的列(轴&#x3D;1)</p>
<p>实例:添加一列温度类型:</p>
<ol>
<li>如果最高温度大于33度就是高温</li>
<li>低于-10度是低温</li>
<li>否则是常温</li>
</ol>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br><span class="line">7</span><br><span class="line">8</span><br><span class="line">9</span><br></pre></td><td class="code"><pre><span class="line"><span class="keyword">def</span> <span class="title function_">get_wendu_type</span>(<span class="params">x</span>):</span><br><span class="line">	<span class="keyword">if</span> x[<span class="string">&quot;bWendu&quot;</span>] &gt; <span class="number">33</span>:</span><br><span class="line">		<span class="keyword">return</span> <span class="string">&quot;高温&quot;</span></span><br><span class="line">	<span class="keyword">if</span> x[<span class="string">&quot;yWendu&quot;</span>] &lt; -<span class="number">10</span>:</span><br><span class="line">		<span class="keyword">return</span> <span class="string">&quot;低温&quot;</span></span><br><span class="line">	<span class="keyword">return</span> <span class="string">&quot;常温&quot;</span></span><br><span class="line"></span><br><span class="line"><span class="comment"># 注意需要设置axis==1，这是series的index是columns</span></span><br><span class="line">df.loc[:, <span class="string">&quot;wendu_type&quot;</span>] = df.apply(get_wendu_type, axis=<span class="number">1</span>)</span><br></pre></td></tr></table></figure>

<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 查看温度类型的计数</span></span><br><span class="line">df[<span class="string">&quot;wendu_type&quot;</span>].value_counts()</span><br></pre></td></tr></table></figure>


<h3 id="21-3-df-assign方法"><a href="#21-3-df-assign方法" class="headerlink" title="21.3 df.assign方法"></a>21.3 df.assign方法</h3><p>为DataFrame分配新列。<br>返回一个新对象，除新列外，还包含所有原始列。</p>
<p>实例：将温度从摄氏度变成华氏度</p>
<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br><span class="line">6</span><br></pre></td><td class="code"><pre><span class="line"># 可以同时添加多个新的列</span><br><span class="line">df.assign(</span><br><span class="line">	yWendu_huashi = lambda x: x[&quot;yWendu&quot;] * 9 / 5 + 32,</span><br><span class="line">	# 摄氏度转华氏度</span><br><span class="line">	bWendu_huashi = lambda x: x[&quot;bWendu&quot;] * 9 / 5 + 32</span><br><span class="line">)</span><br></pre></td></tr></table></figure>


<h3 id="21-4-按条件选择分组分别赋值"><a href="#21-4-按条件选择分组分别赋值" class="headerlink" title="21.4 按条件选择分组分别赋值"></a>21.4 按条件选择分组分别赋值</h3><p>按条件先选择数据，然后对这部分数据赋值新列</p>
<p>实例：高低温差大于10度，则任务温差大</p>
<figure class="highlight python"><table><tr><td class="gutter"><pre><span class="line">1</span><br><span class="line">2</span><br><span class="line">3</span><br><span class="line">4</span><br><span class="line">5</span><br></pre></td><td class="code"><pre><span class="line"><span class="comment"># 先创建空列（这是第一种创建新列的方法）</span></span><br><span class="line">df[<span class="string">&quot;wencha_type&quot;</span>] = <span class="string">&#x27;&#x27;</span></span><br><span class="line"></span><br><span class="line">df.loc[df[<span class="string">&#x27;bWendu&#x27;</span>]-df[<span class="string">&quot;yWendu&quot;</span>]&gt;<span class="number">10</span>, <span class="string">&quot;wencha_type&quot;</span>] = <span class="string">&quot;温差大&quot;</span></span><br><span class="line">df.loc[df[<span class="string">&#x27;bWendu&#x27;</span>]-df[<span class="string">&quot;yWendu&quot;</span>]&lt;=<span class="number">10</span>, <span class="string">&quot;wencha_type&quot;</span>] = <span class="string">&quot;温差正常&quot;</span></span><br></pre></td></tr></table></figure>

<figure class="highlight plaintext"><table><tr><td class="gutter"><pre><span class="line">1</span><br></pre></td><td class="code"><pre><span class="line">df[&quot;wencha_type&quot;].value_counts()</span><br></pre></td></tr></table></figure>


                                      </div>
                                      
                                        <div class="prev-or-next">
                                          <div class="post-foot-next">
                                            
                                              <a href="/2024/02/24/Matplotlib%E5%9F%BA%E7%A1%80/" target="_self">
                                                <i class="iconfont icon-chevronleft"></i>
                                                <span>
                                                  上一页
                                                </span>
                                              </a>
                                              
                                          </div>
                                          <div class="post-attach">
                                            <span class="post-pubtime">
                                              <i class="iconfont icon-updatetime mr-10"
                                                title="更新时间"></i>
                                              2024-10-22 14:52:45
                                            </span>
                                            
                                              <span class="post-tags">
                                                <i class="iconfont icon-tags mr-10" title="标签"></i>
                                                
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/" title="人工智能">
                                                      #人工智能
                                                    </a>
                                                  </span>
                                                  
                                                  <span class="span--tag mr-8">
                                                    <a href="/tags/%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86/" title="数据处理">
                                                      #数据处理
                                                    </a>
                                                  </span>
                                                  
                                              </span>
                                              
                                          </div>
                                          <div class="post-foot-prev">
                                            
                                              <a href="/2024/03/03/%E5%BE%AE%E7%A7%AF%E5%88%86%E5%9F%BA%E7%A1%80/" target="_self">
                                                <span>
                                                  下一页
                                                </span>
                                                <i class="iconfont icon-chevronright"></i>
                                              </a>
                                              
                                          </div>
                                        </div>
                                        
                                    </div>
                                    
  <div id="btn-catalog" class="btn-catalog">
    <i class="iconfont icon-catalog"></i>
  </div>
  <div class="post-catalog hidden" id="catalog">
    <div class="title">目录</div>
    <div class="catalog-content">
      
        <ol class="toc"><li class="toc-item toc-level-1"><a class="toc-link" href="#Pandas%E5%9F%BA%E7%A1%80"><span class="toc-text">Pandas基础</span></a><ol class="toc-child"><li class="toc-item toc-level-2"><a class="toc-link" href="#1%E3%80%81%E4%BB%80%E4%B9%88%E6%98%AFPandas%EF%BC%9F"><span class="toc-text">1、什么是Pandas？</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#1-1%E3%80%81Pandas%E6%A6%82%E8%BF%B0"><span class="toc-text">1.1、Pandas概述:</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-2%E3%80%81%E5%8F%91%E5%B1%95%E5%8E%86%E5%8F%B2"><span class="toc-text">1.2、发展历史:</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-3%E3%80%81Pandas%E7%9A%84%E4%BD%9C%E7%94%A8"><span class="toc-text">1.3、Pandas的作用:</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-4%E3%80%81Pandas%E7%9A%84%E4%B8%BB%E8%A6%81%E7%89%B9%E7%82%B9"><span class="toc-text">1.4、Pandas的主要特点:</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-5%E3%80%81Pandas%E7%9A%84%E4%B8%BB%E8%A6%81%E4%BC%98%E5%8A%BF"><span class="toc-text">1.5、Pandas的主要优势:</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-6%E3%80%81Pandas%E5%86%85%E7%BD%AE%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84"><span class="toc-text">1.6、Pandas内置数据结构:</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#2%E3%80%81Pandas%E5%AE%89%E8%A3%85"><span class="toc-text">2、Pandas安装</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#2-1%E3%80%81Python%E7%8E%AF%E5%A2%83%E5%87%86%E5%A4%87"><span class="toc-text">2.1、Python环境准备</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#2-2%E3%80%81Pandas%E5%AE%89%E8%A3%85"><span class="toc-text">2.2、Pandas安装</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#3%E3%80%81Series%E5%85%A5%E9%97%A8"><span class="toc-text">3、Series入门</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#3-1%E3%80%81%E5%88%9B%E5%BB%BASeries%E5%AF%B9%E8%B1%A1"><span class="toc-text">3.1、创建Series对象</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-%E5%88%9B%E5%BB%BA%E4%B8%80%E4%B8%AA%E7%A9%BASeries%E5%AF%B9%E8%B1%A1"><span class="toc-text">1) 创建一个空Series对象</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-ndarray%E5%88%9B%E5%BB%BASeries%E5%AF%B9%E8%B1%A1"><span class="toc-text">2) ndarray创建Series对象</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-dict%E5%88%9B%E5%BB%BASeries%E5%AF%B9%E8%B1%A1"><span class="toc-text">3) dict创建Series对象</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-%E6%A0%87%E9%87%8F%E5%88%9B%E5%BB%BASeries%E5%AF%B9%E8%B1%A1"><span class="toc-text">4) 标量创建Series对象</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#3-2%E3%80%81%E8%AE%BF%E9%97%AESeries%E6%95%B0%E6%8D%AE"><span class="toc-text">3.2、访问Series数据</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-%E4%BD%8D%E7%BD%AE%E7%B4%A2%E5%BC%95%E8%AE%BF%E9%97%AE"><span class="toc-text">1) 位置索引访问</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-%E7%B4%A2%E5%BC%95%E6%A0%87%E7%AD%BE%E8%AE%BF%E9%97%AE"><span class="toc-text">2) 索引标签访问</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#3-3%E3%80%81Series%E5%B8%B8%E7%94%A8%E5%B1%9E%E6%80%A7"><span class="toc-text">3.3、Series常用属性</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-axes"><span class="toc-text">1) axes</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-dtype"><span class="toc-text">2) dtype</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-empty"><span class="toc-text">3) empty</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-ndim"><span class="toc-text">4) ndim</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#5-size"><span class="toc-text">5) size</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-values"><span class="toc-text">6) values</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#7-index"><span class="toc-text">7) index</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#3-4%E3%80%81-Series%E5%B8%B8%E7%94%A8%E6%96%B9%E6%B3%95"><span class="toc-text">3.4、 Series常用方法</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-head%E3%80%81tail%E5%87%BD%E6%95%B0%E6%9F%A5%E7%9C%8B%E6%95%B0%E6%8D%AE"><span class="toc-text">1) head、tail函数查看数据</span></a><ol class="toc-child"><li class="toc-item toc-level-5"><a class="toc-link" href="#head%E5%87%BD%E6%95%B0"><span class="toc-text">head函数</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#tail%E5%87%BD%E6%95%B0"><span class="toc-text">tail函数</span></a></li></ol></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-isnull%E3%80%81nonull%E5%87%BD%E6%95%B0%E6%A3%80%E6%B5%8B%E7%BC%BA%E5%A4%B1%E5%80%BC"><span class="toc-text">2) isnull、nonull函数检测缺失值</span></a></li></ol></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#4%E3%80%81DataFrame%E5%85%A5%E9%97%A8"><span class="toc-text">4、DataFrame入门</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#4-1%E3%80%81%E8%AE%A4%E8%AF%86DataFrame%E7%BB%93%E6%9E%84"><span class="toc-text">4.1、认识DataFrame结构</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-2%E3%80%81%E5%88%9B%E5%BB%BADataFrame%E5%AF%B9%E8%B1%A1"><span class="toc-text">4.2、创建DataFrame对象</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-%E5%88%9B%E5%BB%BA%E7%A9%BA%E7%9A%84DataFrame%E5%AF%B9%E8%B1%A1"><span class="toc-text">1) 创建空的DataFrame对象</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-%E5%88%97%E8%A1%A8%E5%88%9B%E5%BB%BADataFame%E5%AF%B9%E8%B1%A1"><span class="toc-text">2) 列表创建DataFame对象</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-%E5%AD%97%E5%85%B8%E5%B5%8C%E5%A5%97%E5%88%97%E8%A1%A8%E5%88%9B%E5%BB%BA"><span class="toc-text">3) 字典嵌套列表创建</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-%E5%88%97%E8%A1%A8%E5%B5%8C%E5%A5%97%E5%AD%97%E5%85%B8%E5%88%9B%E5%BB%BADataFrame%E5%AF%B9%E8%B1%A1"><span class="toc-text">4) 列表嵌套字典创建DataFrame对象</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#5-Series%E5%88%9B%E5%BB%BADataFrame%E5%AF%B9%E8%B1%A1"><span class="toc-text">5) Series创建DataFrame对象</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-3%E3%80%81%E5%88%97%E7%B4%A2%E5%BC%95%E6%93%8D%E4%BD%9C"><span class="toc-text">4.3、列索引操作</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-%E5%88%97%E7%B4%A2%E5%BC%95%E9%80%89%E5%8F%96%E6%95%B0%E6%8D%AE%E5%88%97"><span class="toc-text">1) 列索引选取数据列</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-%E5%88%97%E7%B4%A2%E5%BC%95%E6%B7%BB%E5%8A%A0%E6%95%B0%E6%8D%AE%E5%88%97"><span class="toc-text">2) 列索引添加数据列</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-%E5%88%97%E7%B4%A2%E5%BC%95%E5%88%A0%E9%99%A4%E6%95%B0%E6%8D%AE%E5%88%97"><span class="toc-text">3) 列索引删除数据列</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-4%E3%80%81%E8%A1%8C%E7%B4%A2%E5%BC%95%E6%93%8D%E4%BD%9C"><span class="toc-text">4.4、行索引操作</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-%E6%A0%87%E7%AD%BE%E7%B4%A2%E5%BC%95%E9%80%89%E5%8F%96"><span class="toc-text">1)  标签索引选取</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-%E6%95%B4%E6%95%B0%E7%B4%A2%E5%BC%95%E9%80%89%E5%8F%96"><span class="toc-text">2) 整数索引选取</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-%E5%88%87%E7%89%87%E6%93%8D%E4%BD%9C%E5%A4%9A%E8%A1%8C%E9%80%89%E5%8F%96"><span class="toc-text">3) 切片操作多行选取</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-%E6%B7%BB%E5%8A%A0%E6%95%B0%E6%8D%AE%E8%A1%8C"><span class="toc-text">4) 添加数据行</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#5-%E5%88%A0%E9%99%A4%E6%95%B0%E6%8D%AE%E8%A1%8C"><span class="toc-text">5) 删除数据行</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-5%E3%80%81%E5%B8%B8%E7%94%A8%E5%B1%9E%E6%80%A7%E5%92%8C%E6%96%B9%E6%B3%95%E6%B1%87%E6%80%BB"><span class="toc-text">4.5、常用属性和方法汇总</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#1-T%EF%BC%88Transpose%EF%BC%89%E8%BD%AC%E7%BD%AE"><span class="toc-text">1) T（Transpose）转置</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-axes"><span class="toc-text">2) axes</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-dtypes"><span class="toc-text">3) dtypes</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-empty"><span class="toc-text">4) empty</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#5-ndim"><span class="toc-text">5) ndim</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-shape"><span class="toc-text">6) shape</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#7-size"><span class="toc-text">7) size</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#8-values"><span class="toc-text">8) values</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#9-head%E3%80%81tail%E5%87%BD%E6%95%B0%E6%9F%A5%E7%9C%8B%E6%95%B0%E6%8D%AE"><span class="toc-text">9) head、tail函数查看数据</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#10-shift%E5%87%BD%E6%95%B0%E7%A7%BB%E5%8A%A8%E8%A1%8C%E6%88%96%E5%88%97"><span class="toc-text">10) shift函数移动行或列</span></a><ol class="toc-child"><li class="toc-item toc-level-5"><a class="toc-link" href="#10-1-shift%E7%9A%84peroids%E5%8F%82%E6%95%B0"><span class="toc-text">10.1) shift的peroids参数</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#10-2-shift%E7%9A%84fill-value%E5%8F%82%E6%95%B0"><span class="toc-text">10.2) shift的fill_value参数</span></a></li></ol></li></ol></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#5%E3%80%81Pandas%E6%8F%8F%E8%BF%B0%E6%80%A7%E7%BB%9F%E8%AE%A1"><span class="toc-text">5、Pandas描述性统计</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#1-sum-%E6%B1%82%E5%92%8C"><span class="toc-text">1) sum()求和</span></a></li></ol></li></ol></li><li class="toc-item toc-level-1"><a class="toc-link" href="#%E9%80%9A%E8%BF%87%E4%BE%8B%E5%AD%90%E5%AD%A6%E4%B9%A0Pandas"><span class="toc-text">通过例子学习Pandas</span></a><ol class="toc-child"><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%80%E7%AB%A0-Pandas%E7%AE%80%E4%BB%8B"><span class="toc-text">第一章 Pandas简介</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#1-1-%E4%BB%80%E4%B9%88%E6%98%AFPandas%EF%BC%9F"><span class="toc-text">1.1 什么是Pandas？</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-2-%E5%AE%89%E8%A3%85Pandas"><span class="toc-text">1.2 安装Pandas</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#1-3-%E5%BC%80%E5%8F%91%E5%B7%A5%E5%85%B7"><span class="toc-text">1.3 开发工具</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E7%AB%A0-Pandas%E6%95%B0%E6%8D%AE%E8%AF%BB%E5%8F%96"><span class="toc-text">第二章 Pandas数据读取</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#2-1-%E5%8F%AF%E8%AF%BB%E5%8F%96%E7%9A%84%E6%95%B0%E6%8D%AE%E7%B1%BB%E5%9E%8B"><span class="toc-text">2.1 可读取的数据类型</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#2-2-%E4%BE%8B%E5%AD%90"><span class="toc-text">2.2 例子</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#2-1-1-Pandas%E8%AF%BB%E5%8F%96%E7%BA%AF%E6%96%87%E6%9C%AC%E6%96%87%E4%BB%B6%E3%80%82"><span class="toc-text">2.1.1 Pandas读取纯文本文件。</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-1-2-Pandas%E8%AF%BB%E5%8F%96xlsx%E6%A0%BC%E5%BC%8Fexcel%E6%96%87%E4%BB%B6"><span class="toc-text">2.1.2 Pandas读取xlsx格式excel文件</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#2-1-3-Pandas%E8%AF%BB%E5%8F%96mysql%E6%95%B0%E6%8D%AE%E8%A1%A8"><span class="toc-text">2.1.3 Pandas读取mysql数据表</span></a></li></ol></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%89%E7%AB%A0-Pandas%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84"><span class="toc-text">第三章 Pandas数据结构</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#3-1-Series"><span class="toc-text">3.1 Series</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#3-2-DataFrame"><span class="toc-text">3.2 DataFrame</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#3-3-%E4%BE%8B%E5%AD%90"><span class="toc-text">3.3 例子</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#3-3-1-Series"><span class="toc-text">3.3.1 Series</span></a><ol class="toc-child"><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-1-1-Series%E4%BE%8B%E5%AD%901%EF%BC%9A%E7%AE%80%E5%8D%95%E4%BE%8B%E5%AD%90"><span class="toc-text">3.3.1.1 Series例子1：简单例子</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-1-2-Series%E4%BE%8B%E5%AD%902%EF%BC%9A%E8%87%AA%E5%AE%9A%E4%B9%89%E7%B4%A2%E5%BC%95%E4%BE%8B%E5%AD%90"><span class="toc-text">3.3.1.2 Series例子2：自定义索引例子</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-1-3-Series%E4%BE%8B%E5%AD%903%EF%BC%9A%E4%BD%BF%E7%94%A8Python%E5%AD%97%E5%85%B8%E5%88%9B%E5%BB%BASeries"><span class="toc-text">3.3.1.3 Series例子3：使用Python字典创建Series</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-1-4-Series%E4%BE%8B%E5%AD%904%EF%BC%9A%E6%A0%B9%E6%8D%AE%E6%A0%87%E7%AD%BE%E7%B4%A2%E5%BC%95%E6%9F%A5%E8%AF%A2%E6%95%B0%E6%8D%AE"><span class="toc-text">3.3.1.4 Series例子4：根据标签索引查询数据</span></a></li></ol></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-3-2-DataFrame"><span class="toc-text">3.3.2 DataFrame</span></a><ol class="toc-child"><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-2-1-%E4%BE%8B%E5%AD%90"><span class="toc-text">3.3.2.1 例子</span></a></li></ol></li><li class="toc-item toc-level-4"><a class="toc-link" href="#3-3-3-%E4%BB%8EDataFrame%E4%B8%AD%E6%9F%A5%E8%AF%A2%E5%87%BASeries"><span class="toc-text">3.3.3 从DataFrame中查询出Series</span></a><ol class="toc-child"><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-3-1-DataFrame%E4%BE%8B%E5%AD%901%EF%BC%9A%E6%9F%A5%E8%AF%A2%E5%88%97"><span class="toc-text">3.3.3.1 DataFrame例子1：查询列</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-3-2-DataFrame%E4%BE%8B%E5%AD%902%EF%BC%9A%E6%9F%A5%E8%AF%A2%E5%A4%9A%E5%88%97%EF%BC%8C%E7%BB%93%E6%9E%9C%E6%98%AF%E4%B8%80%E4%B8%AApd-DataFrame"><span class="toc-text">3.3.3.2 DataFrame例子2：查询多列，结果是一个pd.DataFrame</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-3-3-DataFrame%E4%BE%8B%E5%AD%903%EF%BC%9A%E6%9F%A5%E8%AF%A2%E4%B8%80%E8%A1%8C"><span class="toc-text">3.3.3.3 DataFrame例子3：查询一行</span></a></li><li class="toc-item toc-level-5"><a class="toc-link" href="#3-3-3-4-%E6%9F%A5%E8%AF%A2%E5%A4%9A%E8%A1%8C%EF%BC%8C%E7%BB%93%E6%9E%9C%E6%98%AF%E4%B8%80%E4%B8%AApd-DataFrame"><span class="toc-text">3.3.3.4 查询多行，结果是一个pd.DataFrame</span></a></li></ol></li></ol></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%9B%9B%E7%AB%A0-Pandas%E6%95%B0%E6%8D%AE%E6%9F%A5%E8%AF%A2"><span class="toc-text">第四章 Pandas数据查询</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#4-1-df-loc%E6%96%B9%E6%B3%95%EF%BC%8C%E6%A0%B9%E6%8D%AE%E8%A1%8C%E3%80%81%E5%88%97%E7%9A%84%E6%A0%87%E7%AD%BE%E5%80%BC%E6%9F%A5%E8%AF%A2"><span class="toc-text">4.1 df.loc方法，根据行、列的标签值查询</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#4-1-1-%E4%BD%BF%E7%94%A8%E5%8D%95%E4%B8%AAlabel%E5%80%BC%E6%9F%A5%E8%AF%A2%E6%95%B0%E6%8D%AE"><span class="toc-text">4.1.1 使用单个label值查询数据</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-1-2-%E4%BD%BF%E7%94%A8%E5%80%BC%E5%88%97%E8%A1%A8%E6%89%B9%E9%87%8F%E6%9F%A5%E8%AF%A2"><span class="toc-text">4.1.2 使用值列表批量查询</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-1-3-%E4%BD%BF%E7%94%A8%E6%95%B0%E5%80%BC%E5%8C%BA%E9%97%B4%E8%BF%9B%E8%A1%8C%E8%8C%83%E5%9B%B4%E6%9F%A5%E8%AF%A2"><span class="toc-text">4.1.3 使用数值区间进行范围查询</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-1-4-%E4%BD%BF%E7%94%A8%E6%9D%A1%E4%BB%B6%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%9F%A5%E8%AF%A2"><span class="toc-text">4.1.4 使用条件表达式查询</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#4-1-5-%E8%B0%83%E7%94%A8%E5%87%BD%E6%95%B0%E6%9F%A5%E8%AF%A2"><span class="toc-text">4.1.5 调用函数查询</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-2-df-iloc%E6%96%B9%E6%B3%95%EF%BC%8C%E6%A0%B9%E6%8D%AE%E8%A1%8C%E3%80%81%E5%88%97%E7%9A%84%E6%95%B0%E5%AD%97%E4%BD%8D%E7%BD%AE%E6%9F%A5%E8%AF%A2"><span class="toc-text">4.2 df.iloc方法，根据行、列的数字位置查询</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-3-df-where%E6%96%B9%E6%B3%95"><span class="toc-text">4.3 df.where方法</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#4-4-df-query%E6%96%B9%E6%B3%95"><span class="toc-text">4.4 df.query方法</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%94%E7%AB%A0-Pandas%E6%96%B0%E5%A2%9E%E6%95%B0%E6%8D%AE"><span class="toc-text">第五章 Pandas新增数据</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#5-1-%E7%9B%B4%E6%8E%A5%E8%B5%8B%E5%80%BC"><span class="toc-text">5.1 直接赋值</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#5-2-df-apply%E6%96%B9%E6%B3%95"><span class="toc-text">5.2 df.apply方法</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#5-3-df-assign%E6%96%B9%E6%B3%95"><span class="toc-text">5.3 df.assign方法</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#5-4-%E6%8C%89%E6%9D%A1%E4%BB%B6%E9%80%89%E6%8B%A9%E5%88%86%E7%BB%84%E5%88%86%E5%88%AB%E8%B5%8B%E5%80%BC"><span class="toc-text">5.4 按条件选择分组分别赋值</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%85%AD%E7%AB%A0-Pandas%E6%95%B0%E6%8D%AE%E7%BB%9F%E8%AE%A1%E5%87%BD%E6%95%B0"><span class="toc-text">第六章 Pandas数据统计函数</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#6-1-%E6%B1%87%E6%80%BB%E7%B1%BB%E7%BB%9F%E8%AE%A1"><span class="toc-text">6.1 汇总类统计</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#6-2-%E5%94%AF%E4%B8%80%E5%8E%BB%E9%87%8D%E5%92%8C%E6%8C%89%E5%80%BC%E8%AE%A1%E6%95%B0"><span class="toc-text">6.2 唯一去重和按值计数</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#6-2-1-%E5%94%AF%E4%B8%80%E6%80%A7%E5%8E%BB%E9%87%8D"><span class="toc-text">6.2.1 唯一性去重</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#6-2-2-%E6%8C%89%E5%80%BC%E8%AE%A1%E6%95%B0"><span class="toc-text">6.2.2 按值计数</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#6-3-%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0%E4%B8%8E%E5%8D%8F%E6%96%B9%E5%B7%AE"><span class="toc-text">6.3 相关系数与协方差</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B8%83%E7%AB%A0-Pandas%E7%BC%BA%E5%A4%B1%E5%80%BC%E5%A4%84%E7%90%86"><span class="toc-text">第七章 Pandas缺失值处理</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#7-1-%E7%BC%BA%E5%A4%B1%E5%80%BC%E5%A1%AB%E5%85%85%E5%87%BD%E6%95%B0"><span class="toc-text">7.1 缺失值填充函数</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#7-2-%E4%BE%8B%E5%AD%90%EF%BC%9A"><span class="toc-text">7.2 例子：</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%85%AB%E7%AB%A0-Pandas%E7%9A%84SettingWithCopyWarning%E6%8A%A5%E8%AD%A6"><span class="toc-text">第八章 Pandas的SettingWithCopyWarning报警</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#8-1-%E9%94%99%E8%AF%AF%E7%9A%84%E5%A4%8D%E7%8E%B0"><span class="toc-text">8.1 错误的复现</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#8-2-%E5%8E%9F%E5%9B%A0"><span class="toc-text">8.2 原因</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#8-3-%E8%A7%A3%E5%86%B3%E6%96%B9%E6%B3%95"><span class="toc-text">8.3 解决方法</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#8-3-1-%E6%96%B9%E6%A1%881"><span class="toc-text">8.3.1 方案1</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#8-3-2-%E6%96%B9%E6%A1%882"><span class="toc-text">8.3.2 方案2</span></a></li></ol></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%B9%9D%E7%AB%A0-Pandas%E6%95%B0%E6%8D%AE%E6%8E%92%E5%BA%8F"><span class="toc-text">第九章 Pandas数据排序</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#9-1-Series%E6%8E%92%E5%BA%8F"><span class="toc-text">9.1 Series排序</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#9-2-DataFrame%E6%8E%92%E5%BA%8F"><span class="toc-text">9.2 DataFrame排序</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E7%AB%A0-Pandas%E5%AD%97%E7%AC%A6%E4%B8%B2%E5%A4%84%E7%90%86"><span class="toc-text">第十章 Pandas字符串处理</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#10-1-%E8%8E%B7%E5%8F%96Series%E7%9A%84str%E5%B1%9E%E6%80%A7%EF%BC%8C%E4%BD%BF%E7%94%A8%E5%90%84%E7%A7%8D%E5%AD%97%E7%AC%A6%E4%B8%B2%E5%A4%84%E7%90%86%E5%87%BD%E6%95%B0"><span class="toc-text">10.1 获取Series的str属性，使用各种字符串处理函数</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#10-2-%E4%BD%BF%E7%94%A8str%E7%9A%84startswith%E3%80%81contains%E7%AD%89%E5%BE%97%E5%88%B0bool%E7%9A%84Series%E5%8F%AF%E4%BB%A5%E5%81%9A%E6%9D%A1%E4%BB%B6%E6%9F%A5%E8%AF%A2"><span class="toc-text">10.2 使用str的startswith、contains等得到bool的Series可以做条件查询</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#10-3-%E9%9C%80%E8%A6%81%E5%A4%9A%E6%AC%A1str%E5%A4%84%E7%90%86%E7%9A%84%E9%93%BE%E5%BC%8F%E6%93%8D%E4%BD%9C"><span class="toc-text">10.3 需要多次str处理的链式操作</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#10-4-%E4%BD%BF%E7%94%A8%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E7%9A%84%E5%A4%84%E7%90%86"><span class="toc-text">10.4 使用正则表达式的处理</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%B8%80%E7%AB%A0-Pandas%E7%9A%84axis%E5%8F%82%E6%95%B0"><span class="toc-text">第十一章 Pandas的axis参数</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#11-1-%E5%8D%95%E5%88%97drop%EF%BC%8C%E5%B0%B1%E6%98%AF%E5%88%A0%E9%99%A4%E6%9F%90%E4%B8%80%E5%88%97"><span class="toc-text">11.1 单列drop，就是删除某一列</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#11-2-%E5%8D%95%E8%A1%8Cdrop%EF%BC%8C%E5%B0%B1%E6%98%AF%E5%88%A0%E9%99%A4%E6%9F%90%E4%B8%80%E8%A1%8C"><span class="toc-text">11.2 单行drop，就是删除某一行</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#11-3-%E6%8C%89axis-0-index%E6%89%A7%E8%A1%8Cmean%E8%81%9A%E5%90%88%E6%93%8D%E4%BD%9C"><span class="toc-text">11.3 按axis&#x3D;0&#x2F;index执行mean聚合操作</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%BA%8C%E7%AB%A0-Pandas%E7%9A%84%E7%B4%A2%E5%BC%95index"><span class="toc-text">第十二章 Pandas的索引index</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#12-1-%E4%BD%BF%E7%94%A8index%E6%9F%A5%E8%AF%A2%E6%95%B0%E6%8D%AE"><span class="toc-text">12.1 使用index查询数据</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#12-2-%E4%BD%BF%E7%94%A8index%E4%BC%9A%E6%8F%90%E5%8D%87%E6%9F%A5%E8%AF%A2%E6%80%A7%E8%83%BD"><span class="toc-text">12.2 使用index会提升查询性能</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#12-2-1-%E5%AE%9E%E9%AA%8C1"><span class="toc-text">12.2.1 实验1</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#12-2-2-%E5%AE%9E%E9%AA%8C2"><span class="toc-text">12.2.2 实验2</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#12-3-%E4%BD%BF%E7%94%A8index%E8%83%BD%E8%87%AA%E5%8A%A8%E5%AF%B9%E9%BD%90%E6%95%B0%E6%8D%AE"><span class="toc-text">12.3 使用index能自动对齐数据</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#12-4-%E4%BD%BF%E7%94%A8index%E6%9B%B4%E5%A4%9A%E6%9B%B4%E5%BC%BA%E5%A4%A7%E7%9A%84%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84%E6%94%AF%E6%8C%81"><span class="toc-text">12.4 使用index更多更强大的数据结构支持</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%B8%89%E7%AB%A0-Pandas%E7%9A%84Merge%E8%AF%AD%E6%B3%95"><span class="toc-text">第十三章 Pandas的Merge语法</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#13-1-%E7%94%B5%E5%BD%B1%E6%95%B0%E6%8D%AE%E9%9B%86%E7%9A%84join%E5%AE%9E%E4%BE%8B"><span class="toc-text">13.1 电影数据集的join实例</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#13-2-%E7%90%86%E8%A7%A3merge%E6%97%B6%E6%95%B0%E9%87%8F%E7%9A%84%E5%AF%B9%E9%BD%90%E5%85%B3%E7%B3%BB"><span class="toc-text">13.2 理解merge时数量的对齐关系</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#13-2-1-one-to-one-%E4%B8%80%E5%AF%B9%E4%B8%80%E5%85%B3%E7%B3%BB%E7%9A%84merge"><span class="toc-text">13.2.1 one-to-one 一对一关系的merge</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#13-2-2-one-to-many-%E4%B8%80%E5%AF%B9%E5%A4%9A%E5%85%B3%E7%B3%BB%E7%9A%84merge"><span class="toc-text">13.2.2 one-to-many 一对多关系的merge</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#13-2-3-many-to-many-%E5%A4%9A%E5%AF%B9%E5%A4%9A%E5%85%B3%E7%B3%BB%E7%9A%84merge"><span class="toc-text">13.2.3 many-to-many 多对多关系的merge</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#13-3-%E7%90%86%E8%A7%A3left-join%E3%80%81right-join%E3%80%81inner-join%E3%80%81outer-join%E7%9A%84%E5%8C%BA%E5%88%AB"><span class="toc-text">13.3 理解left join、right join、inner join、outer join的区别</span></a><ol class="toc-child"><li class="toc-item toc-level-4"><a class="toc-link" href="#13-3-1-inner-join-%E9%BB%98%E8%AE%A4"><span class="toc-text">13.3.1 inner join 默认</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#13-3-2-left-join"><span class="toc-text">13.3.2 left join</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#13-3-3-right-join"><span class="toc-text">13.3.3 right join</span></a></li><li class="toc-item toc-level-4"><a class="toc-link" href="#13-3-4-outer-join"><span class="toc-text">13.3.4 outer join</span></a></li></ol></li><li class="toc-item toc-level-3"><a class="toc-link" href="#13-4-%E5%A6%82%E6%9E%9C%E5%87%BA%E7%8E%B0%E9%9D%9EKey%E7%9A%84%E5%AD%97%E6%AE%B5%E9%87%8D%E5%90%8D%E6%80%8E%E4%B9%88%E5%8A%9E%EF%BC%9F"><span class="toc-text">13.4 如果出现非Key的字段重名怎么办？</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E5%9B%9B%E7%AB%A0-Pandas%E7%9A%84Concat%E5%90%88%E5%B9%B6"><span class="toc-text">第十四章 Pandas的Concat合并</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#14-1-%E4%BD%BF%E7%94%A8pandas-concat%E5%90%88%E5%B9%B6%E6%95%B0%E6%8D%AE"><span class="toc-text">14.1 使用pandas.concat合并数据</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#14-2-%E4%BD%BF%E7%94%A8DataFrame-append%E6%8C%89%E8%A1%8C%E5%90%88%E5%B9%B6%E6%95%B0%E6%8D%AE"><span class="toc-text">14.2 使用DataFrame.append按行合并数据</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%BA%94%E7%AB%A0-Pandas%E6%89%B9%E9%87%8F%E6%8B%86%E5%88%86%E4%B8%8E%E5%90%88%E5%B9%B6Excel%E6%96%87%E4%BB%B6"><span class="toc-text">第十五章 Pandas批量拆分与合并Excel文件</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#15-1-%E5%B0%86%E4%B8%80%E4%B8%AA%E5%A4%A7Excel%E7%AD%89%E4%BB%BD%E6%8B%86%E6%88%90%E5%A4%9A%E4%B8%AAExcel"><span class="toc-text">15.1 将一个大Excel等份拆成多个Excel</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#15-2-%E5%90%88%E5%B9%B6%E5%A4%9A%E4%B8%AA%E5%B0%8FExcel%E5%88%B0%E4%B8%80%E4%B8%AA%E5%A4%A7Excel"><span class="toc-text">15.2 合并多个小Excel到一个大Excel</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E5%85%AD%E7%AB%A0-Pandas%E5%AE%9E%E7%8E%B0groupby%E5%88%86%E7%BB%84%E7%BB%9F%E8%AE%A1"><span class="toc-text">第十六章 Pandas实现groupby分组统计</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#16-1-%E5%88%86%E7%BB%84%E4%BD%BF%E7%94%A8%E8%81%9A%E5%90%88%E5%87%BD%E6%95%B0%E5%81%9A%E6%95%B0%E6%8D%AE%E7%BB%9F%E8%AE%A1"><span class="toc-text">16.1 分组使用聚合函数做数据统计</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#16-2-%E9%81%8D%E5%8E%86groupby%E7%9A%84%E7%BB%93%E6%9E%9C%E7%90%86%E8%A7%A3%E6%89%A7%E8%A1%8C%E6%B5%81%E7%A8%8B"><span class="toc-text">16.2 遍历groupby的结果理解执行流程</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#16-3-%E5%AE%9E%E4%BE%8B%E5%88%86%E7%BB%84%E6%8E%A2%E7%B4%A2%E5%A4%A9%E6%B0%94%E6%95%B0%E6%8D%AE"><span class="toc-text">16.3 实例分组探索天气数据</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%B8%83%E7%AB%A0-Pandas%E7%9A%84%E5%88%86%E5%B1%82%E7%B4%A2%E5%BC%95Multilndex"><span class="toc-text">第十七章 Pandas的分层索引Multilndex</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#17-1-Series%E7%9A%84%E5%88%86%E5%B1%82%E7%B4%A2%E5%BC%95Multilndex"><span class="toc-text">17.1 Series的分层索引Multilndex</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#17-2-Series%E6%9C%89%E5%A4%9A%E5%B1%82%E7%B4%A2%E5%BC%95%E6%80%8E%E6%A0%B7%E7%AD%9B%E9%80%89%E6%95%B0%E6%8D%AE"><span class="toc-text">17.2 Series有多层索引怎样筛选数据?</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#17-3-DataFrame%E7%9A%84%E5%A4%9A%E5%B1%82%E7%B4%A2%E5%BC%95Multilndex"><span class="toc-text">17.3 DataFrame的多层索引Multilndex</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#17-4-DataFrame%E6%9C%89%E5%A4%9A%E5%B1%82%E7%B4%A2%E5%BC%95%E6%80%8E%E6%A0%B7%E7%AD%9B%E9%80%89%E6%95%B0%E6%8D%AE"><span class="toc-text">17.4 DataFrame有多层索引怎样筛选数据?</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E5%85%AB%E7%AB%A0-Pandas%E7%9A%84%E6%95%B0%E6%8D%AE%E8%BD%AC%E6%8D%A2%E5%87%BD%E6%95%B0map%E3%80%81apply%E3%80%81applymap"><span class="toc-text">第十八章 Pandas的数据转换函数map、apply、applymap</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#18-1-map%E7%94%A8%E4%BA%8ESeries%E5%80%BC%E7%9A%84%E8%BD%AC%E6%8D%A2"><span class="toc-text">18.1 map用于Series值的转换</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#18-2-apply%E7%94%A8%E4%BA%8ESeries%E5%92%8CDataFrame%E7%9A%84%E8%BD%AC%E6%8D%A2"><span class="toc-text">18.2 apply用于Series和DataFrame的转换</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#18-3-applymap%E7%94%A8%E4%BA%8EDataFrame%E6%89%80%E6%9C%89%E5%80%BC%E7%9A%84%E8%BD%AC%E6%8D%A2"><span class="toc-text">18.3 applymap用于DataFrame所有值的转换</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E5%8D%81%E4%B9%9D%E7%AB%A0-Pandas%E5%AF%B9%E6%AF%8F%E4%B8%AA%E5%88%86%E7%BB%84%E5%BA%94%E7%94%A8apply%E5%87%BD%E6%95%B0"><span class="toc-text">第十九章 Pandas对每个分组应用apply函数</span></a></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E5%8D%81%E7%AB%A0-Pandas%E4%BD%BF%E7%94%A8stack%E5%92%8Cpivot%E5%AE%9E%E7%8E%B0%E6%95%B0%E6%8D%AE%E9%80%8F%E8%A7%86"><span class="toc-text">第二十章 Pandas使用stack和pivot实现数据透视</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#20-1-%E7%BB%8F%E8%BF%87%E7%BB%9F%E8%AE%A1%E5%BE%97%E5%88%B0%E5%A4%9A%E7%BB%B4%E5%BA%A6%E6%8C%87%E6%A0%87%E6%95%B0%E6%8D%AE"><span class="toc-text">20.1 经过统计得到多维度指标数据</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#20-2-%E4%BD%BF%E7%94%A8unstack%E5%AE%9E%E7%8E%B0%E6%95%B0%E6%8D%AE%E4%BA%8C%E7%BB%B4%E9%80%8F%E8%A7%86"><span class="toc-text">20.2 使用unstack实现数据二维透视</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#20-3-%E4%BD%BF%E7%94%A8pivot%E7%AE%80%E5%8C%96%E9%80%8F%E8%A7%86"><span class="toc-text">20.3 使用pivot简化透视</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#20-4-stack%E3%80%81unstack%E3%80%81pivot%E7%9A%84%E8%AF%AD%E6%B3%95"><span class="toc-text">20.4 stack、unstack、pivot的语法</span></a></li></ol></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E5%8D%81%E4%B8%80%E7%AB%A0-Pandas%E4%BD%BF%E7%94%A8apply%E5%87%BD%E6%95%B0%E7%BB%99%E8%A1%A8%E6%A0%BC%E6%B7%BB%E5%8A%A0%E5%A4%9A%E5%88%97"><span class="toc-text">第二十一章 Pandas使用apply函数给表格添加多列</span></a></li><li class="toc-item toc-level-2"><a class="toc-link" href="#%E7%AC%AC%E4%BA%8C%E5%8D%81%E4%BA%8C%E7%AB%A0-Pandas%E6%96%B0%E5%A2%9E%E6%95%B0%E6%8D%AE%E5%88%97"><span class="toc-text">第二十二章 Pandas新增数据列</span></a><ol class="toc-child"><li class="toc-item toc-level-3"><a class="toc-link" href="#21-1-%E7%9B%B4%E6%8E%A5%E8%B5%8B%E5%80%BC"><span class="toc-text">21.1 直接赋值</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#21-2-df-apply%E6%96%B9%E6%B3%95"><span class="toc-text">21.2 df.apply方法</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#21-3-df-assign%E6%96%B9%E6%B3%95"><span class="toc-text">21.3 df.assign方法</span></a></li><li class="toc-item toc-level-3"><a class="toc-link" href="#21-4-%E6%8C%89%E6%9D%A1%E4%BB%B6%E9%80%89%E6%8B%A9%E5%88%86%E7%BB%84%E5%88%86%E5%88%AB%E8%B5%8B%E5%80%BC"><span class="toc-text">21.4 按条件选择分组分别赋值</span></a></li></ol></li></ol></li></ol>
      
    </div>
  </div>

  
<script src="/js/catalog.js"></script>


                                        <div class="comments-container">
                                          

                                        </div>
                                        
                                  </div>
                                  

          <div id="blockchain"></div>
          <style>
            #hq {
              margin-top: 10px;
              margin-bottom: 10px;
              font-size: 18px;
            }

            #blockchain {
              margin: 0 auto;
              display: none;
              width: 590px;
              flex-direction: column;
              align-items: center;
              background: #ffffffa3;
              border-radius: 5px;
              padding: 5px 10px 10px 10px;
              margin-top: 20px;
            }

            #blockchain .htitle {
              display: flex;
              flex-direction: row;
              align-items: center;
              cursor: pointer;
            }

            #blockchain .hsubtitle {
              color: #555;
              transform: scale(0.8); /* 然后缩小至80% */
              transform-origin: 5px 12px; /* 可能需要指定缩放原点以确保准确缩放 */
            }

            #blockchain .himg {
              width: 25px;
              height: 25px;
              margin-right: 5px;
            }

            #blockchain tr, th {
              font-size: 1.7rem;
              font-weight: normal;
            }

            #blockchain tr, td {
              font-size: 1.6rem;
            }

            #blockchain tr, th, td {
              border: 1px solid #c7c7c7;
              padding: 3px 7px;
            }

            #blockchain table {
              border-collapse: collapse;
              width: 100%;
              font-size: 16px;
              font-family: arial;
            }

            @media (max-width: 800px) {
              #blockchain {
                margin: 0 auto;
                margin-top: 20px;
                display: none;
                /* justify-content: flex-start; */
                padding: 20px 10px;
                width: calc(100% - 40px);
                flex-direction: column;
                align-items: center;
              }
            }
          </style>

          
<script src="/js/axios.min.js"></script>

          <script>
            let ctoname = [
              "BTC",
              "ETH",
              "USDT",
              "BNB",
              "SOL",
              "USDC",
              "XRP",
              "DOGE",
              "ADA",
              "SHIB",
              "AVAX",
              "TRX",
              "DOT",
              "WBTC",
              "BCH",
              "LINK",
              "NEAR",
              "MATIC",
              "ICP",
              "LTC",
              "DAI",
              "UNI",
              "HBAR",
              "ETC",
              "APT",
              "FDUSD",
              "RNDR",
              "ATOM",
              "PEPE",
              "FIL"
            ];

            let ctoname2 = [
                "比特币",
                "以太坊",
                "泰达币",
                "币安币",
                "索拉纳",
                "美元硬币",
                "瑞波币",
                "狗狗币",
                "卡尔达诺",
                "柴犬币",
                "雪崩协议",
                "波场",
                "波卡",
                "包装比特币",
                "比特币现金",
                "链环",
                "近协议",
                "多边形",
                "互联网计算机",
                "莱特币",
                "戴",
                "Uniswap",
                "以太坊经典",
                "赫德拉哈希图",
                "阿普托斯",
                "第一数字美元",
                "渲染令牌",
                "佩佩",
                "宇宙",
                "文件币"
            ];

            let ctoname3 = [
                "Bitcoin",
                "Ethereum",
                "TetherUS",
                "BNB",
                "Solana",
                "USD Coin",
                "Ripple",
                "Dogecoin",
                "Cardano",
                "SHIBA INU",
                "Avalanche",
                "TRON",
                "Polkadot",
                "Wrapped Bitcoin",
                "Bitcoin Cash",
                "ChainLink",
                "NEAR Protocol",
                "Polygon",
                "Internet Computer",
                "Litecoin",
                "Dai",
                "Uniswap",
                "Ethereum Classic",
                "Hedera Hashgraph",
                "Aptos",
                "First Digital USD",
                "Render Token",
                "Pepe",
                "Cosmos",
                "Filecoin"
            ]

            let ctoname4 = [
                "比特币是一种去中心化的数字货币，它允许点对点交易，创建于2009年。",
                "以太坊是一个开源的区块链平台，支持智能合约和去中心化应用，推出于2015年。",
                "泰达币是一种与美元挂钩的稳定币，旨在保持1:1的美元价值。",
                "币安币是币安交易所发行的加密货币，用于支付交易费用和其他服务。",
                "索拉纳是一个高性能区块链平台，旨在提供快速、安全和可扩展的去中心化应用。",
                "USD Coin是一种与美元挂钩的稳定币，由Circle和Coinbase合作推出。",
                "瑞波币是一种由Ripple公司创建的加密货币，旨在促进银行间快速、低成本的跨境支付。",
                "狗狗币是一种基于模因的加密货币，起初作为玩笑创建，但后来因社区支持而流行。",
                "卡尔达诺是一个第三代区块链平台，致力于提供可持续和可扩展的去中心化应用。",
                "柴犬币是一种模仿狗狗币的加密货币，以其社区驱动的发展模式和广泛的在线社区而闻名。",
                "雪崩币是Avalanche区块链平台的原生代币，支持去中心化应用和金融资产。",
                "波场币是波场区块链的原生代币，旨在为数字娱乐产业提供去中心化的内容分享平台。",
                "波卡币是一个多链区块链平台，旨在实现不同区块链之间的互操作性。",
                "包装比特币是比特币在以太坊区块链上的代币化版本，使其能够用于DeFi应用。",
                "比特币现金是比特币的一个分叉，旨在通过增加区块大小来实现更快的交易速度。",
                "Chainlink是一个去中心化的预言机网络，旨在连接智能合约和现实世界的数据。",
                "近邻协议是一个高性能区块链，致力于提供去中心化应用的理想开发平台。",
                "Polygon是一个以太坊扩展解决方案，旨在提供快速、低成本的交易。",
                "Internet Computer是一个去中心化的区块链网络，旨在扩展互联网功能。",
                "莱特币是一种基于比特币协议的加密货币，具有更快的区块生成时间。",
                "Dai是一种由MakerDAO创建的去中心化稳定币，与美元挂钩。",
                "Uniswap是一个基于以太坊的去中心化交易所，允许用户进行代币交换。",
                "Hedera是一个去中心化的公有账本，使用哈希图共识算法。",
                "以太经典是以太坊的一个分叉，保持了原始以太坊链的历史记录。",
                "Aptos是一个新兴的区块链平台，旨在提供高效、安全的去中心化应用。",
                "First Digital USD是一种与美元挂钩的稳定币，旨在提供数字美元的替代方案。",
                "Render Token是一个分布式的GPU渲染网络，旨在提供高效的渲染服务。",
                "宇宙链是一个区块链网络，旨在实现不同区块链之间的互操作性。",
                "Pepe是一种模仿柴犬币的加密货币，以其社区驱动的发展模式而著名。",
                "文件币是一个去中心化的存储网络，旨在利用区块链技术提供安全的数据存储。"
            ];

            async function requestBlockChain() {
              const instance = axios.get("/blockchain")
              let jsonData = (await instance).data

              let table = `<h2 id='hq'>虚拟货币行情</h2>
                <div style="font-size: 1.5rem; font-weight: normal; padding: 0px 0px 10px 0px;">(美元对人民币汇率：${jsonData['exchange']})</div>
                <table border='1'>
                  <tr>
                    <th width="40%">虚拟货币</th>
                    <th width="30%">价格(人民币)</th>
                    <th width="30%">价格(美元)</th>
                  </tr>`;
              
              for (let i = 0; i <= 20; i++) {
                if (!jsonData['list'][ctoname[i]]) {
                  continue;
                }

                let rmb = Math.round(jsonData['list'][ctoname[i]] * jsonData['exchange'] * 100000) / 100000;
                let usd = jsonData['list'][ctoname[i]]

                table += `
                <tr>
                  <td>
                    <div class="htitle" title="${ctoname4[i]}">
                      <img class="himg" src="/images/BlockChain/${ctoname[i]}.jpg" />
                      ${ctoname[i]}
                      <span class="hsubtitle">
                        (${ctoname2[i]})
                      </span>
                    </div>
                  </td>
                  <td>${rmb}</td>
                  <td>${usd}</td>
                </tr>`;
              }

              // for (let currency in jsonData) {
              //   table += `<tr><td>${ctoname[currency].name}</td><td>${jsonData[currency]}</td></tr>`;
              // }
              table += "</table>";

              document.getElementById("blockchain").innerHTML = table;
              document.getElementById("blockchain").style.display = "flex"
            }

            requestBlockChain()
          </script>

          
<div class="footer">
  <div class="social">
    <ul>
      
        <li>
          <a title="github" href="">
            <i class="iconfont icon-"></i>
          </a>
        </li>
      
        <li>
          <a title="wechat" href="">
            <i class="iconfont icon-wechat"></i>
          </a>
        </li>
      
    </ul>
  </div>
  
    
    <div class="footer-more">
      
        <a target="_blank" rel="noopener" href="https://github.com/zchengsite/hexo-theme-oranges">Copyright © 2024 lijunjie</a>
        
    </div>
  
    
    <div class="footer-more">
      
        <a href="https://hahaha.love">Theme by Oranges | Powered by Lijunjie</a>
        
    </div>
  
  
</div>


<script async src="/plugins/consolevideo.js"></script>
        </div>

        <div class="tools-bar">
          <div class="back-to-top tools-bar-item hidden">
  <a href="javascript: void(0)">
    <i class="iconfont icon-chevronup"></i>
  </a>
</div>


<script src="/js/backtotop.js"></script>


  <div class="search-icon tools-bar-item" id="search-icon">
    <a href="javascript: void(0)">
      <i class="iconfont icon-search"></i>
    </a>
  </div>

  <div class="search-overlay hidden">
    <div class="search-content" tabindex="0">
      <div class="search-title">
        <span class="search-icon-input">
          <a href="javascript: void(0)">
            <i class="iconfont icon-search"></i>
          </a>
        </span>
        
          <input type="text" class="search-input" id="search-input" placeholder="搜索...">
        
        <span class="search-close-icon" id="search-close-icon">
          <a href="javascript: void(0)">
            <i class="iconfont icon-close"></i>
          </a>
        </span>
      </div>
      <div class="search-result" id="search-result"></div>
    </div>
  </div>

  <script type="text/javascript">
    var inputArea = document.querySelector("#search-input")
    var searchOverlayArea = document.querySelector(".search-overlay")

    inputArea.onclick = function() {
      getSearchFile()
      this.onclick = null
    }

    inputArea.onkeydown = function() {
      if(event.keyCode == 13)
        return false
    }

    function openOrHideSearchContent() {
      let isHidden = searchOverlayArea.classList.contains('hidden')
      if (isHidden) {
        searchOverlayArea.classList.remove('hidden')
        document.body.classList.add('hidden')
        // inputArea.focus()
      } else {
        searchOverlayArea.classList.add('hidden')
        document.body.classList.remove('hidden')
      }
    }

    function blurSearchContent(e) {
      if (e.target === searchOverlayArea) {
        openOrHideSearchContent()
      }
    }

    document.querySelector("#search-icon").addEventListener("click", openOrHideSearchContent, false)
    document.querySelector("#search-close-icon").addEventListener("click", openOrHideSearchContent, false)
    searchOverlayArea.addEventListener("click", blurSearchContent, false)

    var searchFunc = function (path, search_id, content_id) {
      'use strict';
      var $input = document.getElementById(search_id);
      var $resultContent = document.getElementById(content_id);
      $resultContent.innerHTML = "<ul><span class='local-search-empty'>首次搜索，正在载入索引文件，请稍后……<span></ul>";
      $.ajax({
        // 0x01. load xml file
        url: path,
        dataType: "xml",
        success: function (xmlResponse) {
          // 0x02. parse xml file
          var datas = $("entry", xmlResponse).map(function () {
            return {
              title: $("title", this).text(),
              content: $("content", this).text(),
              url: $("url", this).text()
            };
          }).get();
          $resultContent.innerHTML = "";

          $input.addEventListener('input', function () {
            // 0x03. parse query to keywords list
            var str = '<ul class=\"search-result-list\">';
            var keywords = this.value.trim().toLowerCase().split(/[\s\-]+/);
            $resultContent.innerHTML = "";
            if (this.value.trim().length <= 0) {
              return;
            }
            // 0x04. perform local searching
            datas.forEach(function (data) {
              var isMatch = true;
              var content_index = [];
              if (!data.title || data.title.trim() === '') {
                data.title = "Untitled";
              }
              var orig_data_title = data.title.trim();
              var data_title = orig_data_title.toLowerCase();
              var orig_data_content = data.content.trim().replace(/<[^>]+>/g, "");
              var data_content = orig_data_content.toLowerCase();
              var data_url = data.url;
              var index_title = -1;
              var index_content = -1;
              var first_occur = -1;
              // only match artiles with not empty contents
              if (data_content !== '') {
                keywords.forEach(function (keyword, i) {
                  index_title = data_title.indexOf(keyword);
                  index_content = data_content.indexOf(keyword);

                  if (index_title < 0 && index_content < 0) {
                    isMatch = false;
                  } else {
                    if (index_content < 0) {
                      index_content = 0;
                    }
                    if (i == 0) {
                      first_occur = index_content;
                    }
                    // content_index.push({index_content:index_content, keyword_len:keyword_len});
                  }
                });
              } else {
                isMatch = false;
              }
              // 0x05. show search results
              if (isMatch) {
                str += "<li><a href='" + data_url + "' class='search-result-title'>" + orig_data_title + "</a>";
                var content = orig_data_content;
                if (first_occur >= 0) {
                  // cut out 100 characters
                  var start = first_occur - 20;
                  var end = first_occur + 80;

                  if (start < 0) {
                    start = 0;
                  }

                  if (start == 0) {
                    end = 100;
                  }

                  if (end > content.length) {
                    end = content.length;
                  }

                  var match_content = content.substr(start, end);

                  // highlight all keywords
                  keywords.forEach(function (keyword) {
                    var regS = new RegExp(keyword, "gi");
                    match_content = match_content.replace(regS, "<span class=\"search-keyword\">" + keyword + "</span>");
                  });

                  str += "<p class=\"search-result-abstract\">" + match_content + "...</p>"
                }
                str += "</li>";
              }
            });
            str += "</ul>";
            if (str.indexOf('<li>') === -1) {
              return $resultContent.innerHTML = "<ul><span class='local-search-empty'>没有找到内容，请尝试更换检索词。<span></ul>";
            }
            $resultContent.innerHTML = str;
          });
        },
        error: function(xhr, status, error) {
          $resultContent.innerHTML = ""
          if (xhr.status === 404) {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>未找到search.xml文件，具体请参考：<a href='https://github.com/zchengsite/hexo-theme-oranges#configuration' target='_black'>configuration</a><span></ul>";
          } else {
            $resultContent.innerHTML = "<ul><span class='local-search-empty'>请求失败，尝试重新刷新页面或稍后重试。<span></ul>";
          }
        }
      });
      $(document).on('click', '#search-close-icon', function() {
        $('#search-input').val('');
        $('#search-result').html('');
      });
    }

    var getSearchFile = function() {
        var path = "/search.xml";
        searchFunc(path, 'search-input', 'search-result');
    }
  </script>


        </div>
    </div>

  </body>

</html>