python pandas常用函数_python:pandas常用功能函数操作-程序员宅基地

技术标签： python pandas常用函数

一、安装pandas

创建虚拟环境：

#创建虚拟环境

mkvirtualenv -p python3 pandas_env

#进入虚拟环境

workon pandas_env

安装pandas

# 1、安装包

$ pip install pandas

测试

# 2、进入python的交互式界面

$ python -i

# 3、使用Pandas

>>> import pandas as pd

>>> df = pd.DataFrame()

>>> print(df)

# 4、输出结果

Empty DataFrame

Columns: []

Index: []

安装处理excel的xlrd

pip install xlrd

使用pandas读取excel并打印

from pandas import pandas as pd

df = pd.read_excel("C:/Users/zixuan/Desktop/test.xlsx")

print(df)

输出：

name age class sex

0 wzx 25 c g

1 lzq 24 c m

2 jjj 5 c m

excel内容如下：

二、数据结构

pandas的数据结构分为两种： Series(一维数据)与 DataFrame(二维数据)。

维数

名称

描述

Series

带标签的一维同构数组

DataFrame

带标签的，大小可变的，二维异构表格

Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。

1.DataFrame

在DataFrame中，index是行，columns是列。如上面的例子中，pandas会将第一行的数据当作表头，即列名。从第二行开始，以0为起始，作为DF的行。

DataFrame 的每一列都是一个Series。如：

for col in df.columns:

series = df[col]

print(series)

输出：

0 wzx

1 lzq

2 jjj

Name: name, dtype: object

0 25

1 24

2 5

Name: age, dtype: int64

0 c

1 c

2 c

Name: class, dtype: object

0 g

1 m

2 m

Name: sex, dtype: object

Pandas 所有数据结构的值都是可变的，但数据结构的大小并非都是可变的，比如，Series 的长度不可改变，但 DataFrame 里就可以插入列。

Pandas 里，绝大多数方法都不改变原始的输入数据，而是复制数据，生成新的对象。一般来说，原始输入数据不变更稳妥。

三、DF的操作

一、属性

1.将df转换成数组

df.values

输出：

[['wzx' 25 'c' 'g']

['lzq' 24 'c' 'm']

['jjj' 5 'c' 'm']]

2.查看所有列名

for col in df.columns:

print(col)

输出：

name

age

class

sex

3.查看所有索引

for index in df.index:

print(index)

输出:

4.查看df的形状

df.shape

输出：

(3, 4)

#三行四列，在excel中是四行四列，但第一行在pandas中被视为表头

5.查看df的大小

df.size

输出：

#即一共有12个单元格

6.查看每列的数据类型

df.dtypes

输出：

name object

age int64

class object

sex object

dtype: object

二、行列操作和切片

1.指定某一列作为索引

#将第一列name设置为索引

df.set_index('name',inplace=True)

print(df.index)

输出：

Index(['wzx', 'lzq', 'jjj'], dtype='object', name='name')

2.取指定列的数据

#查看age列

df['age']

#或

df.age

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

3.取指定行数据(使用loc)

#取索引为wzx的行

df.loc['wzx']

输出：

age 25

class c

sex g

Name: wzx, dtype: object

#取多行数据(索引为wzx lzq)，可将多个索引以列表方式传入

df.loc[['wzx','lzq']]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

4.取指定行的指定列的数据(即某单元格的数据)

#取索引为wzx的age

df.loc['wzx','age']

输出：

#取索引为wzx lzq的age class

df.loc[['wzx','lzq'],['age','class']]

输出：

age class

name

wzx 25 c

lzq 24 c

注意：loc可传入两个参数，第一个参数作为索引，第二个参数作为列名。如果不传第二个参数，则默认取所有列。

如：

取某个索引的某个列的例子中，字符串'wzx'作为第一个参数，字符串'age'作为第二个参数。

取多个索引的多个列的例子中，数组['wzx','lzq']作为第一个参数，数组['age','class']作为第二个参数。

5.行切片

#取wzx开始到jjj结束的所有行

df.loc['wzx':'jjj']

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

6.列切片

#取age开始到sex结束的所有列

for col in df['age':'sex']:

series = df[col]

print(series)

print(col)

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

age

name

wzx c

lzq c

jjj c

Name: class, dtype: object

class

name

wzx g

lzq m

jjj m

Name: sex, dtype: object

sex

7.按行号取行

#取第0行和第2行数据

df.iloc[[0,2]]

输出：

age class sex

name

wzx 25 c g

jjj 5 c m

#从第0行起，取3行数据

df.iloc[0:3]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#取从第0行起，取3行数据的第1、2列

df.iloc[0:3,[1,2]]

输出：

class sex

name

wzx c g

lzq c m

jjj c m

8.转换成数组后取数据

#转换成数组，取数组中第0行第0列数据

df.values[0,0]

输出:

9.运算取索引

#取符合条件的索引(age=24的索引)

df.age==24

输出;

name

wzx False

lzq True

jjj False

Name: age, dtype: bool

#取符合条件的索引的所有数据

df[df.age==24]

输出：

age class sex

name

lzq 24 c m

10.对某列判空

#判断某列是否全为空

df['age'].isnull().all()

#判断某列是否含有空值

df['age'].isnull().any()

三、数据修改

1.修改某单元格的值

#将索引为wzx行的age修改为18

df.loc["wzx","age"] = 18

print(df.loc["wzx"])

输出：

age 18

class c

sex g

Name: wzx, dtype: object

2.添加一列

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

s1 = pd.Series([1, 2, 3],index=df.index)

print(s1)

输出：

name

wzx 1

lzq 2

jjj 3

dtype: int64

#2.插入df，即指定df的某列为这个Series，如这个Series为df的id列

df["id"]=s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

3.添加一行

方法一：插入Series

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series可使用name参数指定Series的索引，如果不指定，也可以在插入df时指定

s1 = pd.Series([1, "c","m"],df.columns)

print(s1)

输出：

age 1

class c

sex m

dtype: object

#2.插入df，此时指定索引为xiaoxiao

df.loc["xiaoxiao"] = s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

方法二:使用append方法插入

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series使用name参数指定索引，如果指定了name，则在调用append方法时，则不能忽略索引，即ignore_index=False

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df = df.append(s1,ignore_index=False)

print(df)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

四、合并

1.concat垂直合并两个df

类似sql中的union all，但是两个df的结构(字段数量)可以不一致。如：

#1.创建两个相同的df

df1 = pd.read_excel(fileName , sheet_name=sheetName)

df2 = pd.read_excel(fileName , sheet_name=sheetName)

df1.set_index('name',inplace=True)

df2.set_index('name',inplace=True)

两个df内容相同：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一列

s1 = pd.Series([1, 2, 3],index=df.index)

df1["id"]=s1

#合并df1和df2

df = pd.concat([df1,df2])

print(df)

输出：

age class sex id

name

wzx 25 c g 1.0

lzq 24 c m 2.0

jjj 5 c m 3.0

wzx 25 c g NaN

lzq 24 c m NaN

jjj 5 c m NaN

2.concat水平合并两个df

水平合并只需要在调用concat时指定axis=1即可。相当于sql的join，会将索引一致的数据合并在一起。

如df2中没有索引为xiaoxiao的数据，则合并后，索引xiaoxiao的那行数据只有df1的值。

同样创建两个内容相同的df：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一行

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df1 = df1.append(s1,ignore_index=False)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

#水平合并

df = pd.concat([df1,df2],axis=1)

print(df)

输出：

age class sex age class sex

wzx 25 c g 25.0 c g

lzq 24 c m 24.0 c m

jjj 5 c m 5.0 c m

xiaoxiao 1 c m NaN NaN NaN

3.使用merge合并

merge合并时，也类似于sql的join。并且可以指定join方式，要睡觉不写了。。。具体参考官网：df的merge

本文地址：https://blog.csdn.net/x950913/article/details/108716122

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

本文链接：https://blog.csdn.net/weixin_39799565/article/details/110838437

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

spring-cloud-hystrix之spring-cloud-1.3.4(Dalston.SR3)-boot(1.5.6) 学习笔记_springcloud dalston.sr3怎么引用-程序员宅基地

文章浏览阅读341次。spring-cloud-hystrix之spring-cloud-1.3.4(Dalston.SR3)-boot(1.5.6) 学习笔记概述hystrix可单独使用,也可与feign搭配使用,详见HystrixTargeter参考 https://fangjian0423.github.io/2017/02/19/springcloud-hystrix/http://blog.csdn.n_springcloud dalston.sr3怎么引用

ubuntu下将本地vscode编辑器通过ssh和远程服务器进行连接并使用远程的Python环境_ubuntu 通过 ssh 连接到远程服务器方便编辑代码的工具-程序员宅基地

文章浏览阅读991次。前言：在程序员的日常开发工作中，会遇到这样的情况，我们需要用自己本地的工作笔记本连接到大的服务器进行开发，因为大服务器的硬件性能强悍，有很多软件环境。我们在自己的笔记本进行开发需要用到这些软硬件环境，尤其在深度学习项目开发过程中，需要非常好的显卡，而显卡资源一般都部署在大服务器上。下面讲具体步骤：ssh和vscode的安装不再赘述，网上有很多教程。1，打开vscode编辑器，进入"扩展：商店"：在搜索框里搜索Remote-SSH，下载好这个插件。2，点击左下角绿色部分"打开远程窗口"，出现下图内容_ubuntu 通过 ssh 连接到远程服务器方便编辑代码的工具

GPU加速在前端的应用-程序员宅基地

文章浏览阅读3.2k次，点赞4次，收藏13次。概述GPU(Graphics Processing Unit) 图形处理单元，又称图形处理器，是我们所周知的显卡的核心部件，是显卡的“心脏”。按照字面意..._前台应用加速核心

C#串口通信从入门到精通（11）——串口接收的数据存储到本地文件（txt、csv）_读取并保存串口发送来的数据-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏18次。本文详细介绍如何将串口通信将数据进行本次存储，主要介绍常用的csv、txt格式文件，由多年实战经验总结，绝对干货！_读取并保存串口发送来的数据

synchronized锁住的是什么？_如果为put方法加synchronized锁,锁住的是什么?是一个put还是所有put方法?-程序员宅基地

文章浏览阅读229次。对象锁：同步方法锁住的是对象A.一个对象+有多个synchronized方法：某一时刻内，只要有一个线程去调用其中一个synchronized 方法，其他的线程都要等待。B.一个对象中+synchronized方法+非synchronized方法：某个线程访问同步方法不影响其他线程访问非同步方法C.多个对象+多个同步方法：访问不同的对象的同步方法不会相互影响全局锁：静态同步方法锁的是当前的..._如果为put方法加synchronized锁,锁住的是什么?是一个put还是所有put方法?

outlook邮箱邮件内容乱码_邮件标题乱码问题解决一例-程序员宅基地

文章浏览阅读2.5k次。最近有用户反馈在mac下通过airmail、outlook这样的邮件客户端查看系统发出邮件的标题显示为乱码，但是windows下正常。通过邮件客户端保存为eml，用sublime text 2打开，可以发现展示为以下效果：Date: Wed, 01 Jul 2015 19:54:57 +0800From: To: "=?GBK?B?zt6+zA==?=" Subject: [MTLÑÐ·¢Ö§³Å..._outlook 2013 转发邮件乱码

随便推点

Vue组件-程序员宅基地

文章浏览阅读2.8k次，点赞86次，收藏44次。在这一小节中，重点要理解的就是组件的编程思想。组件表示页面中的部分功能（包含自己的逻辑与样式），可以组合多个组件实现完整的页面功能。问题是，如何确定页面中哪些内容划分到一个组件中呢？你可以将组件当作一种函数或者是对象来考虑（函数的功能是单一的），根据[单一功能原则]来判定组件的范围。也就是说，一个组件原则上只能负责一个功能。如果它需要负责更多的功能，这时候就应该考虑将它拆分成更小的组件。定义：组件是可复用的Vue实例，准确讲它是的实例，继承自Vue分类：有状态组件(有data属性)，

Springer期刊 latex投稿经验分享（包含latex模板）_投期刊要求latex-程序员宅基地

文章浏览阅读7.1k次。Springer期刊 latex投稿经验分享_投期刊要求latex

PLM助力国防军工制造业工艺数字化-程序员宅基地

文章浏览阅读192次。1制造业数字化工艺目标1) 通过PLM项目的实施能够理顺企...

攻防_漏洞_文件包含_文件包含漏洞详解_ctf 文件包含-程序员宅基地

文章浏览阅读3.7k次，点赞5次，收藏17次。文件包含漏洞详解_ctf 文件包含

javaweb-java占位符的使用_%x java-程序员宅基地

文章浏览阅读970次。文章目录java占位符具体使用搭配转换符的标志java占位符拼接字符串显示十分麻烦，因此java中存在大量占位符用来规范输出诸如：String.format("0.5(-%d)+", i)，类似c语言的printf方法，比“0.5（-”+…更加简洁易懂String类的format()方法具体使用format(String format, Object… args) 新字符串使用本地语言环境，制定字符串格式和参数生成格式化的新字符串。format(Locale locale, String fo_%x java

【深度学习基础】反向传播BP算法原理详解及实战演示（附源码）_反向传播算法-程序员宅基地

文章浏览阅读2.8k次，点赞34次，收藏48次。【深度学习基础】反向传播BP算法原理详解及实战演示（附源码）_反向传播算法