python pandas常用函数_python:pandas常用功能函数操作-程序员宅基地

技术标签: python pandas常用函数  

一、安装pandas

创建虚拟环境:

#创建虚拟环境

mkvirtualenv -p python3 pandas_env

#进入虚拟环境

workon pandas_env

安装pandas

# 1、安装包

$ pip install pandas

测试

# 2、进入python的交互式界面

$ python -i

# 3、使用Pandas

>>> import pandas as pd

>>> df = pd.DataFrame()

>>> print(df)

# 4、输出结果

Empty DataFrame

Columns: []

Index: []

安装处理excel的xlrd

pip install xlrd

使用pandas读取excel并打印

from pandas import pandas as pd

df = pd.read_excel("C:/Users/zixuan/Desktop/test.xlsx")

print(df)

输出:

name age class sex

0 wzx 25 c g

1 lzq 24 c m

2 jjj 5 c m

excel内容如下:

二、数据结构

pandas的数据结构分为两种: Series(一维数据)与 DataFrame(二维数据)。

维数

名称

描述

1

Series

带标签的一维同构数组

2

DataFrame

带标签的,大小可变的,二维异构表格

Pandas 数据结构就像是低维数据的容器。比如,DataFrame 是 Series 的容器,Series 则是标量的容器。使用这种方式,可以在容器中以字典的形式插入或删除对象。

1.DataFrame

在DataFrame中,index是行,columns是列。如上面的例子中,pandas会将第一行的数据当作表头,即列名。从第二行开始,以0为起始,作为DF的行。

DataFrame 的每一列都是一个Series。如:

for col in df.columns:

series = df[col]

print(series)

输出:

0 wzx

1 lzq

2 jjj

Name: name, dtype: object

0 25

1 24

2 5

Name: age, dtype: int64

0 c

1 c

2 c

Name: class, dtype: object

0 g

1 m

2 m

Name: sex, dtype: object

Pandas 所有数据结构的值都是可变的,但数据结构的大小并非都是可变的,比如,Series 的长度不可改变,但 DataFrame 里就可以插入列。

Pandas 里,绝大多数方法都不改变原始的输入数据,而是复制数据,生成新的对象。 一般来说,原始输入数据不变更稳妥。

三、DF的操作

一、属性

1.将df转换成数组

df.values

输出:

[['wzx' 25 'c' 'g']

['lzq' 24 'c' 'm']

['jjj' 5 'c' 'm']]

2.查看所有列名

for col in df.columns:

print(col)

输出:

name

age

class

sex

3.查看所有索引

for index in df.index:

print(index)

输出:

0

1

2

4.查看df的形状

df.shape

输出:

(3, 4)

#三行四列,在excel中是四行四列,但第一行在pandas中被视为表头

5.查看df的大小

df.size

输出:

12

#即一共有12个单元格

6.查看每列的数据类型

df.dtypes

输出:

name object

age int64

class object

sex object

dtype: object

二、行列操作和切片

1.指定某一列作为索引

#将第一列name设置为索引

df.set_index('name',inplace=True)

print(df.index)

输出:

Index(['wzx', 'lzq', 'jjj'], dtype='object', name='name')

2.取指定列的数据

#查看age列

df['age']

#或

df.age

输出:

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

3.取指定行数据(使用loc)

#取索引为wzx的行

df.loc['wzx']

输出:

age 25

class c

sex g

Name: wzx, dtype: object

#取多行数据(索引为wzx lzq),可将多个索引以列表方式传入

df.loc[['wzx','lzq']]

输出:

age class sex

name

wzx 25 c g

lzq 24 c m

4.取指定行的指定列的数据(即某单元格的数据)

#取索引为wzx的age

df.loc['wzx','age']

输出:

25

#取索引为wzx lzq的age class

df.loc[['wzx','lzq'],['age','class']]

输出:

age class

name

wzx 25 c

lzq 24 c

注意:loc可传入两个参数,第一个参数作为索引,第二个参数作为列名。如果不传第二个参数,则默认取所有列。

如:

取某个索引的某个列的例子中,字符串'wzx'作为第一个参数,字符串'age'作为第二个参数。

取多个索引的多个列的例子中,数组['wzx','lzq']作为第一个参数,数组['age','class']作为第二个参数。

5.行切片

#取wzx开始到jjj结束的所有行

df.loc['wzx':'jjj']

输出:

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

6.列切片

#取age开始到sex结束的所有列

for col in df['age':'sex']:

series = df[col]

print(series)

print(col)

输出:

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

age

name

wzx c

lzq c

jjj c

Name: class, dtype: object

class

name

wzx g

lzq m

jjj m

Name: sex, dtype: object

sex

7.按行号取行

#取第0行和第2行数据

df.iloc[[0,2]]

输出:

age class sex

name

wzx 25 c g

jjj 5 c m

#从第0行起,取3行数据

df.iloc[0:3]

输出:

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#取从第0行起,取3行数据的第1、2列

df.iloc[0:3,[1,2]]

输出:

class sex

name

wzx c g

lzq c m

jjj c m

8.转换成数组后取数据

#转换成数组,取数组中第0行第0列数据

df.values[0,0]

输出:

25

9.运算取索引

#取符合条件的索引(age=24的索引)

df.age==24

输出;

name

wzx False

lzq True

jjj False

Name: age, dtype: bool

#取符合条件的索引的所有数据

df[df.age==24]

输出:

age class sex

name

lzq 24 c m

10.对某列判空

#判断某列是否全为空

df['age'].isnull().all()

#判断某列是否含有空值

df['age'].isnull().any()

三、数据修改

1.修改某单元格的值

#将索引为wzx行的age修改为18

df.loc["wzx","age"] = 18

print(df.loc["wzx"])

输出:

age 18

class c

sex g

Name: wzx, dtype: object

2.添加一列

#1.创建Series,传入一个列表表示这列的值,还可以指定索引,列表的长度需要等于索引个数

s1 = pd.Series([1, 2, 3],index=df.index)

print(s1)

输出:

name

wzx 1

lzq 2

jjj 3

dtype: int64

#2.插入df,即指定df的某列为这个Series,如这个Series为df的id列

df["id"]=s1

print(df)

输出:

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

3.添加一行

方法一:插入Series

#1.创建Series,传入一个列表表示这列的值,还可以指定索引,列表的长度需要等于索引个数

#创建Series可使用name参数指定Series的索引,如果不指定,也可以在插入df时指定

s1 = pd.Series([1, "c","m"],df.columns)

print(s1)

输出:

age 1

class c

sex m

dtype: object

#2.插入df,此时指定索引为xiaoxiao

df.loc["xiaoxiao"] = s1

print(df)

输出:

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

方法二:使用append方法插入

#1.创建Series,传入一个列表表示这列的值,还可以指定索引,列表的长度需要等于索引个数

#创建Series使用name参数指定索引,如果指定了name,则在调用append方法时,则不能忽略索引,即ignore_index=False

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df = df.append(s1,ignore_index=False)

print(df)

输出:

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

四、合并

1.concat垂直合并两个df

类似sql中的union all,但是两个df的结构(字段数量)可以不一致。如:

#1.创建两个相同的df

df1 = pd.read_excel(fileName , sheet_name=sheetName)

df2 = pd.read_excel(fileName , sheet_name=sheetName)

df1.set_index('name',inplace=True)

df2.set_index('name',inplace=True)

两个df内容相同:

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一列

s1 = pd.Series([1, 2, 3],index=df.index)

df1["id"]=s1

#合并df1和df2

df = pd.concat([df1,df2])

print(df)

输出:

age class sex id

name

wzx 25 c g 1.0

lzq 24 c m 2.0

jjj 5 c m 3.0

wzx 25 c g NaN

lzq 24 c m NaN

jjj 5 c m NaN

2.concat水平合并两个df

水平合并只需要在调用concat时指定axis=1即可。相当于sql的join,会将索引一致的数据合并在一起。

如df2中没有索引为xiaoxiao的数据,则合并后,索引xiaoxiao的那行数据只有df1的值。

同样创建两个内容相同的df:

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一行

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df1 = df1.append(s1,ignore_index=False)

输出:

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

#水平合并

df = pd.concat([df1,df2],axis=1)

print(df)

输出:

age class sex age class sex

wzx 25 c g 25.0 c g

lzq 24 c m 24.0 c m

jjj 5 c m 5.0 c m

xiaoxiao 1 c m NaN NaN NaN

3.使用merge合并

merge合并时,也类似于sql的join。并且可以指定join方式,要睡觉不写了。。。具体参考官网:df的merge

本文地址:https://blog.csdn.net/x950913/article/details/108716122

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39799565/article/details/110838437

智能推荐

spring-cloud-hystrix之spring-cloud-1.3.4(Dalston.SR3)-boot(1.5.6) 学习笔记_springcloud dalston.sr3怎么引用-程序员宅基地

文章浏览阅读341次。spring-cloud-hystrix之spring-cloud-1.3.4(Dalston.SR3)-boot(1.5.6) 学习笔记概述hystrix可单独使用,也可与feign搭配使用,详见HystrixTargeter参考 https://fangjian0423.github.io/2017/02/19/springcloud-hystrix/http://blog.csdn.n_springcloud dalston.sr3怎么引用

ubuntu下将本地vscode编辑器通过ssh和远程服务器进行连接并使用远程的Python环境_ubuntu 通过 ssh 连接到远程服务器方便编辑代码的工具-程序员宅基地

文章浏览阅读991次。前言:在程序员的日常开发工作中,会遇到这样的情况,我们需要用自己本地的工作笔记本连接到大的服务器进行开发,因为大服务器的硬件性能强悍,有很多软件环境。我们在自己的笔记本进行开发需要用到这些软硬件环境,尤其在深度学习项目开发过程中,需要非常好的显卡,而显卡资源一般都部署在大服务器上。下面讲具体步骤:ssh和vscode的安装不再赘述,网上有很多教程。1,打开vscode编辑器,进入"扩展:商店":在搜索框里搜索Remote-SSH,下载好这个插件。2,点击左下角绿色部分"打开远程窗口",出现下图内容_ubuntu 通过 ssh 连接到远程服务器方便编辑代码的工具

GPU加速在前端的应用-程序员宅基地

文章浏览阅读3.2k次,点赞4次,收藏13次。概述GPU(Graphics Processing Unit) 图形处理单元,又称图形处理器,是我们所周知的显卡的核心部件,是显卡的“心脏”。按照字面意..._前台应用加速核心

C#串口通信从入门到精通(11)——串口接收的数据存储到本地文件(txt、csv)_读取并保存串口发送来的数据-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏18次。本文详细介绍如何将串口通信将数据进行本次存储,主要介绍常用的csv、txt格式文件,由多年实战经验总结,绝对干货!_读取并保存串口发送来的数据

synchronized锁住的是什么?_如果为put方法加synchronized锁,锁住的是什么?是一个put还是所有put方法?-程序员宅基地

文章浏览阅读229次。对象锁:同步方法锁住的是对象A.一个对象+有多个synchronized方法:某一时刻内,只要有一个线程去调用其中一个synchronized 方法,其他的线程都要等待。B.一个对象中+synchronized方法+非synchronized方法:某个线程访问同步方法不影响其他线程访问非同步方法C.多个对象+多个同步方法:访问不同的对象的同步方法不会相互影响全局锁:静态同步方法锁的是当前的..._如果为put方法加synchronized锁,锁住的是什么?是一个put还是所有put方法?

outlook邮箱邮件内容乱码_邮件标题乱码问题解决一例-程序员宅基地

文章浏览阅读2.5k次。最近有用户反馈在mac下通过airmail、outlook这样的邮件客户端查看系统发出邮件的标题显示为乱码,但是windows下正常。通过邮件客户端保存为eml,用sublime text 2打开,可以发现展示为以下效果:Date: Wed, 01 Jul 2015 19:54:57 +0800From: To: "=?GBK?B?zt6+zA==?=" Subject: [MTLÑз¢Ö§³Å..._outlook 2013 转发邮件 乱码

随便推点

Vue组件-程序员宅基地

文章浏览阅读2.8k次,点赞86次,收藏44次。在这一小节中,重点要理解的就是组件的编程思想。组件表示页面中的部分功能(包含自己的逻辑与样式),可以组合多个组件实现完整的页面功能。问题是,如何确定页面中哪些内容划分到一个组件中呢?你可以将组件当作一种函数或者是对象来考虑(函数的功能是单一的),根据[单一功能原则]来判定组件的范围。也就是说,一个组件原则上只能负责一个功能。如果它需要负责更多的功能,这时候就应该考虑将它拆分成更小的组件。定义:组件是可复用的Vue实例,准确讲它是的实例,继承自Vue分类:有状态组件(有data属性),

Springer期刊 latex投稿经验分享(包含latex模板)_投期刊要求latex-程序员宅基地

文章浏览阅读7.1k次。Springer期刊 latex投稿经验分享_投期刊要求latex

PLM助力国防军工制造业工艺数字化-程序员宅基地

文章浏览阅读192次。1制造业数字化工艺目标1) 通过PLM项目的实施能够理顺企...

攻防_漏洞_文件包含_文件包含漏洞详解_ctf 文件包含-程序员宅基地

文章浏览阅读3.7k次,点赞5次,收藏17次。文件包含漏洞详解_ctf 文件包含

javaweb-java占位符的使用_%x java-程序员宅基地

文章浏览阅读970次。文章目录java占位符具体使用搭配转换符的标志java占位符拼接字符串显示十分麻烦,因此java中存在大量占位符用来规范输出诸如:String.format("0.5(-%d)+", i),类似c语言的printf方法,比“0.5(-”+…更加简洁易懂String类的format()方法具体使用format(String format, Object… args) 新字符串使用本地语言环境,制定字符串格式和参数生成格式化的新字符串。format(Locale locale, String fo_%x java

【深度学习基础】反向传播BP算法原理详解及实战演示(附源码)_反向传播算法-程序员宅基地

文章浏览阅读2.8k次,点赞34次,收藏48次。【深度学习基础】反向传播BP算法原理详解及实战演示(附源码)_反向传播算法

推荐文章

热门文章

相关标签