Pandas对文本数据处理

huangsusan 2019-07-01

Pandas对文本数据处理

在处理数据的时候,对数值型的数据处理还是比较方便的,但是有时候数值型数据出现问题后就会比较头痛了,因为文本数据的排列组合可是有很多很多的,今天我们就学习一下如何对文本数据进行处理,这样我们接下来在工作中遇到了这些情况就可以少掉一下头发啦。

Pandas对文本数据处理

一、str属性

文本数据也就是我们常说的字符串,pandas为series提供了str属性,通过它可以方便对每个元素进行操作。

Pandas对文本数据处理

为了防止数据被弄坏,我们先预留一个备份以防万一。

Pandas对文本数据处理

这里我们是不能使用backup_user_info = user_info的因为这样的话一个更改另外一个也会更改。

在之前我们也已经了解过,在对series中每个元素处理时,我们可以使用map或apply方法,比如我们想把星球列下面的地球和外星转换为英文,可以使用下面的方式。

Pandas对文本数据处理

这时候我们在将表恢复成原来的样子。

Pandas对文本数据处理

将哪个星球列下的星球改为大写的英文后再改为小写

首先更改为英文

Pandas对文本数据处理

然后设置一个函数,将星球改为大写,原理为upper()方法

Pandas对文本数据处理

然后在设置为小写,原理为lower方法

Pandas对文本数据处理

给英雄们的身高加上一个单位

Pandas对文本数据处理

我们通过str属性来访问之后用到的方法名与 Python 内置的字符串的方法名一样。并且能够自动排除缺失值。我们再来试试其他一些方法。例如，统计每个字符串的长度。

Pandas对文本数据处理

将cm替换成空白的字符串

Pandas对文本数据处理

将身高列的元素类型转换为整数型

Pandas对文本数据处理

生成一个新的列,列名为姓名的长度,元素为英雄姓名的长度(len方法)

Pandas对文本数据处理

查看表的元素类型

Pandas对文本数据处理

将年不年轻列的中的中年属性更改为中老年属性

Pandas对文本数据处理

查看城市列中每个元素有几个字

Pandas对文本数据处理

查看年不年轻列中每个元素是否有轻这个字符串

Pandas对文本数据处理

二、替换和分隔

使用.srt属性也支持替换与分割操作。先来看下替换操作，例如：将大写的R转换为小写的r。

Pandas对文本数据处理

将列中的数据进行分隔

Pandas对文本数据处理

将是否年轻按年进行分隔,结果如上所述。

分割列表中的元素可以使用 get 或 [] 符号进行访问：

Pandas对文本数据处理

比如说电影的主演有很多人, 可能是用逗号, 或者/ 进行分割, 这是可以用这种方法转换成列表

在表中添加一列英雄的爱人列

Pandas对文本数据处理

Pandas对文本数据处理

将爱人列以,号分隔

Pandas对文本数据处理

这时候就可以让某一行的这个元素以列表表现出来。

Pandas对文本数据处理

将索引列改为英雄姓名,并查看蜘蛛侠和灭霸的爱人

Pandas对文本数据处理

三、提取子串

既然是在操作字符串，很自然的大家可能会想到是否可以从一个长的字符串中提取出子串。答案是可以的。

1、提取第一个匹配的子串

extract方法接受一个正则表达式并至少包含一个捕获组，指定参数 expand=True可以保证每次都返回DataFrame。例如，现在想要匹配空字符串前面的所有的字母，可以使用如下操作：

查看哪位英雄的所在的星球包括E这个字符串

Pandas对文本数据处理

查看哪位英雄所在的城市包括纽这个字符串

Pandas对文本数据处理

四、生成哑变量

首先我们先了解一下什么是哑变量:

哑变量原名为虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实。

在pandas中我们可以通过get_dummies 方法可以将字符串转为哑变量，sep 参数是指定哑变量之间的分隔符。

Pandas对文本数据处理

对英雄姓名进行哑变量转换

Pandas对文本数据处理

从结果可以看出,第0行的英雄姓名是蜘蛛侠,第1行的英雄姓名是灭霸,哑变量转换就是将每一个选择匹配哪一行的数据。

对那个星球进行哑变量转换

Pandas对文本数据处理

从结果可以看出,在地球的英雄是第0、2、3、4、6行的,对应的英雄名称为(蜘蛛侠、奇异博士、钢铁侠、蝙蝠侠、黑寡妇)

: huangsusan

相关推荐

Pycharm快捷键的使用

1. pycharm默认是自动保存的，习惯自己按ctrl + s 的可以进行如下设置：1. file -> Setting -> General -> Synchronization -> Save files on frame d

FrederickBala 0喜欢 / 0评论 2020-02-22

Pycharm默认快捷键

Ctrl + Space 基本的代码完成Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息。Alt + F1 查找当前文件或标识Ctrl+B / Ctrl+Click 跳转到声明

unit00 0喜欢 / 0评论 2020-02-21

pycharm的快捷键

1. pycharm默认是自动保存的，习惯自己按ctrl + s 的可以进行如下设置：1. file -> Setting -> General -> Synchronization -> Save files on frame d

FrederickBala 0喜欢 / 0评论 2020-01-31

Spring如何解决循环依赖的问题

在关于Spring的面试中，我们经常会被问到一个问题，就是Spring是如何解决循环依赖的问题的。这个问题算是关于Spring的一个高频面试题，因为如果不刻意研读，相信即使读过源码，面试者也不一定能够一下子思考出个中奥秘。本文主要针对这个问题，从源码的角度

neweastsun 0喜欢 / 0评论 2019-11-26

20个让你效率更高的CSS代码技巧

在本文中，我们想与您分享一个由各大CSS网站总结推荐的20个有用的规则和实践经验集合。有一些是面向CSS初学者的，有一些知识点是进阶型的。希望每个人通过这篇文章都能学到对自己有用的知识。与其他大多数属性不同，上下的垂直外边距margin在同时存在时会发生外

zuncle 0喜欢 / 0评论 2019-11-25

MongoDB实现问卷/考试设计

MongoDB是一个面向文档存储的数据库。在MongoDB中，一条记录叫做document（文档），由类似于JSON结构的键值对组成。由于类似于MongoDB直接存储JSON的特性，MongoDB天生适合作为存储结构复杂的数据结构的介质。类似于问卷调查和考

songxiugongwang 0喜欢 / 0评论 2019-10-31

如何在JavaScript中使用对象的方法

JavaScript 中，对象是键/值对的集合。值可以包含属性和方法，并且可以包含所有其他 JavaScript 数据类型，例如字符串，数字和布尔值。这称为静态方法。本教程将介绍重要的内置对象方法，下面的每个部分都涉及特定方法并提供使用示例。有关Ja

苗疆三刀的随手记 0喜欢 / 0评论 2019-04-23

Windows快捷键

F1显示当前程序或者Windows的帮助内容。Shift在放入CD的时候按下不放，可以跳过自动播放CD。在打开Word的时候按下不放，可以跳过自启动的宏。Alt+Printscreen将当前活动程序窗口以图像方式拷贝到剪贴板。Windows键+Shift+

royrui 0喜欢 / 0评论 2012-08-20

Win8.1启动安全中心服务失败提示错误1068怎么办？

在Win8.1系统中，启动安全中心服务会给用户提供最全面的系统安全状态，并及时提示用户一切关于安全的信息，不过有用户在启动Security Center服务时却弹出无法启动服务的错误信息1068：依赖的服务或组没有启动，出现这样的情况该如何解决呢？

qinbiao00 0喜欢 / 0评论 2015-06-17

MyEclipse和Eclipse中常用的快捷键

##########################快捷键分类速查##########################. 在java类文件任意位置按这个键，显示该类中方法和属性的大纲，能快速定位类的方法和属性，在查找Bug时非常有用。格式化当前代码，可以选

heshizui 0喜欢 / 0评论 2012-11-16

windows系统同时按下CTRL+ALT+DEL键没有弹出任务管理器的解决方法

同时按下CTRL+ALT+DEL的时候，没有弹出任务管理器，首先点击“开始”——“运行”，输入“gpedit.msc”进入组策略设置。在“组策略”里找“用户配置”——“管理模板”——“系统”——“Ctrl+Alt+Del 选项”，在右侧找到“删除任务管理器

fish 0喜欢 / 0评论 2013-06-26

jQuery 学习（1）

我最近在做一个项目，需要用到ajax，我以前做ajax项目，已经有很多年了，jQuery还不成熟，需要自己编写大量的Javascript代码。最近发现jQuery很成熟了，我看了jQuery官方的document，这里先提供入门章节内容。这段主要教授你如何

开心就好 0喜欢 / 0评论 2012-02-21

MyEclipse快捷键与插件大全

Ctrl+Space代码助手完成一些代码的插入。Ctrl+Shift+P定位到对于的匹配符。下面的快捷键是重构里面常用的,本人就自己喜欢且常用的整理一下。F3跳到声明或定义的地方。F5单步调试进入函数内部。F6单步调试不进入函数内部，如果装了金山词霸200

markzl 0喜欢 / 0评论 2010-05-26

windows常用快捷键

F1　　　　　　　　　　　显示当前程序或者windows的帮助内容。F2　　　　　　　　　　　当你选中一个文件的话，这意味着“重命名”。F10或ALT　　　　　　　　激活当前程序的菜单栏。windows键或CTRL+ESC　　打开开始菜单。CTRL+ALT

WuTongCLKIP 0喜欢 / 0评论 2009-06-11

小猿圈讲解Python初学者需要安装的软件，不知道的快来

万事开头难，很多初学者在学习Python时出现手足无措的难题。初次接触难免有陌生感。雷军曾说电脑远没有人复杂，如果你的程序写得好，那就可以指挥电脑干你想干的事，这时你便是一个主宰者，当你坐在电脑前，你就如同国王在巡视一般，那种感觉可能只有你真正去做才能体会

Cocotwp 0喜欢 / 0评论 2019-07-04

numpy数组的创建和属性转换

python中提供了几种将数组存储在有效的、固定类型的数据缓存中的选项。内置的数组模块可以创建按统一类型的密集数组：。这里的“i”表示的是一个数据类型码，表示数据为整型。稍后将会介绍这些操作，这里先集中展示创建Numpy数组的方法：。创建np数组时需要强调

youandme 0喜欢 / 0评论 2019-07-01

踩坑vue国际化（V18n）+ jquery国际化（jquert.i18n.properties.js）

目前公司在搞国际化，虽然刚开始接触，但还是遇到了一些问题，如对你有帮助，烦请点个赞，谢谢。先分享一下vue的国际化，目前vue的国际化采用的是vue-i18n。首先新建一个存放语言的文件目录,把提取后的中文、英文放在对应的文件中如下图：。通过Vue.use

88570299 0喜欢 / 0评论 2019-07-01

mybatis传参的几种方式

注意：没有使用parameterType属性，早期版本用#{0}，#{1}

Nishinoshou 0喜欢 / 0评论 2019-06-29

CSS设置选中网页文字时的背景和颜色

在网页中，选中某段文字，默认的显示效果为：可以看到，选中后文字颜色为白色，背景为蓝色。需要用到CSS伪类 ::selection。IE9+、Opera、Google、Chrome、Safari都支持 ::selection 选择器。Firefox 通过其私

张大晴 0喜欢 / 0评论 2019-06-29

AJAX实现步骤,XMLHttpRequest对象的方法

alert("你所请求的页面有异常。

homehttp 0喜欢 / 0评论 2016-10-07

【漫画】程序员永远修不好的Bug——情人节

购物车满起来了……所以，还是要乖乖地买点什么……关注漫谈程序员，通过漫画讲述咱程序员自己的故事~

basketballh 0喜欢 / 0评论 2019-06-28

python---前端（1）

HTML 文本格式化标签

mingrixing 0喜欢 / 0评论 2019-06-28

前端如何快速切图

PxcookAdobe PhotoShop CC 2018(推荐下载较高版本，可以找我要破解版的哦！)1.上面两种工具安装成功之后，下面开始我们的切图了，实现准备好我们的psd原型图，直接拖拽到Pxcook中。5我们要将PS和Pxcook建立关联，打开ps

liwusen 0喜欢 / 0评论 2019-06-28

【myEclipse】添加jar包

3.选中要添加的jar包

花雨漫天 0喜欢 / 0评论 2019-06-28

【数据表格】-004-columns特性

-- 引入外部样式 -->. -- 引入easyui依赖库 -->. method=getList', //后台访问地址。frozenColumns:[[ //冻结列特点，会将列冻结在左边，不能与fitColumns特性一起使用。//nowra

shanhuijava 0喜欢 / 0评论 2016-01-19

jQuery插件之——弹窗框（模态框）leanModal

5.在js文件里添加属性top：属性是指离上边框的距离overlay：指的是弹框的背景透明度6.效果

堇年 0喜欢 / 0评论 2019-06-27

jquery

这是它区别于其他函数库的根本特点。使用jQuery的第一步，往往就是将一个选择表达式，放进构造函数jQuery()，然后得到被选中的元素。操作网页元素，最常见的需求是取得它们的值，或者对它们进行赋值。假定我们选中了一个div元素，需要把它移动到p元素后面。

黑色幽默 0喜欢 / 0评论 2015-04-29

Jquery高级编程阅读笔记4——jQuey选择操作Dom元

jQuery基本选择器类型属性选择器位置选择器内容过滤器‘

89423661 0喜欢 / 0评论 2015-04-22

Android入门篇（二）布局文件容器①

ViewGroup其实安卓的开发说简单也很简单，这里就说一下最基础的东西。在我的理解中，安卓可以分为两部分：界面和业务。界面的话有很多实现方式，自定义界面，以及基础的XML布局文件。这里就简单总结下布局文件，不包括最新的ConstraintLayout，这

yinbaoshiguang 0喜欢 / 0评论 2019-06-27

安装selenium 和 chromedriver 驱动时问题的解决

小白的我想学习开始爬虫，根据学习教程需要用到selenium和一款谷歌浏览器的驱动chromedriver。由于不想每次都设置chromedriver的绝对路径，就按操作设置环境变量。

letheashura 0喜欢 / 0评论 2019-06-27

为MongoDB增加自增长主键生成的功能

每个MongoDB的document都有一个_id字段作为它的第一个属性，这个值通常是一个BSON对象id，因此，这个id对于集合中的每个成员都是唯一的，如果用户插入一个document没有提供一个id，数据库将自动生成一个id，并存储在_id字段。一个B

chenshengzun 0喜欢 / 0评论 2011-01-21

从jquery的end()如何实现到pushStack()的延伸思想

在jQuery对象中，每个对象都有一个prevObject属性。----->>> 只要你创建了jQuery对象就会产生问题2：在哪里创建？？------>>>> 在一个pushStack()方法里产生问题3：作用

80437916 0喜欢 / 0评论 2019-06-26

Canvas标签使用及API

canvas标签在页面中只显示一个设定背景色的画布，如果要产生新内容或者进行画图操作，需要借助canvas API和javascript操作实现画图或者其他图像操作

蒲厷渶戀 0喜欢 / 0评论 2014-03-13

HTML和CSS 入门系列（二）：文字、表单、表格、浮动、定位、框架布局、SEO

上一篇：HTML和CSS 入门系列（一）：超链接、选择器、颜色、盒模式、DIV布局、图片一、文字1.1 属性。<div class="d-float">d-float：现在 .d-float标签的高度是120px，但是有时候

尚衍亮 0喜欢 / 0评论 2019-06-26

HTML5全局属性汇总

比如link元素，它具有的局部属性有href、 rel、 hreflang、 media、 type、 sizes这六个。需要说明的一点是，id属性还可以用来导航到文档中的特定位置。

勤能补拙孰能生巧 0喜欢 / 0评论 2019-06-26

简单说 CSS滤镜 filter属性

说明滤镜主要是用来实现图像的各种特殊效果，css的滤镜是很神奇的。注意：值是100%，图像无变化。超过100%，变亮，小于100%，变暗。总结css滤镜，还是很有必要知道的，用它实现的效果，也往往很让人惊艳，这次说了点最基础的东西，如果想知道，更多 fil

wangnantjobj 0喜欢 / 0评论 2019-06-25

使用vscode时，如何在.vue文件中使用html代码补全功能

最近在Vue大神的推荐下使用了vscode，还挺好用的，跟webstorm比起来要轻量很多，打开的速度也快，功能跟webstorm也差不多，挺丰富的，尤其是插件。最主要的是使用过程中，不会卡顿！！！那么，使用的时候发现了在.vue的文件中，你只打一个div

攻城师 0喜欢 / 0评论 2019-06-21

iOS开源项目周报0105

由OpenDigg出品的iOS开源项目周报第四期来啦。我们的iOS开源周报集合了OpenDigg一周来新收录的优质的iOS开发方面的开源项目，方便iOS开发人员便捷的找到自己需要的项目工具等。Hero 酷炫的iOS动画引擎。Traits 实时修改原生iOS

tzshlyt 0喜欢 / 0评论 2019-06-21

图片如何优化?SEO网站图片优化的基本技巧

现在很多网站都是以产品为主，会有大量的图片，这些图片也是可以进行优化的，那么这些图片如何优化才好呢，下面小编列出了一下图片优化的技巧。图片alt属性俗称替代文本是为了蜘蛛可以更好识别你的网站，图片优化做好alt属性描述是必须的，从用户体验来看，图片ALT属

张玉淦 0喜欢 / 0评论 2016-09-25

SEO细节优化:关于网站图片的优化

每一个网站都无可避免的会使用图片，那到底图片怎么做对SEO比较有好呢?图文资讯，有图有真相都讲究的是图片，一张图片的作用也是不容小视的。下面小编就为大家分享关于网站图片的优化，一起来看看吧！alt属性，这一点是我们这些做SEO经常用到的，给图片添加属性，让

hexiankun 0喜欢 / 0评论 2016-02-03

seajs在IE9及以下的window.load事件调用失败

seajs在IE9及以下的window.load事件调用失败最近在在项目中遇到一个情况。项目使用seajs作为模块加载器，在js文件中的define回调中我们把函数都放在$回调中去执行，意味着在文档加载完成后执行。但是这个页面是商品详情页，包含着大量的详情

yuanyuangugu 0喜欢 / 0评论 2019-06-20

jquery 千百种选择器收藏

这是它区别于其他函数库的根本特点。使用jQuery的第一步，往往就是将一个选择表达式，放进构造函数jQuery()，然后得到被选中的元素。操作网页元素，最常见的需求是取得它们的值，或者对它们进行赋值。如果要移动选中的元素，有两种方法：一种是直接移动该元素，

83443560 0喜欢 / 0评论 2012-09-06

为什么要给图片加ALT属性？是什么意思有什么好处

使用百度统计的seo建议其中一条图片ALT信息“存在没有alt信息的img标签”扣分较多。HTML标签中的alt标签用于显示图片的替换文本信息。alt标签应该是对图片的简短介绍，同时应该尽可能的包含当前网页的关键字。现在，alt对SEO的真实价值还存在争议

amiaozaii 0喜欢 / 0评论 2014-05-03

TOMCAT下配置JSP和servlet(转)

以前一直苦恼jsp的环境配置，以前在网上找的一篇好的配置文章现在拿出来给大家分享。然后打开命令提示符窗口，cd到你的Test.java所在目录，然后键入下面的命令 javacTest.java javaTest 此时如果看到打印出来

82593171 0喜欢 / 0评论 2007-11-26

struts2.xml配置要点(验证基于方法级)

--前几天有人说继承不成功,有贴回复是<package>和<include>顺序问题,关键在于解析是自上而下的,要继承某xml文件,就要先引入该文件--> <packagename="default&qu

83487414 0喜欢 / 0评论 2007-06-15

正则表达式不包含属性

正则：]*?alt[^]*?>).*?>. 正则：]*?title[^]*?>).*?>

killerstranger 0喜欢 / 0评论 2012-07-06

CSS实现将div固定在页面指定地方

用一个div作为提示信息或者与用户交互的层控件，需要让它随着页面的滚动而固定在屏幕的某个地方。js可以实现这个功能，当页面滑动的时候，计算位置，然后改变div的top属性即可。但是这样作出来的效果，恐怕没人会满意，因为抖的太厉害了，不能很及时的改变位置。&

opspider 0喜欢 / 0评论 2012-04-24

匹配img标签中没有alt属性的正则表达式

如果你用的是eclipse或myeclipse的话，需要查找页面上img标签是否有alt属性，又没有好的办法，那就在myeclipse中点击左上角的search，再选择search进行查找，出现的页面上把Regular expression勾上，然后在Co

moll 0喜欢 / 0评论 2011-02-22

Pycharm快捷键大全（内附python3.5学习资料分享）

Ctrl+Alt+Space 快速导入任意类。Shift+F1 选中对象的Web帮助文档。Ctrl+悬浮/单机鼠标左键简介/进入代码定义。Ctrl+Shift+Z 重做，恢复上的撤销。Ctrl+F1显示错误描述或警告信息。Ctrl+/ 行注释/取消注释。

Richard0 0喜欢 / 0评论 2019-03-11