Dandelionlcp 2019-03-30
文档是文本的集合。它包含句子,每个句子由单词组成,每个单词由字符组成。这些是在本章中使用的一些基本的文本原语。
首先,从Python中的一些基本的文本处理操作开始。
在Python中,字符串可以用引号或双引号声明。
text1 = "The Vikram Sarabhai Space Centre is a space research Centre of the ISRO, focused on rocket and space vehicles"
可以通过使用len( )函数来获取字符串的长度,它将返回字符串中的字符总数。
len(text1)
输出:109
如果想要得到字符串中单词的数量,首先需要分割字符串并计算单词数量,这可以通过使用split()函数来完成。 split()函数需要一个分隔符,通过该分隔符将字符串拆分为多个单词。
words1 = text1.split(" ") len(words1)
输出:19
也可以通过索引来获取子字符串,在Python中索引从0开始,这意味着可以通过text1 [0]访问第一个字符。
print(text1[4]) print(text1[4:10])
输出:V
Vikram
在字符串中使用不同的操作符以获得不同的结果,它们称为字符串特殊操作符,如表1.1所列。
表1.1
表1.2所列的这些函数根据在字符串上执行的操作返回布尔值(True / False)。
表1.2
#获取所有首字母为大写的单词 [wordCap for wordCap in words1 if wordCap.istitle()] #长度大于5的单词 [wordG5 for wordG5 in words1 if len(wordG5)>5]
表1.3所列的这些预定义的函数集用于字符串转换。
表1.3
字符串操作的相关函数如表9.4所列。
表1.4
大写文本。
text1.capitalize()
获取标题表单。
text1.title()
大写。
text1.upper()
对字符串的大小写字母进行转换。
text1.swapcase()
将字符串中所有大写字符转换为小写字符。
text1.casefold()
获取索引。
text1.index('a')
从左边查找。
text1.find('a')
从右侧查找。
text1.rfind('a')
按照行分割。
text1.splitlines()
删除字符串左侧的“The”。
text1.lstrip("The")