文本可以分成不同的基元。

文件。
句子。
单词。
字符。

文档是文本的集合。它包含句子，每个句子由单词组成，每个单词由字符组成。这些是在本章中使用的一些基本的文本原语。

首先，从Python中的一些基本的文本处理操作开始。

在Python中，字符串可以用引号或双引号声明。

text1 = "The Vikram Sarabhai Space Centre is a space research Centre of the ISRO, 
focused on rocket and space vehicles"

可以通过使用len( )函数来获取字符串的长度，它将返回字符串中的字符总数。

len(text1)

输出：109

如果想要得到字符串中单词的数量，首先需要分割字符串并计算单词数量，这可以通过使用split()函数来完成。 split()函数需要一个分隔符，通过该分隔符将字符串拆分为多个单词。

words1 = text1.split(" ") 
len(words1)

输出：19

也可以通过索引来获取子字符串，在Python中索引从0开始，这意味着可以通过text1 [0]访问第一个字符。

print(text1[4]) 
print(text1[4:10])

输出：V

Vikram

在字符串中使用不同的操作符以获得不同的结果，它们称为字符串特殊操作符，如表1.1所列。

表1.1

每天五分钟—Python机器学习：使用Python进行基本文本处理。

1.1.1　字符串比较

表1.2所列的这些函数根据在字符串上执行的操作返回布尔值（True / False）。

表1.2

每天五分钟—Python机器学习：使用Python进行基本文本处理。

#获取所有首字母为大写的单词
[wordCap for wordCap in words1 if wordCap.istitle()] 
#长度大于5的单词
[wordG5 for wordG5 in words1 if len(wordG5)&gt;5]

1.1.2　字符串转换

表1.3所列的这些预定义的函数集用于字符串转换。

表1.3

每天五分钟—Python机器学习：使用Python进行基本文本处理。

1.1.3　字符串操作

字符串操作的相关函数如表9.4所列。

表1.4

每天五分钟—Python机器学习：使用Python进行基本文本处理。

大写文本。

text1.capitalize()

获取标题表单。

text1.title()

大写。

text1.upper()

对字符串的大小写字母进行转换。

text1.swapcase()

将字符串中所有大写字符转换为小写字符。

text1.casefold()

获取索引。

text1.index('a')

从左边查找。

text1.find('a')

从右侧查找。

text1.rfind('a')

按照行分割。

text1.splitlines()

删除字符串左侧的“The”。

text1.lstrip("The")

每天五分钟—Python机器学习：使用Python进行基本文本处理。

柠檬为大家准备了一些学习教程，希望可以帮助到大家。

每天五分钟—Python机器学习：使用Python进行基本文本处理。

获取方式：请大家转发+关注并私信小编关键词：“资料”即可获取。

每天五分钟—Python机器学习：使用Python进行基本文本处理。

文本可以分成不同的基元。

1.1.1 字符串比较

1.1.2 字符串转换

1.1.3 字符串操作

柠檬为大家准备了一些学习教程，希望可以帮助到大家。

获取方式：请大家转发+关注并私信小编关键词：“资料”即可获取。

相关推荐

1.1.1　字符串比较

1.1.2　字符串转换

1.1.3　字符串操作