chunjiekid 2019-06-28
想学爬虫还是 python 专业啊,之前一直在用 java, 现在决定尝尝鲜,使用 python及爬虫框架来完成网络数据采集。
编程语言之间都是相通的,比如都需要模块化,引入其他文件来实现功能,使用列表等容器来处理数据,都要使用 json
或 xml
来解析和传输数据。
你会发现通过 类比 的方式,带着问题去学习,你会发现走的很快
而且我认为代码示例的作用是 异常强大的, 我会尽量使用代码示例的方式来展示,以满足同学快速学习的需要,也备后续查询。
下面就是在 使用 python 过程中的问题总结,okay,让我们一起来历险吧~
不管是哪种语言,用的最多的类型估计都是 string (字符串),要想快速入门 python, 掌握 string 也是必须的。
在 java 中使用最多的 string 功能,我也会带着同样的疑问来了解 python 该使用什么方法实现。如果这里没有你要找的方法,可以到 python string 官方地址完整方法去查询
+
号来拼接,要注意的是,当有数字的时候一定要转化为字符串格式 str(value)
才能够相加,不然会报错。hour = 9 minutes = 45 print('it\'s %d:%d minutes!' %(hour, minutes))
# 对字符串分割 split_str = 'a-b-c-d' print(split_str.split('-'))
# 获取字符串的长度 print(len('banana'))
# 以 - 做间隔,拼接字符串 join_str_list = ['a', 'b', 'c', 'd'] print('-'.join(join_str_list)) # 这里就是用 - 拼接后的值
split_str = 'a-b-c-d' print(split_str.split('-'))
去除字符串中空格分为 3 种
# 去除字符串中的空格 strToStrip = ' abc ' print(strToStrip.strip()) # 去除两端空格 print(strToStrip.lstrip()) # 去除左边空格 print(strToStrip.rstrip()) # 去除右边空格
child_str = 'abc' print('abcd'.find(child_str)) # 如果存在就返回首字母下标,不存在返回 -1
学过 java 的都知道,在 java 中使用最多的容器有 List
, Map
, Set
, Array
,这些容器可以让我们方便的存储并操作数据,那么 python 中又有哪些类似的容器可供我们使用呢?
python 中也有列表,功能包含了 java 列表,而且更牛的是它可以 包含不同类型的元素
。
['a', 10, 1.5] # 这就是一个列表,只需要方括号包起来即可
有两种方式可实现
list = ['a', 1, 1.4] for item in list: print(item)
在只需要读取列表的元素本身时这种方式当然很优雅。但如果需要获取元素的下标,就力不从心了,这就需要下面的方式。
list = ['a', 1, 1.4] for i in range(len(list)): list[i] = list[i] * 2 print(list[i])
pyton 中专门有切片操作符 :
, 想切多厚切多厚,这可比 java 要方便不少。
通过例子来感受下吧。
alpha_list = ['a', 'b', 'c', 'd', 'e', 'f', 'g'] print(alpha_list[1:3]) # ['b', 'c'] print(alpha_list[:4]) # ['a', 'b', 'c', 'd'] print(alpha_list[2:]) # ['c', 'd', 'e', 'f', 'g'] print(alpha_list[:]) # ['a', 'b', 'c', 'd', 'e', 'f', 'g']
有四种方式
append(value)
extend(list)
insert(index, value)
+
号,将两个 list 直接相加, 会返回一个新的 list 对象码字太多了,自己都晕了,直接上代码。
list1 = ['a', 'b', 'c', 'd'] list1.append('e') print(list1) # ['a', 'b', 'c', 'd', 'e'] list2_1 = ['a', 'b', 'c', 'd'] list2_2 = ['e', 'f', 'g'] list2_1.extend(list2_2) print(list2_1) # ['a', 'b', 'c', 'd', 'e', 'f', 'g'] list3 = ['a', 'c', 'd'] list3.insert(1, 'b') # ['a', 'b', 'c', 'd'] print(list3) # 内存多余消耗,不推荐 list4_1 = ['a', 'b'] list4_2 = ['c', 'd'] print(list4_1 + list4_2) # ['a', 'b', 'c', 'd']
也有几种方法可实现
pop(index)
remove(value)
del(index)
del(index_begin, index_end)
上代码
remove_list_1 = ['a', 'b', 'c'] print(remove_list_1.pop(0)) print(remove_list_1)# ['b', 'c'] remove_list_2 = ['a', 'b', 'c'] del remove_list_2[1] print(remove_list_2)# ['a', 'c'] remove_list_3 = ['a', 'b', 'c'] remove_list_3.remove('b') print(remove_list_3) # ['a', 'c'] remove_list_4 = ['a', 'b', 'c'] del remove_list_4[1:2] print(remove_list_4)# ['a', 'c']
dict 和 java 中 Map
非常类似,也是由 key
和 value
组成的,也是
使用 散列表 的算法存储, 用过 java 的同学就直接把它当做 Java HashMap 来用就可以啦。另外,在语法上要比 java 也要简洁不少。
a_dict = dict() # 这样就创建了一个空字典 a_dict['one'] = 1 # 塞进去一个元素 not_empty_dict = {'one': 1, 'two': 2, 'three': 3} # 这是一个包含数据的字典
使用 for
循环遍历所有字典,可以遍历字典中的 key,这样的遍历是没有特定顺序的,如果想按照顺序遍历需要使用内置函数 sorted
d = {'b': 2, 'a': 1, 'c': 3} for item_key in d: print(item_key, d[item_key]) for item_key in sorted(d): print(item_key, d[item_key])
那我如果想要遍历 dict 中的 values 呢?
还真有一个方法叫 values()
, 它会返回一个值集合,并可以应用 in
操作符遍历
d = {'b': 2, 'a': 1, 'c': 3} for value in d.values(): print(value) for sorted_value in sorted(d.values()): print(sorted_value)
什么是元组? java 中可没有听过内置元组这样的数据结构。
在前面已经讲了列表,知道一个列表可以存储多个数据结构。元组和列表很像,但要记住它们间的一个重要区别: 元组是不可变的。
tuple()
也可以创建元组注意,由于元组是不可变的,无法修改它的元素。但我们可以使用将多个元组结合成一个新的元组。(元组也支持 +
)
tuple_a = 1, 2, 3, 4, 5 tuple_b = (1, 2, 3, 4, 5) # tuple 内置函数的参数必须是一个序列 tupe_c = tuple('12345') # 字符串 tuple_e = tuple([1, 2, 3, 4, 5]) # 列表 tuple_f = tuple((1,2,3,4,5)) # 元组 tuple_d = tuple_a + tuple_b print(tuple_d)
既然 python 中有这么个数据结构,自然就有它的用武之地。还别说,它的用途还真不少。
a = 5 b = 4 a,b = b,a # 等式左边是一个变量的元组 # 等式右边是表达式的元组,可以是(字符串,列表,元组都行) c,d = (1,2), [1,2,3] print(c) print(d)
def min_max(list): return min(list), max(list) num_list = [3, 1, 5, 2] print(min_max(num_list))
上面讲述的都是一些大的主题,除了这些,还有一些相对小些的。
虽然小,但也很重要。这些小且重要的部分都在这个部分存放吧。
我们知道 java 中由于变量类型的存在,可以在一个 class
内声明全局变量,从而在 class 的各个方法中读取和赋值。
而这点在 python 中却是行不通的,因为 python 中没有变量类型, 如果在文件中声明一个全局变量,再在函数内对这个变量赋值,会直接导致错误产生。这是因为在函数内又重新创建了一个局部变量。读取全局变量也有这个问题。
那该怎么办呢?嗯~o( ̄▽ ̄)o global
关键字就要登场了。
在函数内部,使用全局变量前,先用 global
关键字声明下这个变量,表示这个变量是全局变量,后面再使用就 okay啦。
上栗子...
g_variable = 3 def test_g_variable(): global g_variable print(g_variable) # 3 g_variable = 2 print(g_variable) # 2 test_g_variable()
上面并没有把 python 讲完,还类和对象,文件,JSON处理, XML 处理 等重要主题,这些会在下篇文章中涉及,敬请期待。