HongKongPython 2020-01-10
字典:
字典类型是“映射”的体现
键值对:键是数据索引的扩展
字典是键值对的集合,键值对之间无序,采用大括号{}和dict()创建,键值对用冒号。表示为
{<键1>:<值1>,<键2>:<值2>, ... , <键n>:<值n>}
在字典变量中,通过键值获取值,如: <值> = <字典变量>[<键>]
>>> d = {"中国":"北京","美国":"华盛顿":"法国":"巴黎"} >>> d["中国"] "北京" >>> de = {} ; type(de) <class ‘dict‘>#返回变量x的类型
字典类型操作函数和方法
del d[k] | 删除字典d中键k对应的数据值 |
k in d | 判断键k是否在字典d中,如果在返回True,否则返回false |
d.keys() | 返回字典d中所有键信息 |
d.values() | 返回字典d中所有值的信息 |
d.items() | 返回字典d中所有的键值对信息 |
d.get(k,<default>) | 键k存在,返回相应值,不在则返回<default>值 |
d.pop(k,<default>) | 键k存在,则取出相应值,不在则返回<default>值 |
d.popitem() | 随机从字典d中取出一个键值对,以元组形式返回 |
d.clear() | 删除所有键值对 |
len(d) | 返回字典d中元素的个数 |
jieba库是优秀的中午分词第三方库
cmd命令: pip install jieba
原理: 利用了一个中文词库,确定汉字之间的关联概率
精确模式:把文本精确的分开,不存在冗余单词
全模式:把文本所有可能的词语扫描出来,有冗余
搜索引擎模式:在精确模式的基础上,对长词再次切分
常用函数
jieba.lcut(s) | 精确模式,返回一个列表类型的分词结果 |
jieba/lcut(s,cut_all=Ture) | 全模式 |
jieba.lcut_for_search(s) | 搜索引擎模式 |
jieba.add_word(w) | 向分词词典增加新词w |