动画：什么是散列表？

comeInKid 2019-03-18

动画：什么是散列表？

作者 | 程序员小吴

责编 | 郭芮

散列表（Hash table，也叫哈希表），是根据键（Key）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数，存放记录的数组称做散列表。

散列函数

散列函数，顾名思义，它是一个函数。如果把它定义成 hash(key) ，其中 key 表示元素的键值，则 hash(key) 的值表示经过散列函数计算得到的散列值。

散列函数的特点：

1、确定性。如果两个散列值是不相同的（根据同一函数），那么这两个散列值的原始输入也是不相同的。

2、散列碰撞（collision）。散列函数的输入和输出不是唯一对应关系的，如果两个散列值相同，两个输入值很可能是相同的，但也可能不同。

3、不可逆性。一个哈希值对应无数个明文，理论上你并不知道哪个是。

“船长，如果一样东西你知道在哪里，还算不算丢了。”

“不算。”

“好的，那您的酒壶没有丢。”

4、混淆特性。输入一些数据计算出散列值，然后部分改变输入值，一个具有强混淆特性的散列函数会产生一个完全不同的散列值。

常见的散列函数

1. MD5

MD5 即 Message-Digest Algorithm 5（信息-摘要算法5），用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一，主流编程语言普遍已有 MD5 实现。

将数据（如汉字）运算为另一固定长度值，是杂凑算法的基础原理，MD5 的前身有 MD2 、MD3 和 MD4 。

MD5 是输入不定长度信息，输出固定长度 128-bits 的算法。经过程序流程，生成四个32位数据，最后联合起来成为一个 128-bits 散列。

基本方式为，求余、取余、调整长度、与链接变量进行循环运算，得出结果。

MD5 计算广泛应用于错误检查。在一些 BitTorrent 下载中，软件通过计算 MD5 来检验下载到的碎片的完整性。

动画：什么是散列表？

MD5 校验

2. SHA-1

SHA-1（Secure Hash Algorithm 1，中文名：安全散列算法1）是一种密码散列函数，SHA-1可以生成一个被称为消息摘要的160位（20字节）散列值，散列值通常的呈现形式为40个十六进制数。

SHA-1 曾经在许多安全协议中广为使用，包括TLS和SSL、PGP、SSH、S/MIME和IPsec，曾被视为是MD5的后继者。

散列冲突

理想中的一个散列函数，希望达到：

如果 key1 ≠ key2，那 hash(key1) ≠ hash(key2)。

这种效果，然而在真实的情况下，要想找到一个不同的 key 对应的散列值都不一样的散列函数，几乎是不可能的，即使是 MD5 或者由美国国家安全局设计的 SHA-1 算法也无法实现。

事实上，再好的散列函数都无法避免散列冲突。为什么呢？这涉及到数学中比较好理解的一个原理：抽屉原理。

抽屉原理：桌上有十个苹果，要把这十个苹果放到九个抽屉里，无论怎样放，我们会发现至少会有一个抽屉里面至少放两个苹果。这一现象就是我们所说的“抽屉原理”。

动画：什么是散列表？

抽屉原理

对于散列表而言，无论设置的存储区域（n）有多大，当需要存储的数据大于 n 时，那么必然会存在哈希值相同的情况。这就是所谓的散列冲突。

动画：什么是散列表？

散列冲突

那应该如何解决散列冲突问题呢？常用的散列冲突解决方法有两类，开放寻址法（open addressing）和链表法（chaining）。

开放寻址法

定义：将散列函数扩展定义成探查序列，即每个关键字有一个探查序列h(k,0)、h(k,1)、…、h(k,m-1)，这个探查序列一定是0….m-1的一个排列（一定要包含散列表全部的下标，不然可能会发生虽然散列表没满，但是元素不能插入的情况），如果给定一个关键字k，首先会看h(k,0)是否为空，如果为空，则插入；如果不为空，则看h(k,1)是否为空，以此类推。

开放寻址法是一种解决碰撞的方法，对于开放寻址冲突解决方法，比较经典的有线性探测方法（Linear Probing）、二次探测（Quadratic probing）和双重散列（Double hashing）等方法。

线性探测方法

动画：什么是散列表？

开放寻址法之线性探测方法

当我们往散列表中插入数据时，如果某个数据经过散列函数散列之后，存储位置已经被占用了，我们就从当前位置开始，依次往后查找，看是否有空闲位置，直到找到为止。

以上图为例，散列表的大小为 8 ，黄色区域表示空闲位置，橙色区域表示已经存储了数据。目前散列表中已经存储了 4 个元素。此时元素 7777777 经过 Hash 算法之后，被散列到位置下标为 7 的位置，但是这个位置已经有数据了，所以就产生了冲突。

于是按顺序地往后一个一个找，看有没有空闲的位置，此时，运气很好正巧在下一个位置就有空闲位置，将其插入，完成了数据存储。

线性探测法一个很大的弊端就是当散列表中插入的数据越来越多时，散列冲突发生的可能性就会越来越大，空闲位置会越来越少，线性探测的时间就会越来越久。极端情况下，需要从头到尾探测整个散列表，所以最坏情况下的时间复杂度为 O(n)。

动画：什么是散列表？

开放寻址法之线性探测方法的弊端

二次探测方法

二次探测是二次方探测法的简称。顾名思义，使用二次探测进行探测的步长变成了原来的“二次方”，也就是说，它探测的下标序列为 hash(key)+0，hash(key)+1^2或[hash(key)-1^2]，hash(key)+2^2或[hash(key)-2^2]。

动画：什么是散列表？

二次探测方法

以上图为例，散列表的大小为 8 ，黄色区域表示空闲位置，橙色区域表示已经存储了数据。目前散列表中已经存储了 7 个元素。此时元素 7777777 经过 Hash 算法之后，被散列到位置下标为 7 的位置，但是这个位置已经有数据了，所以就产生了冲突。

按照二次探测方法的操作，有冲突就先 + 1^2，8 这个位置有值，冲突；变为 - 1^2，6 这个位置有值，还是有冲突；于是 - 2^2， 3 这个位置是空闲的，插入。

双重散列方法

所谓双重散列，意思就是不仅要使用一个散列函数，而是使用一组散列函数 hash1(key)，hash2(key)，hash3(key)。。。。。。先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

动画：什么是散列表？

双重散列方法

以上图为例，散列表的大小为 8 ，黄色区域表示空闲位置，橙色区域表示已经存储了数据。目前散列表中已经存储了 7 个元素。此时元素 7777777 经过 Hash 算法之后，被散列到位置下标为 7 的位置，但是这个位置已经有数据了，所以就产生了冲突。

此时，再将数据进行一次哈希算法处理，经过另外的 Hash 算法之后，被散列到位置下标为 3 的位置，完成操作。

事实上，不管采用哪种探测方法，只要当散列表中空闲位置不多的时候，散列冲突的概率就会大大提高。为了尽可能保证散列表的操作效率，一般情况下，需要尽可能保证散列表中有一定比例的空闲槽位。

一般使用加载因子（load factor）来表示空位的多少。

加载因子是表示 Hsah 表中元素的填满的程度，若加载因子越大，则填满的元素越多,这样的好处是：空间利用率高了,但冲突的机会加大了。反之,加载因子越小,填满的元素越少,好处是冲突的机会减小了，但空间浪费多了。

链表法

链表法是一种更加常用的散列冲突解决办法，相比开放寻址法，它要简单很多。如下动图所示，在散列表中，每个位置对应一条链表，所有散列值相同的元素都放到相同位置对应的链表中。

动画：什么是散列表？

链表法

作者：程序员小吴，哈工大学渣，目前正在学算法，开源项目「 LeetCodeAnimation 」5500star，GitHub Trending 榜连续一月第一。运营个人微信号五分钟学算法，一起学习，一起进步！

声明：本文为作者投稿，版权归其个人所有。

: comeInKid

相关推荐

《数据结构与算法之美》15——散列表（二）如何实现工业级别的散列表

通过上一节的学习，我们知道，散列表的查询效率并不能简单说成是O。它跟散列函数、装载因子、散列冲突等地都有关系。今天我们来学一下，如何设计一个可以应对各种异常情况的工业级散列表，来避免在散列冲突的情况下，散列表性能的急剧下降，并且能抵抗散列碰撞攻击？过于复杂

范范 0喜欢 / 0评论 2020-07-04

Linux下基于签名技术的软件保护分析

根据我组成员的热烈讨论，我们对该题目有了一个大致的了解。对于Linux下给定的ELF可执行程序、自行开发签名工具对程序的代码段首先进行散列，然后对散列值进行签名，签名数据应作为单独的节附加到原ELF可执行程序的尾部。同时，应开发验证软件并加入操作系统，在运

清溪算法 0喜欢 / 0评论 2020-04-23

Python3标准库：hashlib密码散列

hashlib模块定义了一个API来访问不同的密码散列算法。要使用一个特定的散列算法，可以用适当的构造器函数或new()来创建一个散列对象。不论使用哪个具体的算法，这些对象都使用相同的API。由于hashlib有OpenSSL提供“底层支持”，所以Open

sunskyday 0喜欢 / 0评论 2020-03-28

信息摘要

信息摘要算法实际上就是一个单向散列函数。数据块经过单向散列函数得到一个固定长度的散列值。攻击者不可能通过散列值而编造数据块，使得编造的数据块的散列值和原数据块的散列值相同。市场上广泛使用的MD5，SHA算法的散列值分别为128和160位，由于SHA通长采用

yedaoxiaodi 0喜欢 / 0评论 2019-12-30

Hash算法：双重散列

　　双重散列是线性开型寻址散列中的冲突解决技术。双重散列使用在发生冲突时将第二个散列函数应用于键的想法。　　来进行双哈希处理。hash1() 和 hash2() 是哈希函数，而 TABLE_SIZE是哈希表的大小。当发生碰撞时，我们通过重复增加步长i 来

Happyunlimited 0喜欢 / 0评论 2019-12-08

MD5

MD5，即Message Digest Algorithm 5 ，中文名为消息摘要算法第五版。MD5，这是一个在计算机安全领域广泛使用的一种散列函数，用于提供消息的完整性保护。抗修改性：对原数据进行任何改动，哪怕只修改1个字节，所得到的MD5值都有很大区别

SongLynn 0喜欢 / 0评论 2019-09-05

海量数据处理之三：Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的

tuonioooo 0喜欢 / 0评论 2013-08-04

【转】海量数据处理专题（三）——Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的

tuonioooo 0喜欢 / 0评论 2011-10-21

海量数据处理专题2——Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射，同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要。元素特征转变为数组下标的方法就是散

gotea 0喜欢 / 0评论 2011-10-14

Web2.0架构下散列实现数据库负载均衡

在Web2.0时代，网站将会经常面临着快速增加的访问量，但是我们的应用如何满足用户的访问需求，而且基本上我们看到的情况都是性能瓶颈都是在数据库上，这个不怪数据库，毕竟要满足很大访问量确实对于任何一款数据库都是很大的压力，不论是商业数据库Oracle、MSs

gotea 0喜欢 / 0评论 2011-05-14

第五章 shiro的编码/加密

在涉及到密码存储问题上，应该加密/生成密码摘要存储，而不是存储明文密码。比如之前的600w csdn账号泄露对用户可能造成很大损失，因此应加密/生成不可逆的摘要方式存储。Shiro内部的一些数据的存储/表示都使用了base64和16进制字符串。还有一个可能

luckyxl0 0喜欢 / 0评论 2017-01-09

python摘要算法(又称哈希算法、散列算法)

摘要算法简介Python的hashlib提供了常见的摘要算法，如MD5，SHA1等等。摘要算法又称哈希算法、散列算法。它通过一个函数，把任意长度的数据转换为一个长度固定的数据串。如果有人篡改了你的文章，并发表为'how to use python hash

standfly 0喜欢 / 0评论 2019-06-29

第五章编码/加密——《跟我学Shiro》

在涉及到密码存储问题上，应该加密/生成密码摘要存储，而不是存储明文密码。比如之前的600w csdn账号泄露对用户可能造成很大损失，因此应加密/生成不可逆的摘要方式存储。Shiro内部的一些数据的存储/表示都使用了base64和16进制字符串。还有一个可能

清溪算法 0喜欢 / 0评论 2014-02-25

数据库中表散列之杂谈

数据库中的散列法是使用计算值来分配表格数据的方法，它比在整个索引中搜索要好的多。一个哈希散列答应你在数据库表格中存储数据，以便这些行的要害计算的相同值存储在相同的位置。只有那种数据量超大的数据库才会用到.表散列与水平分割相似，但没有水平分割那样的明显分割界

wangxiaohua 0喜欢 / 0评论 2013-09-05

数据结构和算法之——散列表中

如果散列函数设计得不好，或者装载因子过高，都可能会导致散列冲突发生的概率升高，查询效率下降。那什么才是好的散列函数呢？过于复杂的散列函数，势必会消耗很多计算时间，也就间接地影响到散列表的性能。其次，散列函数生成的值要尽可能随机并且均匀分布。这样才能避免或者

darlingtangli 0喜欢 / 0评论 2019-06-28

数据结构和算法之——散列表上

散列表的英文叫 "Hash Table"，我们也叫它 “哈希表” 或者 “Hash 表”。散列表用的是数组支持按照下标随机访问数据的特性，所以散列表其实就是数组的一种扩展，由数组演化而来。为了方便记录查询成绩，我们将参赛号码为 0 的选

ding0 0喜欢 / 0评论 2019-06-28

从Hash到散列表到HashMap

HashHash 哈希、散列，通常我们讲的都是hash函数，是将任意长度的数据映射到有限长度的域上，作为这段数据的特征(指纹)。什么是哈希算法，比较常见的有MDx系列、SHA-xxx系列，对于哈希算法，一般需要满足两点：。最直接，则对应于jdk中的hash

Broadview 0喜欢 / 0评论 2019-06-26

2017双11技术揭秘—分布式缓存服务Tair的热点数据散列机制

Tair的核心组件是一个高性能、可扩展、高可靠的NoSQL存储系统。目前支持MDB、LDB、RDB等存储引擎。本文基于Tair的存储和访问原理，对缓存的读写热点问题进行讨论，并给出一个满足现阶段需求的热点数据读写问题的解决方案。随后客户端随机选择一个Hot

Finnnnnnn 0喜欢 / 0评论 2019-06-26

散列与 java

学过算法的朋友都知道，散列可以在一定程序上提高查找效率，甚至可以压缩一些序列。Java中也有些集合都用到了它。一般都是由一个固定长度的数组组成，经常会结合链表来实现。具有相同函数值的关键字对该散列函数来说称做同义词。若对于关键字集合中的任一个关键字，经散列

WalkMoreSlowly 0喜欢 / 0评论 2010-08-12

HashMap分析及散列的冲突处理

像二分查找、AVL树查找，这些查找算法的时间复杂度为O，而对于哈希表而言，我们一般说它的查找时间复杂度为O。那它是怎么实现的呢？这就是一个Hashing过程。在JAVA中，每个对象都有一个散列码，它是由Object类的hashCode()方法计算得到的。而

qizongshuai 0喜欢 / 0评论 2017-08-12

HashMap实现原理分析

HashMap实现原理分析概述HashMap是Java集合框架中一个基础类，它在1998年12月，加入到Java 2版本中。在此之后，Map接口本身除了在Java 5中引入了泛型以外，再没有发生过明显变化。然而HashMap的实现，则为了提升性能，不断地在

mal 0喜欢 / 0评论 2016-10-09

Java集合-hashCode

hashCode 的作用在 Java 集合中有两类，一类是 List，一类是 Set 他们之间的区别就在于 List 集合中的元素师有序的，且可以重复，而 Set 集合中元素是无序不可重复的。通过迭代来 equals() 是否相等。数据量小还可以接受，当我

frankwtq 0喜欢 / 0评论 2016-08-25

简析散列算法在C# 加密中的应用

散列算法是C# 加密中经常会用到的方法，那么什么是散列算法呢？那么这里就向你详细介绍执行的具体过程，我们在学习之前要明白创建散列码的方法很多，其实即使是同一种散列算法也可以通过许多类来实现，以 SHA1 为例：。//将参数换成“MD5”，则执行MD5加密。

csdnfelix 0喜欢 / 0评论 2009-09-09

Linux服务器LB群集之LVS-NAT

在实验之前，首先要来了解一下群集的相关知识。1）LB load balancing 负载均衡2）HA high available 高可用3） HP 高性能LB. 当一个director收到一个访问集群服务的请求，选择的机制就是lvs调度算法。轮叫调度算法

oEveryman 0喜欢 / 0评论 2013-05-23

LVS集群之十种调度算法及负载均衡——理论

LVS是个负载均衡设备，它不提供任何服务，用户请求到这里的时候，它是将客户需求转发至后端真正提供服务的服务，所以说后端的服务称作real server。LVS分为两段，前一段称为ipvsadm，后面一段叫做ipvs。主要实现会话绑定，能够将此前建立的ses

bamboocqh 0喜欢 / 0评论 2013-05-14

概述ASP.NET Membership

本来打算写一篇介绍如何实现用户登录功能的文章的，但因为时间有限，所以先介绍一下密码的散列和ASP.NET Membership. 所谓加Salt，就是加点“佐料”。而当用户登录时，系统为用户提供的代码撒上同样的“佐料”，然后散列，再比较散列值，已确定密码是

Eduenth 0喜欢 / 0评论 2009-08-05

数据库表分割技术浅析(水平分割/垂直分割/库表散列)

　　表中的数据本来就有独立性，例如表中分别记录各个地区的数据或不同时期的数据，特别是有些数据常用，而另外一些数据不常用。　　需要把数据存放到多个介质上。　　需要把历史数据和当前的数据拆分开。缺点：　　1：水平分割会给应用增加复杂度，它通常在查询时需要多个

zhangliff 0喜欢 / 0评论 2019-04-03

PHP实现的单向散列加密操作示例

本文实例讲述了PHP实现的单向散列加密操作。分享给大家供大家参考，具体如下：。$str = "我是张三，能给我个人数据吗";echo "你是张三，给你信息";echo "你是假冒伪劣产品";ech

PHP100 0喜欢 / 0评论 2019-03-28

FNV算法实战

HASH算法介绍Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能

BitTigerio 0喜欢 / 0评论 2018-03-01

数据结构（三）——散列（上）

在现实世界中，实体之间可能存在着映射关系，比如一个订单可能对应多个商品，对应一个配送站点。散列正是对这种映射关系的逻辑结构的表达，但同时，作为一种数据结构，在计算机中该如何实现存储呢？顾名思义，在散列冲突发生后，采用新的散列函数对key进行重新散列。

松鼠的窝 0喜欢 / 0评论 2018-01-23

数据结构——哈希表详解

前言使用哈希表可以进行非常快速的查找操作。很多人避而不谈，虽然知道经常用到，很多语言的内置数据结构像python中的字典，java中的HashMap，都是基于哈希表实现。但哈希表究竟是啥？这个特性是散列函数具有确定性的结果，具有这种性质的散列函数称为单向散

稀土 0喜欢 / 0评论 2017-12-06