[译]C语言实现一个简易的Hash table(4)

qingsongzdq 2019-06-30

[译]C语言实现一个简易的Hash table(4)

上一章我们解释了Hash table中最重要的hash函数，并用伪代码和C语言实现了一个我们自己的hash函数，hash函数中碰撞是无法避免的，当发生碰撞时我们改如何有效的处理呢？这章我们就来讲解下。

处理碰撞

hash函数中将无限大的输入映射到有限的输出中，当不同的输入映射到相同的输出时，就会发生碰撞，每个的hash表都会采用不同的方法来处理碰撞。

我们的哈希表将使用一种称为开放地址的双重哈希的技术来处理冲突。双重哈希使用两个散列函数来计算在发生碰撞后存储记录的索引。

双重哈希

当i发生碰撞后我们使用如下方式来获取索引：

index = hash_a(string) + i * hash_b(string) % num_buckets

当没有发生碰撞时，i=0，所以索引就是hash_a的值，发生碰撞后，hash_a的结果就需要经过一次hash_b的处理。

hash_b可能会返回0，将第二项减少到0，这就导致hash表会将多个记录插入到同一个bucket中，我们可以在hash_b的结果后加1来处理这种情况，确保它永远不会为0：

index = (hash_a(string) + i * (hash_b(string) + 1)) % num_buckets

算法实现

// hash_table.c
static int ht_get_hash(const char* s, const int num_buckets, const int attempt) {
    const int hash_a = ht_hash(s, HT_PRIME_1, num_buckets);
    const int hash_b = ht_hash(s, HT_PRIME_2, num_buckets);
    return (hash_a + (attempt * (hash_b + 1))) % num_buckets;
}

上一章：hash函数
下一章：完成Hash表API

: qingsongzdq

相关推荐

MySQL 索引结构 hash 有序数组

Hash本身是一种函数，又被称为散列函数。不过在有大量重复值得情况下，hash索引的效率极低，因为要频发地处理Hash冲突。对于Hash索引的联合索引，是将联合索引字段值相捆绑然后计算Hash值的，无法利用对单一字段的Hash值。当字段的重复度低，而且经常

wangshuangbao 0喜欢 / 0评论 2020-07-05

php hash算法实现memcached分布式

Mysql是通过SQL语句管理“磁盘中”的文件，Memcached是通过客户端发送的命令管理“内存中缓存”的数据。需要缓存的对象或数据以 key/value 对的形式保存在服务器端，key的值通过hash进行转换，把value传递到对应的具体的某台服务器上

jkzyx 0喜欢 / 0评论 2020-06-29

mysql对于很长的字符列的索引方案

SELECT * FROM urlT WHERE url_hash = hash AND url = ‘www.blog.csdn.net‘;

TNTMysql工程师 0喜欢 / 0评论 2020-06-16

面试必看！凭借着这份 MySQL 高频面试题，我拿到了京东，字节的offer！

本文主要受众为开发人员,所以不涉及到MySQL的服务部署等操作,且内容较多,大家准备好耐心和瓜子矿泉水.前一阵系统的学习了一下MySQL,也有一些实际操作经验,偶然看到一篇和MySQL相关的面试文章,发现其中的一些问题自己也回答不好,虽然知识点大部分都知道

weiguoxin 0喜欢 / 0评论 2020-06-11

加解密原理

密钥，一般就是一个字符串或数字，在加密或者解密时传递给加密或解密算法，以使算法能够正确对明文加密或者对密文解密。对称加密算法的特点是加密使用的密钥和解密使用的密钥是相同的。因此对称加密算法要保证安全性的话，密钥自然要做好保密，只能让使用的人知道，不能对外公

natloc 0喜欢 / 0评论 2020-06-10

webpack 中，hash、chunkhash、contenthash 的区别是什么？

Webpack 有非常多的概念，很多名词长得都差不多。我把这些分散在文档和教程里的内容总结起来，写了一份 webpack 中的易混淆知识点，目前看是全网独一份，大家可以加个收藏，方便以后检索和学习。首先来个背景介绍，哈希一般是结合 CDN 缓存来使用的。如

SelinaChan 0喜欢 / 0评论 2020-05-18

PHP弱类型hash比较缺陷

0e在比较的时候会将其视作为科学计数法，所以无论0e后面是什么，0的多少次方还是0。　　$a = $_POST[‘pwd‘];在已知管理员密码md5值是以0e开头的前提下,观察代码逻辑,如果是使用"=="判断即可直接传入md5值是0e开

JF0 0喜欢 / 0评论 2020-01-24

python3 一致性hash算法

client_ip_list = ["113.88.97.173", "106.11.154.33", "207.46.13.149","42.156.137.120", &q

ladysosoli 0喜欢 / 0评论 2020-01-19

一致性哈希算法 CARP 原理解析, 附 Golang 实现

在后端服务开发的过程中, 遇到了这样一个问题: 需要在 mysql 前面部署 redis 做一层缓存, 要求 redis 是集群部署, 并且每台 redis 节点只缓存总数据量的 1/N, N 为 redis 的个数.所以必须想一种办法来应对上述的情况,

码墨 0喜欢 / 0评论 2020-01-18

9.算法之顺序、二分、hash查找

我们在这里将仅关注成员是否存在这个问题。这个过程产实现的搜索即为顺序查找。　　- 顺序查找原理剖析：从列表中的第一个元素开始，我们按照基本的顺序排序，简单地从一个元素移动到另一个元素，直到找到我们正在寻找的元素或遍历完整个列表。在顺序查找中，当我们与第一个

Happyunlimited 0喜欢 / 0评论 2020-01-12

布隆过滤器(Bloom Filter)与Hash算法

　　Hash算法在应用中又称为指纹或者摘要算法,是一种将任意长度的明文串映射为较短的数据串的算法，目前的Hash算法主要是MD5系列算法与SHA系统算法。但是将映射的Hash值限制在数组大小的范围内，会造成大量的Hash冲突，从而导致性能的急速下降，所以人

yedaoxiaodi 0喜欢 / 0评论 2020-01-08

HashMap源码分析

HashMap 主要用来存放键值对，它基于哈希表的Map接口实现，是常用的Java集合之一。JDK1.8 之前 HashMap 底层是数组和链表结合在一起使用也就是链表散列。所谓扰动函数指的就是 HashMap 的 hash 方法。使用 hash 方法也就

mbcsdn 0喜欢 / 0评论 2020-01-07

python hash

　　Hash，一般翻译做“散列”，也有直接音译为”哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯

lixiaotao 0喜欢 / 0评论 2020-01-03

HashMap、lru、散列表

HashMap的数据结构：HashMap实际上是一个数组和链表的数据结构。底层就是一个数组结构，数组中的每一项又是一个链表。hashCode是一个对象的标识，Java中对象的hashCode是一个int类型值。发生碰撞后会把相同hashcode的对象放到同

hanyujianke 0喜欢 / 0评论 2020-01-01

字典的key都可以是什么

一个对象能不能作为字典的key，就取决于其有没有__hash__方法。所以所有python自带类型中，除了list、dict、set和内部至少带有上述三种类型之一的tuple之外，其余的对象都能当key。比如数值/字符串/完全不可变的元祖/函数/类/方法/

chouliqingke 0喜欢 / 0评论 2019-12-17

Hash算法：双重散列

　　双重散列是线性开型寻址散列中的冲突解决技术。双重散列使用在发生冲突时将第二个散列函数应用于键的想法。　　来进行双哈希处理。hash1() 和 hash2() 是哈希函数，而 TABLE_SIZE是哈希表的大小。当发生碰撞时，我们通过重复增加步长i 来

Happyunlimited 0喜欢 / 0评论 2019-12-08

mysql 一些小问题

关于MySQL的索引,曾经进行过一次总结,文章链接在这里 Mysql索引原理及其优化.索引是一种数据结构,可以帮助我们快速的进行数据的查找.索引的数据结构和具体存储引擎的实现有关, 在MySQL中使用较多的索引有Hash索引,B+树索引等,而我们经常使用的

翡翠谷 0喜欢 / 0评论 2019-11-11

这可能是史上最全的MySQL面试题分享了，看完直接收藏

前言本文主要受众为开发人员,所以不涉及到MySQL的服务部署等操作,且内容较多,大家准备好耐心和瓜子矿泉水.前一阵系统的学习了一下MySQL,也有一些实际操作经验,偶然看到一篇和MySQL相关的面试文章,发现其中的一些问题自己也回答不好,虽然知识点大部分都

AwesomeQA 0喜欢 / 0评论 2019-08-07

100道MySQL常见面试题总结

本文主要受众为开发人员,所以不涉及到MySQL的服务部署等操作,且内容较多,大家准备好耐心和瓜子矿泉水.前一阵系统的学习了一下MySQL,也有一些实际操作经验,偶然看到一篇和MySQL相关的面试文章,发现其中的一些问题自己也回答不好,虽然知识点大部分都知道

MYSQL轻松学 0喜欢 / 0评论 2019-08-06

一致性Hash算法

一致性Hash算法在1997年由麻省理工学院提出的一种分布式哈希实现算法，设计目标是为了解决因特网中的热点问题，初衷和CARP十分相似。一致性Hash修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希可以在P2P环境中真正得到应用。很多哈希算法都能

KDF000 0喜欢 / 0评论 2019-10-18

hbase rowkey设计之hash的使用和md5的使用

在组拼hbase rowkey时，为了防止热点，rowkey可以使用 md5方式或者hash方式，2 hashfun : hashfun 获取string的hashcode，根据int取余并补全位数。String newString = String.fo

momo00 0喜欢 / 0评论 2018-08-24

与区块链相关的密码学

Hash 能将明文映射为较短固定长度的二进制 hash 值，并且不同的明文很难映射为相同的 hash 值。一个优秀的 hash 算法能够实现：。Hash 函数在数字签名和消息完整性检测等方面有着广泛的应用。5个参与运算的32位寄存器，消息分组和填充方式与M

HeavyIndustry 0喜欢 / 0评论 2019-02-19

一文读懂MySQL中的索引

索引是一种数据结构，其作用就是用来提高数据查询效率。比较常用的比喻就是将其类比为书籍的目录。通过目录可以精确的找到某一章节的内容所在页。索引是一种数据结构，为了应对不同的场景会有多种实现。在MySQL中主要就是Hash索引和B+Tree。hash结构存数据

IcebergSteven 0喜欢 / 0评论 2019-08-03

与区块链相关的密码学

Hash 能将明文映射为较短固定长度的二进制 hash 值，并且不同的明文很难映射为相同的 hash 值。一个优秀的 hash 算法能够实现：。Hash 函数在数字签名和消息完整性检测等方面有着广泛的应用。5个参与运算的32位寄存器，消息分组和填充方式与M

HeavyIndustry 0喜欢 / 0评论 2019-02-19

nginx模块开发入门（十） -5 Load-balancers

Load-balancer用来决定哪一个后端将会收到请求；具体的实现是round-robin方式或者把请求进行hash。本节将介绍load-balancer模块的装载及其调用。upstream_hash将对nginx.conf里配置的变量进行hash，来选

superyu 0喜欢 / 0评论 2013-09-05

海量数据处理之三：Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的

tuonioooo 0喜欢 / 0评论 2013-08-04

web开发中的密码保护问题：HASH函数保护密码彩虹表 MD5+salt bcrypt

哈希算法就是单向散列算法，它把某个较大的集合P映射到另一个较小的集合Q中，假如这个算法叫H，那么就有Q=H。对于P中任何一个值p都有唯一确定的q与之对应，但是一个q可以对应多个p。而在密码比对时，使用输入的密码经过哈希函数算出的q和我们已经在存放的该用户的

gotea 0喜欢 / 0评论 2012-11-02

【转】海量数据处理专题（三）——Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的

tuonioooo 0喜欢 / 0评论 2011-10-21

海量数据处理专题2——Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射，同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要。元素特征转变为数组下标的方法就是散

gotea 0喜欢 / 0评论 2011-10-14

分享一种最小 Perfect Hash 生成算法

由于没有 hash collision，这种 Hash 在查找时时间复杂度是真正的 O。外加一个“最小”前缀，则是要求生成的 Perfect Hash 映射结果的上界尽可能小。举个例子，假设我有 100 个字符串，如果存在这样的最小Perfect Hash

wuxiaosi0 0喜欢 / 0评论 2019-06-30

C语言实现一个简易的Hash table(6)

上一章中，我们实现了Hash表中的插入、搜索和删除接口，我们在初始化Hash表时固定了大小为53，为了方便扩展，本章将介绍如何修改Hash表的大小。设置Hash表大小现在，我们的Hash表是固定大小的，当插入越来越多数据时，我们的Hash表就会被插满，这个

qingsongzdq 0喜欢 / 0评论 2019-06-30

[译]C语言实现一个简易的Hash table(5)

上一章中，我们使用了双重Hash的技术来处理碰撞，并用了C语言实现，本章我们将实现Hash表中的插入、搜索和删除接口。void ht_delete;Insert函数在Hash表中插入一条记录时，我们需要遍历整个Hash表知道找到一个空的位置，然后执行插入并

lynjay 0喜欢 / 0评论 2019-06-30

[译]C语言实现一个简易的Hash table(3)

上一章，我们讲了hash表的数据结构，并简单实现了hash表的初始化与删除操作，这一章我们会讲解Hash函数和实现算法，并手动实现一个Hash函数。输入一个字符串，然后返回一个0到m的数字为一组平常的输入返回均匀的bucket索引。如果Hash函数不是均匀

徐建岗网络管理 0喜欢 / 0评论 2019-06-30

[译]C语言实现一个简易的Hash table(2)

上一章，简单介绍了Hash Table，并提出了本教程中要实现的几个Hash Table的方法，有search、insert和delete，本章将介绍Hash Table使用的数据结构。} ht_item;我们的hash表中保存着一个指向每一项的指针数组，

慕名ArcGIS 0喜欢 / 0评论 2019-06-30

[译]C语言实现一个简易的Hash table(1)

说明Hash table翻译过来就是Hash表，是一种提供了类似于关联数组的数据结构，可以通过key执行搜索、插入和删除操作。Hash表由一些列桶组成，而每一个bucket都是由key-value的形式组成。同理，当我们要从所有的buckets中取回key

徐建岗网络管理 0喜欢 / 0评论 2019-06-30

Consistent Hashing算法

在做服务器负载均衡时候可供选择的负载均衡的算法有很多，包括：轮循算法、哈希算法、最少连接算法、响应速度算法、加权法等。其中哈希算法是最为常用的算法.典型的应用场景是：有N台服务器提供缓存服务，需要对服务器进行负载均衡，将请求平均分发到每台服务器上，每台机器

huhui0 0喜欢 / 0评论 2013-11-14

一致性hash算法

在做服务器负载均衡时候可供选择的负载均衡的算法有很多，包括：轮循算法、哈希算法、最少连接算法、响应速度算法、加权法等。其中哈希算法是最为常用的算法.典型的应用场景是：有N台服务器提供缓存服务，需要对服务器进行负载均衡，将请求平均分发到每台服务器上，每

horizonheart 0喜欢 / 0评论 2013-06-20

[转] 一致性 hash 算法

consistent hashing算法早在1997年就在论文Consistent hashing and random trees中被提出，目前在cache系统中应用越来越广泛；1基本场景比如你有N个cache服务器，那么如何将一个对象object映射到

gotea 0喜欢 / 0评论 2013-03-28

[转]哈希分布与一致性哈希算法简介

前言在我们的日常web应用开发当中memcached可以算作是当今的标准开发配置了。相信memcache的基本原理大家也都了解过了，memcache虽然是分布式的应用服务，但分布的原则是由client端的api来决定的，api根据存储用的key以及已知的服

wangxiaohua 0喜欢 / 0评论 2013-03-28

深入理解HashMap(五): 关键源码逐行分析之put

上一篇我们讨论了HashMap的扩容操作, 提到扩容操作发生在table的初始化或者table大小超过threshold后，而这两个条件的触发基本上就发生在put操作中。本文的源码基于 jdk8 版本.}可以看到, put方法是有返回值的, 这里调用了 p

newtrekWang 0喜欢 / 0评论 2019-06-28

深入理解HashMap(二): 关键源码逐行分析之hash算法

前面我们讨论了HashMap的结构, 接下来几篇我们从源码角度来看HashMap的实现细节.下面我们就来看看HashMap使用了什么hash算法.散列函数把消息或数据压缩成摘要，使得数据量变小，将数据的格式固定下来。为此, HashMap中, table的

WindChaser 0喜欢 / 0评论 2019-06-28

一致性 hash 算法（ consistent hashing ）

比如你有N个cache服务器，那么如何将一个对象object映射到N个cache上呢，你很可能会采用类似下面的通用方法计算object的hash值，然后均匀的映射到到N个cache；一切都运行正常，再考虑如下的两种情况；2由于访问加重，需要添加cache，

scuyxi 0喜欢 / 0评论 2011-12-12

一致性哈希的通用实现

可自定义节点数据类型可自定义hash函数原理一致性哈希可应用于负载均衡、分布式缓存等场景中，以下以分布式缓存为例。传统方式如，现有N个缓存实例，将一个对象object映射到某一个缓存上可以采取取模方式 hash % N我们称之为简单hash算法。一般，简单

小小狐狸 0喜欢 / 0评论 2019-06-27

TiDB 源码阅读系列文章（九） Hash Join

简单来说，A 表和 B 表的 Hash Join 需要我们选择一个 Inner 表来构造哈希表，然后对 Outer 表的每一行数据都去这个哈希表中查找是否有匹配的数据。使用 Inner 和 Outer 更准确，没有迷惑性。在 Build 阶段，对 Inne

wwy0 0喜欢 / 0评论 2019-06-27

区块链学习之密码学安全技术（五）

Hash 算法与数字摘要Hash 算法它能将任意长度的二进制明文串映射为较短的二进制串，并且不同的明文很难映射为相同的Hash值。Hash 值在应用中又常被称为指纹或摘要。Hash 算法的核心思想也经常被应用到基于内容的编址或命名算法中。Hash攻击与防护

YUAN 0喜欢 / 0评论 2019-06-27

数据库索引

索引定义数据库索引好比书的目录，对数据库表中一个或多个字段的值进行排序的结构。在查找索引字段中保存的某个值的时候通过查“目录”会比逐条地查找数据记录快很多。索引也是一种表，存储着索引字段和指向实际表记录的指针。

JAVA记事 0喜欢 / 0评论 2019-06-27

一致性hash算法 - consistent hashing

比如你有 N 个 cache 服务器，那么如何将一个对象 object 映射到 N 个 cache 上呢，你很可能会采用类似下面的通用方法计算 object 的 hash 值，然后均匀的映射到到 N 个 cache ；由于访问加重，需要添加 cache

流浪天空 0喜欢 / 0评论 2014-09-26

从Hash到散列表到HashMap

HashHash 哈希、散列，通常我们讲的都是hash函数，是将任意长度的数据映射到有限长度的域上，作为这段数据的特征(指纹)。什么是哈希算法，比较常见的有MDx系列、SHA-xxx系列，对于哈希算法，一般需要满足两点：。最直接，则对应于jdk中的hash

Broadview 0喜欢 / 0评论 2019-06-26

Redis3.2源码分析-字典dict

最近工作有点忙，拖了好久才挤出时间学习dict源码。还是希望能坚持读下去。先简单介绍一下redis字典字典的目的是为了通过某个信息找到另一个信息。为了快速从key找到value，字典通常会用hash表作为底层的存储，redis的字典也不例外，它的实现是基

有梦就能飞 0喜欢 / 0评论 2019-06-26