4. Structures d’index: le hachage¶

Les tables de hachage sont des structures très couramment utilisées en mémoire centrale pour organiser des ensembles et fournir un accès performant à ses éléments. Le hachage est également utilisé par les SGBD pour organiser de grandes collections de données sur mémoire persistante. Une technique intermédiaire, le hachage hybride, consiste à créer une seule structure de hachage dont les données sont partiellement en mémoire RAM et partiellement sur le disque. Le hachage hybride est notamment utilisé pour des algorithmes de jointures sophistiqués sur lesquels nous reviendrons.

Dans ce chapitre nous étudions les structures de hachage utilisées pour indexer de grandes collections de données. La plus simple, le hachage statique ne fonctionne correctement que pour des collections de tailles fixes, ce qui exclut des tables évolutives (le cas le plus courant). Le hachage dynamique, qui s’adapte à la taille de la collection indexée, est présenté en section 2. Il repose sur un répertoire (directory) dont la taille peut croître au point de devenir un problème. Enfin la troisième section introduit le hachage linéaire, une structure qui apporte toute l’efficacité du hachage tout en maintenant une taille de répertoire réduite.

S2: Hachage extensible¶

Supports complémentaires:

Nous présentons tout d’abord le hachage extensible sur un exemple avant d’en donner une description plus générale. Dans un premier temps, la structure est tout à fait identique à celle que nous avons vue précédemment, à ceci près que le nombre d’entrées dans le répertoire est variable, et toujours égal à une puissance de 2.

Maintenant nous supposons donnée une fonction de hachage \(h(c)\) qui s’applique à une valeur de clé c et dont le résultat est toujours un entier sur 4 octets, soit 32 bits. Cette fonction est immuable. Le tableau suivant donne les valeurs obtenues par application de cette fonction aux titres de nos films.

Titre	\(h(titre)\)
Vertigo	01110010
Brazil	1010010
Twin Peaks	11001011
Underground	01001001
Easy Rider	00100110
Psychose	01110011
Greystoke	10111001
Shining	11010011

Comme il n’y a que deux entrées, nous nous intéressons seulement au premier de ces 32 bits, qui peut valoir 0 ou 1. La figure Fig. 4.3 montre l’insertion des cinq premiers films de notre liste, et leur affectation à l’un des deux blocs. Le film Vertigo par exemple a pour valeur de hachage 01110010 qui commence par 0, et se trouve donc affecté à la première entrée.

_images/hachext2.png — Fig. 4.3 Hachage extensible avec 2 entrées¶

Supposons, pour la clarté de l’exposé, que l’on ne puisse placer que 3 enregistrements dans un fragment. Alors l’insertion de Psychose, avec pour valeur de hachage 01110011, entraine le débordement du fragment associé à l’entrée 0.

On va alors doubler la taille du répertoire pour la faire passer à quatre entrées, avec pour valeurs respectives 00, 01, 10, 11, soit les \(2^2\) combinaisons possibles de 0 et de 1 sur deux bits. Ce doublement de taille du répertoire entraine la réorganisation suivante (Fig. 4.4):

_images/hachext3.png — Fig. 4.4 Doublement du répertoire dans le hachage extensible¶

En détail:

les films de l’ancien fragment 0 sont répartis sur les fragments 00 et 01 en fonction de la valeur de leurs deux premiers bits: Easy Rider dont la valeur de hachage commence par 00 est placé dans le premier fragment, tandis que Vertigo, Underground et Psychose, dont les valeurs de hachage commencent par 01, sont placées dans le second fragment.

les films de l’ancien fragment 1 n’ont pas de raison d’être répartis puisqu’il n’y a pas eu de débordement pour cette valeur,: on va donc associer le même fragment aux deux entrées 10 et 11.

Maintenant on insère Greystoke (valeur 10111001) et Shining (valeur) 11010011. Tous deux commencent par 10 et doivent donc être placés dans le troisième fragment qui déborde alors. Ici il n’est cependant pas nécessaire de doubler le répertoire puisqu’on est dans une situation où plusieurs entrées de ce répertoire pointent sur le même fragment.

On va donc allouer un nouveau fragment à la structure, et l’associer à l’entrée 11, l’ancien fragment restant associé à la seule entrée 10. Les films sont répartis dans les deux fragments, Brazil et Greystoke avec l’entrée 10, Twin Peaks et Shining avec l’entrée 11 (Fig. 4.5).

_images/hachext4.png — Fig. 4.5 Jeu de pointeurs pour éviter de doubler le répertoire¶

En résumé, il n’y a que deux cas

Cas 1: on insère dans un fragment plein, mais plusieurs entrées pointent dessus. On alloue alors un nouveau fragment, et on répartit les adresses du répertoire pour référencer les deux fragments.

Cas 2: on insère dans un fragment plein, associé à une seule entrée. On double à nouveau le nombre d’entrées

La technique est simple et résout en partir le principal défaut du hachage, l’absence de dynamicité. L’inconvénient potentiel est que le répertoire tend à croître de manière exponentielle, ce qui peut soulever un problème à terme. Le hachage extensible reste par ailleurs une structure plaçante qui doit être complétée par l’arbre B pour des index secondaires.

S3: hachage linéaire¶

Supports complémentaires:

Le but du hachage linéaire est de maintenir une structure de hachage efficace quand le jeu de données est très dynamique, et en particulier quand il croît très rapidement. Cette maintenance implique une extension progressive du répertoire de hachage et de la fonction de hachage, ainsi que l’ajout de nouveaux fragments. L’apport du hachage linéaire est d’incrémenter à la fois le répertoire et les fragments proportionnellement aux besoins de stockage, et d’éviter le doublement systématique du répertoire.

Le point de départ du hachage linéaire est identique à celui du hachage extensible. Nous supposons donnée une fonction de hachage \(h(c)\) qui s’applique à une valeur de clé c et dont le résultat est toujours un entier sur 4 octets, soit 32 bits. Le tableau suivant donne les valeurs que nous allons utiliser pour illustrer le hachage linéaire sur quelques-uns de nos films.

Titre	\(h(titre)\)
Vertigo	14
Brazil	43
Twin Peaks	25
Underground	20
Easy Rider	8
Psychose	33
Greystoke	17
Shining	16
Citizen Kane	44

La structure est celle d’une table de hachage classique, avec un répertoire dont chaque entrée référence un fragment. Nous prenons comme point de départ la situation de la Fig. 4.6 qui ressemble en tous points à celle du hachage extensible, à une (petite) exception près: un paramètre spécial, l’indice de partitionnement est ajouté à la structure. Appelons-le p. Sa valeur initiale est 0.

_images/hachageLineaire1.png — Fig. 4.6 Structure initiale pour le hachage linéaire.¶

La fonction de hachage utilisée pour la structure de la Fig. 4.6 est \(h(c) \, mod\ 2\), que nous noterons \(h_1\). Plus généralement, on va considérer la suite de fonctions \(h_0, h_1, h_2, \cdots\) définie par

\[h_i (c) = h(c)\, mod\, 2^i\]

En français: le résultat de \(h_i(c)\) est le reste de la division de \(c\) par \(2^i\).

Quand un fragment \(f_i\) déborde, les actions suivantes sont effectuées.

Un bloc de débordement est chaîné à \(f_i\) pour stocker le nouvel enregistrement.

Le fragment \(f_p\) est éclaté en (\(f_p\), \(f'_p\)), son contenu réparti dans les deux nouveaux fragments (\(f_p\), \(f'_p\)), et p est incrémenté de 1.

Regardons ce qui se passe après insertion de Psychose, puis de Easy Rider. Tous les deux ont des valeurs impaires pour \(h(c)\) et sont donc placés dans le fragment \(f_1\) qui déborde. Parallèlement à ce débordement, le fragment \(f_0\) est éclaté et son contenu réparti entre \(f_0\) et un nouveau fragment \(f_2\), comme le montre la Fig. 4.6.

_images/hachageLineaire2.png — Fig. 4.7 Après débordement de \(f_1\) et éclatement de \(f_0\)¶

En éclatant le fragment \(f_0\), on a utilisé comme fonction de répartition le successeur de \(h_1\), \(h_2\), et pris donc en compte le reste de la division par \(2^2=4\). Underground et Easy Rider, dont les valeurs respectives de \(h(c)\) sont 24 et 8, restent donc dans \(f_0\), tandis que Vertigo (valeur 14, avec pour reste de la division 2) est déplacé dans \(f_2\).

À ce stade, on constate donc que deux fonctions de hachage cohabitent: \(h_1\) et \(h_2\). Comment savoir laquelle utiliser? Le critère est simplement déterminé par le paramètre p. Le hachage linéaire repose toujours sur une paire de fonctions \((h_n, h_{n+1})\). Initiallement, cette paire est \((h_0, h_1)\), et comme p=0, \(h_0\) s’applique à tous les fragments. Au fur et à mesure de l’évolution de la structure suite à des éclatements, p est incrémenté et \(h_0\) s’applique seulement aux fragments dont l’indice est supérieur ou égal à p, et \(h_1\) à tous les autres.

Continuons notre exemple en insérant successivement Shining (valeur 16) puis Citizen Kane (valeur 48). Tous deux vont dans \(f_0\) qui déborde. Il faut donc éclater le fragment désigné par la valeur courante de p, \(f_1\), et incrémenter p. On se retrouve dans la situation de la Fig. 4.8.

_images/hachageLineaire3.png — Fig. 4.8 Après débordement de \(f_0\) et éclatement de \(f_1\)¶

Que constate-t-on? La structure a un nouveau bloc de débordement, mais celui de \(f_1\) a disparu. Pourquoi? Parce qu’en incrémentant p, la fonction \(h_1\) s’applique maintenant à \(f_1\), ce qui conduit à répartir les enregistrements initialement présents soit dans \(f_1\) (si le modulo 4 de la clé est 1) ou le nouveau fragment \(f_3\) (si le modulo 4 et 3).

Résumons. Dans la structure de hachage linéaire, quand un fragment déborde, un nouveau fragment est chaîné. On se retrouve dans la situation du hachage statique, le chaînage introduisant une indirection pénalisante pour les recherches. Si on s’en tenait là il n’y aurait aucun progrès. Mais le hachage linéaire va plus loin en incrémentant également le nombre de valeurs de hachage et effectuant un éclatement de l’un des fragments de la structure, mais pas forcément de celui qui vient de déborder. En fait, le débordement d’un fragment agit comme une sorte de signal que la structure doit évoluer et s’agrandir, et on le fait mais dans un ordre déterminé à l’avance. C’est ce découplage entre la constatation d’un débordement d’un côté, et l’éclatement d’un fragment de l’autre, qui constitue l’idée - brillante - fondant l’organisation du hachage linéaire.

On accepte donc d’avoir des blocs de débordement, mais uniquement de manière temporaire, car, à terme, le fragment qui a débordé et consiste en plusieurs blocs chaînés sera éclaté à son tour, et le chaînage disparaitra. On peut interpréter le principe comme étant celui d’une désynchronisation entre la croissance des données et le nécessaire éclatement des fragments.

On peut noter également qu’après cet éclatement, \(h_0\) n’est plus utilisé. La paire de fonction requises pour la structure devient \((h_1, h_2)\) et p est réinitialisé à 0: on va recommencer une séquence d’éclatement des fragments, en partant de 0, dans l’ordre. Toutes les puissances de 2, on « décale » d’un niveau la paire de fonction de hachage, et on dispose de toutes les informations nécessaires pour gérer les insertions et les recherches. Le petit code suivant est à la base de l’identification du fragment contenant un enregistrement de clé c, la paire courante de fonctions étant \((h_n, h_{n+1})\).

$a := h_n(h(c));
if ($a < $p)  $a := h_{n+1}(h(c))

En clair: on applique d’abord \(h_n\), en supposant que le fragment concerné n’a pas encore éclaté. On obtient une valeur de hachage a. Si a est inférieure à p, c’est :math:` h_{n+1}` qu’il faut utiliser.

Quiz¶

Quelle affirmation est vraie pour le hachage linéaire?

Il n’y a jamais besoin de chaîner des fragments en cas de débordement

C’est toujours le même fragment qui éclate

L’éclatement des fragments suit un ordre indépendant des insertions

Comment sait-on quelle fonction de hachage s’applique à une clé?

C’est déterminé en fonction de p

Le milieu du répertoire constitue la frontière

C’est déterminé par la valeur de la clé

Pourquoi accepte-t-on de faire des chaînages dans le hachage linéaire?

Parce qu’ils sont inévitables

Parce qu’ils sont temporaires et vont disparaître à l’occasion d’un futur éclatement

Parce qu’ils n’entraînent pas de problème de performance dans le cas du hachage linéaire.

Exercices¶

Exercice ex-hach1: construction d’un hachage statique

Reprenons une liste de 12 départements, à lire de gauche à droite et de bas en haut.
3  Allier; 36 Indre; 18 Cher; 75 Paris
39 Jura; 9  Ariège; 81 Tarn; 11 Aude
12 Aveyron; 25 Doubs; 73 Savoie; 55 Meuse;
La clé étant le numéro de département et on suppose qu’un bloc contient 5 enregistrements.

Proposez une fonction de hachage et le nombre d’entrées du répertoire, puis construisez une structure de hachage statique en prenant les enregistrements dans l’ordre indiqué.

Exercice ex-hach2: avec hachage extensible

Même exercice, mais avec une structure basée sur le hachage extensible. La fonction de hachage est la suivante: \(h(nom) = i_1 i_2 \cdots i_4\) avec \(i_j = 1\) si la lettre \(nom[i_j]\) est en position impaire dans l’alphabet, et 0 sinon. Donc \(f(Aude)=1101\). Voici la liste des valeurs de hachage, en ne prenant que les 4 premiers bits.
Allier  1001    Indre   1000    Cher    1010    Paris   0101
Jura    0101    Ariège  1011    Tarn    0100    Aude    1101
Aveyron 1011    Doubs   0110    Savoie  1101    Meuse   1111
On suppose toujours 5 enregistrements par bloc. Choisissez le nombre de bits initial de la structure de hachage en fonction du nombre de départements à indexer, et donnez la structure obtenue.
Prenez les départements suivants, dans l’ordre indiqué (de gauche à droite, puis de haut en bas) et donnez les évolutions de la structure de hachage extensible.
Cantal  1100    Marne   1100    Loire   0110    Landes  0100
Calvados 1110   Gard    1110    Vaucluse 0111   Ardèche 0011

Exercice ex-hach3: un peu de hachage linéaire

Expliquez l’évolution du hachage linéaiere en partant de la Fig. 4.8 et en insérant deux films, Metropolis donc le code de hachage est 49, et Manhattan donc le code est 5.

4. Structures d’index: le hachage¶

S1: le hachage statique¶

Principes de base¶

Recherche dans une table de hachage¶

Mises à jour¶

Quiz¶

S2: Hachage extensible¶

Quiz¶

S3: hachage linéaire¶

Quiz¶

Exercices¶

Table Of Contents

Recherche