Compression Statistique ï¿½ Contexte Fini

Fabrice Bellard

1 Prï¿½sentation gï¿½nï¿½rale

1.1 Cahier des charges

Il s'agit de rï¿½aliser un compresseur/dï¿½compresseur de donnï¿½es sans perte. Les prioritï¿½s ont ï¿½tï¿½ dï¿½finies ainsi :

taux de compression trï¿½s important ;
grande vitesse ;
faible quantitï¿½ de mï¿½moire requise ;
facilitï¿½ d'interfaï¿½age des routines de compression.

1.2 Choix de la mï¿½thode de compression

Les mï¿½thodes classiques fondï¿½es sur les dictionnaires du type Ziv-Lempel sont dï¿½passï¿½es en terme de taux de compression par les mï¿½thodes statistiques ï¿½ contexte fini [1]. Nous avons donc choisi une de ces derniï¿½res.

1.3 Description simplifiï¿½e de l'algorithme

L'algorithme est mono-passe, donc il doit s'adapter aux donnï¿½es de faï¿½on dynamique. Le principe du compresseur est le suivant:

Il s'agit de prï¿½dire le symbole suivant d'un fichier en utilisant un contexte constituï¿½ au plus des symboles prï¿½cï¿½dents ( est un nombre positif arbitraire fixï¿½). On conserve donc en mï¿½moire une table T de tous les contextes dï¿½jï¿½ rencontrï¿½s dans le fichier. Lorsque le symbole a ï¿½tï¿½ codï¿½, on met ï¿½ jour T. Notons que le dï¿½compresseur fonctionne de faï¿½on exactement symï¿½trique.

Pour le codage du symbole courant, on commence par chercher dans T le plus long contexte dï¿½jï¿½ recontrï¿½ coïncidant avec le contexte courant. On a notï¿½ pour chaque contexte de T une liste L des frï¿½quences de tous les symboles le suivant. Plusieurs cas se prï¿½sentent :

Aucun contexte n'a ï¿½tï¿½ trouvï¿½. Le symbole est codï¿½ tel quel.
Le symbole se trouve dans la liste L. On le code en utilisant peu de bits si la frï¿½quence du symbole a ï¿½tï¿½ importante.
Le symbole n'est pas prï¿½sent dans L. On envoie un code spï¿½cial ESCAPE et on recherche dans T un contexte plus court.

1.4 Interface utilisateur

Ce n'est pas la partie principale du projet, et elle ne sera pas dï¿½crite ici. On s'attachera ï¿½ faire un programme rappelant gzip ou compress et pouvant facilement ï¿½tre ï¿½tendu par ajout d'autres mï¿½thodes de compression, de cryptage, ou de dï¿½tection et correction d'erreurs.

2 Architecture gï¿½nï¿½rale

En fait l'algorithme choisi est un peu plus compliquï¿½ que celui dï¿½crit en 1.2. En voici les dï¿½tails.

2.1 Le codeur arithmï¿½tique

Nous utilisons un codeur arithmï¿½tique pour coder les symboles. Si un symbole a une probabilitï¿½ d'apparition p, nous le codons en utilisant en moyenne bits.

Nous prï¿½voyions au dï¿½part d'utiliser un codeur arithmï¿½tique binaire fonctionnant par approximations, ce qui aurait donnï¿½ une vitesse plus grande [2]. Malheureusement, son utilisation est empï¿½chï¿½e par le mï¿½canisme d'exclusion des symboles. Notre codeur est donc du type trï¿½s classique bit plus follow et utilise 2 multiplications et 2 divisons entiï¿½res par symbole codï¿½. Une description prï¿½cise de ce codeur sort du cadre de ce rapport.

Nous avons intï¿½grï¿½ au codeur et au dï¿½codeur des buffers pour accï¿½lï¿½rer les entrï¿½es/sorties.

Les tests de vitesse dï¿½montrent que le codeur ne mobilise pas plus de 15% du temps total de compression, ce qui est satisfaisant.

2.2 Le systï¿½me d'exclusion

Lorsqu'on a ï¿½tï¿½ obligï¿½ d'envoyer des codes ESCAPE, on peut exclure de la liste L des symboles associï¿½s au contexte courant ceux qui ont dï¿½jï¿½ ï¿½tï¿½ rencontrï¿½s dans les contextes de longueur supï¿½rieure. En effet, la gï¿½nï¿½ration de ESCAPE implique qu'aucun des symboles des contextes de longueur supï¿½rieure ne vient aprï¿½s le contexte courant. Cette amï¿½lioration augmente le taux de compression d'environ 5% [1].

Etant donnï¿½ notre cahier des charges, nous devons l'incorporer. Cela pose un grave problï¿½me: il est quasiment impossible d'utiliser une structure autre qu'une liste chaï¿½nï¿½e pour stocker la liste des symboles associï¿½s ï¿½ un contexte si on veut permettre le mï¿½canisme d'exclusion, tout en facilitant les calculs pour le codage du symbole courant. Etant donnï¿½ que l'on a 256 symboles diffï¿½rents, le temps de parcours de la liste n'est pas nï¿½gligeable.

Le systï¿½me d'exclusion utilise un tableau ï¿½ 256 entrï¿½es. L'idï¿½e de dï¿½part consiste ï¿½ initialiser ce tableau ï¿½ FALSE, puis mettre ï¿½ TRUE toutes les entrï¿½es correspondant aux numï¿½ros de symboles exclus. Cela prï¿½sente un dï¿½faut: il faut initialiser ce tableau avant chaque nouveau codage de symbole, et le temps pris n'est pas nï¿½gligeable.

Une mï¿½thode consiste ï¿½ utiliser un tableau d'entiers, et ï¿½ caractï¿½riser l'exclusion d'un symbole par la mise dans l'entrï¿½e du tableau correspondante d'un certain code. Si on change ce code ï¿½ chaque nouveau symbole (par incrï¿½mentation par exemple), on ï¿½vite l'ï¿½tape d'initialisation, ou du moins on la rend moins frï¿½quente.

2.3 Le codage d'un symbole

L'utilisation du codeur/dï¿½codeur arithmï¿½tique nï¿½cessite le partitionnement de l'intervalle en sous-intervalles de mesure oï¿½ est la probabilitï¿½ d'apparition du symbole . Plus prï¿½cisï¿½ment, pour coder le symbole , il suffit de connaitre et . Les probabilitï¿½s sont transmises au codeur sous la forme fractionnaire avec .

Le codage d'un symbole nï¿½cessite donc un parcours linï¿½aire de L oï¿½ l'on additionne les frï¿½quences des symboles jusqu'ï¿½ la rencontre du symbole ï¿½ coder. Notons que l'on numï¿½rote ici les symboles suivant leur ordre d'apparition dans la liste car il suffit que compresseur et dï¿½compresseur utilisent la mï¿½me convention.

On incrï¿½mente ensuite la frï¿½quence associï¿½e au symbole codï¿½ et l'on teste s'il faut renormaliser le contexte.

Pour des raisons d'efficacitï¿½, on peut inclure dans le contexte la somme totale des frï¿½quences des symboles associï¿½s, c, et le nombre de symboles, t. On ï¿½vite ainsi un parcours global de la liste L. Notons que ces variables sont inutiles dans le cas oï¿½ certains symboles doivent ï¿½tre exclus.

2.3.1 Le codage de ESCAPE

Quelle est la probabilitï¿½ ï¿½ affecter ï¿½ ESCAPE ? Il n'existe pas de mï¿½thode optimale. Nous avons choisi pour des questions de vitesse et de simplicitï¿½ une probabilitï¿½ ï¿½gale ï¿½ . Elle correspond ï¿½ la mï¿½thode PPMC dï¿½crite dans [1].

2.3.2 La renormalisation des contextes

Pour des questions d'encombrement mï¿½moire, la frï¿½quence de chaque symbole de L est codï¿½e sur 1 octet. D'autre part, nos routines de codage arithmï¿½tique imposent une borne supï¿½rieure sur la valeur du dï¿½nominateur des probabilitï¿½s. Nous devons donc renormaliser les contextes de temps en temps en divisant par exemple les frï¿½quences par 2. Les symboles atteignant une frï¿½quence nulle sont exclus du contexte.

Ce dernier point augmente lï¿½gï¿½rement le taux de compression en permettant une adaption plus rapide.

2.3.3 Indication de la fin de fichier

On utilise un symbole spï¿½cial pour coder la fin de fichier. Cela permet de rendre le compresseur rï¿½ellement monopasse. D'autres caractï¿½res spï¿½ciaux peuvent ï¿½tre ajoutï¿½s pour permettre par exemple un contrï¿½le de flux. Ils sont codï¿½s comme s'ils n'apparaissaient dans aucun contexte.

2.4 La gestion des contextes

La taille de la table des contextes est limitï¿½e par la mï¿½moire allouï¿½e au compresseur. On a choisi ici une approche originale consistant ï¿½ ï¿½liminer les contextes les moins rï¿½cemment utilisï¿½s [3]. Les contextes sont donc rangï¿½s dans une liste doublement chaï¿½nï¿½e permettant les 2 opï¿½rations de base:

remettre un contexte en tï¿½te de la liste lorsqu'il est utilisï¿½ pour le codage d'un symbole ;
effacer le dernier contexte de la liste si l'on manque de mï¿½moire.

Cette structure ne permet pas d'utiliser facilement un arbre ou un trie pour rechercher les contextes. On utilise donc une table de hachage avec gestion des collisions par une liste simplement chaï¿½nï¿½e. Elle aurait dï¿½ ï¿½tre en fait doublement chaï¿½nï¿½e pour permettre l'effacement rapide d'un contexte. Comme les contraintes mï¿½moire sont sï¿½vï¿½res, nous avons prï¿½fï¿½rï¿½ supposer que la table de hachage est assez grande pour limiter le nombre de collisions.

La liste des frï¿½quences des symboles est une liste simplement chaï¿½nï¿½e contenant le numï¿½ro du symbole et sa frï¿½quence.

2.5 La gestion de la mï¿½moire

Etant donnï¿½es les contraintes de vitesse et de mï¿½moire, un appel ï¿½ l'allocateur mï¿½moire standard du C est proscrit.

Nous aurions pu choisir comme dans [3] d'allouer un heap (zone mï¿½moire) pour les structures de taille fixe associï¿½es aux contextes, et un autre pour stocker les ï¿½lï¿½ments des listes de symboles associï¿½s aux contextes. Cette solution n'est pas bonne car elle n'utilise pas la mï¿½moire de faï¿½on efficace: il faudrait connaitre a priori le rapport entre l'occupation mï¿½moire du premier heap et du second, ce qui dï¿½pend du fichier compressï¿½.

Notre compresseur n'utilise donc qu'un seul heap, de taille paramï¿½trable suivant la mï¿½moire disponible et le taux de compression voulu. Ce heap est structurï¿½ en noeuds de taille fixe. On maintient constamment une liste simplement chaï¿½nï¿½e des noeuds libres pour l'allocation et la dï¿½sallocation mï¿½moire. Dans un noeud on stocke soit un contexte, soit un certain nombre d'ï¿½lï¿½ments de la liste des symboles associï¿½s aux contextes.

L'expï¿½rience montre que c'est un excellent compromis.

3 L'implï¿½mentation

L'implï¿½mentation de l'algorithme doit ï¿½tre soignï¿½e car certaines procï¿½dures sont exï¿½cutï¿½es beaucoup de fois par symbole. On a veillï¿½ ï¿½ limiter au maximum le nombre d'accï¿½s mï¿½moire car c'est ce qui prend le plus de temps sur les ordinateurs modernes. De plus, en conservant l'adjacence des donnï¿½es corrï¿½lï¿½es, on favorise l'utilisation du cache interne du micro-processeur. Les seules suppositions faites au niveau du hardware sont: int codï¿½ sur 32 bits, short sur 16 bits, et char sur 8 bits.

3.1 Le codeur/dï¿½codeur arithmï¿½tique

Voir les fichiers arith_e.c et arith_d.c.

On notera l'utilisation d'une fonction passï¿½e en argument aux fonctions de codage qui sert ï¿½ ï¿½crire ou lire un buffer sur disque (ou ailleurs). Ainsi les routines de codages sont isolï¿½es des fonctions d'entrï¿½e/sortie.

3.2 Le compresseur/dï¿½compresseur statistique

Voir le fichier ppm.c.

3.2.1 La structure NODE

Tout l'algorithme s'articule autour de la structure NODE . On remarque l'utilisation massive d'index 16 bits ï¿½ la place de pointeurs. Cela permet d'ï¿½conomiser de la prï¿½cieuse mï¿½moire. La structure NODE a ainsi une taille de 16 octets pour accï¿½lï¿½rer l'accï¿½s par les index.

Lors des statistiques, on a remarquï¿½ que les contextes contenant une liste de 1 ou 2 symboles sont de loin les plus courants (80% des contextes en moyenne). On a donc intï¿½rï¿½t ï¿½ les gï¿½rer de faï¿½on spï¿½cifique, ce qui explique la structure un peu compliquï¿½e nï¿½cessaire pour gï¿½rer les contextes.

3.2.2 La fonction de hachage

La fonction de hachage est du type: oï¿½ a=63 et n=14. Au niveau thï¿½orique elle ne semble pas bonne mais les tests montrent qu'elle se comporte plutï¿½t bien et surtout qu'elle se calcule trï¿½s vite. Sa formule s'exprime aussi de faï¿½on rï¿½curente ce qui permet de la calculer partiellement pour chaque longueur de contexte ï¿½ chercher.

3.3 L'interface utilisateur

Voir les fichiers stat.c, testcode.c, et getopt.c.

Le fichier de commande stat_test permet de tester la compression sur un fichier donnï¿½ en vï¿½rifiant le checksum. Une routine de calcul de CRC 32 bits aurait pu ï¿½tre incluse.

4 Les performances

4.1 Les tests

Nous avons rï¿½alisï¿½ les tests sur les fichiers du Calgary Text Compression Corpus sur un 486DX2/66 sous Linux. On a comparï¿½ les compresseurs suivants:

gzip, en mode compression maximale.
stat, longueur maximum des contextes , nombre de noeuds N=40000 (640k de mï¿½moire)
stat, , N=8000 (128k)

Les rï¿½sultats sont rï¿½sumï¿½s dans le tableau 1

Table 1: Rï¿½sultats des tests

4.2 Analyse

stat est seulement 2 fois plus lent que gzip en compression. C'est au niveau de la dï¿½compression qu'il est trï¿½s nettement distancï¿½. En effet, la mï¿½thode utilisï¿½e est totalement symï¿½trique, alors qu'un dï¿½compresseur de type LZ77 est trï¿½s simple et trï¿½s rapide.

Notre systï¿½me de gestion de mï¿½moire est trï¿½s efficace, puisque mï¿½me avec aussi peu de mï¿½moire que 128k (soit moins que gzip en compression) nous avons des gains significatifs.

Des tests plus poussï¿½s non mentionnï¿½s ici montrent que sur les fichiers textes stat atteint des vitesses importantes et compresse beaucoup mieux (10% environ) que n'importe quel autre compresseur Ziv-Lempel. En revanche sur les fichiers binaires il peut ï¿½tre trï¿½s lent, et les gains par rapport ï¿½ Ziv-Lempel sont plus faibles. Cette lenteur provient de l'utilisation du mï¿½canisme d'exclusion qui impose de longs parcours de listes chaï¿½nï¿½es.

En revanche, grace ï¿½ son systï¿½me de gestion de mï¿½moire efficace, il bat les compresseurs statistiques standards comme PPMC grace ï¿½ ses facultï¿½s "d'oubli adaptif" des contextes les moins utilisï¿½s.

5 Conclusion

5.1 Perspectives

Il reste encore bien des choses ï¿½ amï¿½liorer. Ce compresseur ne reprï¿½sente qu'une ï¿½tape dans la progression des mï¿½thodes statistiques. Nos derniï¿½res ï¿½tudes montrent qu'il est possible de faire un compresseur/dï¿½compresseur beaucoup plus rapide que gzip tout en augmentant encore les gains (de quelques pourcents) en augmentant seulement lï¿½gï¿½rement l'encombrement mï¿½moire. Sa description sort du cadre de ce rapport.

Au niveau des fichiers binaires, nos tests ont montrï¿½ qu'il ï¿½tait possible de faire des "prï¿½-processeurs" adaptï¿½s au langage machine d'un ordinateur donnï¿½ qui prï¿½sentent les donnï¿½es au compresseur sous un forme plus facilement compressible.

Pour les textes, on pourrait rï¿½aliser des prï¿½-processeurs rï¿½alisant par exemple une prï¿½diction de l'indentation des fichiers, ou de la justification des paragraphes, chose que les compresseurs ï¿½ contexte fini ou ï¿½ dictionnaire ne peuvent pas faire.

5.2 La fin

Ce projet est un bon exercice de programmation puisqu'il utilise beaucoup de structures de donnï¿½es imbriquï¿½es. Ces derniï¿½res, ainsi que les diffï¿½rents algorithmes n'ont pas ï¿½tï¿½ choisi au hasard mais rï¿½sultent bien d'une recherche de compromis entre les diffï¿½rents points du cahier des charges. On a essayï¿½ ici de retracer la dï¿½marche suivie.

References

1: Bell, Cleary, Witten, Text Compression, 1990.
2: Raita, Teuhola, Predictive text compression by hashing, 1987.
3: Harri Hirvola, HA Archiver 0.98 , 1993.

Sun Dec 10 18:42:24 MET 1995
Fabrice Bellard ([email protected])