Ceci est une ancienne révision du document !
simon rozec
Un logiciel de compression de données permet de rassembler et réduire la taille d'un ou plusieurs fichiers pour, par exemple, pouvoir les stocker sur des périphériques de stockage disposant de peu d'espace (clé USB, disquette, carte SD, etc…) ou encore, pour pouvoir les transmettre plus rapidement à travers un réseau (FTP, mail, etc…).
Le logiciel doit ensuite, pouvoir reconstituer les fichiers à l'identique (en conservant l'arborescence des fichiers, les droits d'accès etc…). On parle ici, de compression sans pertes.
Dans le cas d'images ou de sons, l'œil ou l'oreille ne pourra pas perçevoir tous les détails du fichier. Il est alors possible de le modifier de manière plus ou moins importante pour baisser sa qualité et donc réduire sa taille, sans que cela ne soit visible pour un humain. On parle alors de compression avec pertes.
Parmi les logiciels de compression de données les plus connus, on retrouve par exemple 7-zip, Winrar ou WinZip.
La compression de données consiste à appliquer un algorithme à une suite de bits, pour obtenir une nouvelle suite dans l'idéal, plus courte.
Dans le cas d'une compression sans pertes, aucune information n'est modifiée dans le fichier, elles sont justes réécrites de manière plus condensée.
Il n'existe à ce jour, aucun algorithme de compression sans perte permettant de compresser efficacement n'importe quel fichier. En effet, certains algorithme peuvent être très efficaces avec certains fichiers tout en augmentant la taille de certains autres. C'est pour cela qu'il existe plusieurs algorithmes, adaptés à des types de données différents (images bitmap, texte, fichier audio etc…)
Voici quelques exemples d'algorithmes de compression sans pertes
le codage RLE consiste à remplacer une suite de bits identiques par le nombre de répétitions suivi de la suite répétée.
exemple:
nous avons la suite de bits suivante: 1001100110011010101010100000000010011001
nous pouvons définir A=1001 B=1010 C=0000
et réécrire la suite de cette façon: AAABBBCCAA
;
en appliquant l'algorithme précédent, on obtient : 3A3B2C2A
Nous avons donc bien réduit la taille de la suite initiale.
Cependant, dans le cas ou la suite aurait une forme ABAB
, la suite finale serait 1A1B1A1B
ce qui est 2 fois plus long.
Cet algorithme sera donc plus adapté à des images bitmap possèdant peu de couleurs différentes qu'à des fichiers contenant du texte car la probabilité de trouver des suites de bits identiques sera alors plus élevée.
Cet algorithme consiste à remplacer dans un fichier, chaque octet par un code qui lui correspond, tout en attribuant un code plus court aux octets apparaissant plus régulièrement.
Pour définir le code d'un octet, on utilise un arbre
exemple:
nous avons la suite d'octets suivante (sous forme de chaîne de caracètres pour simplifier la compréhension): ABRACADABRA
. En considérant que chaque caractère prends 8bits en mémoire, on a une chaîne de 88bits.
On compte alors le nombre d'apparitions de chaque caractère:
A:5,
B:2,
C:1,
D:1,
R:2