¿Qué Es La Entropía De Archivos?

¿Qué Es La Entropía De Archivos?
¿Qué Es La Entropía De Archivos?
Anonim

Cualquier archivo de computadora está formado por bytes. Un byte puede tomar valores de 0 a 255. La entropía de información es un parámetro estadístico que muestra la probabilidad de ocurrencia de ciertos bytes en un archivo.

¿Qué es la entropía de archivos?
¿Qué es la entropía de archivos?

Puede evaluar visualmente el grado de entropía utilizando un histograma: la distribución de la probabilidad de repetir los mismos bytes en un archivo. A partir de la entropía del archivo, podemos adivinar qué tipo de archivo tenemos frente a nosotros, viendo solo su histograma.

Para la demostración, tomemos tres archivos de diferentes tipos y comparemos sus histogramas. Sea el primero un archivo de texto (*. TXT). Su histograma se muestra en la figura:

гистограмма=
гистограмма=

El archivo de texto contiene solo texto. Cada carácter del texto está codificado con ciertos bytes de acuerdo con la tabla de codificación. Aunque hay una gran cantidad de tipos de codificación, es obvio que hay una cantidad limitada de caracteres alfanuméricos, que generalmente es menor a 255. Por lo tanto, solo algunas áreas están ocupadas en el primer histograma y algunos bytes no lo están en absoluto.

El siguiente archivo estará en formato PDF:

гистограмма=
гистограмма=

Este archivo contiene todos los bytes posibles, ya que el PDF está codificado de manera diferente a los archivos de texto. Almacena mucha información de servicio: formato, fuentes, imágenes, etc. Pero su histograma muestra que algunos de los bytes ocurren con aproximadamente la misma probabilidad, mientras que otros, con mucha más frecuencia que otros. De ahí las múltiples ráfagas nítidas en el histograma, y en general tiene un aspecto bastante "irregular", aunque ocupa todo el ancho disponible.

Y el último archivo está comprimido en formato 7Z:

гистограмма=
гистограмма=

Este histograma tiene dos características principales: en primer lugar, todos los bytes se encuentran en el archivo comprimido con una probabilidad más o menos igual (un borde superior bastante plano), y en segundo lugar, prácticamente no hay espacio libre encima del histograma, lo que indica una ausencia casi completa. de redundancia tal archivo. Por lo tanto, podemos concluir que el algoritmo del archivador de alguna manera especial "mezcla" los bytes del archivo para lograr su máxima distribución uniforme.

Así, la entropía en informática, como en física, es una medida del desorden en el sistema, en este caso, el desorden en la distribución de bytes en el archivo. La entropía le permite juzgar el grado de compresión del archivo e, indirectamente, sobre su tipo.

Recomendado: