Hay formatos de imagen que están optimizados para que se puedan almacenar de manera comprimida.
De la misma manera que hay técnicas para comprimir archivos de texto y guardarlos en formato ZIP,
también hay técnicas para comprimir imágenes, audios y videos.
Una técnica de compresión tiene la capacidad de guardar información mediante la detección de patrones que, una vez se "desenrollan", se recupera la información original, en este caso el exacto patrón de pixels que se tenía originalmente.
A veces se consigue una reducción mayor de tamaño si se decide a propósito
dejar que se pierda un poco de información.
Esto es útil para ahorrar tiempo en la carga de datos al visitar páginas web,
y más aún si se usan dispositivos móviles, ya que al ser las pantallas tan pequeñas, el usuario no notará la pérdida de información.
Sin embargo, la verdad es que, al perder información, se está perdiendo calidad de imagen.
Eso aplicado a imágenes de interés científico o judicial puede ser indeseable.
No es lo mismo "comprimir" que "descartar información".
Sólo un algoritmo de compresión pura sería admisible,
si uno quiere tener la misma información de pixels que la imagen original.
De todos modos, esta compresión sí que es posible, y eso contesta tu pregunta de por qué puede haber archivos de imagen que pesan menos.
De hecho, si lo pensás bien, el formato de imagen BMP de por sí ya tiene una inherente pérdida de información, porque codifica en forma discretizada y pixelada una información de ondas lumínicas que en el mundo real no viene presentada así, sino más bien de forma, digamos, analógica.
Así que hasta un formato comprimido podría incluso ser más deseable,
si es que la compresión se hace inteligentemente desde la misma entrada de datos analógica que viene en forma directa del medio circundante,
de forma que la información descomprimida sea más parecida al original analógico.
Sin embargo, para ser honestos, no sé si esto realmente alguien lo hace así,
sino que es sólo un conjunto de ideas que se me acaba de ocurrir.
Imagino que podría hacerse con series de Fourier o técnicas de aproximación tipo Wavelets, o cualquiera otras que andan por ahí.
De hecho, la serie de Fourier te reconstruye la señal analógica original de forma perfecta, pero el problema es que no se pueden almacenar los infinitos coeficientes, y los coeficientes más significativos que sí se pueden almacenar tienen, seguramente, el inconveniente de que se almacenan con dígitos truncados a la precisión de punto flotante de la computadora.
En fin. Hay todo un mundo de cosas para indagar en eso.