Veel voorkomende bestandsformaten

BMP
is een ongecomprimeerd bestandformaat voor images, welke door de meeste onder Windows draaiende grafische programma’s wordt ondersteund.

GIF
is door de firma Compuserve ontwikkeld. Het GIF formaat wordt door talrijke programma’s voor verschillende computers (AMIGA, Atari, Macintosh) ondersteund en is daarmee hardware onafhankelijk. Hierdoor neemt het GIF formaat in het bijzonder op het internet een grote toevlucht. Belangrijk is de mogelijkheid om meerdere images in een bestand op te slaan, die dan in de vorm van een kleine film wordt verstuurd. Door de beperking van 8 Bit is het GIF formaat echter niet geschikt voor images met een hoge kleurdiepte.

JBIG
Recentelijk is door Adobe de JBIG2 compressiemethode opgenomen in PDF versie 1.4. JBIG compressie kan toegepast worden in op zichzelf staande JBIG files of toegepast worden in andere bestandsformaten zoals TIFF en PDF. JBIG2 compressie biedt vooral voordelen bij bi-level(1 bits) bestanden, hoewel ook bij grijswaarden scans tot 6 bit een goed resultaat behaald kan worden. De methode komt neer op het herkennen, coderen en voorspellen van patronen in de gescande pixels. Op basis van gecodeerde patronen wordt binnen de file gebruik gemaakt van een symbolenbibliotheek waardoor de filecompressie ten opzichte van standaard groep 4 TIFF bestanden 10 tot 50% wordt gewonnen.

JPEG
(Joint Photoqraphics Experts Group) is naast de naam van een standaardisatie organisatie, ook de naam voor een compressie methode en een grafisch formaat. Bij de compressie gaat het om een compressie methode die gepaard kan gaan met verlies, dit betekent dat bij het comprimeren van de images beeld informatie verloren gaat. Bij een compressie verhouding van 1: 10 is echter nog geen duidelijk kwaliteitsverlies te zien.

JPEG 2000
Het principe van JPEG 2000 is relatief eenvoudig. Een bestand wordt na scanning onderverdeeld in drie lagen de onderste laag bestaat uit de achtergrondkleuren met weinig detaillering. De middelste laag bestaat uit een bilevel (zwart/wit) laag waarin de hoogste contrastvormen worden opgenomen (over het algemeen de tekst dus). De bovenste laag geeft de kleurinformatie weer die betrekking heeft op de middelste laag. De bovenste laag wordt laag gecomprimeerd daar deze laag zorgt voor de kwaliteit van de weergave. De middelste laag kan sterk en zonder verlies worden gecomprimeerd net zoals dat het geval is met gewone zwart/wit scans. De onderste laag zorgt voor de grootste winst. Deze laag met zeer veel kleurinformatie doch zonder detaillering kan maximaal gecomprimeerd worden
omdat de meest relevante informatie in de bovenste twee lagen opgeslagen ligt.
De weergave van alle drie de lagen tegelijk zorgt ervoor dat een zeer hoge kwaliteit. bereikt kan worden met maximale compressie.

LWF
(Lura Tech Wavelet Format) is door de Firma LuRa Tech GmbH ontwikkeld en is een relatief jonge ontwikkeling op het gebied van data compressie van images. LuraWave werkt met de beeldanalyse met de Wavelet transformatie en geeft in vergelijking tot JPEG, met dezelfde compressie verhoudinq, een duidelijk betere beeldkwaliteit. Men kan kiezen voor een compressie verhouding tussen 1:1 en 1 :10.000.

ODF formaat
De OpenDocument-indeling (ODF), oftewel het OASIS Open Document Format for Office Applications, is een open standaard voor het bewaren en/of uitwisselen van tekstbestanden, rekenbladen, grafieken en presentaties. De OpenDocument-standaard werd ontwikkeld door het OASIS-consortium, vertrekkende vanuit de XML-gebaseerde bestandsindeling van OpenOffice.org. Het ODF formaat is niet ontwikkeld ten behoeve van opslag van gedigitaliseerde bestanden, maar voor het uitwisselen van generieke Office documenten.

PDF tekst & Image
PDF formaat files met een weergave op het beeldscherm van de bitmapinformatie (dus de weergave zoals een document eruit ziet na scanning), maar waaraan een ASCII onderlaag aan de bitmap informatie gekoppeld is. Deze ASCII informatie is tot stand gekomen door een OCR bewerking tijdens de POF conversie. In deze PDF soort kan wel gezocht worden door de gehele tekst en kunnen ook teksten of delen daarvan geselecteerd en hergebruikt worden. Deze bestandsvorm heeft het voordeel dat fouten in de ASCII laag of niet herkende karakters worden weergegeven zoals op het originele document. Op het beeldscherm en op een afdruk op papier is de informatie dus net zo betrouwbaar als het originele document

PDF tekst
PDF-formaat files waar de bitmapinformatie vervangen wordt door ASCII met een Adobe font-emulatie. Bij opening van de files in een viewer krijgt de gebruiker een echt tekstdocument met een font-emulatie op basis van het font in het originele document Ook deze bestanden zijn uiteraard benaderbaar met full tekst retrieval en de tekst kan ook hier geselecteerd en hergebruikt worden. Nadeel van deze methode is echter dat tijdens OCR foutief herkende karakters ook weergegeven worden en een volledige controle dus noodzakelijk is. Tekens of karakters die in het geheel niet herkend zijn tijdens de OCR fase blijven weergegeven worden in bitmap vorm.

PDF image

Dat wil zeggen PDF formaat files met daarin opgenomen “encapsulated” rasterbeelden. Dit zijn dus files die wel met behulp van een PDF viewer geopend kunnen worden, maar waarbij de inhoud bitmap informatie is gebleven. In dit soort bestanden kan geen full-tekst retrieval worden uitgevoerd en kan geen tekst geselecteerd en hergebruikt worden

PDF-A
PDF/A: de A staat voor Archiving; dit is het formaat dat bedoeld is om PDF-documenten te archiveren. Naast een aantal vereisten die heel gelijkaardig zijn aan die voor PDF/X, is het ook vereist dat het document over voldoende metadata beschikt in het XMP-formaat. Een speciaal type van PDF/A vereist ook dat de PDF tagged is.

Op dit moment wordt gewerkt met de ISO standaard ISO-19005-1 voor het aanmaken van PDF/A-1 bestanden. Deze is gebaseerd op de PDF versie 1.4 generatie.

Een PDF/A-1 bestand kan opgebouwd worden met gebruikmaking van onder andere:
• Tiff groep 4 zwart/wit bestanden
• Tiff v6 ongecomprimeerde bestanden
• Jpeg formaat bestanden
• JBIG formaat bestanden
• PNG formaat bestanden
Dat wil dus zeggen dat de keuze voor PDF/A, niet automatisch betekent dat de kleurinformatie in een scan verliesloos of met verlies (lossy vs. Lossless) wordt vastgelegd. Een PDF/A kan zowel met ongecomprimeerde als met gecomprimeerde bestanden worden aangemaakt.

De volgende generatie PDF/A (PDF/A-2) zal gebaseerd zijn op de PDF generaties 1.5, 1.6 en 1.7 onder meer inhoudende dat tevens JPEG2000 als compressie worden geaccepteerd.

PNG formaat

Bron: Wikipedia – PNG-afbeeldingen nemen, vergeleken met andere formaten zoals BMP en TGA, relatief weinig ruimte in, maar met dezelfde kwaliteit. Andere voordelen van het formaat zijn de mogelijkheden tot gedeeltelijke transparantie en de ondersteuning van ruim zestien miljoen kleuren, terwijl het GIF-formaat nog steeds vastzit aan 256 kleuren als maximum. Een PNG-afbeelding kan echter ook, net als een GIF-afbeelding, een “palet” hebben, wat inhoudt dat er maximaal 256 kunnen worden gebruikt, maar wat de bestandsgrootte, door het kleinere aantal bits per kleur, extra verkleint. Op deze manier is PNG zowel voor het verliesloos opslaan van afbeeldingen als voor het besparen van geheugenruimte voor simpele afbeeldingen zeer geschikt. Voor foto’s en dergelijke kan het JPEG-formaat, dat kleinere bestanden oplevert, maar daarbij wel een beetje beeldinformatie verliest, nog een alternatief zijn

TIFF
Is een ontwikkeling van de firma Aldus Corporation en tegenwoordig het meest populaire data formaat voor images bij digitale software voor images. TIFF ondersteunt een veelvoud van compressie methodes en een kleurdiepte tot 24 Bit.

De vier verschijningsvormen:
• Bilevel (zwart/wit / binair / monochrome)
• Greyscale
• Indexed color
• Full color

Tiff bi-levellTU T4 en ITU T6
Oorspronkelijk omschreven als respectievelijk Facsimile standaard CCITT groep 3 en groep 4.
• Groep 3 comprimeert één dimensie
• Groep 4 comprimeert tweedimensionaal

Comprimeert alléén 1 bits data (zwart/wit)
Simpel gesteld: telt alleen witte en zwarte pixels.

ITU T4 en ITU T6. Deze beide vormen zijn afkomstig van het voormalig faxformaat eerder bekend onder de benaminq Tiff CCITT groep 3 respectievelijk groep 4.
Het kenmerkende van dit formaat is dat de compressie alleen werkt bij zwart/wit images en dat deze vorm van compressie wordt omschreven als “Iossless” hetgeen betekent dat de compressie geen kwaliteitsverlies ten gevolge heeft.
Simpel gesteld bestaat de compressie feitelijk alleen uit het optellen van alle witte pixels gevolgd door de zwarte dan weer de witte pixels, dan de zwarte weer etcetera