Färdig för arkivering

Om man skall distribuera t.ex. en uppsats via Internet är det i allmänhet en bra idé att använda sig av PDF-formatet hellre än något ordbehandlingsformat. I så fall finns åtminstone en rimlig chans att dokumentet återges korrekt med avseende på teckensnitt, sidbrytningar och så vidare på mottagarnas skärmar och skrivare.

När det gäller de krav som ställs för långtidsbevarande i elektroniska arkiv har emellertid även det vanliga PDF-formatet egenskaper som kan ställa till problem. Det kan finnas inbäddat ljud- och videoinnehåll som kräver speciella program för att återges korrekt, och teckensnittsfiler kan vara länkade snarare än inbäddade (så att den som läser dokumentet måste ha teckensnitten installerade för att det skall återges korrekt). Det har därför utarbetas en ISO-standard, PDF/A, som specificerar att sådana problematiska funktioner som de ovannämnda inte får förekomma. Det finns sedan olika varianter av PDF/A-standarden: den idag kanske mest spridda, som föreskrivs av t.ex Riksarkivet (2009) för bevarande av kontorsdokument, är PDF/A-1. Ett dokument kan dessutom vara förenligt med standarden på nivå a eller b, där b är den mest grundläggande.

Jag skriver för närvarande på en masteruppsats om filformat för digitalt bevarande av text och gick också nyligen en kurs om digitalt bevarande. Som ett experiment provade jag att överföra mitt eget kurs-PM till PDF/A-1b. Den ursprungliga PDF-filen KarlPetterssonPMDigitaltBevarande.pdf hade skapats via LaTeX: det var ett enkelt 9-sidigt dokument med litet färgade hyperlänkar men inga bilder. Följande kommando skapar utifrån denna ett PDF/A-dokument med namnet KarlPetterssonPMDigitaltBevarandeA.pdf:

$ gs -dPDFA -dBATCH -dNOPAUSE -dPDFACompatibilityPolicy=1 \
-dEmbedAllFonts=true -dSubsetFonts=false -dUseCIEColor -sDEVICE=pdfwrite \
-sOutputFile=KarlPetterssonPMDigitaltBevarandeA.pdf \
PDFA_def.ps KarlPetterssonPMDigitaltBevarande.pdf

Kommandot använder sig alltså av programmet Ghostscript. Filen PDFA_def.ps används som prefix till dokumentet och innehåller bl.a. inställningar för ICC-profil för att få korrekt färgåtergivning. När man öppnar en fil genererad på ovanstående sätt i Adobe Reader visas normalt ett meddelande mot blå bakgrund om att den överensstämmer med PDF/A-standarden och att den öppnats i skrivskyddat läge. Detta innebär emellertid inget annat än att filen utger sig för att vara PDF/A. För att avgöra om den verkligen överensstämmer med standarden måste den köras genom en validator. Jag provade att testa mitt dokument mot en sådan validator, Apache Preflight (tillgänglig via Apache Software Foundation (2014)). Den senaste tillgängliga versionen, 1.8.8, var inte körbar, så jag använde mig av en något äldre version (1.8.5):

$ java -jar preflight-app-1.8.5.jar \
KarlPetterssonPMDigitaltBevarandeA.pdf

Detta medförde, som dokumentet från början var utformat, en ca 50 kB lång lista med felmeddelanden, som handlade om teckensnittsfel, som saknade glyfer. Om jag inte använde inställningen UseCIEColor resulterade det i ännu fler felmeddelanden om färgnamn. Enligt en onlinevalidator (PDF Tools AG 2015) var dokumentet emellertid giltigt enligt PDF/A-1b.

Jag lyckades efter en stund lista ut att problemet hade att göra med teckensnittsinbäddning. I den ursprungliga filen hade jag använt mig av OpenType-teckensnitt. PDF 1.4 (som ligger till grund för PDF/A-1) har inte stöd för inbäddning av sådana teckensnitt, vilket innebär att de måste konverteras, t.ex. till Adobe Typ1. Jag provade att ändra ursrpungsdokumentet så att det använde sig av Typ1-teckensnitt, och då fick jag en PDF/A som gick igenom båda validatorerna. Någonting relaterat till konverteringen av OpenType-teckensnitten gav upphov till felmeddelandena. Sedan vet jag inte om det var något som hade kunnat vålla verkliga problem vid digitalt bevarande eller om det var att betrakta som falskt positivt utslag från Apache Preflight. Hur som helst är det bekymmersamt att olika validatorer från etablerade leverantörer ger så pass olika resultat när det gäller att avgöra om ett dokument uppfyller en utbredd standard för arkivsäkerhet eller inte.

Referenser

Apache Software Foundation. 2014. ”Apache PDFBox”. https://pdfbox.apache.org/index.html.

PDF Tools AG. 2015. ”Online validator”. http://www.pdf-tools.com/pdf/validate-pdfa-online.aspx.

Riksarkivet. 2009. Riksarkivets föreskrifter och allmänna råd om tekniska krav för elektroniska handlingar. http://riksarkivet.se/rafs?item=106.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *