Lagom format

I förra veckan publicerade jag min masteruppsats i arkivvetenskap vid Uppsala universitet (Pettersson 2015). Utgångspunkten är att alltmer textdokument skapas och bevaras elektroniskt, samtidigt som det är oklart vilka filformat som är att föredra givet målen att dokument både bevaras intakta och hålls användbara. Jag diskuterar i arkivsammanhang välkända format som oformaterad text, PDF/A och Office Open XML Document (.docx). Dessutom tar jag upp Markdown, ett format som hittills inte har fått så mycket uppmärksamhet i diskussionen kring bevarande, kanske för att det är relativt nytt och inte kommer från någon av de stora aktörerna i området.

Markdown har flera egenskaper som är önskvärda när det gäller bevarande av textdokument: genom minimalistisk uppmärkning kan dokumentens struktur och formatering bevaras, samtidigt som dokumentinnehållet kan återges i en enkel textredigerare på ett mycket mer genomskinligt sätt än med vanliga XML-baserade format. Det bör därför kunna användas för digitalt bevarande i många sammanhang, även om det inte kan ersätta PDF/A när det gäller att säkra minutiöst bevarande av dokumentens utseende. Som jag skrev om här den 1 november skriver jag inläggen på denna blogg i Markdown, som jag sedan överför till HTML med programmet Pandoc (Mac⁠Farlane 2013). Ett problem med att använda Markdown för långtidsbevarande är dock att det för närvarande inte existerar någon vedertagen formell specifikation av detta format (i motsats till ISO-standardiserade format som PDF/A och Office Open XML), och att det finns olika delvis inkompatibla dialekter av formatet. Dock finns initiativ från bl.a. Pandocs skapare när det gäller att utarbeta rigoröst specificerade versioner av Markdown (Mac⁠Farlane 2015).

Jag har också arbetat en del på sidan med diagram över mortalitetstrender jag skrev om i förra inlägget. Det finns numera ett GitHub-förråd med skript för att generera diagrammen och för att ladda hem datafilerna från WHO:s hemsida och läsa in dem i en MySQL/MariaDB-databas. På sidan finns för närvarande diagram för 24 befolkningar. Jag har valt ut sådana som har relativt obrutna dataserier för både dödsfall och befolkningsstorlek tillgängliga från 50-talet via WHO (2014), vilket förklarar överrepresentationen av rika västländer. Det finns 22 dödsorsakgrupper, och trender kan visas som dödstal eller som andel av den totala dödligheten. För dödstal finns diagram för åldersgrupperna 15–44, 45–64, 65–74 och 75–84 år, och det som visas är genomsnittliga dödstal över 5-åriga åldersintervall inom dessa grupper, för att kompensera för förändringar i åldersstrukturen. Andelar är ofta mer relevanta att studera ur ett livstidsperspektiv, samtidigt som det också kan vara intressant att se i vilken mån de drivs av trender i mycket hög ålder, där rapporteringen ofta är osäker. Därför visas de i stället för alla åldersgrupper, eller för personer under och över 85 år. Totalt finns nu 3600 diagram på sidan.

Referenser

Mac⁠Farlane, John. 2013. ”Pandoc user’s guide”. http://johnmacfarlane.net/pandoc/README.html.

———. 2015. ”CommonMark Spec”. http://spec.commonmark.org/.

Pettersson, Karl. 2015. ”Integritet och långsiktig användbarhet hos textdokument : En avvägningsproblematik vid digitalt bevarande”. Uppsatser inom arkivvetenskap. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-253197.

WHO. 2014. ”WHO Mortality Database”. http://www.who.int/healthinfo/mortality_data/en/index.html.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *