Färdig för arkivering

Om man skall distribuera t.ex. en uppsats via Internet är det i allmänhet en bra idé att använda sig av PDF-formatet hellre än något ordbehandlingsformat. I så fall finns åtminstone en rimlig chans att dokumentet återges korrekt med avseende på teckensnitt, sidbrytningar och så vidare på mottagarnas skärmar och skrivare.

När det gäller de krav som ställs för långtidsbevarande i elektroniska arkiv har emellertid även det vanliga PDF-formatet egenskaper som kan ställa till problem. Det kan finnas inbäddat ljud- och videoinnehåll som kräver speciella program för att återges korrekt, och teckensnittsfiler kan vara länkade snarare än inbäddade (så att den som läser dokumentet måste ha teckensnitten installerade för att det skall återges korrekt). Det har därför utarbetas en ISO-standard, PDF/A, som specificerar att sådana problematiska funktioner som de ovannämnda inte får förekomma. Det finns sedan olika varianter av PDF/A-standarden: den idag kanske mest spridda, som föreskrivs av t.ex Riksarkivet (2009) för bevarande av kontorsdokument, är PDF/A-1. Ett dokument kan dessutom vara förenligt med standarden på nivå a eller b, där b är den mest grundläggande.

Jag skriver för närvarande på en masteruppsats om filformat för digitalt bevarande av text och gick också nyligen en kurs om digitalt bevarande. Som ett experiment provade jag att överföra mitt eget kurs-PM till PDF/A-1b. Den ursprungliga PDF-filen KarlPetterssonPMDigitaltBevarande.pdf hade skapats via LaTeX: det var ett enkelt 9-sidigt dokument med litet färgade hyperlänkar men inga bilder. Följande kommando skapar utifrån denna ett PDF/A-dokument med namnet KarlPetterssonPMDigitaltBevarandeA.pdf:

$ gs -dPDFA -dBATCH -dNOPAUSE -dPDFACompatibilityPolicy=1 \
-dEmbedAllFonts=true -dSubsetFonts=false -dUseCIEColor -sDEVICE=pdfwrite \
-sOutputFile=KarlPetterssonPMDigitaltBevarandeA.pdf \
PDFA_def.ps KarlPetterssonPMDigitaltBevarande.pdf

Kommandot använder sig alltså av programmet Ghostscript. Filen PDFA_def.ps används som prefix till dokumentet och innehåller bl.a. inställningar för ICC-profil för att få korrekt färgåtergivning. När man öppnar en fil genererad på ovanstående sätt i Adobe Reader visas normalt ett meddelande mot blå bakgrund om att den överensstämmer med PDF/A-standarden och att den öppnats i skrivskyddat läge. Detta innebär emellertid inget annat än att filen utger sig för att vara PDF/A. För att avgöra om den verkligen överensstämmer med standarden måste den köras genom en validator. Jag provade att testa mitt dokument mot en sådan validator, Apache Preflight (tillgänglig via Apache Software Foundation (2014)). Den senaste tillgängliga versionen, 1.8.8, var inte körbar, så jag använde mig av en något äldre version (1.8.5):

$ java -jar preflight-app-1.8.5.jar \
KarlPetterssonPMDigitaltBevarandeA.pdf

Detta medförde, som dokumentet från början var utformat, en ca 50 kB lång lista med felmeddelanden, som handlade om teckensnittsfel, som saknade glyfer. Om jag inte använde inställningen UseCIEColor resulterade det i ännu fler felmeddelanden om färgnamn. Enligt en onlinevalidator (PDF Tools AG 2015) var dokumentet emellertid giltigt enligt PDF/A-1b.

Jag lyckades efter en stund lista ut att problemet hade att göra med teckensnittsinbäddning. I den ursprungliga filen hade jag använt mig av OpenType-teckensnitt. PDF 1.4 (som ligger till grund för PDF/A-1) har inte stöd för inbäddning av sådana teckensnitt, vilket innebär att de måste konverteras, t.ex. till Adobe Typ1. Jag provade att ändra ursrpungsdokumentet så att det använde sig av Typ1-teckensnitt, och då fick jag en PDF/A som gick igenom båda validatorerna. Någonting relaterat till konverteringen av OpenType-teckensnitten gav upphov till felmeddelandena. Sedan vet jag inte om det var något som hade kunnat vålla verkliga problem vid digitalt bevarande eller om det var att betrakta som falskt positivt utslag från Apache Preflight. Hur som helst är det bekymmersamt att olika validatorer från etablerade leverantörer ger så pass olika resultat när det gäller att avgöra om ett dokument uppfyller en utbredd standard för arkivsäkerhet eller inte.

Referenser

Apache Software Foundation. 2014. ”Apache PDFBox”. https://pdfbox.apache.org/index.html.

PDF Tools AG. 2015. ”Online validator”. http://www.pdf-tools.com/pdf/validate-pdfa-online.aspx.

Riksarkivet. 2009. Riksarkivets föreskrifter och allmänna råd om tekniska krav för elektroniska handlingar. http://riksarkivet.se/rafs?item=106.

Förklara er bättre

Tomasetti och Vogelstein (2015), som jag diskuterade i förra inlägget, kan ses som en illustration av filosofen Bas van Fraassens modell för varför-frågor, som jag skrev om här den 29 mars förra året. För att kunna avgöra om ett svar på en fråga om varför något förhåller sig på ett visst sätt är relevant, måste vi veta vilka förhållanden det kontrasteras mot. Om vi frågar oss varför säg 10 procent av befolkningen diagnostiseras med hudcancer under livstid, kan ett svar i enlighet med författarnas modell, att det sker många stamcelldelningar i huden under en livstid, vara relevant om det kontrasteras mot att mycket färre än 10 procent får cancer i gallblåsan, där det sker få stamcelldelningar. Däremot är det inte ett relevant svar om vi i stället kontrasterar förhållandet mot att färre än 10 procent skulle få diagnosen med de incidenstal som gällde i Sverige för 30 år sedan. I så fall måste vi i stället anföra svar i termer av ökad diagnostik, ökad solexponering etc.

Allmänt gäller att mått som ERS, som Tomasetti och Vogelstein (2015) ställer upp och som jag skrev om i förra inlägget, inte har någon större mening om de inte sätts in i ett sammanhang med existerande evidens för vad som orsakar cancer i allmänhet, eller specifika cancerformer. Vi kan ta ett extremt exempel, som fått viss uppmärksamhet i relation till kosthåll som 5:2 i Sverige de senaste åren. Larons syndrom är ett sällsynt, genetiskt betingat tillstånd, som kännetecknas av mycket låga nivåer av tillväxtfaktorer. Personer med syndromet kännetecknas bl.a. av påtaglig kortväxthet, och det rapporteras också att de nästan aldrig drabbas av cancer (J. Guevara-Aguirre m.fl. 2011). Om detta stämmer, skulle nästan alla cancerfall bland människor kunna sägas förklaras av att mer än 99,999 procent av mänskligheten saknar de genvarianter som ger upphov till Larons syndrom.

Det kanske vore en extremt långsökt och irrelevant förklaring i många fall, men poängen är att den rent matematiska modelleringen hos Tomasetti och Vogelstein (2015), med ett mått som bygger på korrelationen mellan antalet stamcelldelningar och livstidsrisk för olika cancerformer bland amerikaner, inte utgör något motexempel mot en sådan förklaring. Det komplexa sambandet mellan cancer och åldrande, där incidensen och mortaliteten tycks plana ut, eller rentav minska, vid hög ålder (se t.ex. Ukraintseva och Yashin (2003)) kan också tyda på att individuella variationer i mottagligheten, som kan vara relaterade till miljö- eller arvsfaktorer, förklarar en hel del av variationen i cancersjuklighet inom en befolkning.

Om det är så att en viss cancerform har lågt ERS och vi inte känner till några kausala faktorer som är specifika för den cancerformen, är det kanske osannolikt att vi kommer att hitta några sådana faktorer, i alla fall sådana som verkar på annat sätt än genom att påverka antalet stamcelldelningar i den aktuella vävnadstypen. Men som påpekas av Meyer (2015) får vi komma ihåg att korrelationen mellan stamcelldelningar och livstidsrisk, som ligger till grund för måttet, beräknats på en dubbellogaritimisk skala, vilket gör att det kan finnas ganska stort utrymme för att variera incidensen i specifika cancerformer utan att det rubbar korrelationen.

Sedan kanske Tomasetti och Vogelstein (2015) ändå har rätt i att vi inte bör hysa så stora förhoppningar att inom en nära framtid hitta några realistiska metoder att förebygga cancer i stor skala, med undantag för de former som är starkt relaterade till rökning. Screeningprogram för att hitta och ta bort abnorm vävnad innan cancer utvecklats kan fungera när det gäller organ som livmoderhalsen och tjocktarmen, men kanske inte när det gäller mer svåråtkomliga inre organ. Förändringar i kosten, eller andra livsstilsfaktorer, som motion (eller kontroll av sådant som föroreningar i arbetsmiljö eller vardagsliv), kan hjälpa när det gäller vissa former, men det är svårt att hitta någon population med livsstil som avviker från den ”västerländska” och med tillgänglig statistik som förefaller vara exceptionellt befriad från cancer i allmänhet. Inte ens Okinawaborna för 50 år sedan var det (se mitt inlägg här den 15 december förra året).

Hur vore det med minskning av tillväxtfaktorer, som skulle föra oss närmare personer med Larons syndrom, i alla fall efter att vi växt färdigt? En risk är att det slår tillbaka i form av tidigare död av andra orsaker, som hjärtsjukdomar – 29/30 dödsfall med angiven orsak bland Laronpersonerna hos J. Guevara-Aguirre m.fl. (2011) inträffade före 70 års ålder, och 9 av dem tillskrevs hjärtsjukdom och slaganfall. Det finns också viss evidens för sådana samband vid mindre extrema minskningar av tillväxtfaktorer, men det är oklart hur de skall tolkas (Yang, Anzo, och Cohen 2005). Vacciner eller behandlingar mot kroniska infektioner? Kanske, om vi kan identifiera sådana infektioner som orsak till fler cancerformer än i dagsläget. Ökning av antalet akuta febrila infektioner, som jag skrivit om t.ex. den 26 maj förra året? Det måste i så fall begränsas till de subpopulationer där vinsterna med att förebygga cancer står i rimlig proportion till riskerna med ökade infektioner, vilket kan utesluta personer över 65 år, där de flesta cancerfall inträffar. Men t.ex. en hjärtfrisk kvinna yngre än 65 år borde kanske betraktas som osund om hon gått ett år utan att drabbas av 38,5 °C feber.

De som är mest entusiastiska när det gäller att förebygga åldersrelaterad sjuklighet i allmänhet, hur ser de på cancer? SENS Research Foundation (2014) tar fasta på att alla cancerformer är beroende av att förlänga cellernas telomerer. Den lösning de förespråkar är att ta bort dessa funktioner från normala celler. Men som de påpekar kräver även våra stamceller detta för att fungera normalt, och om vi bara tog bort funktionaliteten skulle det återigen medföra ökad sjuklighet och dödlighet i andra åldersrelaterade tillstånd. Deras svar på detta är att vi skall förnya stamcellerna vart tionde år. Framtiden får utvisa om det kan utvecklas till någon terapi som det är rimligt att tillämpa i större skala.

Referenser

Guevara-Aguirre, Jaime, Priya Balasubramanian, Marco Guevara-Aguirre, Min Wei, Federica Madia, Chia-Wei Cheng, David Hwang, m.fl. 2011. ”Growth hormone receptor deficiency is associated with a major reduction in pro-aging signaling, cancer, and diabetes in humans”. Science Translational Medicine 3 (70): 70ra13. doi:doi:10.1126/scitranslmed.3001845.

Meyer, Aaron. 2015. ”The bad luck of improper data interpretation”. http://ameyer.me/science/2015/01/02/vogel.html.

SENS Research Foundation. 2014. ”OncoSENS: Making cancerous mutations harmless”. http://www.sens.org/research/introduction-to-sens-research/cancerous-cells.

Tomasetti, Cristian, och Bert Vogelstein. 2015. ”Variation in cancer risk among tissues can be explained by the number of stem cell divisions”. Science 347 (6217): 78–81. doi:doi:10.1126/science.1260825.

Ukraintseva, Svetlana V., och Anatoli I. Yashin. 2003. ”Individual aging and cancer risk: How are they related?” Demographic Research 9. doi:doi:10.4054/DemRes.2003.9.8.

Yang, Joshua, Makoto Anzo, och Pinchas Cohen. 2005. ”Control of aging and longevity by IGF-I signaling”. Cell Metabolism 40. doi:10.1016/j.exger.2005.08.001.

Otur med cellerna

Svenska medier uppmärksammar nu i dagarna en studie av Tomasetti och Vogelstein (2015), vars resultat framställs som att ”otur” är en viktig eller rentav dominerande orsak till cancer (TT 2015; Holmberg 2015). Det primära fyndet i den aktuella studien är att det finns en stark linjär korrelation (\(\rho=,804\)) mellan logaritmerna av antalet stamcelldelningar under en livstid i en given vävnad och risken att utveckla cancer i vävnaden. Hudcancer är t.ex. mycket vanligt, och det sker ett stort antal stamcelldelningar i huden. På motsatt sett sker det relativt få stamcelldelningar i skelettbenen, och osteosarkom är ovanligt. Men forskarna har gått vidare och tagit fram ett mått, ”extra risk score”, \(\text{ERS}=\text{log}_{10}r\times\text{log}_{10}d\), där \(r\) är livstidsrisken för en given cancertyp och \(d\) är antalet stamcelldelningar över en livstid. Eftersom \(r\leq 1\)1 (och \(d\geq 1\)) gäller att \(\text{ERS}\leq 0\) för alla cancertyper. Högt \(\text{ERS}\) innebär att risken för den aktuella cancertypen är hög relativt vad som skulle förväntas utifrån antalet stamcelldelningar i vävnaden.

Nu är forskarnas idé att \(\text{ERS}\) kan fungera som ett mått på i vilken mån risken att utveckla en viss typ av cancer kan förklaras av variationer i miljöfaktorer och genetiska faktorer snarare än slumpmässiga mutationer, där risken skulle vara relaterad till \(d\). De 31 studerade cancertyperna delas in i två kluster: ett med 9 ”deterministiska” typer med högt \(\text{ERS}\), och ett med 22 ”replikativa” typer med lågt \(\text{ERS}\). Termen ”deterministisk” kan möjligtvis vara missvisande, eftersom det är typer som forskarna anser går att påverka med miljöfaktorer (såvida de inte är genetiskt bestämda), men det syftar på att annat än slumpmässiga mutationer spelar en viktig roll som orsak till dessa cancerformer.

Jo, vissa av de ”deterministiska” cancertyperna är sådana vi vet kan förklaras av genetiska faktorer eller miljöfaktorer i stor utsträckning (lungcancer bland rökare, tjocktarmscancer bland personer med vissa ärftliga faktorer, levercancer bland personer med hepatit C-infektion). Men även bland de ”replikativa” formerna återfinns sådant som malignt melanom (där solbränna är en viktig riskfaktor, och där incidensen verkar ha ökat påtagligt de senaste decennierna), levercancer bland personer utan hepatit C (där t.ex. alkohol är en viktig riskfaktor) och matstrupscancer (som är starkt relaterad till rökning och alkohol). Någon diskussion kring detta återfinns inte i artikeln.

Det de ”replikativa” formerna utmärks av är alltså att risken inte är hög relativt antalet stamcelldelningar i vävnaderna. Men varför skulle det inte kunna finnas olika faktorer som skyddar specifikt mot dessa cancerformer, vilket vore förenligt med att de fall som ändå inträffar i stor utsträckning skulle kunna förklaras av ogynnsamma miljöfaktorer eller ärftliga faktorer, snarare än rent slumpmässiga mutationer? Om vi hade beräknat \(\text{ERS}\) för t.ex. malignt melanom utifrån \(r\) baserat på incidensen i Sverige för 30 år sedan, hade vi fått ett lägre värde än om vi utgått från incidensen idag (givet att \(d\) hålls konstant). Hade vi beräknat \(\text{ERS}\) utifrån incidensen i matstrupscancer i vissa delar av Kina, där det är vanligt, skulle den kanske hamna bland de ”deterministiska” formerna.

Dessutom kan det tänkas att det finns faktorer som påverkar cancerincidensen på ett generellt plan (t.ex. nivåer av tillväxtfaktorer eller antalet feberanfall). Förändringar i sådana faktorer skulle kunna förskjuta hela fördelningskurvan för \(r\) för de olika cancerformerna, samtidigt som förhållandet mellan individuella cancerformer med högt och lågt \(\text{ERS}\) kunde ha bibehållits. Författarna påpekar för övrigt själva att vissa miljöfaktorer och genetiska faktorer, t.ex. sådana som påverkar tillväxt, kan påverka just antalet stamceller i olika vävnader och hur snabbt dessa delar sig. Sammanfattningsvis ter det sig som en tveksam tolkning av studien att ”otur är den viktigaste cancerorsaken”, i varje fall om det tänks innebära att det inte finns mycket utrymme för att minska incidensen i olika cancertyper.2

Referenser

Holmberg, Kalle. 2015. ”Ny studie: Cancer ofta en fråga om biologisk otur”. DN (januari 1). http://www.dn.se/nyheter/vetenskap/ny-studie-cancer-ofta-en-fraga-om-biologisk-otur/.

Meyer, Aaron. 2015. ”The bad luck of improper data interpretation”. http://ameyer.me/science/2015/01/02/vogel.html.

TT. 2015. ”’Otur’ viktigaste cancerorsaken”. http://www.svt.se/nyheter/vetenskap/otur-viktigaste-cancerorsaken.

Tomasetti, Cristian, och Bert Vogelstein. 2015. ”Variation in cancer risk among tissues can be explained by the number of stem cell divisions”. Science 347 (6217): 78–81. doi:doi:10.1126/science.1260825.


  1. Om det verkligen rör sig om ”risk” snarare än kumulativ incidens; den komplikationen verkar dock inte vara av betydelse här.

  2. 2015-01-03: Hittade ett inlägg av en amerikansk skribent med kritiska synpunkter som i viss mån överlappar mina (Meyer 2015).