Räta kurvor

Lee–Cartermetoden, som jag använde mig av för att göra de projektioner av det svenska dödsorsaksmönstret jag presenterade här den 28 februari, kännetecknas av att de olika åldersgruppernas dödstal kan variera oberoende av varandra (så länge själva mönstret för variationen hålls konstant), och det leder till en ojämn åldersprofil, där de olika åldersgrupperna sticker iväg åt olika håll. Ibland medför detta orimligheter, som att yngre efter en tid har högre dödstal än äldre, vilket påtalas av Girosi och King (2007). När jag gjorde mina projektioner använde jag mig också av direkt regression på de åldersspecifika dödstalen, vilket ger resultat som ligger nära Lee–Carter, som visades i 28 februari-inlägget. Denna metod innebär också att dödstalen förutsägs oberoende av varandra. Girosi och King (2008) förespråkar användning av bayesianska metoder, för att undvika denna typ av problem.

Ett annat alternativ är att använda parametriska metoder, som Gompertz och Weibull, för att förutsäga dödstal, vilket jag skrivit en del om här tidigare. Om dödstalen för en given dödsorsak ökar exponentiellt med åldern (som Gompertz antog när det gäller totaldödlighet) och det dessutom finns en skärningsålder där de är konstanta (Strehler–Mildvnsambandet, som Riggs studerade för en rad olika dödsorsaker) existerar det bara en frihetsgrad när det gäller åldersprofilen för dödstalen: kurvans lutning bestämmer dödstalen vid varje ålder. Om det dessutom är så att lutningen är en linjär funktion av tiden är det enkelt att extrapolera den in i framtiden och på så vis göra en projektion av dödstalen för ett givet år. Då blir kurvan för logaritmerna av de projicerade dödstalen en rät linje. Ökar lutningen över tid kommer de olika åldersgruppernas dödstal att avlägsna sig från varandra som med Lee–Carter, men på ett regelbundet sätt i relation till skärningsåldern.

Det stora problemet med att använda sig av dessa parametriska funktioner är det jag skrev om här den 2 september förra året: komplexa dödsorsaksgrupper som cirkulationssjukdom verkar inte följa någon enkel funktion över hela åldersspannet. Nedanstående diagram visar projektioner av dödstal i tumörer (ICD-10 C00–D48) och cirkulationsorgan, summan av projektionerna för kranskärlssjukdom (ICD-10 I20–I25) och övriga cirkulationssjukdomar (övrigt under ICD-10 I00–I99) för svenska kvinnor 2018, baserat på data tillgängliga via WHO (2015) för åren 2001–2013 och åldersintervallen \([40,44],[45,49],\dots,[90,94],[95,\infty)\) år1. Jag har dels använt mig av Lee–Cartermetoden, dels beräknat linjära samband mellan Gompertzparametrarna \(\alpha\) (lutning på kurvan) och \(r_0\) (initial dödlighet), extrapolerat \(\alpha\) linjärt in i framtiden och beräknat framtida värden för \(r_0\) utifrån detta.

Projicerade dödstal 2018 kvinnor Diagrammet visar projicerade dödstal i sjukdom i cirkulationsorgan och tumörer för kvinnor baserat på dels Gompertzregression, dels Lee–Carter.

Resultatet är, som synes, att projektionerna med Gompertz stämmer bra överens med motsvarande projektioner med Lee–Carter i de åldrar där det inträffar flest dödsfall (över 85 år för cirkulationssjukdom och 65–90 år för tumörer). Parametrarna har uppskattats med regression viktad mot antalet dödsfall i respektive åldersgrupp. För yngre åldersgrupper överskattar Gompertz dödstalen i förhållande till Lee–Carter. Enligt Gompertzprojektionerna skulle cirkulationssjukdom korsa tumörer redan vid ca 71 års ålder, vilket är orimligt sett till de senaste årens observerade mönster (det var snarare ett mönster som gällde för kvinnor för 20 år sedan). Nedanstående diagram visar projektioner av dödsorsaksmönstret för vart femte år perioden 2018–2033 baserat på dels Lee–Carter, dels Gompertz, med i övrigt samma metoder som användes i 28 februari-inlägget.

Förutsägelse kvinnor Gompertz Förutsägelse kvinnor Lee--Carter Diagrammen visar andelen vid uppnådd ålder som kommer att dö av tumörer och cirkulationssjukdom, givet förutsedda livslängdstabeller och dödsorsaksmönster vart femte år 2018–2033, jämfört med motsvarande andelar baserat på motsvarande observerade data för 2013, för kvinnor med förutsägelser gjorda med dels Gompertzregression, dels Lee–Carter.

Gompertz förutsäger litet högre livstidssannolikhet för cirkulationssjukdom i lägre åldersgrupper jämfört med Lee–Carter. När det gäller tumörer ger båda metoderna likartade resultat, nämligen att inga större förändringar kommer att ske.

Referenser

Girosi, Federico och Gary King. 2007. ”Understanding the Lee-Carter mortality forecasting method”. http://j.mp/lTXlGe.

———. 2008. Demographic forecasting. http://j.mp/pqms4U.

WHO. 2015. ”WHO Mortality Database”. http://www.who.int/healthinfo/mortality_data/en/index.html.


  1. Uppgifter om folkmängden i dessa åldersgrupper finns tillgängliga från 1999; 2000 innehåller emellertid orimligt låga siffror för de högsta åldrarna.

T-vatten

I söndags dog den amerikanske filosofen Hilary Putnam, 89 år gammal (Wikipedia 2016). Han var en av efterkrigstidens mest inflytelserika filosofer. Jag fick se honom en gång; det var när han höll föredrag i Stockholm 2011, i samband med att han tilldelades Rolf Schockpriset i logik och filosofi. Detta pris motiverades med hänvisning till Putnams ”bidrag till förståelsen av semantiken för teoretiska termer och termer för naturliga sorter” (Schockprisen 2011).

Centralt i Putnams idéer kring dessa saker är tanken att mening hos våra språkliga uttryck inte är något som enbart bestäms av vad som pågår ”i våra huvuden”, vilket varit en utgångspunkt för mycket tidigare filosofi. Det våra uttryck refererar till är en del av deras mening, enligt Putnam, men för många uttryck gäller att de flesta av oss som använder dem till vardags inte har tillräcklig urskillningsförmåga för att avgöra referensen, utan det finns en språklig arbetsdelning, där vi överlåter detta till ”experter” inom de aktuella områdena (Bird och Tobin 2016; Reimer och Michaelson 2014). För att underbygga denna språkfilosofi använde sig Putnam av ett tankeexperiment där det antas att det i ett främmande solsystem finns en tvillingjord som är precis lik vår jord med avseende på vad som kan observeras med blotta ögat och vars invånare ser ut, beter sig och talar som vi. Men det ”svenskarna” på tvillingjorden kallar ”vatten” (och som ser ut, smakar och används precis som vatten på vår jord) har inte sammansättningen H2O utan XYZ. Putnams idé är att ”vatten” i vårt språk refererar till H2O medan det på tvillingjordsvenska refererar till XYZ. Det är alltså falskt att tvillingjordens invånare tvättar i vatten och kokar kaffe på vatten. Om ”T-vatten” är synonymt med ”vatten” på tvillingjordsvenska är det på motsvarande sätt falskt att vi tvättar i T-vatten och kokar kaffe på T-vatten. Nu vet även icke-kemister normalt att det de kallar ”vatten” har sammansättningen H2O (eller XYZ om de lever på tvillingjorden), men en viktig sak i sammanhanget är att ”vatten”, enligt Putnam, hade sina olika meningar redan 1750, innan kemin utvecklats på någon av planeterna. Folk avsåg nämligen redan då att referera till det ämne som t.ex. fanns i deras vattendrag, även om inte ens experterna då kunde avgöra detta ämnes natur. Om folk refererade till föreningarna innan de hade något begrepp om dem kan mening alltså inte vara något som ”finns i huvudet”. Om planeterna skulle komma i kontakt och börja utbyta vätskor idag skulle de flesta invånare nog inte heller kunna skilja vätskor sammansatta av H2O från sådana sammansatta av XYZ utan experthjälp, vilket skulle exemplifiera den språkliga arbetsdelningen.

De intuitioner Putnam utgår från i sitt scenario har förstås ifrågasatts. Fungerar verkligen uttryck som ”vatten” på det sätt han tänkte sig? Om vi kom i kontakt med vår tvillingplanet, och det visade sig att folk tvättade i XYZ och drack XYZ-kaffe, skulle kanske kemisterna skilja mellan vatten och T-vatten, samtidigt som språkanvändare i allmänhet skulle resonera i stil med: ”ser det ut och fungerar precis som vatten är det vatten: vad bryr vi oss om det består av H2O eller XYZ?” I så fall vore inte språkanvändarnas förmåga att referera i detta fall ”parasitisk” på experternas omdömen på det sätt Putnam tänkte sig. Andra exempel inbjuder till liknande invändningar. I en några år gammal notis i Filosofisk tidskrift diskuteras semantiken hos vissa botaniska termer (Janvid 2009). De flesta av författarens studenter och kollegor anser att påståendena ”bananer är bär” och ”jordgubbar är inte bär” båda är falska. Men enligt botaniken är båda påståendena sanna: bananer, men inte jordgubbar, är bär. Putnams idéer nämns inte explicit i notisen, men den skulle kunna ses som ett exempel på hans idé om språklig arbetsdelning: icke-botaniker kan prata om frukter och bär, men de saknar i allmänhet förmåga att avgöra uttryckens referens. Men är våra vardagliga omdömen, att t.ex. jordgubbar är bär, verkligen något som kommer i konflikt med botaniken? Är det inte så att vi till vardags delar in växtdelar i kategorier som grönsaker, frukter, bär och nötter efter kriterier som storlek, saftighet och sötma, som är relevanta när de betraktas som livsmedel, utan att vi har någon avsikt att detta skall stämma överens med botaniska klassifikationer? När botanikerna talar om ”bär” menar de helt enkelt inte samma sak som vi andra. Putnam har vissa botanikexempel som kanske är mer övertygande: han kan referera till almar och bokar (i botanikernas mening) med uttryck som ”elm” och ”beech”, fast han inte har en aning om hur de skiljs från varandra. Men sådana uttryck verkar spela en perifer roll i vårt vardagsspråk, om vi inte hör till just de som är insatta i området.

Ett exempel som jag minns att Putnam tog upp i Stockholm handlade om virussjukdomar. Vi kanske har en sjukdom vars orsak inte ens forskarna känner till, och som vi identifierar med hänvisning till symptomen. Sedan upptäcks att infektion med ett visst virus är orsak till sjukdomsbilden, och det blir den virusinfektionen som blir det avgörande kriteriet för om sjukdomen föreligger. Vi skall då inte, enligt Putnam, säga att sjukdomens namn ändrat mening: vi talar fortfarande om samma sjukdom som tidigare, men vi kan nu referera till den mer korrekt. Men i många sammanhang kan det vara just det ”ytligare” syndromet som är det intressanta. Influensa kan vara ett exempel: före 1930-talet kunde denna sjukdom inte identifieras på annat sätt än att den spreds epidemiskt på vintrarna, gav upphov till vissa symptom etc. Sedan upptäcktes influensaviruset, och nu skulle inte läkare säga att vi har influensa om det kunde visas att vi inte är infekterade med detta virus. Men om vi ringer och sjukanmäler oss för ”influensa” är varken vi eller Försäkringskassan speciellt intresserade av vilket virus det är som orsakar våra symptom: det intressanta är att vi fått något som gör att vi sannolikt måste hålla oss borta från arbetet några dagar och som inte går att göra mycket åt. Den vardagliga användningen är inte parasitisk på experternas urskillningsförmåga, utan fortlever oberoende av denna.

Om allmänhet och forskare använder ett ord i olika mening kan det dock uppstå förvirring om betydelserna sammanblandas. Det förekommer att ”influensa” (eller kanske ”riktig influensa”) karakteriseras som att den drabbade alltid blir liggande väldigt sjuk i flera dagar. Om ”influensa” syftar på syndromet, eller en mer svårartad variant av detta, är det trivialt; om det syftar på infektion med influensavirus är det falskt, eftersom en sådan infektion kan förlöpa asymptomatiskt eller ge upphov till lindriga förkylningssymptom (Folkhälsomyndigheten 2016). På samma sätt riskerar folk att bli besvikna om de tror att influensavaccin skall skydda mot allt som orsakar ”influensa” i syndrommeningen. Inom sjukvården undviks sådana sammanblandningar genom att det görs en åtskillnad mellan ”influensa” (den specifika infektionen) och ”influensaliknande sjukdom”, men den senare termen verkar vara för klumpig för att få fotfäste i vardagsspråket.

Referenser

Bird, Alexander och Emma Tobin. 2016. ”Natural kinds”. I The Stanford encyclopedia of philosophy, red. Edward N. Zalta. Spring 2016. http://plato.stanford.edu/archives/spr2016/entries/natural-kinds/.

Janvid, Mikael. 2009. ”Botanisk semantik”. Notiser ur Filosofisk tidskrift (21 april). http://www.bokforlagetthales.se/filosofisktidskrift/page6/files/82640dce3940be19c1cef9b42f5880f3-73.html.

Reimer, Marga och Eliot Michaelson. 2014. ”Reference”. I The Stanford encyclopedia of philosophy, red. Edward N. Zalta. Winter 2014. http://plato.stanford.edu/archives/win2014/entries/reference/.

Wikipedia. 2016. ”Hilary Putnam – Wikipedia”. https://en.wikipedia.org/w/index.php?title=Hilary_Putnam&oldid=710504012.

PK-analys

I förra inlägget tog jag upp projektioner av det svenska dödsorsaksmönstret. Jag utgick från projektioner av dödstal och härledde sedan dödsorsaksmönster utifrån dessa. Det vanliga är annars att statistiker nöjer sig med projektionerna av dödstal, som i SCB:s framskrivningar. Motivationen för att studera utvecklingen av dödstal är tydlig: genom att minska åldersspecifika dödstal för olika orsaker utan att öka dem för andra är det möjligt att minska totaldödligheten, vilket innebär ökad livslängd. Dödsorsaksmönstret är däremot ett nollsummespel – minskar vi en orsak ökar andra i motsvarande omfattning – och det kanske av många forskare betraktas som något tämligen ointressant. Men propagandister och kolumnister som skriver om hälsa talar å sin sida titt som tätt om andelen eller antalet som dör av olika orsaker, och ofta uppstår förvirring rörande de olika meningarna av att ”minska risken” för att dö av något, vilket jag varit inne på, t.ex. den 29 juli 2011. Hur dödsorsaksmönstret ser ut, givet en viss livslängd, är kanske heller inte helt ointressant frånsett detta. De flesta skulle nog exempelvis föredra att ökad förväntad livslängd inte åtföljs av en ökad livstidsrisk att dö av orsaker som typiskt medför långa perioder med smärta (som cancer)1.

För mina projektioner hade jag bl.a. använt mig av Lee–Cartermetoden för att uppskatta trender för olika dödsorsaksgrupper. Denna metod har blivit mer eller mindre standard för att göra prognoser när det gäller utveckling av dödstal. Det vanligaste är att den tillämpas på totaldödlighet, men det är inte helt ovanligt att den också tillämpas på mer specifika dödsorsaker, och Girosi och King (2007) diskuterar en del problem som har med detta att göra.

Det vanliga sättet att uppskatta ålders- och tidsparametrarna i Lee–Carter är, som jag gick igenom i förra inlägget, med hjälp av singulärvärdesuppdelning, där en matris \(\mathbf{M}\) med centrerade logaritmer av dödstal ger tre nya matriser \(\mathbf{U,S,V}\). Detta är en form av principalkomponentanalys, vilket innebär att ett antal variabler (i detta fall de åldersgrupper där dödstal finns tillgängliga) överförs till ett eventuellt mindre antal principalkomponenter som inte är linjärt korrelerade. Vid Lee–Carter används de första vektorerna i \(\mathbf{U}\) och \(\mathbf{V}\) och det första värdet i \(\mathbf{S}\) för att uppskatta parametrarna. Detta motsvarar att använda sig av den första principalkomponenten, och det förutsätts då att den är tillräcklig för att fånga in de väsentliga trenderna när det gäller dödstalen. \(\mathbf{S}\) innehåller \(r\) värden större än 0 (vilket innebär att \(\mathbf{M}\) har rang \(r\)), som är ordnade i fallande storleksordning, och den andel av variansen i \(\mathbf{M}\) som förklaras av den komponent som motsvarar värdet \(s_k\) ges av \(s_k^2/\sum_{i=1}^{r}s_i^2\). I detta fall är det alltså andelen för \(s_1\) som är intressant, och Girosi och King (2007) presenterar beräkningar av detta för totaldödlighet och dödstal i olika orsaker bland män i flera olika länder.

När det gäller totaldödligheten är andelen som förklaras av första komponenten generellt hög (över 90 procent för de flesta länder). För cirkulationssjukdom är andelen hög för t.ex. USA (90 procent), men den är anmärkningsvärt låg för Sverige (41 procent). Några definitioner av sjukdomskoder och tidsperioder finns inte i manuskriptet, varför jag mejlade Gary King angående detta, varvid han hänvisade mig till deras källdata (Girosi och King 2016) och deras bok (Girosi och King 2008). Deras data är baserade på (en äldre version av) WHO (2015) och koderna för cirkulationssjukdom verkar stämma överens med de jag använder för Mortalitetsdiagram. Data för Sverige finns tillgängliga för perioden 1951–2000.

Om jag gör beräkningarna för cirkulationsdödlighet bland män i Sverige 1951–2000 med åldersintervallen \(0,[1,4],[5,9],[10,14],\dots,[80,84],[85,\infty)\)2 blir resultatet mycket riktigt dåligt i termer av förklarad varians: den första komponenten förklarar endast 30 procent. Men om jag endast inkluderar åldersintervallen över 35 år (som i projektionerna i förra inlägget) ökar andelen till 92 procent. Det verkar klart att den låga andelen i det förra fallet har orsakats av brus i låga åldersgrupper med få dödsfall, en effekt som blir tydlig för sjukdomar i cirkulationsorgan, som är en relativt ovanlig dödsorsak bland unga. Eftersom datamatrisen som sagt innehåller centrerade logaritmer av dödstal ger en given relativ förändring samma effekt oavsett absolut dödlighetsnivå. Länder med lägre andel förklarad varians för cirkulationsorganen än Sverige hos Girosi och King (2007) är Norge, Danmark, Nederländerna och Schweiz, som också har relativt små befolkningar i förening med låga dödstal i cirkulationssjukdom i yngre åldersgrupper. Gör jag motsvarande beräkningar för cirkulationsdödlighet bland kvinnor i Sverige blir den förklarade variansen 53 procent om åldersintervallen under 35 år inkluderas och 95 procent om dessa utesluts.

En annan egenskap hos Lee–Carter som diskuteras av Girosi och King (2007) är att kurvorna för de förutsedda logaritmerna av de åldersspecifika dödstalen alltid tenderar att ”fläka ut” och avlägsna sig från varandra, om de observerade kurvorna inte är exakt parallella (vilket i praktiken aldrig torde inträffa). Girosi och King (2008) utvecklar sedan så kallade bayesianska metoder, som bygger på att specificera priors, där sådan ojämn utveckling för ålders- och tidstrender kan förkastas som osannolik. De har utarbetat ett paket för R som implementerar dels dessa metoder, dels traditionell förutsägelse med bl.a. Lee–Carter (Girosi m.fl. 2015). Tyvärr verkar det inte ha underhållits så bra de senaste åren: med den officiella versionen, som finns på Kings webbplats, fungerar det inte att rita upp diagram i nu aktuell version av R (3.2.3), utan utvecklingsversionen på GitHub krävs, och även med denna har jag inte fått inställningar för text i diagrammen att fungera. Om förutsägelserna med deras nya metoder skall innebära någon fördel jämfört med Lee–Carter krävs hur som helst vettiga inställningar av parametrarna för priors. När det gäller cirkulations- och tumördödligheten en del åldersgrupper är det nog rimligt att de kommer att fortsätta divergera de närmaste decennierna.

Referenser

Danius, Sara. 2014. ”Vinter 2014”. Sommar & Vinter i P1 (28 december). http://sverigesradio.se/sida/avsnitt/476892?programid=2071.

Girosi, Federico och Gary King. 2007. ”Understanding the Lee-Carter mortality forecasting method”. http://j.mp/lTXlGe.

———. 2008. Demographic forecasting. http://j.mp/pqms4U.

———. 2016. ”Cause of death data”. http://hdl.handle.net/1902.1/UOVMCPSWOL.

Girosi, Federico, Gary King, Konstantin Kashin, Elena Villalon och Jon Bischof. 2015. ”YourCast: Forecasting age-sex-country-cause mortality rates”. https://github.com/IQSS/YourCast.

Moberg, Eva X. 1998. ”En kvinna med cancer blir dubbelt skyldig”. Aftonbladet (27 december). http://wwwc.aftonbladet.se/kultur/9812/27/exm.html.

Sontag, Susan. 2001. Sjukdom som metafor ; AIDS och dess metaforer. Övers. Britt Arenander och Berit Skogsberg.

WHO. 2015. ”WHO Mortality Database”. http://www.who.int/healthinfo/mortality_data/en/index.html.


  1. Även om folk kanske ofta överskattar plågsamheten hos just cancer jämfört med andra orsaker, till följd av faktorer som diskuteras av Sontag (2001) och de av henne inspirerade Moberg (1998) och Danius (2014).

  2. De lägsta åldersintervallen innehåller 0 dödsfall för vissa år; för att kunna ta logaritmer har jag adderat 0,5 till dessa.