PK-analys

I förra inlägget tog jag upp projektioner av det svenska dödsorsaksmönstret. Jag utgick från projektioner av dödstal och härledde sedan dödsorsaksmönster utifrån dessa. Det vanliga är annars att statistiker nöjer sig med projektionerna av dödstal, som i SCB:s framskrivningar. Motivationen för att studera utvecklingen av dödstal är tydlig: genom att minska åldersspecifika dödstal för olika orsaker utan att öka dem för andra är det möjligt att minska totaldödligheten, vilket innebär ökad livslängd. Dödsorsaksmönstret är däremot ett nollsummespel – minskar vi en orsak ökar andra i motsvarande omfattning – och det kanske av många forskare betraktas som något tämligen ointressant. Men propagandister och kolumnister som skriver om hälsa talar å sin sida titt som tätt om andelen eller antalet som dör av olika orsaker, och ofta uppstår förvirring rörande de olika meningarna av att ”minska risken” för att dö av något, vilket jag varit inne på, t.ex. den 29 juli 2011. Hur dödsorsaksmönstret ser ut, givet en viss livslängd, är kanske heller inte helt ointressant frånsett detta. De flesta skulle nog exempelvis föredra att ökad förväntad livslängd inte åtföljs av en ökad livstidsrisk att dö av orsaker som typiskt medför långa perioder med smärta (som cancer)1.

För mina projektioner hade jag bl.a. använt mig av Lee–Cartermetoden för att uppskatta trender för olika dödsorsaksgrupper. Denna metod har blivit mer eller mindre standard för att göra prognoser när det gäller utveckling av dödstal. Det vanligaste är att den tillämpas på totaldödlighet, men det är inte helt ovanligt att den också tillämpas på mer specifika dödsorsaker, och Girosi och King (2007) diskuterar en del problem som har med detta att göra.

Det vanliga sättet att uppskatta ålders- och tidsparametrarna i Lee–Carter är, som jag gick igenom i förra inlägget, med hjälp av singulärvärdesuppdelning, där en matris \(\mathbf{M}\) med centrerade logaritmer av dödstal ger tre nya matriser \(\mathbf{U,S,V}\). Detta är en form av principalkomponentanalys, vilket innebär att ett antal variabler (i detta fall de åldersgrupper där dödstal finns tillgängliga) överförs till ett eventuellt mindre antal principalkomponenter som inte är linjärt korrelerade. Vid Lee–Carter används de första vektorerna i \(\mathbf{U}\) och \(\mathbf{V}\) och det första värdet i \(\mathbf{S}\) för att uppskatta parametrarna. Detta motsvarar att använda sig av den första principalkomponenten, och det förutsätts då att den är tillräcklig för att fånga in de väsentliga trenderna när det gäller dödstalen. \(\mathbf{S}\) innehåller \(r\) värden större än 0 (vilket innebär att \(\mathbf{M}\) har rang \(r\)), som är ordnade i fallande storleksordning, och den andel av variansen i \(\mathbf{M}\) som förklaras av den komponent som motsvarar värdet \(s_k\) ges av \(s_k^2/\sum_{i=1}^{r}s_i^2\). I detta fall är det alltså andelen för \(s_1\) som är intressant, och Girosi och King (2007) presenterar beräkningar av detta för totaldödlighet och dödstal i olika orsaker bland män i flera olika länder.

När det gäller totaldödligheten är andelen som förklaras av första komponenten generellt hög (över 90 procent för de flesta länder). För cirkulationssjukdom är andelen hög för t.ex. USA (90 procent), men den är anmärkningsvärt låg för Sverige (41 procent). Några definitioner av sjukdomskoder och tidsperioder finns inte i manuskriptet, varför jag mejlade Gary King angående detta, varvid han hänvisade mig till deras källdata (Girosi och King 2016) och deras bok (Girosi och King 2008). Deras data är baserade på (en äldre version av) WHO (2015) och koderna för cirkulationssjukdom verkar stämma överens med de jag använder för Mortalitetsdiagram. Data för Sverige finns tillgängliga för perioden 1951–2000.

Om jag gör beräkningarna för cirkulationsdödlighet bland män i Sverige 1951–2000 med åldersintervallen \(0,[1,4],[5,9],[10,14],\dots,[80,84],[85,\infty)\)2 blir resultatet mycket riktigt dåligt i termer av förklarad varians: den första komponenten förklarar endast 30 procent. Men om jag endast inkluderar åldersintervallen över 35 år (som i projektionerna i förra inlägget) ökar andelen till 92 procent. Det verkar klart att den låga andelen i det förra fallet har orsakats av brus i låga åldersgrupper med få dödsfall, en effekt som blir tydlig för sjukdomar i cirkulationsorgan, som är en relativt ovanlig dödsorsak bland unga. Eftersom datamatrisen som sagt innehåller centrerade logaritmer av dödstal ger en given relativ förändring samma effekt oavsett absolut dödlighetsnivå. Länder med lägre andel förklarad varians för cirkulationsorganen än Sverige hos Girosi och King (2007) är Norge, Danmark, Nederländerna och Schweiz, som också har relativt små befolkningar i förening med låga dödstal i cirkulationssjukdom i yngre åldersgrupper. Gör jag motsvarande beräkningar för cirkulationsdödlighet bland kvinnor i Sverige blir den förklarade variansen 53 procent om åldersintervallen under 35 år inkluderas och 95 procent om dessa utesluts.

En annan egenskap hos Lee–Carter som diskuteras av Girosi och King (2007) är att kurvorna för de förutsedda logaritmerna av de åldersspecifika dödstalen alltid tenderar att ”fläka ut” och avlägsna sig från varandra, om de observerade kurvorna inte är exakt parallella (vilket i praktiken aldrig torde inträffa). Girosi och King (2008) utvecklar sedan så kallade bayesianska metoder, som bygger på att specificera priors, där sådan ojämn utveckling för ålders- och tidstrender kan förkastas som osannolik. De har utarbetat ett paket för R som implementerar dels dessa metoder, dels traditionell förutsägelse med bl.a. Lee–Carter (Girosi m.fl. 2015). Tyvärr verkar det inte ha underhållits så bra de senaste åren: med den officiella versionen, som finns på Kings webbplats, fungerar det inte att rita upp diagram i nu aktuell version av R (3.2.3), utan utvecklingsversionen på GitHub krävs, och även med denna har jag inte fått inställningar för text i diagrammen att fungera. Om förutsägelserna med deras nya metoder skall innebära någon fördel jämfört med Lee–Carter krävs hur som helst vettiga inställningar av parametrarna för priors. När det gäller cirkulations- och tumördödligheten en del åldersgrupper är det nog rimligt att de kommer att fortsätta divergera de närmaste decennierna.

Referenser

Danius, Sara. 2014. ”Vinter 2014”. Sommar & Vinter i P1 (28 december). http://sverigesradio.se/sida/avsnitt/476892?programid=2071.

Girosi, Federico och Gary King. 2007. ”Understanding the Lee-Carter mortality forecasting method”. http://j.mp/lTXlGe.

———. 2008. Demographic forecasting. http://j.mp/pqms4U.

———. 2016. ”Cause of death data”. http://hdl.handle.net/1902.1/UOVMCPSWOL.

Girosi, Federico, Gary King, Konstantin Kashin, Elena Villalon och Jon Bischof. 2015. ”YourCast: Forecasting age-sex-country-cause mortality rates”. https://github.com/IQSS/YourCast.

Moberg, Eva X. 1998. ”En kvinna med cancer blir dubbelt skyldig”. Aftonbladet (27 december). http://wwwc.aftonbladet.se/kultur/9812/27/exm.html.

Sontag, Susan. 2001. Sjukdom som metafor ; AIDS och dess metaforer. Övers. Britt Arenander och Berit Skogsberg.

WHO. 2015. ”WHO Mortality Database”. http://www.who.int/healthinfo/mortality_data/en/index.html.


  1. Även om folk kanske ofta överskattar plågsamheten hos just cancer jämfört med andra orsaker, till följd av faktorer som diskuteras av Sontag (2001) och de av henne inspirerade Moberg (1998) och Danius (2014).

  2. De lägsta åldersintervallen innehåller 0 dödsfall för vissa år; för att kunna ta logaritmer har jag adderat 0,5 till dessa.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *