I början av förra inlägget påtalade jag att existensen av negativa samband mellan dödstal i tidig ålder och ökning av dödlighet med åldern för olika olika åldersrelaterade dödsorsaker innebär att det inte är tillfredsställande att sammanfatta trender genom att redovisa åldersjusterade dödstal för hela åldersspannet: kvoterna kommer att variera beroende på val av standardbefolkning. Väljer vi en standardbefolkning med hög medelålder blir t.ex. dödstalen i leukemi i Sverige högre 2012 än 1952, och väljer vi en låg medelålder blir de lägre 2012. I stället går det att passa in kurvorna för dödlighet på t.ex. en Gompertz- eller Weibullfunktion, och redovisa utveckling av parametrar för dessa.
Ett uppenbart problem, om trender skall förmedlas till allmänheten, är dock att dessa parametrar troligen inte är omedelbart begripliga för de flesta människor. Varje nytt mått som föreslagits för att det gamla visat sig missvisande i olika sammanhang innebär ett steg upp på abstraktionstrappan: från antal döda till dödstal över hela befolkningen till åldersjusterade dödstal till regressionsparametrar. Detta är en trend inom epidemiologi och många andra vetenskaper: ökad specialisering och sofistikering gör vetenskapernas resultat svårare att kommunicera till allmänheten.
Frånsett detta gäller också att det kan vara problematiskt att få de olika dödlighetsfunktionerna att passa in på sådana dödsorsaksgrupper som ofta används i epidemiologiska sammanhang. I de flesta av Riggs analyser med Gompertzfunktionen mattades den exponentiella ökningen av dödstal med ålder, som definierar denna funktion, av i högre åldersgrupper. I en del fall segmenterade han regressionen: bröstcancer före menopaus hade t.ex. mycket snabbare ökning med åldern än bröstcancer efter menopaus och analyserades som en annan sjukdom (Riggs 1991).
Juckett och Rosenberg (1993) visar på att Weibullfunktionen passar bättre än Gompertzfunktionen för många kategorier av dödsorsaker. Den är primärt formulerad för överlevnad snarare än dödstal, och för dess enklaste form, med två parametrar, gäller att andelen överlevande vid \(t\), \(S(t)=\mathrm{exp}-(t/\tau)^a\) och dödstal vid \(t\), \(r(t)=(a/\tau)(t/\tau)^{a-1}\). För skalparametern \(\tau\) gäller att \(S(\tau)=\mathrm{exp}(-1)\), alltså ca 37 procent. Ett högre värde på formparametern \(a\) innebär att dödstalen ökar snabbare med åldern. Om \(a=1\) är dödstalen konstanta (alltså en exponentialfördelning) och om \(a<1\) minskar dödstalen med åldern.
Regression på dödstalen visar också att Weibullfunktionen passar in ganska bra på en del dödsorsaksgrupper där den exponentiella ökningen avtar. Nedanstående diagram visar observerade vs förutsedda dödstal i tumörer (ICD-6/7/8/9: 140–239; ICD-10: C00–D48) i Sverige 1952, 1982 och 2012. Data från WHO (2014) finns tillgängliga för åren 1951–2013, och jag har gjort regression på åldrarna från 25–29 till 80–84 år (den högsta åldersgrupp tillgänglig i 5-åriga intervall för hela perioden). Trenderna har gjorts linjära genom att logaritmen av dödstalen ritats mot logaritmen av åldern. Det översta diagrammet kan t.ex. genereras med mina skript:
run mortparams.py
pardict = {'country': 4290, 'cause': 'tum', 'sex': 2,
'startyear': 1951, 'endyear': 2013, 'startage': 25,
'endage': 80, 'ageformat': 2, 'mortfunc': 'weibull'}
t = paramsplot(**pardict)
opdict = {'paramsplot': t, 'fityrs': range(1952, 2042, 30),
'startage': 20, 'endage': 100, 'trans': 'weib_lin',
'trans_time_coords': True}
obspred_plot(**opdict)
Funktionen passar bra på det hela taget, även om det blir vissa avvikelser i låga åldersgrupper. Dessa blir naturligt nog större för undergrupper där det inträffar färre dödsfall, som i nedanstående diagram för leukemi (ICD-6/7: 204; ICD-8: 204–207; ICD-9: 204–208; ICD-10: C91–C95) bland kvinnor.
Den viktade ickelinjära regressionen (med Elzhov m.fl. (2013)) hindrar programmet från att passa in regressionslinjen på sådant brus i åldersgrupper med få dödstal. Dessvärre finns också viktiga orsaksgrupper där det sker stora, systematiska avvikelser från regressionslinjen. Ett exempel är sjukdomar i cirkulationsorganen (ICD-6/7: 330–334, 400–468; ICD-8/9: 390–459; ICD-10: F01, I00–I99).
Regressionen lägger åter störst vikt vid de högsta åldersgrupperna, där de flesta dödsfallen inträffar. Men den överskattar systematiskt ökningen med ålder och underskattar därför dödstalen i lägre åldersgrupper. Problemet tycks dessutom ha blivit värre på senare år, så att en allt mindre del av åldersspannet passar in. Analys på viktiga undergrupper, som kranskärlssjukdom och slaganfall ger liknande resultat. Detta reflekterar ett problem som jag varit inne på tidigare, som den 6 januari 2011 och den 23 september 2012: dessa sjukdomsgrupper verkar vara alltför diffusa för att fångas i en enkel analys. Kanske kommer de i framtiden (i alla fall när det gäller rapportering av underliggande dödsorsaker) att ersättas av andra kategorier som bättre speglar bakomliggande orsaksmekanismer.
Referenser
Elzhov, Timur V., Katharine M. Mullen, Andrej-Nikolai Spiess och Ben Bolker. 2013. minpack.lm: R interface to the Levenberg-Marquardt nonlinear least-squares algorithm found in MINPACK, plus support for bounds. http://CRAN.R-project.org/package=minpack.lm.
Juckett, David A. och Barnett Rosenberg. 1993. ”Comparison of the Gompertz and Weibull functions as descriptors for human mortality distributions and their intersections”. Mechanisms of Ageing and Development 69 (1–2): 1–31. doi:10.1016/0047-6374(93)90068-3.
Riggs, Jack E. 1991. ”Longitudinal gompertzian analysis of breast cancer mortality in the U.S., 1962–1987: Demonstration of a disorder displaying complex deterministic mortality dynamics”. Mechanisms of Ageing and Development 60 (2). doi:10.1016/0047-6374(91)90125-J.
WHO. 2014. ”WHO Mortality Database”. http://www.who.int/healthinfo/mortality_data/en/index.html.