Survival Analysis wordt gebruikt om de levensduur van een specifieke onderzochte populatie in te schatten. Het wordt ook wel ‘Time to Event’ Analyse genoemd omdat het doel is om de tijd in te schatten voor een privé of een gaggle van mensen om een gelegenheid van interesse te ervaren. Deze puntschatting is dat de duur tussen geboorte en overlijden gebeurtenissenSurvival Analysis oorspronkelijk werd ontwikkeld en gebruikt door Medische Onderzoekers en Data Analisten om de levensloop van een bepaalde populatie te leven[1]. Maar in de loop der jaren is het gebruikt in verschillende andere toepassingen zoals het voorspellen van het karnen van klanten/werknemers, het schatten van de levensduur van een machine, enz. Aan de geboortegebeurtenis wordt vaak gedacht omdat de tijd van een klant begint met het lidmaatschap van een bedrijf, en daarom wordt vaak rekening gehouden met de doodgebeurtenis omdat de klant het bedrijf verlaat.

Gegevens

In de overlevingsanalyse hebben we de precieze begin- en eindpunten niet nodig. Alle observaties beginnen niet altijd op nul. een onderwerp kan op elk moment binnen het onderzoek worden ingevoerd. Alle tijdsduur is relatief[7]. Alle thema’s worden gekocht op een standaard startlijn waar de tijd t nul is (t = 0) en elk onderwerp heeft de overlevingskansen die voldoende zijn voor één, d.w.z. hun kans om de gebeurtenis van belang (dood, karnton, enz.) niet mee te maken is 100%.

Er kunnen zich situaties voordoen waarbij de hoeveelheid van de informatie verhindert dat deze volledig wordt gebruikt in de Overlevingsanalyse. Voor dergelijke situaties kan representatieve bemonstering helpen. Bij representatieve steekproeven is het doel om een gelijke of bijna gelijke hoeveelheid proefpersonen te hebben van elke groep proefpersonen binnen de gehele populatie. Elke groep wordt een Strata genoemd. De gehele populatie is gestratificeerd (verdeeld) in groepen die een of ander kenmerk ondersteunen. Nu, om een bepaald aantal onderwerpen uit elke groep te selecteren, gebruikt u Simple sampling . het volledige aantal onderwerpen wordt aan het begin gespecificeerd en u splitst het volledige aantal vereiste onderwerpen op over elke groep en u kiest dat aantal onderwerpen willekeurig uit elke groep.

Censuur

Het is belangrijk om te weten dat niet elk lid van de bevolking het ‘Event of Interest’ (overlijden, karnton, enz.) zal meemaken tijdens de studieperiode. Zo zullen er bijvoorbeeld klanten zijn die nog steeds lid zijn van het bedrijf, of werknemers die nog steeds werken voor het bedrijf, of machines die nog steeds functioneren tijdens de observatie/studieperiode. We weten niet of ze het evenement van belang zullen ervaren op het moment van de studie. We weten alleen dat ze het nog niet hebben meegemaakt. Hun overlevingstijd is langer dan hun tijd binnen de studie. Hun overlevingstijd wordt dus als ‘Gecensureerd’ bestempeld, wat betekent dat hun overlevingstijd is afgesneden. Censuur stelt je dus in staat om een leven te leiden voor de bevolking die de gebeurtenis van belang nog niet heeft meegemaakt.

Het is het vermelden waard dat de mensen/onderwerpen die de gebeurtenis van interesse nog niet hebben meegemaakt een buurt van het onderzoek zijn geworden, omdat het volledig verwijderen ervan de resultaten zou beïnvloeden voor iedereen binnen het onderzoek die de gebeurtenis van interesse ervaart. We kunnen deze leden dus niet negeren en daarom is de enige manier om hen te onderscheiden van degenen die de gebeurtenis van belang hebben ervaren het bezit van een variabele die duidt op censuur of overlijden (de gebeurtenis van belang).

Er zijn verschillende soorten censuur die de Overlevingsanalyse tenietdoen, zoals hieronder wordt uitgelegd[3]. Merk op dat de censuur onafhankelijk moet zijn van de langetermijnwaarde van het gevaar voor dat specifieke onderwerp [24].

Juiste Censuur: Dit gebeurt wanneer het onderwerp binnenkomt op t=0, d.w.z. aan het begin van de studie en eindigt voordat de gebeurtenis van belang zich voordoet. dit zal ofwel niet de gebeurtenis van belang ervaren tijdens de studie, d.w.z. ze leefden langer dan de duur van de studie, of ze konden niet volledig een buurt van de studie zijn en vroeg weggaan zonder de gebeurtenis van belang te ervaren, d.w.z. ze vertrokken en dat we ze niet meer konden bestuderen.

Links Censuur: Dit gebeurt wanneer de geboortegebeurtenis niet werd waargenomen. Een ander concept dat aangeduid wordt als Length-Biased Sampling moet hier zelfs genoemd worden. dit soort sampling vindt plaats wanneer het doel van het onderzoek is om een analyse uit te voeren op de mensen/onderwerpen die de gebeurtenis al hebben meegemaakt en dat we willen vaststellen of ze het al dan niet weer zullen meemaken. Het lifelines pakket heeft ondersteuning voor links gecensureerde datasets door het toevoegen van het trefwoord left_censoring=True. Merk op dat het standaard is ingesteld op False. Voorbeeld[9]:

model_name.fit(Time, Event, left_censoring=True)

Interval Censuur: Dit gebeurt wanneer de follow-up periode, dat wil zeggen de tijd tussen de observatie, niet continu is. Dit is wekelijks, maandelijks, driemaandelijks, enz.

Links Truncation: het wordt genoemd als late invoer. de thema’s kunnen de gebeurtenis van belang hebben ervaren voordat ze de studie ingaan. er is een argument genaamd ‘invoer’ dat de duur tussen de geboorte en het ingaan van de studie specificeert. Als we binnen de afgeknotte regio vullen, maakt dat ons overmoedig over wat er in de vroege periode na de diagnose gebeurt. Daarom kappen we ze af[9].

Kortom, proefpersonen die de gebeurtenis van interesse niet hebben meegemaakt tijdens de studieperiode zijn rechtsgecensureerd en proefpersonen waarvan de geboorte niet is gezien zijn linksgecensureerd[7]. Survival Analysis is ontwikkeld om vooral de kwestie van de rechts-censuur op te lossen[7].

Overlevingsfunctie

De Overlevingsfunctie wordt gegeven door,

https://miro.medium.com/max/112/1*2gNtUSp_6nrw2NBfsXz4VA.png

Survival Function definieert de waarschijnlijkheid dat de gebeurtenis van belang zich niet heeft voorgedaan op tijdstip t. Het kan ook worden geïnterpreteerd omdat de overlevingskans na tijdstip t [7]. Hier, T is dat de willekeurige levensduur genomen van de bevolking en het kan niet negatief zijn. Merk op dat S(t) tussen nul en één (inclusief) is, en S(t) kan een niet-verhogende functie van t[7] zijn.

Gevaarsfunctie

De Gevaarsfunctie, ook wel de intensiteitsfunctie genoemd, is gedefinieerd omdat de kans dat het onderwerp een gelegenheid van interesse zal ervaren binnen een klein interval, zolang het individu heeft overleefd tot het begin van dat interval [2]. het is het momentane tarief berekend over een periode van tijd en dit tarief wordt rekening gehouden met een constante [13]. Het is het aantal proefpersonen dat een gebeurtenis meemaakt binnen het interval dat begint op tijdstip t, gedeeld door de koopwaar van het aantal proefpersonen dat overleeft op tijdstip t en de breedte van het interval [2].

https://miro.medium.com/max/262/1*2Dia2xF_DVMccQh8saPYFg.png

Aangezien de kans op eindeloze variaties gelijk is aan een specifieke waarde, is deze nul. Daarom houden we rekening met de waarschijnlijkheid dat de gebeurtenis met een bepaald tijdsinterval van T tot (T + ΔT) plaatsvindt. Aangezien het ons doel is om het gevaar van een gebeurtenis op te sporen en dat we niet willen dat het gevaar groter is omdat het interval ΔT groter wordt. Om dat te regelen delen we de vergelijking dus door ΔT. Deze schaalt de vergelijking met ΔT[14]. De vergelijking van het Gevaarsritme wordt gegeven als:

De grenswaarde ΔT nadert de nul, wat betekent dat het ons doel is om het gevaar van een gebeurtenis op een bepaald moment te beleven. Dus, het nemen van de limiet ΔT nadert nul geeft een oneindig kleine periode van uw tijd [14].

Dit komt vaak omdat we de kans binnen de teller hebben, maar de ΔT binnen de noemer zou kunnen eindigen in een waarde die groter is dan één.

Kaplan-Meier Schatting

Kaplan-Meier Schatting wordt gebruikt om het deel van de proefpersonen die voor een bepaalde hoeveelheid overlevingsduur hebben overleefd t[4] onder gelijkwaardige omstandigheden te laten leven[2]. het is niet de bedoeling om een gemiddeld beeld van de bevolking te geven[7]. Deze methode wordt ook wel de koopwaarlimiet genoemd. Het maakt het mogelijk om een tabel genaamd, levenstafel, en een grafiek, genaamd overlevingscurve, te produceren voor een veel beter beeld van de risicopopopulatie[2]. De overlevingstijd wordt gedefinieerd omdat de tijd varieert van een vooraf bepaald punt tot het optreden van de gebeurtenis van belang[5]. De Kaplan-Meier Overlevingskromme is dat de overlevingskans gedurende een bepaalde tijdsduur waarbij met kleine tussenpozen rekening wordt gehouden met de tijd. Voor de overlevingsanalyse met behulp van Kaplan-Meier-schatting zijn er drie aannames [4]:

Onderwerpen die gecensureerd worden hebben een gelijkwaardig overlevingsperspectief als die welke nog gevolgd worden.

De overlevingskans is dat alle thema’s hetzelfde zijn, ongeacht wanneer ze eenmaal zijn gerekruteerd binnen het onderzoek.

De gebeurtenis van belang gebeurt op het vereiste tijdstip. dit komt vaak omdat de gebeurtenis kan gebeuren tussen twee examens. De geschatte overlevingstijd wordt vaak nauwkeuriger gemeten als het examen vaak plaatsvindt, dat wil zeggen als het tijdsverschil tussen de examens extreem klein is.

De overlevingskans op een bepaald moment wordt berekend omdat het aantal proefpersonen dat overleeft gedeeld wordt door het aantal individuen dat in gevaar is. De gecensureerde proefpersonen worden niet geteld binnen de noemer[4]. De vergelijking wordt als volgt gegeven:

https://miro.medium.com/max/117/1*e0K73uSLwzH4Xr5Dt2ZQIw.png

Hier staat ni voor het aantal personen dat in gevaar is voor tijdstip t. di staat voor het bedrag van de gebeurtenis die van belang is op tijdstip t.

Voor de Overlevingskromme voor de Kaplan-Meier Schatting vertegenwoordigt de y-as de waarschijnlijkheid dat het onderwerp na tijd t nog steeds niet de gebeurtenis van belang heeft meegemaakt, waarbij tijd t op de x-as ligt[9]. om vast te stellen hoe onzeker we zijn over de doelschattingen gebruiken we de arrogantie-intervallen[10]. De mediaan tijd is dat de tijd waar gemiddeld de helft van de bevolking de gebeurtenis van belang na de levensloop heeft meegemaakt KaplanMeierFitter

van lifelines.datasets import load_waltons

df = load_waltons()

T = df[‘T’]

E = df[‘E’]

kmf = KaplanMeierFitter()

kmf.fit(T, event_observed=E)

kmf.plot()rest[9].

Overlevingsregime

Survival Regression houdt in dat niet alleen de duur en dus de censuurvariabelen worden gebruikt, maar dat aanvullende gegevens (geslacht, leeftijd, salaris, enz.) worden gebruikt als covariaten. We ‘regresseren’ deze covariaten ten opzichte van de duurvariabele.

De dataset die gebruikt wordt voor Survival Regression moet binnen een (Pandas) DataFrame vallen met een kolom die de duur van de thema’s aangeeft, een optionele kolom die aangeeft of de gebeurtenis van belang is waargenomen of niet, ook als extra covariaten waar u tegen wilt regresseren. Net als bij andere regressietechnieken wilt u uw gegevens voorbewerken voordat u ze in het model invoert.

Cox Proportioneel Gevarenregressiemodel

Het Cox Proportionele Gevaren Multivariate Analyse Model is geïntroduceerd door Cox en houdt rekening met het effect van verschillende variabelen tegelijk[2] en onderzoekt het verband tussen de overlevingsverdeling en die variabelen[24]. het is bijna als multiple correlatie Analyse, maar het verschil is dat de afhankelijke variabele is dat de Gevaarsfunctie op een bepaald moment t. het wordt ondersteund zeer kleine intervallen van uw tijd , genaamd time-clicks, die hoogstens een gebeurtenis van belang bevat. het is een semi-parametrische benadering voor de schatting van de gewichten tijdens een Proportioneel Gevaren Model[16]. De parameterschattingen worden verkregen door de gedeeltelijke waarschijnlijkheid van de gewichten te maximaliseren[16].

Gradiëntdaling wordt gebruikt om het Cox-model aan te passen aan de gegevens[11]. de reden van Gradiëntdaling valt buiten het bestek van deze tekst, maar de gewichten die de fout veroorzaken worden tot een minimum beperkt.

De formule voor het Cox Proportional Hazards Regression Model is als volgt. Het model werkt zo dat het logboekgevaar van een privépersoon een lineaire functie kan zijn van hun statische covariaten en een basislijngevaarsfunctie op populatieniveau die in de loop van de tijd verandert. Deze covariaten worden vaak geschat op basis van gedeeltelijke waarschijnlijkheid[24].

https://miro.medium.com/max/267/1*yGKtk9wXb2gSyvL3MumYNw.png

β0(t) is dat de basislijn gevaarsfunctie en het is gedefinieerd omdat de waarschijnlijkheid van het ervaren van de gebeurtenis van belang wanneer alle andere covariaten gelijk zijn aan nul. En het is de enige tijdsafhankelijke component binnen het model. Het model maakt geen aanname over de baseline hazard functie en neemt een parametrische vorm aan voor het effect van de covariaten op het gevaar[25]. Het partiële gevaar kan een tijdsinvariante scalaire factor zijn die het basislijngevaar alleen maar vergroot of verkleint. het is bijna zoals de onderschepping in gewone regressie[2]. De covariaten of de regressiecoëfficiënten x geven de proportionele verandering aan die verwacht wordt binnen het gevaar[2].

Het teken van de regressiecoëfficiënten, βi, speelt een taak binnen het gevaar van een onderwerp. Een verandering in deze regressiecoëfficiënten of covariaten zal het basislijngevaar verhogen of verlagen[2]. Een positief teken voor βi betekent dat het gevaar van een gebeurtenis hoger is, en dus de prognose voor de gebeurtenis die voor dat specifieke onderwerp van belang is, hoger is. Evenzo betekent een negatief teken dat het gevaar van de gebeurtenis lager is. Merk ook op dat de omvang, d.w.z. de waarde zelf ook een taak speelt[2]. bijvoorbeeld , voor de waarde van een variabele die gelijk is aan minstens één, zou betekenen dat het geen effect heeft op het Gevaar. Voor een waarde op één na, zal het het gevaar verminderen en voor een waarde groter dan één, zal het het gevaar verhogen[15]. Deze regressiecoëfficiënten, β, worden geschat door de gedeeltelijke waarschijnlijkheid te maximaliseren[23].

Cox Proportioneel Gevarenmodel kan een semi-parametrisch model zijn in de zin dat de basislijn gevaarsfunctie niet hoeft te worden gespecificeerd, d.w.z. dat deze kan variëren, waardoor voor elke unieke overlevingstijd een speciale parameter kan worden gebruikt. Maar het gaat ervan uit dat de snelheidsverhouding proportioneel blijft gedurende de gehele vervolgperiode[13]. Dit leidt tot een grotere flexibiliteit van het model. Een volledig parametrisch proportioneel gevarenmodel gaat er ook van uit dat de basislijn gevaarsfunctie vaak wordt geparametriseerd in overeenstemming met een specifiek model voor de verdeling van de overlevingstijden[2].

Het Cox-model kan omgaan met rechtsgecensureerde gegevens, maar niet direct met linksgecensureerde of intervalgecensureerde gegevens[19].

Er zijn enkele covariaten die niet voldoen aan de proportionele gevaarsaanname. ze mogen nog steeds een buurt van het model zijn, maar zonder het effect ervan in te schatten. dit wordt vaak gelaagdheid genoemd. De dataset is opgesplitst in N kleinere datasets die unieke waarden van de gelaagde covariaten ondersteunen. Elke kleinere dataset heeft zijn eigen basislijngevaar, waardoor de niet-parametrische een deel van het model vormt, en dat ze allemaal gemeenschappelijke regressieparameters hebben, waardoor de parametrische een deel van het model vormt. Er is geen regressieparameter voor de covariaten die gelaagd zijn.

De term “proportionele gevaren” verwijst naar het idee van een voortdurende relatie tussen de variabele en dus de regressiecoëfficiënten [2]. Dit suggereert dus dat de gevaarsfuncties voor twee willekeurige onderwerpen op elk moment proportioneel zijn. Het model van de proportionele gevaren gaat ervan uit dat er een vermenigvuldigingseffect van de covariaten op de gevaarsfunctie is [16].

Aalen’s Additief Model

Net als het Cox-model is ook dit model een regressiemodel, maar in tegenstelling tot het Cox-model definieert het de gevaarlijkheidsgraad als een additief in plaats van een vermenigvuldigend lineair model. Het gevaar wordt gedefinieerd als:

https://miro.medium.com/max/263/1*cXdV68PzjNk0-oXrYRGzNQ.png

Tijdens de schatting wordt bij elke stap de rechtlijnige regressie berekend. De regressie kan onstabiel worden door kleine steekproefgroottes of hoge colineariteit binnen de dataset. Het toevoegen van de term coef_penalizer helpt de stabiliteit te controleren. Begin met een kleine term en verhoog deze als hij te onstabiel wordt[11].

Dit is een parametrisch model, wat suggereert dat het een functionele vorm is met parameters waar we de informatie aan aanpassen. Parametrische modellen stellen ons in staat om de overlevingsfunctie, de gevaarsfunctie of de cumulatieve gevaarsfunctie te verhogen na onze maximale geobserveerde duur. Dit idee heet Extrapolatie[9]. De overlevingsfunctie van het Weibull model lijkt het volgende:

https://miro.medium.com/max/138/1*vBCImVQBmn0ctk5SeXbvkQ.png

Hier zijn λ en ρ zowel positief als groter dan nul. Hun waarden worden geschat als het model past bij de info . De Gevaarsfunctie wordt gegeven als:

https://miro.medium.com/max/85/1*AerPaHc4cWyLDEBAGXkI7g.png

Versneld storingsmodel

Als we twee afzonderlijke populaties A en B krijgen, die elk hun eigen overlevingsfuncties hebben, gegeven door SA(t) en SB(t), en dat ze met elkaar verbonden zijn door een of ander versneld faalpercentage, λ, zodanig dat,

Het kan het bewegen langs de overlevingsfunctie belemmeren of versnellen. λ zijn vaak gemodelleerd als een functie van covariaten[11]. Het beschrijft het uitrekken of inkrimpen van de overlevingstijd als functie van de voorspellingsvariabelen[19].

https://miro.medium.com/max/106/1*9z8pYGGotkx5vWrI5PGUOQ.png

Waarbij,

https://miro.medium.com/max/188/1*fEMFFrF1VAPNMVJIlvjRiA.png

Afhankelijk van de covariaten van de proefpersonen kan het model de faaltijden versnellen of vertragen. een stijging in xi betekent dat de gemiddelde/mediane overlevingstijd verandert door een element van exp(bi)[11]. We kiezen dan een parametrische vorm voor de overlevingsfunctie. Hiervoor kiezen we de Weibull-vorm.

https://miro.medium.com/max/102/1*qjicQ_XX5ov75BRoX2F0aQ.png

Overlevingsanalyse in Python met behulp van Lifelines Package

pijpleidingen installeren

De eerste stap is om het lifelines pakket in Python te plaatsen. je installeert het met behulp van pijpleidingen.

Eén ding betekent dat het lifelines-pakket ervan uitgaat dat elk onderwerp de gebeurtenis van belang heeft meegemaakt, tenzij we het expliciet specificeren[8].

model_name.fit(Tijd, Gebeurtenis, links_censoring=True)

De input voor de fitmethode van de overlevingsregressie, d.w.z. CoxPHFitter, WeibullAFTFitter en AalenAdditiveFitter, moet bestaan uit looptijden, gecensureerde indicatoren en covariaten binnen het soort van een Pandas DataFrame. De duur en de gecensureerde indicator moeten worden vastgelegd in de beslissing tot de fitmethode[8].

Het lifelines pakket bevat functies in lifelines.statistics die overeenkomen met twee overlevingscurves[9]. De Log-Rank Test vergelijkt de generatoren van twee gebeurtenissenreeksen. De reeksen hebben verschillende generatoren als de waarde die uit de test terugkomt hoger is dan een vooraf bepaalde waarde.

uit lifelines.statistics logrank_test importeren

resultaten = logrank_test(Timeline_1, Timeline_2, Event_1, Event_2, alpha=.99)

resultaten.print_samenvatting()