Analizę przeżycia stosuje się w celu oszacowania długości życia określonej populacji objętej badaniem. Nazywa się ją również “Analizą czasu do zdarzenia”, ponieważ jej celem jest oszacowanie czasu, w którym osoba prywatna lub grupa osób może doświadczyć interesującej jej okazji. Ten punkt oszacowania jest, że czas między narodzinami i zgonem zdarzeń Analiza przeżycia został pierwotnie opracowany i zatrudniony przez lekarzy naukowców i analityków danych, aby żyć w życiu konkretnej populacji[1]. Jednak z biegiem lat została ona wykorzystana w różnych innych zastosowaniach, takich jak przewidywanie rezygnacji klientów/pracowników, szacowanie czasu życia maszyny, itp. Zdarzenie narodzin jest często brane pod uwagę, ponieważ czas klienta rozpoczyna jego przynależność do korporacji, a zatem zdarzenie śmierci jest często brane pod uwagę, ponieważ klient odchodzi z korporacji.

Dane

W analizie przetrwania nie potrzebujemy dokładnych punktów początkowych i końcowych. Wszystkie obserwacje nie zawsze zaczynają się od zera. Temat można wprowadzić w każdej chwili w ramach badania. Cały czas trwania jest względny[7]. Wszystkie temat kupować standardowy linia startowa dokąd czas t być zero (t = 0) i każdy jeden poddany mieć przetrwanie prawdopodobieństwo odpowiedni jeden, i.e ich szansa the wydarzenie interes (śmierć, rozczłonkowanie, etc) być 100%.

Tam mogą powstawać sytuacje gdzie ilość informacja zapobiegać ono używać całkowicie w Przetrwanie Analiza. W takich sytuacjach pomocne może być reprezentatywne pobieranie próbek. W próbie reprezentatywnej, Twoim celem jest posiadanie równej lub prawie równej liczby uczestników z każdej grupy uczestników w całej populacji. Każda grupa nazywana jest Strata. Cała populacja jest rozwarstwiona (podzielona) na grupy, które wspierają pewną charakterystykę. Teraz, aby wybrać konkretną liczbę poddanych z każdej grupy, użyjesz prostego próbkowania . cała liczba poddanych jest określona na początku i dzielisz całą wymaganą liczbę pomiędzy każdą z grup i wybierasz tę liczbę losowo z każdej grupy.

Cenzura

Ważne jest, aby wiedzieć, że nie każdy członek populacji doświadczy zdarzenia interesującego (śmierć, odpływ itp.) w okresie obserwacji/nauczania. na przykład, będą klienci, którzy nadal są członkami firmy lub pracownicy nadal pracujący dla firmy lub maszyny, które nadal działają w okresie obserwacji/nauczania. Nie wiemy, czy w momencie przeprowadzania badania przeżyją oni interesujące ich wydarzenie. Wszyscy wiemy, że jeszcze tego nie doświadczyli. Ich czas przetrwania jest dłuższy niż czas trwania badania. Ich czas przetrwania być tak, oznaczać jako “Cenzurować” to znaczyć że ich czas przetrwanie odcinać. Dlatego Cenzura pozwala na życie dla populacji, która nie doświadczyła jeszcze interesującego jej wydarzenia.

Warto wspomnieć, że osoby/podmioty, które nie doświadczyły jeszcze interesującego ich wydarzenia, stały się dzielnicą badania, ponieważ całkowite usunięcie ich byłoby krzywdzące dla wszystkich w badaniu doświadczających interesującego ich wydarzenia. Nie możemy więc ignorować tych członków i dlatego jedynym sposobem na odróżnienie ich od tych, którzy doświadczyli interesującego ich wydarzenia jest posiadanie zmiennej wskazującej na cenzurę lub śmierć (wydarzenie zainteresowania).

Istnieją różne rodzaje cenzury wymazanej z analizy przetrwania, jak wyjaśniono poniżej[3]. Należy pamiętać, że cenzura musi być niezależna od długoterminowej wartości zagrożenia dla tego konkretnego podmiotu [24].

Właściwa cenzura: Dzieje się tak, gdy temat wchodzi przy t=0, tj. na początku badania i kończy się przed wystąpieniem interesującego go wydarzenia. albo nie przeżyje interesującego go wydarzenia w trakcie badania, tj. żył dłużej niż czas trwania badania, albo nie mógł być całkowicie otoczony badaniem i wyjechał wcześniej, nie doświadczając interesującego go wydarzenia, tj. wyjechał i nie mogliśmy go już badać.

Zostawili cenzurę: To się zdarza, gdy nie zaobserwowano zdarzenia narodzin. Ten rodzaj próbkowania ma miejsce, gdy celem badania jest przeprowadzenie analizy na osobach/podmiotach, które już doświadczyły tego zdarzenia i chcemy się upewnić, czy przeżyją je ponownie. Pakiet linii życia ma wsparcie dla zestawów danych cenzurowanych lewym przyciskiem myszy poprzez dodanie słowa kluczowego left_censoring=True. Zauważ, że domyślnie jest ustawiony na False. Przykład[9]:

model_name.fit(Czas, zdarzenie, left_censoring=True)

Cenzura interwałowa: Zdarza się to, gdy okres obserwacji, czyli czas między obserwacjami, nie jest nieprzerwany. Będzie to okres tygodniowy, miesięczny, kwartalny itp.

Istnieje argument o nazwie “wpis”, który określa czas między narodzinami a rozpoczęciem badania. Jeśli wypełnimy go w obrębie obciętego obszaru, będzie to oznaczać, że jesteśmy zbyt pewni tego, co dzieje się we wczesnym okresie po postawieniu diagnozy. Dlatego właśnie obcinamy je[9].

Krótko mówiąc, osoby, które nie doświadczyły interesującego ich wydarzenia w okresie badania, są cenzurowane na prawo, a osoby, które nie widziały narodzin, są cenzurowane na lewo[7]. Analiza przetrwania została opracowana głównie w celu rozwiązania kwestii cenzury prawej strony[7].

Funkcja przetrwania (Survival Function)

Funkcję przetrwania podaje

https://miro.medium.com/max/112/1*2gNtUSp_6nrw2NBfsXz4VA.png

Przetrwanie Funkcja definiować the prawdopodobieństwo że the wydarzenie interes zdarzenie zdarzać się przy czas t. Ono także móc interpretować ponieważ the prawdopodobieństwo przetrwanie po czas t [7]. Tutaj, T być że the przypadkowy życie brać od the populacja i ono móc negatywny. Zauważać że S(t) być między zero i jeden (wliczając), i S(t) móc niepowiększający funkcja t[7].

Funkcja zagrożenia

Funkcja Hazard, zwana również funkcją intensywności, jest zdefiniowana, ponieważ prawdopodobieństwo, że temat doświadczy okazji do zainteresowania się nim w określonym przedziale czasu, tak długo jak dana osoba przetrwała do początku tego przedziału [2]. jest to chwilowa szybkość obliczana w danym okresie czasu i szybkość ta jest brana pod uwagę jako stała [13]. Można ją również wziąć pod uwagę, ponieważ ryzyko przeżycia interesującego wydarzenia w czasie t. jest to liczba uczestników przeżywających wydarzenie w przedziale czasowym t podzielona przez ilość uczestników przeżywających w czasie t i szerokość przedziału[2].

https://miro.medium.com/max/262/1*2Dia2xF_DVMccQh8saPYFg.png

Ponieważ prawdopodobieństwo nieskończonego wariantu równającego się określonej wartości wynosi zero. Dlatego rozważamy prawdopodobieństwo wystąpienia zdarzenia w określonym przedziale czasu od T do (T + ΔT). Ponieważ naszym celem jest wyszukanie niebezpieczeństwa okazji i nie chcemy, aby niebezpieczeństwo się zwiększyło, ponieważ przedział ΔT staje się większy. Tak więc, aby to uregulować, dzielimy równanie przez ΔT. To skaluje równanie przez ΔT[14]. Równanie stopnia zagrożenia jest podane jako:

Granica ΔT zbliża się do zera, co oznacza, że naszym celem jest przeżycie niebezpieczeństwa sytuacji, która wydarzy się w konkretnym momencie. Tak więc, przyjęcie granicy ΔT zbliżającej się do zera daje nieskończenie mały okres czasu [14].

Często dzieje się tak dlatego, że choć mamy prawdopodobieństwo w liczniku, to jednak ΔT w mianowniku może skończyć się wartością większą niż jedna.

Szacunek Kaplana-Meiera

Kaplan-Meier Estimate jest zatrudniony, aby przeżyć ułamek osób, które przeżyły określoną ilość czasu t[4] w równorzędnych okolicznościach[2]. nie da to średniej oceny populacji[7]. Metoda ta jest dodatkowo nazywana limitem towarowym. Ono pozwalać stół dzwonić, życie stół, i wykres, dzwonić przetrwanie krzywa, produkować dla daleko lepszy widok populacja zagrożony[2]. Czas przetrwania jest definiowany, ponieważ czas od zdefiniowanego punktu do wystąpienia interesującego go zdarzenia[5]. Kaplan-Meier Przetrwanie krzywa jest że prawdopodobieństwo przetrwania podczas dany długość twój czas dokąd czas brać pod uwagę w mały przerwa. Dla przetrwanie Analiza using Kaplan-Meier Szacunek, tam być trzy założenie [4]:

Przedmiot który cenzurować mieć równorzędny przetrwanie perspektywa jako tamto który wciąż podążać.

Przetrwanie prawdopodobieństwo być że ten sam wszystkie temat , niezależnie od raz rekrutować wśród the nauka.

Wydarzenie zainteresowanie zdarzać się przy the żądany czas. to być często ponieważ wydarzenie móc między dwa egzamin. Szacunkowy przetrwanie czas często dokładnie mierzyć jeżeli egzamin zdarzać się często i.e. jeżeli przerwa czasowa między egzaminami być niezwykle mały.

Przetrwanie prawdopodobieństwo przy jakaś szczególny czas obliczać ponieważ liczba podmiot przetrwanie dzielić kwota jednostka w niebezpieczeństwo. Cenzurowany podmiot liczyć wśród mianownik[4]. Równanie dawać jako następujący:

https://miro.medium.com/max/117/1*e0K73uSLwzH4Xr5Dt2ZQIw.png

W tym miejscu ni przedstawia ilość osób w niebezpieczeństwie przed czasem t. di przedstawia ilość interesującego wydarzenia w czasie t.

Dla krzywej przetrwania dla oszacowania Kaplana i Meiera oś y reprezentuje prawdopodobieństwo, że temat nadal nie doświadczył interesującego go zdarzenia po czasie t, gdzie czas t znajduje się na osi x[9]. aby upewnić się, jak bardzo jesteśmy niepewni co do oszacowań celu, używamy przedziałów arogancji[10]. Mediana czasu jest taka, że czas, w którym średnio połowa populacji doświadczyła zdarzenia z linii życia import KaplanMeierFitter

z lifelines.datasets import load_waltons

df = load_waltons()

T = df[“T”]

E = df[“E”]

kmf = KaplanMeierFitter()

kmf.fit(T, event_observed=E)

kmf.plot()rest[9].

Przetrwanie Regresja

Regresja przetrwania polega na wykorzystaniu nie tylko czasu trwania, a co za tym idzie zmiennych cenzury, ale także na wykorzystaniu dodatkowych danych (płeć, wiek, wynagrodzenie itp.) jako kowarianty. Redukujemy” te kowarianty w stosunku do zmiennej czasu trwania.

Zbiór danych używany do regresji przetrwania musi zawierać się w rodzaju (Pandas) DataFrame z kolumną oznaczającą czas trwania tematów, opcjonalną kolumną wskazującą, czy dane zdarzenie zostało zaobserwowane, czy też nie, również jako dodatkowe kowarianty, z którymi chciałbyś się cofnąć. Podobnie jak w przypadku innych technik regresji, chciałbyś wstępnie przetworzyć swoje dane przed wprowadzeniem ich do modelu.

Cox Proporcjonalna Regresja Zagrożeń Model Regresji Cox

Cox wprowadził model analizy wielowymiarowej Cox Proportional Hazards, który uwzględnia wpływ kilku zmiennych na raz[2] i bada związek między rozkładem przeżycia a tymi zmiennymi[24]. Jest to prawie jak analiza korelacji wielokrotnej, ale różnica polega na tym, że zależna od niej zmienna polega na tym, że funkcja Hazard w danym czasie t. jest obsługiwana w bardzo małych odstępach czasu, zwanych timeclicks, które zawierają co najwyżej jedno interesujące wydarzenie. jest to półparametryczne podejście do szacowania wag podczas Proporcjonalnego Modelu Zagrożeń[16]. Oszacowanie parametrów uzyskuje się poprzez maksymalizację częściowego prawdopodobieństwa wystąpienia wag[16].

Gradient Descent jest stosowany w celu dopasowania Modelu Coxa do danych[11]. Przyczyna Gradient Descent jest poza zakresem tego tekstu, ale znajduje wagi takie, że błąd jest zminimalizowany.

Wzór na Cox Proporcjonalny Model Regresji Zagrożeń jest podany poniżej. Model działa tak, że zagrożenie logiczne prywatnego podmiotu może być funkcją liniową ich kowarianatów statycznych i funkcją zagrożenia bazowego na poziomie populacji, która zmienia się w czasie. Te kowarianty są często szacowane na podstawie częściowego prawdopodobieństwa[24].

https://miro.medium.com/max/267/1*yGKtk9wXb2gSyvL3MumYNw.png

β0(t) to funkcja zagrożenia podstawowego i jest ona zdefiniowana, ponieważ prawdopodobieństwo przeżycia interesującego nas zdarzenia, gdy wszystkie inne kowarianty są równe zeru. I jest to jedyny składnik zależny od czasu w ramach modelu. Model nie przyjmuje żadnego założenia o funkcji zagrożenia podstawowego i przyjmuje postać parametryczną dla wpływu kowarianatów na zagrożenie[25]. Zagrożenie częściowe może być czasowo-zmiennym czynnikiem skalarnym, który tylko zwiększa lub zmniejsza zagrożenie bazowe. jest to prawie jak przechwycenie w zwykłej regresji[2]. Kowarianty lub współczynniki regresji x dają proporcjonalną zmianę, której można się spodziewać w ramach zagrożenia[2].

Znak współczynników regresji, βi, odgrywa rolę w obrębie zagrożenia danego tematu. Zmiana tych współczynników regresji lub kowarianatów spowoduje albo zwiększenie, albo zmniejszenie zagrożenia podstawowego[2]. Dodatni znak dla βi oznacza, że zagrożenie okazją jest większe, a tym samym prognoza dla zdarzenia interesującego dla danego tematu jest wyższa. Podobnie, znak ujemny oznacza, że niebezpieczeństwo zdarzenia jest mniejsze. Należy również zauważyć, że wielkość, czyli wartość sama w sobie odgrywa pewną rolę[2]. na przykład, dla wartości zmiennej równej co najmniej jednej oznaczałoby, że nie będzie ona miała żadnego wpływu na zagrożenie. Dla wartości innej niż jedna, zmniejszy ona Zagrożenie, a dla wartości większej niż jedna, zwiększy Zagrożenie[15]. Te współczynniki regresji, β, są szacowane poprzez maksymalizację częściowego prawdopodobieństwa[23].

Cox Proportional Hazards Model może być modelem półparametrycznym w tym sensie, że funkcja zagrożenia bazowego nie musi być określona, tzn. może być różna, co pozwala na użycie specjalnego parametru dla każdego unikalnego czasu przeżycia. Zakłada on jednak, że współczynnik prędkości pozostaje proporcjonalny przez cały okres obserwacji[13]. Prowadzi to do zwiększenia elastyczności modelu. W pełni parametryczny proporcjonalny zagrożenie model także zakładać że podstawowy zagrożenie funkcja często parametryzować konsekwentny z szczególny model dla dystrybucja przetrwanie czas[2].

Model Cox może obsługiwać dane cenzurowane po prawej stronie, ale nie może obsługiwać bezpośrednio danych cenzurowanych po lewej stronie lub danych cenzurowanych po przerwach[19].

Tam być niektóre kowarianty che słuchać proporcjonalny zagrożenie założenie. pozwolić wciąż być sąsiedztwo model, ale bez oszacowanie swój skutek. to często dzwonić rozwarstwienie. Zbiór danych jest podzielony na N mniejszych zbiorów danych obsługiwanych przez unikalne wartości kowarianatów stratyfikujących. Każdy mniejszy zbiór danych ma swoje własne zagrożenie bazowe, które składa się na nieparametryczną część modelu i że wszystkie one mają wspólne parametry regresji, które składają się na parametryczną część modelu. Nie ma żadnego parametru regresji dla kowarianatów rozwarstwionych.

Pojęcie “zagrożeń proporcjonalnych” odnosi się do idei ciągłej zależności pomiędzy zmienną, a zatem i współczynnikami regresji [2]. Sugeruje to zatem, że funkcje zagrożenia dla dwóch dowolnych podmiotów w dowolnym momencie są proporcjonalne. Model zagrożeń proporcjonalnych zakłada, że istnieje zwielokrotniony wpływ kowarianatów na funkcję zagrożenia [16].

Dodatkowy model Aalena

Podobnie jak model Coxa, model ten jest dodatkowo modelem regresji, ale w przeciwieństwie do modelu Coxa, definiuje on stopień zagrożenia jako dodatek, a nie mnożnikowy model liniowy. Zagrożenie definiowane jest jako:

https://miro.medium.com/max/263/1*cXdV68PzjNk0-oXrYRGzNQ.png

Podczas szacowania, regresja prostoliniowa jest obliczana na każdym etapie. Regresja może stać się niestabilna ze względu na małe rozmiary próbek lub wysoką współliniowość w obrębie zbioru danych. Dodanie terminu coef_penalizer pomaga kontrolować stabilność. Zacznij od małej ilości terminu i zwiększaj, jeśli stanie się on zbyt niestabilny[11].

Jest to model parametryczny, co sugeruje, że jest to forma funkcjonalna z parametrami, do których dopasowujemy informację. Modele parametryczne pozwalają nam na zwiększenie funkcji przetrwania, funkcji zagrożenia, czy też skumulowanej funkcji zagrożenia powyżej naszego maksymalnego obserwowanego czasu trwania. Idea ta nosi nazwę Extrapolation[9]. Funkcja przetrwania modelu Weibull’a wydaje się być następująca:

https://miro.medium.com/max/138/1*vBCImVQBmn0ctk5SeXbvkQ.png

Tutaj, λ i ρ są zarówno pozytywne, jak i większe od zera. Ich wartości są szacowane, gdy model jest dopasowany do informacji . Funkcja Hazard jest podana jako:

https://miro.medium.com/max/85/1*AerPaHc4cWyLDEBAGXkI7g.png

Model przyspieszonej regresji czasu awarii

Jeżeli dano nam dwie oddzielne populacje A i B, z których każda posiada swoje własne funkcje przetrwania podane przez SA(t) i SB(t) oraz że są one powiązane ze sobą przez pewien przyspieszony wskaźnik awaryjności, λ, taki, że,

Może to utrudniać lub przyspieszać poruszanie się wzdłuż funkcji przetrwania. λ są często modelowane jako funkcja kowarian[11]. Ono opisywać rozciąganie się lub skracanie się czas przetrwania jako funkcja prognoza zmienna[19].

https://miro.medium.com/max/106/1*9z8pYGGotkx5vWrI5PGUOQ.png

Gdzie,

https://miro.medium.com/max/188/1*fEMFFrF1VAPNMVJIlvjRiA.png

W zależności od kowariantu uczestników, model może przyspieszyć lub opóźnić czas niepowodzenia. wzrost xi oznacza zmianę średniego/średniego czasu przeżycia o element exp(bi)[11]. Następnie wybieramy formę parametryczną dla funkcji przetrwania. W tym celu wybierzemy formę Weibull’a.

https://miro.medium.com/max/102/1*qjicQ_XX5ov75BRoX2F0aQ.png

Analiza przetrwania w Pythonie przy użyciu Pakietu Linii Życia

instalować linie życia

Pierwszym krokiem jest umieszczenie pakietu linii życia w Pythonie. zainstalujesz go za pomocą pipy.

Jedną z rzeczy jest to, że pakiet linii życia zakłada, że każdy podmiot doświadczył interesującego go zdarzenia, chyba że wyraźnie go określimy[8].

model_name.fit(Czas, zdarzenie, left_censoring=True)

Dane wejściowe do metody dopasowania regresji przetrwania, tj. CoxPHFitter, WeibullAFTFitter i AalenAdditiveFitter, muszą zawierać czas trwania, wskaźniki cenzurowane i kowarianty w ramach rodzaju Pandas DataFrame. Czas trwania i cenzurowany wskaźnik musi być określony w decyzji dotyczącej metody dopasowania[8].

Pakiet linii życia zawiera funkcje w lifelines.statistics dopasowujące dwie krzywe przeżycia[9]. Log-Rank Test porównuje dwa generatory serii zdarzeń. Serie mają różne generatory, jeśli wartość zwrócona z testu przekracza jakąś wcześniej zdefiniowaną wartość.

z lifelines.statistics zaimportuj logrank_test

results = logrank_test(Timeline_1, Timeline_2, Event_1, Event_2, alpha=.99)

results.print_summary()