Artifical intelligence models to diagnose diabetic retinopathy. Part3
Prof. dr hab. n. med. AndrzejGrzybowski
Kierownik Katedry Okulistyki, Uniwersytet Warmińsko-Mazurski, Olsztyn Kierownik Instytutu Okulistycznych Badań Naukowych, Fundacja Okulistyka 21, Poznań
Streszczenie
Artykuł omawia rozwój i zastosowanie sztucznej inteligencji (AI) w diagnostyce retinopatii cukrzycowej (DR). Szczególną uwagę poświęcono algorytmowi opracowanemu przez Google, który osiągnął bardzo wysoką czułość i swoistość w badaniach klinicznych, a także systemowi Selena+, wdrożonemu w ramach krajowego programu przesiewowego w Singapurze. Przedstawiono korzyści wynikające z zastosowania AI, takie jak przyspieszenie diagnostyki, obniżenie kosztów opieki zdrowotnej oraz zwiększenie dostępności badań przesiewowych. Omówiono także wyzwania, m.in. brak standaryzacji oceny, integrację z systemami opieki zdrowotnej, kwestie jakości obrazu oraz aspekty etyczne i bezpieczeństwa. Autor podkreśla, że choć sztuczna inteligencja ma potencjał, by zrewolucjonizować proces wykrywania i zarządzania DR, to jej pełne wdrożenie wymaga dalszych badań, standaryzacji oraz ścisłej współpracy między naukowcami, klinicystami i przemysłem technologicznym.
Słowa kluczowe: sztuczna inteligencja, retinopatia cukrzycowa, diagnostyka, głębokie uczenie, algorytmy, badania przesiewowe, okulistyka
Abstract
This article discusses the development and application of artificial intelligence (AI) in the diagnosis of diabetic retinopathy (DR). Particular emphasis is given to the algorithm developed by Google, which demonstrated very high sensitivity and specificity in clinical studies, as well as the Selena+, system implemented within Singapore’s national DR screening program. The paper highlights the benefits of AI, including faster diagnostics, reduced healthcare costs, and greater accessibility of screening programs. It also addresses challenges such as the lack of standardized grading systems, integration with healthcare workflows, image quality issues, and ethical and safety considerations. The author concludes that while AI has the potential to revolutionize DR detection and management, its full implementation requires further research, standardization, and close collaboration between researchers, clinicians, and the technology industry.
Key words: artificial intelligence, diabetic retinopathy, diagnostics, deep learning, algorithms, screening, ophthalmology
Praca współfinansowana ze środków Ministerstwa Edukacji i Nauki na podstawie umowy nr POPUL/ SN/0475/2023/01 w ramach projektu pt.: Kampania edukacyjna „Sztuczna inteligencja w okulistyce”
Algorytm Google
Potencjalne zastosowanie nowych rozwiązań sztucznej inteligencji do analizy obrazów dna oka, szczególnie w retinopatii cukrzycowej (DR, diabetic retinopathy), przyciągnęło uwagę nie tylko mniejszych, niezależnych zespołów i firm, ale także gigantów branżowych – Google. To nie jedyne wejście Google w medyczną AI, ponieważ zespoły Google współpracują nad znalezieniem rozwiązań do automatycznej analizy obrazów histopatologicznych i innych publikacji niezwiązanych z analizą obrazu.
Badanie sponsorowane przez Google Inc., wprowadzające ich algorytm do automatycznego wykrywania DR, zostało opublikowane w 2016 r. przez Gulshana i współpracowników. Aby opracować algorytm, autorzy zebrali ponad 128 000 obrazów dna oka skoncentrowanych na plamce od pacjentów zgłaszających się na badania przesiewowe w Indiach i USA [1, 2]. Aby zweryfikować wynikowy algorytm, wybrano losowy zestaw obrazów z tego samego źródła danych, które nie były używane w tworzeniu algorytmu. Zestaw obrazów zarówno do rozwoju, jak i walidacji składał się z mieszanych zdjęć z mydriazą i bez mydriazy z kilku różnych modeli kamer dna oka. Dodatkowo autorzy przetestowali algorytm na wspomnianym wcześniej francuskim zestawie danych – Messidor-2. Algorytm osiągnął imponujące wyniki z czułością 96,1% i ze specyficznością 93,9% (dostrojony do wysokiej czułości) oraz czułością 87,0% i specyficznością 98,5% (dostrojony do specyficzności). Odpowiednie liczby dla zestawu danych Messidor-2 wyniosły 97,5% i 93,4% (wysoka czułość) oraz 90,3% i 98,1% (wysoka specyficzność) [2].
Chociaż te wyniki dokładności należą do najwyższych opublikowanych, a wielkość próby jest znaczna, to badanie wyróżniało się tym, że położyło duży nacisk na wybór i walidację ludzkich ekspertów. Początkowo, do opracowania zestawu danych, badanie zaprosiło 54 licencjonowanych okulistów i stażystów okulistyki w ostatnim roku rezydentury w USA, z których każdy ocenił od 20 do 62 508 obrazów. W rezultacie każdy obraz został oceniony od 3 do 7 razy. Ostateczny status DR i możliwość oceny obrazu zostały ustalone na podstawie decyzji większościowej. Eksperci czasami widzieli obrazy, które wcześniej ocenili, aby zmierzyć wewnętrzną spójność oceny, czyli jak często, widząc ten sam obraz, ekspert decydował się na ten sam wynik. Szesnastu ekspertów przeprowadziło ocenę wystarczającej liczby obrazów, aby można było to obliczyć, a 7 lub 8 najlepszych okulistów na podstawie tego pomiaru zostało wybranych do oceny wszystkich obrazów z zestawów walidacyjnych.
Zmierzono również zgodność między ekspertami dla 26 okulistów. Średnia wewnętrzna spójność oceny dla 16 ekspertów w przypadku DR wymagającej skierowania wyniosła 94%, a zgodność między ekspertami dla 26 ekspertów wyniosła 95,5%. Nawet wybierając najbardziej spójnych ekspertów spośród kilku certyfikowanych okulistów, średni wskaźnik zgodności dla obrazów DR wymagającej skierowania wyniósł tylko 77,7% dla zestawu danych EyePacs-1, z pełną zgodnością wszystkich 8 ekspertów osiągniętą w mniej niż 20% obrazów DR wymagającej skierowania. Zgodność ekspertów była znacznie lepsza w przypadku obrazów DR niewymagającej skierowania, z pełną zgodnością w 85,1% przypadków [3].
To podkreśla, jak wiele zastrzeżeń może mieć obecnie powszechnie akceptowana metoda oceny i złoty standard certyfikowanej oceny przez ludzi. Spośród 16 ekspertów średnio 4 na 100 obrazów było ocenianych inaczej za każdym razem, gdy były oceniane przez tę samą osobę. Spośród 8 najbardziej spójnych ekspertów tylko 20% przypadków DR wymagającej skierowania zostało ocenionych jako takie przez wszystkich ekspertów.
Kwestie związane z oceną przez ludzi zostały dalej zbadane w kolejnym badaniu z 2018 r. W nim autorzy rozwijają wcześniej opisane prace Gulshana w zakresie opracowania ulepszonego algorytmu, rozszerzenia zestawu danych szkoleniowych i zbadania różnych obecnie używanych protokołów oceny. Autorzy wdrożyli rozwiązanie, w którym oprogramowanie generuje kilka liczb w zakresie 0-1, z których każda wskazuje jego pewność, że obraz reprezentuje dany poziom ciężkości DR. Wydaje się to bardzo podobne do rozwiązań wdrożonych przez IDx-DR, które również generują poziom pewności w wyniku większym niż umiarkowana DR, chociaż nie jest to prezentowane użytkownikowi końcowemu. Pozwala to na stosunkowo łatwe dostosowanie równowagi czułości i specyficzności systemu, skupiając się na jednym z tych wskaźników. To badanie zakończyło się trzema różnymi „pulami oceny” – eksperci EyePacs, certyfikowani okuliści i specjaliści od siatkówki. Dodatkowo wprowadzono protokół arbitrażowy w przypadku rozbieżności między specjalistami od siatkówki, z sesjami arbitrażowymi asynchronicznymi i na żywo, aż do osiągnięcia porozumienia. Jest to przeciwieństwo pierwszych prac, które opierały się tylko na decyzji większościowej. Nowy algorytm został oparty na ponad 1,5 mln obrazów siatkówki, z 3737 obrazami z oceną arbitrażową użytymi do dostrojenia systemu i 1958 obrazami użytymi do walidacji. Zestaw walidacyjny został oceniony przez 3 specjalistów od siatkówki indywidualnie, a następnie powtórzony z arbitrażem na żywo wszystkich obrazów między wszystkimi 3 specjalistami. Dodatkowo trzech różnych okulistów oceniło obrazy indywidualnie.
Ocena arbitrażowa została ustanowiona jako złoty standard do dalszych porównań. Wszyscy eksperci mieli wysoką specyficzność – 97,5%, 97,9% i 99,1% dla okulistów oraz 99,1%, 99,3%, 99,3% dla specjalistów od siatkówki. Czułość była jednak znacznie niższa, z okulistami w zakresie od 75,2% do 76,4% indywidualnie i 83,8% jako decyzja większościowa w porównaniu z oceną arbitrażową. Nawet decyzja większościowa specjalistów od siatkówki pozostawiała miejsce na poprawę przy 88,1%, a indywidualna czułość wynosiła 74,6%, 74,6% i 82,1%.
Większość przypadków rozbieżności między oceną większościową okulistów a wynikiem arbitrażowym wynikała z pominiętych mikrotętniaków – 36%; błędnie zinterpretowanych artefaktów obrazu, które można uznać za mikrotętniaki lub małe krwotoki – 20%; oraz błędnie sklasyfikowanych krwotoków – 16%. Po wdrożeniu procedury arbitrażowej i dostrojeniu autonomicznego systemu osiągnął on poziom dokładności porównywalny z dowolnym specjalistą od siatkówki lub okulistą zaangażowanym w badanie [4].
Przeprowadzono badanie prospektywne w celu oceny wykonalności algorytmu w rzeczywistych warunkach, wykorzystując wiele lekcji z dwóch powyżej opisanych badań. Badanie przeprowadzono w dwóch szpitalach w Indiach na łącznej liczbie 3049 diabetyków uczestniczących w wizytach w lokalnych klinikach ogólnej okulistyki i witreoretinalnych, a także w inicjatywach teleskriningowych. Podczas wizyt wykonano zdjęcia dna oka skoncentrowane na plamce o kącie 40–45 stopni, za pomocą kamery kompaktowej, niskokosztowej kamery dna oka. Wszystkie zdjęcia były bez mydriazy i nie uwzględniano ich w dalszych decyzjach terapeutycznych dla pacjentów, którzy kontynuowali wizyty. Wszystkie zdjęcia zostały później ocenione przez przeszkolonego eksperta niebędącego lekarzem oraz specjalistę od siatkówki. Wszystkie zdjęcia z jednego z dwóch ośrodków, łącznie 997 pacjentów, zostały również ocenione przez trzech specjalistów od siatkówki z procedurą arbitrażową, jak w poprzednim badaniu. Dodatkowo wszystkie zdjęcia z drugiego ośrodka z jakimikolwiek rozbieżnościami między ocenami ekspertów lub wynikiem algorytmu (5-stopniowa ocena DR i status CSME) również zostały poddane arbitrażowi. Wyniki pod względem dokładności oceny przez ludzi w wykrywaniu DR wymagającej skierowania były w dużej mierze podobne do tych w poprzednim badaniu – czterech ekspertów miało czułość w zakresie od 73,4% do 88,8%, ze specyficznością od 83,5% do 98,7%. Algorytm miał porównywalną wydajność, z czułością 88,9% w pierwszym ośrodku i 92,1% w drugim ośrodku oraz ze specyficznością odpowiednio 92,2% i 95,2%. Algorytm DR Google został przeszkolony na obrazach z wielu różnych kamer, z których tylko 0,3% zostało wykonanych za pomocą tej konkretnej kamery dna oka, jednak wykazał bardzo dobrą wydajność na obrazach wykonanych za jej pomocą, co sugeruje, że algorytm jest w stanie poradzić sobie z różnym sprzętem używanym do wykonywania zdjęć.
Chociaż algorytm i jego wyniki wydają się bardzo obiecujące, z dobrą dokładnością, wymaga dalszych prac, aby mógł być używany w warunkach klinicznych, co sami autorzy podkreślają. Po pierwsze, ponieważ obecnie nie ma możliwości oceny jakości obrazu, tylko obrazy uznane za możliwe do oceny przez panel arbitrażowy zostały uwzględnione w tym ostatnim badaniu. Dodatkowo, podobnie jak w przypadku wszystkich innych algorytmów, ich miejsce w ramach i dokładne protokoły szeroko zakrojonych badań prze
siewowych oraz integracja z istniejącym przepływem pracy klinicznej lub poza nim pozostają do opracowania i oceny. To ostatnie badanie zostało zaprojektowane specjalnie tak, aby algorytm nie zakłócał ustalonego układu klinicznego [4].
Algorytm Selena+
Singapur, jeden z bardzo niewielu krajów, które mają ustanowiony krajowy program przesiewowy DR, jest również na czele testowania głębokiego uczenia do wykrywania DR. Ting i wsp. wykorzystali obrazy z trwającego Singapurskiego Narodowego Programu Przesiewowego Retinopatii Cukrzycowej (SIDRP, Singapore Integrated Diabetic Retinopathy Programme), które zostały dodatkowo ocenione przez 2 starszych ekspertów niebędących lekarzami i poddane arbitrażowi przez starszego specjalistę od siatkówki w przypadku rozbieżnych ocen. Łącznie 72 610 obrazów z lat 2010–2013 zostało uwzględnionych w zestawie danych szkoleniowych, a kolejne 71 896 z lat 2014– 2015 zostało użytych do podstawowego zestawu walidacyjnego. System dodatkowo zweryfikowano przy użyciu obrazów z wieloetnicznych populacji z Singapuru oraz obrazów z badań przesiewowych z całego świata – Chin, badania African-American Eye Disease Study (USA), Royal Victoria Eye Hospital (Australia), Meksyku i University of Hong Kong. Badania te obejmowały od 1052 do 15 798 obrazów, co dało łączny zestaw walidacyjny 112 618 obrazów, ponad 56 tys. pacjentów. Standardy odniesienia różniły się między różnymi badaniami, ale wszystkie obejmowały co najmniej 2 ekspertów, z największym badaniem pod względem liczby obrazów (n = 15 798) obejmującym również arbitraż specjalisty od siatkówki.
W przypadku podstawowej walidacji, czyli danych z SIDRP z lat 2014–2015, system wykazał czułość 90,5% w wykrywaniu DR wymagającej skierowania, porównywalną z profesjonalnymi ekspertami na tym samym zestawie danych przy 91,5%, w porównaniu z ostateczną decyzją arbitrażową specjalisty od siatkówki. Specyficzność tego rozwiązania wyniosła 91,6%, niższa niż profesjonalnych ekspertów przy 99,3%. Co ciekawe, system okazał się lepszy w wykrywaniu DR zagrażającej wzrokowi przy 100%, z przeszkolonymi ekspertami ocenianymi na tylko 88,6%, ponownie kosztem niższej specyficzności. Ponieważ badanie obejmowało wiele grup etnicznych, ale zostało opracowane tylko na podstawie obrazów SIDRP, autorzy przeanalizowali, czy wykazywał on uprzedzenia rasowe lub inne. Było to możliwe dzięki dużej różnorodności rasowej w zestawach walidacyjnych – malajskiej, indyjskiej, chińskiej, białej, afroamerykańskiej i latynoskiej. Algorytm osiągnął porównywalną wydajność w różnych podgrupach pacjentów według rasy, dodatkowo wiek, płeć i kontrola glikemii nie wpłynęły na dokładność algorytmu.
Korzyści wynikające z zastosowania AI w diagnostyce DR
Zastosowanie AI w diagnostyce DR przynosi wiele korzyści. Po pierwsze, przyspiesza proces diagnostyczny, co jest szczególnie ważne w kontekście rosnącej liczby pacjentów z cukrzycą. Po drugie, redukuje koszty opieki zdrowotnej poprzez automatyzację badań przesiewowych i zmniejszenie liczby niepotrzebnych wizyt u specjalistów. Po trzecie, zwiększa dostępność badań przesiewowych, zwłaszcza w regionach o ograniczonym dostępie do okulistów.
Wyzwania i przyszłość AI w diagnostyce DR
Przyszłość AI w diagnostyce DR wydaje się obiecująca, zwłaszcza w kontekście dalszego rozwoju technologii głębokiego uczenia i zwiększenia dostępności systemów AI. W miarę postępu technologicznego można spodziewać się jeszcze większej dokładności diagnostycznej oraz zastosowania AI w innych obszarach okulistyki, takich jak diagnozowanie innych chorób siatkówki. Aby w pełni wykorzystać potencjał AI, konieczna jest dalsza współpraca między naukowcami, lekarzami i przemysłem technologicznym oraz integracja systemów AI z istniejącymi systemami opieki zdrowotnej.
Mimo znaczących postępów w technologiach AI, istnieją pewne wyzwania związane z ich wdrożeniem w praktyce klinicznej. Kluczowe kwestie to:
- Jakośćobrazu: Niektóre systemy nie mają wbudowanej oceny jakości obrazu, co może prowadzić do błędów w analizie.
- Integracjazsystemamiopiekizdrowotnej: Wdrożenie AI wymaga dostosowania do istniejących przepływów pracy klinicznej.
- Standaryzacja oceny: Różne kryteria oceny (np. ICDR, ETDRS) mogą wpływać na wyniki i porównywalność systemów.
- Etykaibezpieczeństwo: Wymagane są dalsze badania, aby zapewnić, że systemy AI są bezpieczne i nie wprowadzają uprzedzeń.
Podsumowanie
Retinopatia cukrzycowa stanowi poważne zagrożenie dla zdrowia publicznego na całym świecie, a jej wczesne wykrywanie ma kluczowe znaczenie w zapobieganiu poważnym powikłaniom. Sztuczna inteligencja ma potencjał, aby zrewolucjonizować proces diagnostyki i zarządzania DR, szczególnie w kontekście rosnącej liczby pacjentów z cukrzycą. Mimo pewnych wyzwań, korzyści wynikające z automatyzacji procesu diagnostycznego, zwiększenia dostępności badań przesiewowych oraz redukcji kosztów opieki zdrowotnej są nieocenione. Dalszy rozwój i integracja systemów AI z istniejącymi systemami opieki zdrowotnej będą kluczowe dla skutecznego zarządzania retinopatią cukrzycową na globalną skalę.
Przegląd Okulistyczny nr 3/2025
Polecane piśmiennictwo:
- Grzybowski A.: Artificial inteligence in ophthalmology, Springer 2021.
- Gulshan V., Peng L., Coram M., Stumpe M.C. i wsp.: Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA. 2016 Dec 13; 316(22): 2402-2410.
- Krause J., Gulshan V., Rahimy E., Karth P. i wsp.: Grader variability and the importance of reference standards for evaluating machine learning models for diabetic retinopathy. ophthalmology. 2018 Aug; 125(8): 1264-1272.
- Gulshan V., Rajan R.P., Widner K., Wu D. i wsp.: performance of a deep-learning algorithm vs manual grading for detecting diabetic retinopathy in India. JAMA Ophthalmol. 2019 Sep 1; 137(9): 987-993.