Υγεία

Διάγνωση από chatbot; Ξανασκεφτείτε το – Απογοητευτικά αποτελέσματα τεστ σε 21 μοντέλα AI

Δημοσιεύτηκε στις 16/04/2026 23:00

Προσθήκη του politica.gr ως προτεινόμενη πηγή στην Google

Τα μεγάλα γλωσσικά μοντέλα (LLM) μπορεί να εντυπωσιάζουν όταν καλούνται να δώσουν μια τελική διάγνωση, όμως εξακολουθούν να εμφανίζουν σοβαρά κενά στα πιο κρίσιμα στάδια της κλινικής σκέψης. Αυτό είναι το βασικό συμπέρασμα νέας μελέτης που δημοσιεύθηκε στο JAMA Network Open, η οποία αξιολόγησε 21 από τα πλέον προηγμένα μοντέλα τεχνητής νοημοσύνης.

Οι ερευνητές θέλησαν να απαντήσουν σε ένα βασικό ερώτημα: μπορούν να στηρίξουν την λήψη ιατρικών αποφάσεων από την αρχή έως το τέλος; Η απάντηση που δίνει η μελέτη είναι μάλλον… επιφυλακτική. Παρά τη συνολικά υψηλή ακρίβεια σε ορισμένα στάδια, τα μοντέλα αποδείχθηκαν πολύ λιγότερο αξιόπιστα, όταν χρειάστηκε να διαχειριστούν τη διαφορική διάγνωση (σ.σ. η ιατρική διαδικασία αποκλεισμού πιθανών ασθενειών με παρόμοια συμπτώματα) και την αβεβαιότητα – δύο από τα πιο κομβικά στοιχεία της πραγματικής ιατρικής πρακτικής.

Πώς έγινε η αξιολόγηση

Η ομάδα αξιολόγησε 21 εμπορικά διαθέσιμα εργαλεία τεχνητής νοημοσύνης, ανάμεσά τους μοντέλα των OpenAI, Anthropic, Google DeepMind, DeepSeek και xAI. Τα συστήματα δοκιμάστηκαν σε 29 τυποποιημένες κλινικές περιπτώσεις από το MSD Manual, οι οποίες αναπαριστούσαν τη βήμα-βήμα πορεία ενός πραγματικού περιστατικού: από τη διαφορική διάγνωση και τις διαγνωστικές εξετάσεις έως την τελική διάγνωση και τη θεραπευτική αντιμετώπιση. Κάθε σενάριο αξιολογήθηκε τρεις φορές.

Για να αποτυπώσουν καλύτερα την κλινική απόδοση, οι ερευνητές δημιούργησαν και μια νέα σύνθετη μέτρηση, τη βαθμολογία PrIME-LLM (Proportional Index of Medical Evaluation for LLMs), η οποία δεν μετρά απλώς το ποσοστό σωστών απαντήσεων, αλλά το πόσο ικανοποιητικά και ισορροπημένα αποδίδει κάθε μοντέλο σε όλο το φάσμα της κλινικής συλλογιστικής.

Πού τα πήγαν καλά και πού όχι

Το βασικό μοτίβο ήταν σαφές σχεδόν σε όλα τα μοντέλα. Η υψηλότερη ακρίβεια καταγράφηκε στις ερωτήσεις τελικής διάγνωσης, ενώ οι μεγαλύτερες αδυναμίες εμφανίστηκαν στη διαφορική διάγνωση. Με άλλα λόγια, τα μοντέλα ήταν καλύτερα στο να «καταλήγουν» σε μια απάντηση παρά στο να «χτίζουν» σωστά το κλινικό μονοπάτι που οδηγεί σε αυτήν.

Η μελέτη δείχνει, μάλιστα, ότι τα ποσοστά αποτυχίας στη διαφορική διάγνωση ξεπερνούσαν το 80% σε όλα τα μοντέλα, ενώ στην τελική διάγνωση ήταν σαφώς χαμηλότερα, συχνά κάτω από το 40%. Οπότε, μπορεί να δίνουν συχνά μια ορθή τελική απάντηση, αλλά δυσκολεύονται σημαντικά στο στάδιο όπου ένας γιατρός καλείται να σταθμίσει εναλλακτικά σενάρια και να ελιχθεί μέσα στην αβεβαιότητα.

Ποια μοντέλα ξεχώρισαν

Στη συνολική βαθμολογία PrIME-LLM, το Grok 4 κατέγραψε την υψηλότερη μέση επίδοση με 0,78, και ακολούθησαν τα Claude 4.5 Opus, Gemini 3.0 Flash, GPT-5, Gemini 3.0 Pro και GPT-4.5. Στο χαμηλότερο άκρο βρέθηκε το Gemini 1.5 Flash με 0,64. Οι ερευνητές σημειώνουν ότι τα νεότερα μοντέλα κάθε οικογένειας είχαν γενικά καλύτερη απόδοση από τα παλαιότερα, ενώ όσα ήταν βελτιστοποιημένα για «συλλογιστική» (reasoning) ξεπέρασαν τα υπόλοιπα.

Συγκεκριμένα, η διαφορά ανάμεσά τους ήταν στατιστικά ισχυρή, με μέση βαθμολογία 0,76 έναντι 0,67. Αυτό δείχνει ότι η ειδική βελτιστοποίηση για σύνθετη σκέψη φέρνει όντως όφελος, χωρίς όμως να λύνει το βασικό πρόβλημα της αδύναμης διαφορικής διάγνωσης.

Τι έγινε με τις εικόνες

Η μελέτη εξέτασε και 18 πολυτροπικά μοντέλα σε ερωτήσεις που περιλάμβαναν απεικονιστικό υλικό, όπως ακτινογραφίες θώρακος, αξονικές τομογραφίες και ηλεκτροκαρδιογραφήματα. Σε ορισμένα, όπως τα GPT-4.5, GPT-o3-Mini, Claude 3 Opus, Gemini 2.5 Pro, Gemini 3.0 Pro, Gemini 3.0 Flash και Grok 4, η επίδοση ήταν καλύτερη από ό,τι στις καθαρά κειμενικές ερωτήσεις. Ωστόσο, το όφελος δεν ήταν ομοιόμορφο σε όλα τα συστήματα.

Σε κάθε περίπτωση οι συγγραφείς τονίζουν πως τα σημερινά εμπορικά, έτοιμα προς χρήση μοντέλα δεν είναι ακόμη κατάλληλα για μη επιβλεπόμενη λήψη κλινικών αποφάσεων που αφορούν ασθενείς. Όπως σημειώνουν, η καλή επίδοση στην τελική διάγνωση μπορεί να δημιουργεί την εντύπωση ότι είναι έτοιμα για χρήση, όμως τα επίμονα λάθη στη διαφορική διάγνωση και στη διαχείριση της αβεβαιότητας δείχνουν ότι δεν μπορούν ακόμη να θεωρηθούν ασφαλή για αυτόνομη εφαρμογή στην πράξη.

Συμπέρασμα

Η παρούσα μελέτη δείχνει ότι τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης έχουν κάνει σαφή βήματα προόδου στην ιατρική συλλογιστική, χωρίς όμως να έχουν ακόμη φτάσει στο σημείο που θα επέτρεπε την ασφαλή, αυτόνομη ενσωμάτωσή τους στην κλινική πρακτική. Μπορεί να είναι πολύ καλά στο να καταλήγουν στη σωστή τελική διάγνωση, αλλά η πραγματική ιατρική δεν κρίνεται μόνο στο αποτέλεσμα – κρίνεται και στη διαδρομή. Και εκεί, σύμφωνα με τους ερευνητές, τα κρίσιμα κενά παραμένουν.

Πηγή: ygeiamou.gr