iStock
AI

Οι μισές ιατρικές συμβουλές που θα πάρεις από τα chatbots είναι λάθος

Το chatbot δεν είναι γιατρός και οι συμβουλές που σου δίνει, όσο πειστικές κι αν φαίνονται, είναι μάλλον λάθος.

Προειδοποίηση: Η περιγραφή που ακολουθεί ενδέχεται να προκαλέσει δυσφορία ή να στεναχωρήσει άτομα που αναζητούν τα συμπτώματά τους στο Google ή σε chatbots και τα πιστεύουν. Αν είσαι από εκείνους που μετά από ένα απλό κρυολόγημα ή μία ενόχληση στο δεξί νύχι του μικρού δαχτύλου του αριστερού ποδιού, είναι πεπεισμένοι ότι έχουν μια εξαιρετικά σπάνια και ανίατη ασθένεια, σου έχουμε καλά νέα.

Όλοι έχουμε στραφεί στο Google και πλέον στα chatbots της Τεχνητής Νοημοσύνης για να λάβουμε, εκτός των άλλων, ιατρικές συμβουλές και γνωματεύσεις κι ας ξέρουμε ότι πρόκειται για κάτι ριψοκίνδυνο και σχεδόν αυτοκαταστροφικό.

Αυτό ήθελε να αποδείξει και μια ομάδα επτά επιστημόνων, οι οποίοι υπέβαλαν πέντε από τα πιο δημοφιλή chatbots σε μια συστηματική δοκιμή αντοχής σχετικά με πληροφορίες για την υγεία. Τα αποτελέσματα δημοσιεύτηκαν στο BMJ Open και όπως φαντάζεσαι δεν είναι ιδιαίτερα ενθαρρυντικά.

Οι επιστήμονες έθεσαν στα chatbots, ChatGPT, Gemini, Grok, Meta AI και DeepSeek, από 50 ερωτήσεις για θέματα υγείας και ιατρικής, που κάλυπταν θέματα όπως ο καρκίνος, τα εμβόλια, τα βλαστοκύτταρα, η διατροφή και η αθλητική απόδοση.

Αυτό που διαπίστωσαν ήταν ότι σχεδόν το 20% των απαντήσεων ήταν εξαιρετικά προβληματικές, οι μισές ήταν προβληματικές και το 30% ήταν κάπως προβληματικές. Κανένα από τα chatbots δεν παρήγαγε αξιόπιστα πλήρως ακριβείς λίστες αναφορών, και μόνο σε δύο από τις 250 ερωτήσεις αρνήθηκαν κατηγορηματικά να απαντήσουν.

Συνολικά, τα πέντε chatbots είχαν περίπου την ίδια απόδοση. Το Grok ωστόσο είχε την χειρότερη, με το 58% των απαντήσεών του να επισημαίνονται ως προβληματικές, ακολουθούμενο από το ChatGPT με 52% και το Meta AI με 50%.

Η απόδοση διέφερε ανάλογα με το θέμα. Τα chatbots χειρίστηκαν καλύτερα τα θέματα των εμβολίων και του καρκίνου – τομείς με εκτεταμένη και καλά δομημένη έρευνα – αλλά παρ’ όλα αυτά παρήγαγαν προβληματικές απαντήσεις περίπου στο ένα τέταρτο των περιπτώσεων. Τα θέματα που τους δυσκόλεψαν ήταν αυτά της διατροφής και της αθλητικής απόδοσης, τομείς που συγκεντρώνουν από αντικρουόμενες συμβουλές στο διαδίκτυο και όπου οι αυστηρές επιστημονικές αποδείξεις είναι πιο σπάνιες.

Όταν οι ερευνητές ζήτησαν από κάθε chatbot δέκα επιστημονικές αναφορές, η μέση τιμή της βαθμολογίας πληρότητας ήταν μόλις 40%. Κανένα chatbot δεν κατάφερε να δημιουργήσει ούτε μία πλήρως ακριβή λίστα αναφορών σε 25 προσπάθειες. Τα λάθη κυμαίνονταν από λάθος συγγραφείς και μη λειτουργικούς συνδέσμους έως εντελώς πλαστά άρθρα. Καταλαβαίνεις πόσο επικίνδυνο μπορεί να είναι κάτι τέτοιο, καθώς κάποιος που δεν είναι ειδικός ή έστω πιο δύσπιστος και βλέπει μια τακτοποιημένη λίστα αναφορών, δεν έχει λόγο να την αμφισβητήσει.

Γιατί όμως τα chatbots δεν είναι και γιατροί;

Υπάρχει ένας απλός λόγος για τον οποίο τα chatbots δίνουν λανθασμένες ιατρικές απαντήσεις: τα γλωσσικά μοντέλα δεν γνωρίζουν πράγματα.

Προβλέπουν τη στατιστικά πιο πιθανή επόμενη λέξη με βάση τα δεδομένα εκπαίδευσής τους και το εκάστοτε πλαίσιο. Δεν αξιολογούν τα στοιχεία ούτε διατυπώνουν αξιακές κρίσεις. Αντίθετα, το εκπαιδευτικό τους υλικό περιορίζεται σε συζητήσεις στο Reddit και αντιπαραθέσεις στα μέσα κοινωνικής δικτύωσης.

Για την έρευνα η επιστημονική ομάδα δεν έθεσε ουδέτερες ερωτήσεις, αλλά σχεδίασε σκόπιμα ερωτήσεις με σκοπό να ωθήσει τα chatbots να δώσουν παραπλανητικές απαντήσεις – μια συνήθης τεχνική δοκιμών αντοχής στην έρευνα για την ασφάλεια της τεχνητής νοημοσύνης, γνωστή ως “red teaming”. Αυτό σημαίνει ότι τα ποσοστά σφαλμάτων πιθανώς είναι πιο υψηλά από τα αποτελέσματα που θα συναντούσε κάποιος που έκανε μια πιο ουδέτερη διατύπωση. Η μελέτη εξέτασε επίσης τις δωρεάν εκδόσεις κάθε μοντέλου που ήταν διαθέσιμες τον Φεβρουάριο του 2025. Τα επί πληρωμή πακέτα και οι νεότερες εκδόσεις ενδέχεται να έχουν καλύτερη απόδοση, βέβαια, οι περισσότεροι χρησιμοποιούν τις δωρεάν εκδόσεις, και οι περισσότερες ερωτήσεις σχετικά με την υγεία δεν διατυπώνονται με προσοχή.

Μια μελέτη που δημοσιεύτηκε τον Φεβρουάριο του 2026 στο περιοδικό Nature Medicine έδειξε κάτι εντυπωσιακό. Τα ίδια τα chatbots μπορούσαν να δώσουν τη σωστή ιατρική απάντηση σχεδόν στο 95% των περιπτώσεων, όμως, όταν πραγματικοί άνθρωποι χρησιμοποίησαν τα ίδια chatbots, έλαβαν τη σωστή απάντηση σε λιγότερο από το 35% των περιπτώσεων. Με απλά λόγια, το ζήτημα δεν είναι απλώς αν το chatbot δίνει τη σωστή απάντηση. Είναι αν οι απλοί χρήστες μπορούν να κατανοήσουν και να χρησιμοποιήσουν σωστά αυτή την απάντηση.

Μια πρόσφατη μελέτη που δημοσιεύθηκε στο Jama Network Open εξέτασε 21 κορυφαία μοντέλα τεχνητής νοημοσύνης. Οι ερευνητές τους ζήτησαν να καταλήξουν σε πιθανές ιατρικές διαγνώσεις. Όταν στα μοντέλα δόθηκαν μόνο βασικές πληροφορίες, όπως η ηλικία, το φύλο και τα συμπτώματα ενός ασθενούς, αντιμετώπισαν δυσκολίες, αποτυγχάνοντας να προτείνουν τη σωστή σειρά πιθανών παθήσεων σε ποσοστό άνω του 80% των περιπτώσεων. Μόλις οι ερευνητές εισήγαγαν τα ευρήματα των εξετάσεων και τα αποτελέσματα των εργαστηριακών αναλύσεων, η ακρίβεια ξεπέρασε το 90%.

Εν τω μεταξύ, μια άλλη αμερικανική μελέτη, που δημοσιεύθηκε στο Nature Communications Medicine, διαπίστωσε ότι τα chatbots επαναλάμβαναν πρόθυμα και μάλιστα ανέπτυσσαν περαιτέρω ψευδείς ιατρικούς όρους που είχαν εισαχθεί στις ερωτήσεις.

Συνολικά, αυτές οι μελέτες υποδηλώνουν ότι οι αδυναμίες που εντοπίστηκαν στη μελέτη του BMJ Open δεν αποτελούν απλώς ιδιαιτερότητες μιας πειραματικής μεθόδου, αλλά αντανακλούν κάτι πιο θεμελιώδες σχετικά με το σημερινό στάδιο ανάπτυξης της τεχνολογίας.

Αυτά τα chatbots δεν πρόκειται να εξαφανιστούν κι ούτε θα έπρεπε. Μπορούν να συνοψίζουν σύνθετα θέματα, να βοηθούν στην προετοιμασία ερωτήσεων για μια επίσκεψη στον γιατρό και να χρησιμεύουν ως αφετηρία για έρευνα, ωστόσο, η μελέτη καταδεικνύει σαφώς ότι δεν πρέπει να αντιμετωπίζονται ως αυτόνομες ιατρικές αρχές.

Ακολουθήστε το OneMan στο Google News και μάθετε τις σημαντικότερες ειδήσεις.

Exit mobile version