Repenser le compte-rendu radiologique


A une époque où l'on souhaite que chaque usager soit de plus en plus actif dans la gestion de sa propre santé, qu'il dispose d'un dossier numérique centré sur le patient, comme en France Mon Espace Santé (https://www.telemedaction.org/423570493/451406448), un prérequis incontournable est qu'il comprenne les données de santé générées par les professionnels de santé qui le prennent en charge.

Le langage professionnel en médecine n'est pas toujours compris de la personne à qui ce langage s'adresse. C'est en particulier le cas des comptes-rendus opératoires ou des comptes-rendus d'examens comme ceux des examens radiologiques.

Les LLM (Large Language Model) qui caractérisent certaines IA génératives comme GPT-4, Llama, Mistral et plus récemment ChatGPT Health peuvent-elles retraiter un texte médical initial et le rendre compréhensible pour l'usager ou le patient ? Un tel retraitement du texte médical initial est-il toujours fiable, c'est à dire sans erreurs, pour que l'on puisse repenser le compte rendu radiologique dans le but qu'il soit compris du patient ?

C'est l'objectif que s'est donnée cette étude anglaise publiée récemment dans Lancet Digital Health et qui a donné lieu à un éditorial particulièrement intéressant. 


L’Étude 


Large language models for simplifying radiology reports: a systematic review and meta-analysis of patient, public, and clinician evaluations. Alabed S, Anderson A, Maiter A, Hughes A, McAnenly N, Salehi M, Sharkey M, Dwivedi K, Hokmabadi A, Alahdab F, Stevenson M, Ma N, Gaizauskas R, Chico TJ, Swift AJ, Li JJ, Kleesiek J, Langlotz C.Lancet Digit Health. 2026 Feb;8(2):100960. doi: 10.1016/j.landig.2025.100960. Epub 2026 Feb 16.PMID:41698858


Contexte :

Les comptes rendus de radiologie sont généralement rédigés dans un langage difficilement compréhensible pour les patients. Les modèles de langage à grande échelle (MLGE) excellent dans la simplification des textes. Notre objectif était d’évaluer la capacité des MLGE à améliorer la compréhension des comptes rendus de radiologie.


Méthodes :

Dans cette revue systématique et méta-analyse, nous avons effectué une recherche dans les bases de données CENTRAL, MEDLINE et Embase, de leur création jusqu’au 11 novembre 2025, sans restriction de langue. Les articles en texte intégral et les prépublications ont été pris en compte. Les études éligibles appliquaient des modèles de lisibilité (ML) pour simplifier les comptes rendus de radiologie et ces comptes rendus étaient évalués par le public ou des professionnels de santé.

Nous avons exclu les études portant exclusivement sur les dialogues avec des chatbots interactifs, les brochures pré-examen, les supports pédagogiques, les lettres de convocation ou la synthèse des résultats sans simplification pour les patients.

Les résultats de la recherche ont été examinés indépendamment par deux auteurs, puis l’analyse des textes intégraux et l’extraction des données ont été réalisées par trois auteurs ; les désaccords ont été résolus par consensus. Les principaux critères d’évaluation étaient les évaluations des patients, du public et des cliniciens (scores de Likert) et les indicateurs de lisibilité. La qualité des études a été évaluée à l’aide de l’outil MAIC-10. Cette étude a été enregistrée auprès de PROSPERO (CRD420251027489).


Résultats :

Nous avons identifié 2 385 articles, parmi lesquels 38 études étaient éligibles. Ces 38 études ont généré 12 922 comptes rendus simplifiés, évalués par 508 professionnels (387 personnes non spécialisées et 121 cliniciens). 35 études (92 %) sur 38 ont utilisé des modèles OpenAI GPT et 29 études (76 %) ont produit des comptes rendus simplifiés en anglais. Les patients ont perçu les comptes rendus reformulés par LLM comme étant significativement plus compréhensibles que les comptes rendus des radiologues (score moyen de Likert de 4,04 [écart-type : 1,20] pour les comptes rendus simplifiés contre 2,16 [écart-type : 0,94] pour les comptes rendus originaux ; différence moyenne de 2,00 [IC à 95 % : 1,54-2,46]). Les cliniciens ont attribué une note élevée aux comptes rendus réécrits par LLM, tant en termes d'exactitude (moyenne de 4,45 [IC à 95 % : 4,27-4,63] ; 27 études) que d'exhaustivité (moyenne de 4,53 [IC à 95 % : 4,30-4,76] ; 14 études).

La lisibilité s'est améliorée pour toutes les modalités d'imagerie, avec un indice de lisibilité de Flesch-Kincaid plus faible pour les comptes rendus réécrits par LLM, notamment une différence moyenne de -6,20 (IC à 95 % : -6,91 à -5,48) pour la tomodensitométrie (TDM), de -5,07 (IC à 95 % : -5,99 à -4,15) pour la radiographie standard et de -5,0 (IC à 95 % : -6,0 à -4,0) pour l'imagerie par résonance magnétique (IRM). Le taux d’erreur dans les rapports réécrits par LLM était de 7,2 % (IC à 95 % 5,1 %-10,0 % ; 13 études) et de 0,9 % (IC à 95 % 0,6 %-1,5 % ; 2 études) pour les erreurs cliniquement significatives.


Interprétation :

Les comptes rendus radiologiques simplifiés par LLM ont amélioré la compréhension et la lisibilité perçues par les patients et ont été jugés globalement précis et complets par les cliniciens, malgré la présence d’une faible proportion d’erreurs cliniquement significatives. La simplification basée sur LLM est prometteuse pour une communication radiologique davantage centrée sur le patient, mais une évaluation plus approfondie de son impact sur les résultats cliniques et les flux de travail est nécessaire.


L'éditorial du Lancet Digital Health


L'accès des patients à leurs données médicales s'accroît, mais ces données ne sont pas toujours faciles à interpréter. Début janvier 2026, OpenAI a lancé ChatGPT Health, qui permet aux utilisateurs de télécharger leurs informations médicales (dossiers médicaux électroniques et données d'applications de santé, par exemple) afin de contextualiser leurs conversations relatives à leur santé avec ChatGPT, un chatbot basé sur un modèle de langage étendu (LLM). ChatGPT Health pourrait ainsi aider les utilisateurs à mieux comprendre leurs informations médicales et leurs résultats d'examens, notamment les comptes rendus de radiologie. Mais dans quelle mesure les comptes rendus de radiologie simplifiés par le LLM sont-ils précis, sûrs et utilisables ?

Dans ce numéro de The Lancet Digital Health, Samer Alabed et ses collègues présentent une revue systématique et une méta-analyse sur la capacité des logiciels de modélisation linguistique (LLM) à simplifier les comptes rendus de radiologie pour les cliniciens et les patients, et ce, pour différentes modalités d'imagerie.

Parmi les 38 études recensées, les patients ont jugé les comptes rendus de radiologie réécrits par les LLM nettement plus compréhensibles que les comptes rendus originaux rédigés par les radiologues. Les cliniciens ont attribué des notes élevées aux comptes rendus des LLM concernant leur exactitude, leur exhaustivité et leur simplicité, mais des notes plus faibles concernant leur sécurité et leur pertinence pour la communication aux patients. Conjugués à un taux d'erreur global de 7,2 % (dont 0,9 % d'erreurs cliniquement significatives), ces résultats montrent que, malgré une meilleure compréhension des comptes rendus d'imagerie générés par les LLM, ces derniers présentent toujours un risque réel d'erreur.

Une approche impliquant l'humain pourrait contribuer à atténuer ce problème : les cliniciens examineraient les comptes rendus de radiologie interventionnelle avant leur mise à disposition des patients. Cette collaboration entre cliniciens et intelligence artificielle (IA) permettrait d'obtenir des comptes rendus de qualité supérieure, voire équivalente, à ceux produits par les seuls cliniciens. Cependant, cette approche risquerait d'alourdir la charge de travail de cliniciens déjà surchargés.

Le recensement des effectifs en radiologie clinique de 2024, mené par le Collège royal des radiologues du Royaume-Uni, a révélé que 56 % des services utilisant des outils d'IA n'avaient pas constaté de changement significatif de leur charge de travail, tandis que 37 % avaient observé une augmentation. Pour combler cet écart, des études en conditions réelles évaluant les gains d'efficacité liés à l'intégration de tels modèles dans le flux de travail clinique sont nécessaires.

Les comptes rendus radiologiques simplifiés par LLM présentent des avantages notables pour les patients : réduction du temps de lecture, diminution de la charge cognitive et meilleure compréhension du texte ainsi qu’une perception accrue de son utilité.

Cependant, aucune des études incluses dans l’analyse de Samer Alabed et ses collègues n’a intégré le point de vue des patients lors de leur conception ; par conséquent, ces comptes rendus simplifiés pourraient ne pas correspondre à leurs besoins et préférences.

Le contenu et la structure des comptes rendus radiologiques simplifiés par LLM devraient être conçus conjointement par les patients, les cliniciens, les chercheurs et les entreprises de développement d’IA (telles qu’OpenAI). À défaut, les patients pourraient se tourner vers d’autres sources d’information non fondées sur des preuves et mettre leur santé en danger. Par exemple, une enquête récente a révélé que les synthèses d’IA générées par LLM et fournies par Google en réponse à des requêtes spécifiques liées à la santé contenaient des informations inexactes, exposant ainsi les utilisateurs à des risques.

Un défi majeur réside dans la gouvernance des modèles d'apprentissage automatique (MLA) utilisés en pratique clinique.

Aux États-Unis, la FDA a autorisé la mise sur le marché de plus de 1 000 dispositifs médicaux intégrant l'IA (dont la grande majorité sont des dispositifs de radiologie), mais aucun n'est basé sur un MLA. Seuls les MLA destinés à fournir des conseils médicaux relèvent de la réglementation des soins de santé et sont classés comme dispositifs médicaux. Les MLA qui n'ont pas cette finalité ne sont pas réglementés, mais peuvent néanmoins produire des résultats similaires à ceux des dispositifs médicaux. La gouvernance des MLA est complexifiée par l'utilisation de modèles propriétaires fermés. Cependant, des études comparatives entre ces modèles et des alternatives "open source" ont démontré que les modèles ouverts réduisent l'écart de performance, offrant une précision diagnostique comparable. La transparence dans l'entraînement et le développement des modèles favorisent la reproductibilité de la recherche, permettent un meilleur contrôle par les autorités réglementaires et contribuent à renforcer la confiance au sein de la communauté médicale.

Les comptes rendus radiologiques simplifiés par LLM pourraient constituer une méthode efficace et novatrice pour communiquer les résultats aux patients de manière claire et accessible. Toutefois, une approche transparente et centrée sur le patient est indispensable à la conception des LLM afin de garantir une gouvernance adéquate des modèles et la reproductibilité et la pertinence de leurs résultats. Des mécanismes doivent être mis en place pour permettre aux patients et aux cliniciens de faire part de leurs commentaires aux développeurs des modèles et aux organismes de réglementation quant à la précision et à l'utilisabilité des résultats des LLM.

Une évaluation continue tout au long de leur cycle de vie est également essentielle pour s'assurer que les modèles optimisent le flux de travail clinique au lieu de l'entraver et, surtout, que la sécurité des patients n'est pas compromise.


COMMENTAIRES. L'IA est de plus en plus utilisée en santé, mais son utilité est-elle toujours démontrée ? Nous manquons cruellement de preuves comme vient de le rappeler un excellent article publié dans Nature Medicine (https://www.nature.com/articles/s41591-026-04389-4). Nous traitons plus souvent l'IA sur sa capacité à faire (AI can do it) que sur les résultats qu'ils donnent, prouvés par des études à grande échelle, contrôlées et randomisées (AI improves outcomes and we can prove it with large-scale controlled and randomized studies).

L'étude et l'éditorial publiés dans le Lancet Digital Health posent les bonnes questions. Si indiscutablement les LLM peuvent fournir des retraitements de comptes-rendus radiologiques qui soient compris des patients, encore faut-il que ces comptes-rendus retraités par LLM ne soient pas erronés (7,2%), sachant qu'une erreur dans ce domaine peut constituer une faute médicale dont le radiologue aura à rendre compte si un préjudice est porté au patient par cette erreur. D'où la nécessité de prévenir de telles erreurs en exigeant que le clinicien radiologue relise le compte-rendu retraité par LLM avant de le faire parvenir au patient. Il applique alors l'obligation de "garantie humaine" d'un résultat algorithmique (https://www.telemedaction.org/423570493/garantie-humaine-et-ia). Mais cette précaution indispensable constitue une charge de travail supplémentaire pour le clinicien dont l'activité professionnelle est déjà surchargée. La proposition de l'auteur de l'éditorial pour améliorer l'efficacité et la fiabilité du compte-rendu radiologique transmis au patient serait que les concepteurs de LLM pour traiter du texte médical fassent des modèles en coopération étroite avec les patients et les cliniciens. Nous sommes donc encore dans la phase d'études expérimentales que les gouvernements doivent maitriser. Laisser se développer sur le marché des modèles de LLM qui n'ont pas été validés par la FDA aux Etats-Unis ou la HAS en France, c'est prendre le risque de mettre entre les mains des patients des solutions d'IA qui fournissent des analyses totalement erronées, car non contrôlées.


2 mai 2026