Objectif
L'objectif de cette étude est d'évaluer les performances et l'efficacité d'un système de structuration automatique de compte rendu radiologique reposant sur des techniques de traitement du langage naturel de type LLM.
Patients et Méthodes
La tâche à évaluer consiste à passer automatiquement d’un texte libre contenant une description d’un examen radiologique à un compte rendu structuré (indication/technique/résultats/conclusion) en utilisant un traitement algorithmique du langage reposant sur un LLM (GPT-4 turbo de Open AI).
Les métriques d’évaluation génériques des modèles linguistiques, bien que très documentées dans la littérature [1, 2, 3, 4, 5], ne permettent pas l’évaluation fine des cas d’usage « métier » comme celui du compte rendu radiologique. Nous présentons donc ici un ensemble de métriques d'évaluation liées à cette tâche spécifique, conçues pour documenter: (1) la complétude des informations fournies par le radiologue dans le rapport final; (2) la conservation de la structure du rapport (3) la bonne « localisation » des informations médicales au sein des chapitres du rapport structuré.
Une base de données de 30 rapports radiologiques d’IRM de genou est utilisée pour simuler une variété de scénarios cliniques et de cas radiologiques (270 textes libres dans notre cas). Dans cette étude, nous souhaitons évaluer et comparer la capacité du système à intégrer le texte libre dans différents modèles de comptes rendus structurés (3 modèles ici), en s’appuyant ou non sur un contexte clinique associé.
Enfin une mesure du temps de production de compte rendus radiologiques est effectué en simulant les conditions cliniques (Speech to text, analyse d’images réelles) sans et avec l’aide de l’outil.
Résultats
Sur la base de données générées, le système présente des performances élevées qu’il s’appuie ou non sur du contexte clinique. On rapporte une sensibilité de 0.93 (respectivement 0.95) et une précision de 0.97 (resp. 0.98) concernant la métrique de complétude (1) du système avec contexte (resp. sans contexte). De même, on rapporte des précisions de 0.88 (resp. 0.83) et 0.96 (resp. 0.97) pour les métriques de conservation de structure (2) et positionnement (3).
Le temps moyen de production du compte rendu radiologique sans et avec l’outils de structuration passe de 4,2 min (+/- 1,2 SD) à 2,8 (+/-0,8) min soit un gain de 32,3 % (p< 0,05)
Conclusion
Les métriques spécifiques à la tâche radiologique permettent d’évaluer les performances des LLM. Le système reposant sur le modèle GPT-4 turbo présente des performances satisfaisantes dans le structuration et la mise à jour de comptes rendus radiologiques. Toutefois, ces modèles de langage ont une variabilité à la génération, qu’il est nécessaire d’intégrer pour réaliser une évaluation plus fiable, en réalisant par exemple plusieurs itérations. Ces résultats préliminaires ouvrent la voie à de nouveaux systèmes simplifiant le flux de travail radiologique tout en contrôlant la fiabilité du processus.