Articles

Imprimer

FASDIM : Anonymisation automatisée de courriers médicaux

Publié dans Recherche

Présentation de FASDIM

FASDIM signifie Fast And Simple De-Identification Method. Cette méthode permet de supprimer automatiquement les données directement ou indirectement nominatives (DDIN) des courriers médicaux. Bien qu'elle soit basée sur une procédure de Pattern Matching, l'originalité de la méthode repose sur le fait qu'aucune liste de mots ne doit être fournie avant de l'utiliser : cette liste se construit au fil de l'utilisation de la méthode. Néanmoins, si vous souhaitez dé-identifier des courriers médicaux français, vous gagnerez un temps important car le matériel pour la langue française est fourni avant le code source (voir en bas de page). Ce logiciel est open source et peut être téléchargé gratuitement sur cette page.

La méthode FASDIM est-elle celle dont j'ai besoin ?

FASDIM est probablement la méthode dont vous avez besoin si vous êtes dans les situations suivantes :

  • il n'existe pas de logiciel disponible dans votre langue (par exemple le Français)
  • vous devez anonymiser 100 000 courriers en 40 heures, en partant de rien du tout, y compris le temps de rechercher, installer et comprendre un logiciel

FASDIM n'est probablement pas la meilleure option si vous êtes dans les situations suivantes :

  • de nombreux logiciels sont disponibles dans votre langue (Anglais en particulier)
  • vous disposez déjà d'un gros corpus d'entraînement constitué de courriers annotés et dé-identifiés (tournez vous plutôt vers des méthodes de machine learning)
  • vous devez anonymiser plus de 5 millions de courriers avec une qualité irréprochable et sans y consacrer de temps

La méthode FASDIM donne-t-elle de bons résultats ?

FASDIM est en cours de publication dans l'International Journal of Medical Informatics (IJMI). Les résultats plus détaillés y seront disponibles. Voici néanmoins les principaux chiffres :

  • Fiabilité : 
    • Rappel (sensibilité) : 98.1% des DDIN sont supprimés (63.7% des mots restants sont des indications partielles sur des lieux, 23% concernent des professionnels et 0% sont des noms de patients)
    • Précision (valeur prédictive positive) : 89.2% des termes supprimés sont des DDIN
    • Moyenne harmonique : 93.4%
  • Préservation de l'information médicale : bien que des mots soient supprimés à tort, l'information médicale est conservée :
    • 99.02% des termes médicaux sont conservés, et en particulier
    • 99.49% des diagnostics et symptômes 
    • 99.66% des actes médicaux
  • Implémentation simple et rapide : 
    • l'implémentation en partant de rien nécessite 40 heures, incluant le développement pour anonymiser 27 000 courriers le mieux possible. Il est possible "pour le même prix" d'anonymiser plus de courriers au risque de perdre quelques mots
    • néanmoins, si vous souhaitez anonymiser des courriers en Français, le code source et une liste de mots sont déjà prêts à l'emploi !

Comment obtenir FASDIM ?

Rendez-vous sur la page de FASDIM en Anglais pour télécharger le code source (encadré rosé).

Cette distribution inclut déjà une liste de mots. Elle fonctionne avec :
  • MS Windows
  • une base de données MySQL
  • PHP installé (pas nécessairement avec un serveur web : nous utilisons PHP en mode CLI)
  • documents en entrée : documents Word ou texte brut, en Français uniquement

Néanmoins, si vous savez lire le PHP, vous n'aurez pas de mal à l'adapter à d'autres environnements. 

Collaboration

Ce travail a été mené par des chercheurs de l'EA 2694 de l'Université Lille 2. Avec leur accord, CEFIMIS promeut leurs résultats et les diffuse. Cet accord n'est pas exclusif, d'autres sites seront autorisés à diffuser ces résultats.

Diffusion

Téléchargement gratuit du code source (le téléchargement implique l'acceptation de la licence GNU GPL) : rendez-vous sur la page de FASDIM en Anglais : http://fasdim.org

Les résultats de cette recherche
ont été présentés au congrès
EMOIS 2012 à Nancy.
Voir la vidéo sur Canal-U
 
Un article scientifique en Anglais a été publié dans l'IJMI (International Journal of Medical Informatics) et est intégralement lisible gratuitement en ligne : accéder à l'article