Caracterización de un corpus extraÃdo de historias clÃnicas electrónicas de maternas a través de técnicas de procesamiento de lenguaje natural
Texto completo:
PDFResumen
Este artÃculo tuvo como propósito caracterizar el texto libre disponible en una historia clÃnica electrónica de una institución orientada a la atención de pacientes en embarazo. La historia clÃnica electrónica, más que ser un repositorio de datos, se ha convertido en un sistema de soporte a la toma de decisiones clÃnicas. Sin embargo, debido al alto volumen de información y a que parte de la información clave de las historias clÃnicas electrónicas está en forma de texto libre, utilizar todo el potencial que ofrece la información de la historia clÃnica electrónica para mejorar la toma de decisiones clÃnicas requiere el apoyo de métodos de minerÃa de texto y procesamiento de lenguaje natural. Particularmente, en el área de GinecologÃa y Obstetricia, la implementación de métodos del procesamiento de lenguaje natural podrÃa ayudar a agilizar la identificación de factores asociados al riesgo materno. A pesar de esto, en la literatura no se registran trabajos que integren técnicas de procesamiento de lenguaje natural en las historias clÃnicas electrónicas asociadas al seguimiento materno en idioma español. En este trabajo se obtuvieron 659 789 tokens mediante los métodos de minerÃa de texto, un diccionario con palabras únicas dado por 7 334 tokens y se estudiaron los n-grams más frecuentes. Se generó una caracterización con una arquitectura de red neuronal CBOW (continuos bag of words) para la incrustación de palabras. Utilizando algoritmos de clustering se obtuvo evidencia que indica que palabras cercanas en el espacio de incrustación de 300 dimensiones pueden llegar a representar asociaciones referentes a tipos de pacientes, o agrupar palabras similares, incluyendo palabras escritas con errores ortográficos. El corpus generado y los resultados encontrados sientan las bases para trabajos futuros en la detección de entidades (sÃntomas, signos, diagnósticos, tratamientos), la corrección de errores ortográficos y las relaciones semánticas entre palabras para generar resúmenes de historias clÃnicas o asistir el seguimiento de las maternas mediante la revisión automatizada de la historia clÃnica electrónica.
Palabras clave: Procesamiento de lenguaje natural; historia clÃnica electrónica; aprendizaje de máquina; word embedding; redes neuronales artificiales.
Â
Copyright (c) 2021 MarÃa Camila Durango, Ever Augusto Torres Silva, José Fernando Florez- Arango, Andrés Orozco- Duque

Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.