Características clave de rendimiento
El dispositivo realiza una amplia gama de tareas, para las cuales se aplican diferentes métricas de rendimiento en términos de precisión, tasas de error y la capacidad de identificar y segmentar correctamente características relevantes en imágenes.
Una revisión detallada de algunas métricas de rendimiento se puede encontrar en nuestra investigación publicada, enumerada a continuación:
- Puntuación automática de dermatitis atópica utilizando aprendizaje profundo: un estudio piloto.
- Evaluación de la calidad de imágenes dermatológicas (DIQA): inteligencia artificial para garantizar la utilidad clínica de las imágenes para consultas remotas y ensayos clínicos.
- Sistema automático de puntuación de severidad internacional de hidradenitis supurativa (AIHS4): una nueva herramienta para evaluar la severidad de la hidradenitis supurativa utilizando inteligencia artificial.
- Puntuación automática de actividad de urticaria (AUAS): conteo automático de ronchas basado en aprendizaje profundo para la evaluación de la severidad de la urticaria.
Estas publicaciones explican con gran detalle y transparencia el rendimiento del dispositivo. Aquí están las métricas para cada signo clínico visible y el reconocimiento de clases ICD visibles:
- Reconocimiento de clases ICD visibles
- Precisión Top-1: 74.07%
- Precisión Top-3: 86.76%
- Precisión Top-5: 90.20%
- Malignidad
- AUC: 0.96
- Presencia de una condición dermatológica
- AUC: 0.99
- Complejidad crítica
- AUC: 0.94
- Intensidad de eritema
- RMAE: 13.30%
- Intensidad de edema
- RMAE: 16.0%
- Intensidad de exudación
- RMAE: 19.40%
- Intensidad de excoriación
- RMAE: 9.60%
- Intensidad de liquenificación
- RMAE: 8.70%
- Intensidad de sequedad
- RMAE: 11.30%
- Intensidad de induración
- RMAE: 9.20%
- Intensidad de descamación
- RMAE: 10.45%
- Intensidad de pustulación
- RMAE: 15.00%
- Intensidad de exudación
- BAC: 64.00%
- Intensidad de bordes
- BAC: 74.00%
- Intensidad de tejidos afectados
- BAC: 69.00%
- Conteo de lesiones inflamatorias
- Precisión: 86.60%
- Recall: 79.70%
- Conteo de ronchas
- Precisión: 68.40%
- Recall: 57.10%
- Conteo de nódulos
- MAE: 2.16
- Conteo de abscesos
- MAE: 2.16
- Conteo de túneles drenantes
- MAE: 2.16
Las métricas para procesadores adicionales:
- Detección de modalidad de imagen
- AUC: 0.9957
- Detección de estructura cutánea
- AUC: 0.9957
- Evaluación de calidad de imagen
- Correlación lineal: 0.74
Además, hemos llevado a cabo más investigaciones clínicas y estamos trabajando para publicar esos resultados, mientras tomamos los pasos necesarios junto con los investigadores y hospitales involucrados. En la siguiente lista, divulgamos algunos resultados de estudios que hemos realizado:
- LEGIT_MC_EVCDAO_2019: El dispositivo ha demostrado un excelente rendimiento en términos de predicción de malignidad, lo que lo convierte en una herramienta valiosa para priorizar pacientes según su riesgo de presentar malignidad. La métrica AUC para la predicción de malignidad fue del 87.28% (y 88.26% en la extensión), lo que es comparable al de expertos HCPs y habla del potencial de usar el dispositivo para mejorar los flujos de trabajo clínicos. En cuanto al reconocimiento de lesiones cutáneas en términos generales, la precisión Top-5 fue del 88.83% (y 83.16% en la extensión), lo que respalda el uso previsto del dispositivo como herramienta de apoyo a la decisión clínica. Y específicamente en melanoma, la métrica AUC fue del 76.75% (y 82.38% en la extensión), lo que es considerablemente alto y significa la consecución de los objetivos establecidos en las hipótesis del estudio. Este estudio se realizó en 96 sujetos de dos hospitales (Hospital Universitario Cruces y Hospital Universitario Basurto) desde 2020, en colaboración con dos dermatólogos senior. Las enfermedades cutáneas estudiadas fueron diferentes tipos de nevos, lesiones vasculares, neoplasias cutáneas (benignas y malignas) y queratosis.
- LEGIT_COVIDX_EVCDAO_2022: El análisis integral del CUS, cuestionario de utilidad de datos, SUS y cuestionario de satisfacción del paciente ha proporcionado valiosos conocimientos sobre la efectividad de la herramienta para apoyar a los dermatólogos en su práctica clínica. La muestra observada media de 76.67 en el CUS sugiere que el dispositivo ha sido positivamente recibido por los especialistas participantes. Es notable el acuerdo unánime sobre la facilidad de uso y la alta calificación para optimizar el tiempo según las necesidades de cada paciente. Además, el dispositivo demostró eficiencia en la generación de informes, recibiendo altas calificaciones de los especialistas. Estos resultados afirman el potencial del dispositivo para optimizar los flujos de trabajo clínicos y mejorar la atención al paciente. Este estudio se realizó con una cohorte de 160 pacientes del Departamento de Dermatología del Hospital Universitario de Torrejón, e incluye diferentes tipos de queratosis, lesiones pigmentadas (benignas y malignas) y lesiones inflamatorias.
- LEGIT.HEALTH_DAO_Derivación_O_2022: Este estudio revela que aproximadamente el 29% de las derivaciones involucran condiciones comunes y fácilmente diagnosticables, incluso aquellas de teledermatología. Aproximadamente la mitad de ellas están relacionadas con queratosis seborreica. Los médicos de atención primaria exhiben una sensibilidad notablemente baja de aproximadamente el 25% cuando se trata de la tarea crucial de decidir si derivar a un paciente a atención secundaria, particularmente a dermatólogos. En términos de la lista de espera, el análisis asume que los pacientes podrían haber recibido tratamiento antes, y los retrasos en las citas fueron resultado de la lista de espera del hospital. Hasta la fecha, se han reclutado 51 sujetos para este estudio, que eventualmente aumentará hasta 400. Las enfermedades cutáneas observadas en la cohorte actual incluyen diferentes tipos de queratosis, nevos, lesiones pigmentadas (tanto benignas como malignas) y eccemas.
La siguiente sección contiene una lista no exhaustiva de índices de rendimiento utilizados para medir el rendimiento del dispositivo:
- Precisión Top-5: Mide la frecuencia de la clase correcta que aparece dentro de las 5 principales predicciones del dispositivo.
- AUC (Área bajo la curva): Indica la capacidad del dispositivo para diferenciar entre categorías.
- MAE (Error absoluto medio): La diferencia absoluta promedio entre los niveles de severidad predichos y reales.
- RMAE (Raíz del error absoluto medio): La raíz cuadrada del MAE, mostrando la magnitud del error en unidades de severidad.
- Precisión: Proporción de clases positivas correctas entre todas las identificaciones positivas del dispositivo.
- Precisión: Tasa general de identificación correcta para clases positivas y negativas.
- Sensibilidad: Proficiencia del dispositivo en identificar casos positivos con precisión.
- IoU (Intersección sobre Unión): Utilizado en segmentación de imágenes; mide la superposición entre la predicción y la segmentación real.
- Kappa de Cohen: Evalúa el acuerdo entre diagnósticos predichos y reales, ajustando por azar.
- Recall: Capacidad del dispositivo para identificar todos los casos relevantes de una clase específica.
- BAC (Precisión balanceada): Promedio de proporciones de identificación verdadera positiva y verdadera negativa.
- Correlación: Fuerza y dirección de la relación entre las puntuaciones de severidad predichas y reales.
- TPR (Tasa de verdaderos positivos): Tasa a la que el dispositivo identifica correctamente casos verdaderos positivos.
- Precisión de 1 día adelante: Evalúa la precisión de las predicciones para el día siguiente.
- Precisión de 7 días adelante: Mide la precisión de predicción para un marco de tiempo de siete días.
Ten en cuenta que el dispositivo realiza tareas muy diferentes. Por ejemplo, en la tarea de Garantía de calidad de imagen, las métricas relevantes son Correlación de Pearson
, Correlación de Spearman
y Precisión balanceada
. Sin embargo, en la cuantificación, conteo y medida de la extensión de los signos clínicos, las métricas relevantes pueden ser AUC
, RMAE
e IoU
, entre otras, dependiendo de los signos clínicos. Esto se explica en las publicaciones mencionadas anteriormente.
Por lo tanto, es poco práctico y no útil intentar proporcionar una lista exhaustiva de todas las métricas de rendimiento para cada procesador. En su lugar, te recomendamos revisar nuestras publicaciones mencionadas anteriormente, que explican con gran detalle y transparencia el rendimiento.