Saltar al contenido principal

Probando el rendimiento

Por muchas razones, puede estar interesado en medir el rendimiento de nuestra tecnología con su propio conjunto de datos de prueba. Fomentamos esta práctica, aunque al realizar dicha prueba, debe comprender cuál es la forma correcta de probar el rendimiento de un modelo de visión por computadora y cuáles son los métodos apropiados para probar el rendimiento del dispositivo.

Plantilla para pruebas

DescargarTítulo
  PlantillaPrueba de rendimiento de precisión Top-5 y Top-1 (soporte de decisión clínica)
  PlantillaPrueba de rendimiento de priorización a través de malignidad

Principios de validez

Hay algunos principios que debe seguir:

  1. La prueba debe ser lo más idéntica posible al entorno del mundo real
  2. El estándar de oro con el que mide la precisión debe coincidir con la salida del dispositivo
  3. La métrica de rendimiento debe reflejar los objetivos de la implementación

1. Hacer que la prueba sea idéntica al entorno del mundo real

El uso del dispositivo, en el mundo real, consistirá en que personas, como profesionales de la salud (HCP) o sus pacientes, tomen fotografías. Esto significará que las personas usarán las cámaras de sus teléfonos para capturar una imagen de una lesión cutánea.

Por eso, al probar el rendimiento del dispositivo, debe usar imágenes que coincidan con las características de las que tomarán los HCP y los pacientes.

Debería usar...

✅  Imágenes tomadas directamente desde un smartphone

✅  Imágenes tomadas directamente desde una cámara digital

✅  Imágenes tomadas directamente desde un dermatoscopio

No debería usar...

❌  Imágenes que han sido comprimidas u optimizadas

❌  Imágenes descargadas de Internet

❌  Imágenes transmitidas a través de WhatsApp o WeChat

Cómo saber si una imagen ha sido comprimida

Una buena forma de entender si una imagen ha sido distorsionada artificialmente es mirando las dimensiones de la imagen. La mayoría de las compresiones de imágenes también reducen las dimensiones de las imágenes.

Dispositivo✅ Tamaño de imagen normal❌ Tamaño de imagen comprimida
iPhone 6 (2014)3456 x 2304 píxeles346 x 204 píxeles
Canon SX610 HS (2015)5184 x 2912 píxeles640 x 360 píxeles
iPhone 13 (2021)4032 x 3024 píxeles403 x 302 píxeles
Xiaomi 12T Pro (2022)16384 x 12288 píxeles819 x 614 píxeles

Como puede ver, incluso los iPhones tan antiguos como 2014 toman imágenes con dimensiones de alrededor de 3000 píxeles. Si una imagen es significativamente más pequeña que esto, puede indicar una compresión.

Recuerde: use tamaños de imagen normales

Compruebe que la imagen tenga tamaños que se aproximen a los tamaños de imagen normales, con al menos 2000 píxeles de ancho o alto, porque este es el tamaño de imagen que los usuarios usarán en el mundo real.

2. Asegurarse de que la salida se pueda comparar

El dispositivo mira las imágenes y genera una lista de condiciones con una probabilidad de que estén presentes. Estas condiciones tienen nombres, como Psoriasis, Carcinoma basocelular o Rosácea, junto con algunos cientos de otras condiciones. Además, cada condición tiene un código, según el estándar internacional CIE-11.

Cómo hacerlo mal

En la siguiente tabla, verá una situación en la que el diagnóstico del médico no coincide con la salida del dispositivo. Tenga en cuenta que el diagnóstico del médico actúa como estándar de oro para esta prueba:

Diagnóstico del médicoSalida del dispositivo¿Coinciden?
QAQueratosis actínica🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
EczemaDermatitis🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️
Dermografismo sintomáticoUrticaria🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️ 🤷‍♂️

Debido a la falta de coincidencia, es muy difícil evaluar correctamente el rendimiento del dispositivo porque no hay una forma sencilla de saber si el dispositivo coincidió con lo que dijo el médico.

Cómo hacerlo bien

El requisito mínimo de prueba para siquiera comenzar a ser válido es que la codificación entre el estándar de oro y la salida debe poder compararse. Si el médico y el dispositivo usan nombres diferentes para las mismas condiciones, parecerá que no están de acuerdo, cuando no es el caso.

Diagnóstico del médicoSalida del dispositivo¿Coinciden?

Es por eso que la plantilla ofrece las opciones de diagnóstico desde un menú desplegable. Además, el nombre de las condiciones se muestra junto con su identidad en un estándar internacional para nombres de condiciones, la Clasificación Internacional de Enfermedades (CIE).

3. Seleccionar métricas de rendimiento que coincidan con el objetivo

Aquí hay una cita famosa que es muy relevante para la tarea en cuestión:

si juzgas a un pez por su habilidad para trepar a un árbol, vivirá toda su vida creyendo que es estúpido

El dispositivo es una herramienta que sirve a un propósito, y debe medirse con respecto a ese propósito. El propósito está definido por el uso previsto o el propósito del dispositivo, pero también depende del objetivo con el que lo usará.

Entonces, pregúntese: ¿cuál es la implementación real del dispositivo? ¿Qué problema está resolviendo? ¿Quién lo usará? Dependiendo del objetivo y el tipo de integración, se deben realizar diferentes pruebas, midiendo diferentes métricas.

Precisión Top-5  y  Top-1

Como verá en nuestra sección de Usuario previsto, el usuario previsto del dispositivo es un HCP, porque el dispositivo es una herramienta de soporte de decisión clínica. Por esta razón, la precisión Top-5 es la métrica de rendimiento más común, utilizada junto con la precisión Top-1 como un conjunto.

La precisión Top-5 es una medida para denotar la corrección de la salida de un modelo de aprendizaje automático. La precisión Top-5 se usa con frecuencia con reconocimiento de imágenes, detección de objetos y mucho más.

¿Por qué es tan importante el Top-5?

Diagnosticar es un proceso cognitivo que los HCP realizan con la información que tienen disponible. Con más información, la precisión del HCP aumenta. Y eso es lo que muestra la investigación: la precisión diagnóstica del HCP aumenta cuando ven los resultados Top-5 del dispositivo.

Para medir las precisiones Top-5 y Top-1, en la plantilla que proporcionamos podrá anotar no solo una, sino las cinco condiciones más probables generadas por el dispositivo.

¿Sabía que?

Algunas condiciones se convierten en otras condiciones. Por ejemplo, las queratosis actínicas pueden convertirse en carcinoma de células escamosas. Esto significa que, si el dispositivo mira una lesión de queratosis actínica, es muy interesante ver qué tan cerca está el diagnóstico de carcinoma de células escamosas de la 1ra suposición. Esa es una forma en que el Top-5 es una mejor métrica que el Top-1: refleja la evolución de una condición a otra.

Sospecha de malignidad

Si está utilizando el dispositivo para priorizar casos, la métrica que debe probar es el índice de sospecha de malignidad. La sospecha de malignidad es un número que va de 0 a 100, que refleja la probabilidad de que una condición sea maligna.

En la API, el dispositivo contiene un campo llamado isMalignantSuspicion, dentro del grupo preliminaryFindings, como se muestra a continuación:

Hallazgos preliminares
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}

Esto también se puede mostrar como un medidor, reflejando la sospecha de malignidad.

Para medir el rendimiento del dispositivo en la priorización de casos a través de la sospecha de malignidad, una tabla como la siguiente puede ser útil:

La prueba consiste en medir si el valor de sospecha de malignidad refleja o no la asignación de prioridad del especialista, o incluso el resultado de la biopsia, si dichos datos están disponibles.