Probando el rendimiento
Por muchas razones, puede estar interesado en medir el rendimiento de nuestra tecnología con su propio conjunto de datos de prueba. Fomentamos esta práctica, aunque al realizar dicha prueba, debe comprender cuál es la forma correcta de probar el rendimiento de un modelo de visión por computadora y cuáles son los métodos apropiados para probar el rendimiento del dispositivo.
Plantilla para pruebas
Descargar | Título |
---|---|
![]() | Prueba de rendimiento de precisión Top-5 y Top-1 (soporte de decisión clínica) |
![]() | Prueba de rendimiento de priorización a través de malignidad |
Principios de validez
Hay algunos principios que debe seguir:
- La prueba debe ser lo más idéntica posible al entorno del mundo real
- El estándar de oro con el que mide la precisión debe coincidir con la salida del dispositivo
- La métrica de rendimiento debe reflejar los objetivos de la implementación
1. Hacer que la prueba sea idéntica al entorno del mundo real
El uso del dispositivo, en el mundo real, consistirá en que personas, como profesionales de la salud (HCP) o sus pacientes, tomen fotografías. Esto significará que las personas usarán las cámaras de sus teléfonos para capturar una imagen de una lesión cutánea.
Por eso, al probar el rendimiento del dispositivo, debe usar imágenes que coincidan con las características de las que tomarán los HCP y los pacientes.
Debería usar...
✅ Imágenes tomadas directamente desde un smartphone
✅ Imágenes tomadas directamente desde una cámara digital
✅ Imágenes tomadas directamente desde un dermatoscopio
No debería usar...
❌ Imágenes que han sido comprimidas u optimizadas
❌ Imágenes descargadas de Internet
❌ Imágenes transmitidas a través de WhatsApp o WeChat
Cómo saber si una imagen ha sido comprimida
Una buena forma de entender si una imagen ha sido distorsionada artificialmente es mirando las dimensiones de la imagen. La mayoría de las compresiones de imágenes también reducen las dimensiones de las imágenes.
Dispositivo | ✅ Tamaño de imagen normal | ❌ Tamaño de imagen comprimida |
---|---|---|
iPhone 6 (2014) | 3456 x 2304 píxeles | 346 x 204 píxeles |
Canon SX610 HS (2015) | 5184 x 2912 píxeles | 640 x 360 píxeles |
iPhone 13 (2021) | 4032 x 3024 píxeles | 403 x 302 píxeles |
Xiaomi 12T Pro (2022) | 16384 x 12288 píxeles | 819 x 614 píxeles |
Como puede ver, incluso los iPhones tan antiguos como 2014 toman imágenes con dimensiones de alrededor de 3000 píxeles. Si una imagen es significativamente más pequeña que esto, puede indicar una compresión.
Compruebe que la imagen tenga tamaños que se aproximen a los tamaños de imagen normales, con al menos 2000 píxeles de ancho o alto, porque este es el tamaño de imagen que los usuarios usarán en el mundo real.
2. Asegurarse de que la salida se pueda comparar
El dispositivo mira las imágenes y genera una lista de condiciones con una probabilidad de que estén presentes. Estas condiciones tienen nombres, como Psoriasis
, Carcinoma basocelular
o Rosácea
, junto con algunos cientos de otras condiciones. Además, cada condición tiene un código, según el estándar internacional CIE-11.
En la siguiente tabla, verá una situación en la que el diagnóstico del médico no coincide con la salida del dispositivo. Tenga en cuenta que el diagnóstico del médico actúa como estándar de oro para esta prueba:
Diagnóstico del médico | Salida del dispositivo | ¿Coinciden? |
---|---|---|
QA | Queratosis actínica | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Eczema | Dermatitis | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Dermografismo sintomático | Urticaria | 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ 🤷♂️ |
Debido a la falta de coincidencia, es muy difícil evaluar correctamente el rendimiento del dispositivo porque no hay una forma sencilla de saber si el dispositivo coincidió con lo que dijo el médico.
Cómo hacerlo bien
El requisito mínimo de prueba para siquiera comenzar a ser válido es que la codificación entre el estándar de oro y la salida debe poder compararse. Si el médico y el dispositivo usan nombres diferentes para las mismas condiciones, parecerá que no están de acuerdo, cuando no es el caso.
Diagnóstico del médico | Salida del dispositivo | ¿Coinciden? |
---|---|---|
✅ | ||
❌ | ||
✅ |
Es por eso que la plantilla ofrece las opciones de diagnóstico desde un menú desplegable. Además, el nombre de las condiciones se muestra junto con su identidad en un estándar internacional para nombres de condiciones, la Clasificación Internacional de Enfermedades (CIE).
3. Seleccionar métricas de rendimiento que coincidan con el objetivo
Aquí hay una cita famosa que es muy relevante para la tarea en cuestión:
si juzgas a un pez por su habilidad para trepar a un árbol, vivirá toda su vida creyendo que es estúpido
El dispositivo es una herramienta que sirve a un propósito, y debe medirse con respecto a ese propósito. El propósito está definido por el uso previsto o el propósito del dispositivo, pero también depende del objetivo con el que lo usará.
Entonces, pregúntese: ¿cuál es la implementación real del dispositivo? ¿Qué problema está resolviendo? ¿Quién lo usará? Dependiendo del objetivo y el tipo de integración, se deben realizar diferentes pruebas, midiendo diferentes métricas.
Precisión Top-5
y Top-1
Como verá en nuestra sección de Usuario previsto, el usuario previsto del dispositivo es un HCP, porque el dispositivo es una herramienta de soporte de decisión clínica. Por esta razón, la precisión Top-5
es la métrica de rendimiento más común, utilizada junto con la precisión Top-1
como un conjunto.
La precisión Top-5
es una medida para denotar la corrección de la salida de un modelo de aprendizaje automático. La precisión Top-5
se usa con frecuencia con reconocimiento de imágenes, detección de objetos y mucho más.
Top-5
?Diagnosticar es un proceso cognitivo que los HCP realizan con la información que tienen disponible. Con más información, la precisión del HCP aumenta. Y eso es lo que muestra la investigación: la precisión diagnóstica del HCP aumenta cuando ven los resultados Top-5
del dispositivo.
Para medir las precisiones Top-5
y Top-1
, en la plantilla que proporcionamos podrá anotar no solo una, sino las cinco condiciones más probables generadas por el dispositivo.
Algunas condiciones se convierten en otras condiciones. Por ejemplo, las queratosis actínicas
pueden convertirse en carcinoma de células escamosas
. Esto significa que, si el dispositivo mira una lesión de queratosis actínica, es muy interesante ver qué tan cerca está el diagnóstico de carcinoma de células escamosas de la 1ra suposición. Esa es una forma en que el Top-5
es una mejor métrica que el Top-1
: refleja la evolución de una condición a otra.
Sospecha de malignidad
Si está utilizando el dispositivo para priorizar casos, la métrica que debe probar es el índice de sospecha de malignidad. La sospecha de malignidad es un número que va de 0 a 100, que refleja la probabilidad de que una condición sea maligna.
En la API, el dispositivo contiene un campo llamado isMalignantSuspicion
, dentro del grupo preliminaryFindings
, como se muestra a continuación:
{
// ...
"preliminaryFindings": {
// ...
"isMalignantSuspicion": 62
// ...
}
// ...
}
Esto también se puede mostrar como un medidor, reflejando la sospecha de malignidad.
Para medir el rendimiento del dispositivo en la priorización de casos a través de la sospecha de malignidad, una tabla como la siguiente puede ser útil:
La prueba consiste en medir si el valor de sospecha de malignidad refleja o no la asignación de prioridad del especialista, o incluso el resultado de la biopsia, si dichos datos están disponibles.