SciELO - Scientific Electronic Library Online

 
vol.59 número2Los valores humanos, que el médico del siglo XXI debe conocer y practicar en su desempeño profesionalGirolamo Fabrizi D'acquapendente, anatomista, embriólogo y cirujano de Padua índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir


Cuadernos Hospital de Clínicas

versión impresa ISSN 1562-6776

Cuad. - Hosp. Clín. vol.59 no.2 La Paz  2018

 

EDUCACIÓN MÉDICA CONTINUA

 

El programa "Delfos" para calcular el grado de dificultad en exámenes de selección múltiple.

 

"Delfos" program to calculate the difficulty level in multiple-choice questions.

 

 

Laforcada Rios Carlos*
*Profesor de pre y postgrado de la Facultad de Medicina de la Universidad Mayor de San Andrés, especialista en Neurología.
RECIBIDO: 10/05/2017 ACEPTADO: 06/04/2018

 

 


 

 

Una herramienta corrientemente utilizada para evaluar el rendimiento académico grupal en exámenes de elección múltiple en materias de pregrado, es contabilizar el porcentaje (o la proporción) de cursantes que aprobaron dicho examen. La cifra suele dar una idea de cuan efectivos fueron los esfuerzos y estrategias educativas (horas de estudio, clases teóricas, practicas, materiales didácticos, reforzamientos, etc.) aplicados en un grupo de estudiantes, independientemente de la asignatura en evaluación.

Más del 30 % de aprobación, se considera un indicador de éxito en el rendimiento de un examen parcial, mientras que un porcentaje menor al 10 % suele indicar al docente la necesidad urgente de realizar cambios y/o ajustes en sus estrategias educativas, contenidos, etc.

Existen algunas consideraciones que se deben hacer para aceptar la validez de esta manera de pensar, la primera es la referente al número de cursantes que podrían aprobar un examen únicamente por el azar, y la otra es el número de cursantes que pudieran aprobar dicho examen debido a un bajo índice de dificultad de las preguntas, el análisis de estas situaciones lo consignamos en ANEXO 2 para los interesados.

En general, medir el grado de dificultad de un examen, y calcular el impacto que tenga sobre el porcentaje de aprobación, es de gran importancia a la hora de evaluar el rendimiento académico. En una publicación previa, presentamos los fundamentos de análisis del grado de dificultad de las preguntas de un examen de elección múltiple; en ésta desarrollaremos una herramienta para calcular numéricamente el impacto del grado de dificultad de las preguntas de un examen, en el número de aprobados en tal examen.

 

EL PROGRAMA "DELFOS"

Calcular las probabilidades de respuesta tanto por azar o por el grado de dificultad de las preguntas es un procedimiento laborioso y exigente, que pocos estamos dispuestos a hacer, menos aún en exámenes con muchas preguntas; esta ha sido la situación hasta hace poco, pero gracias a los equipos de corrección automatizada de exámenes de elección múltiple de los que dispone nuestra facultad, ahora podemos facilitarnos el proceso.

Para ello y aprovechando las facilidades de la hoja de cálculo "EXCEL" hemos elaborado un algoritmo matemático que toma en cuenta estas consideraciones y las aplica para calcular el número de sujetos que aprobarían un examen bajo determinadas condiciones (según el azar, el grado de dificultad de las preguntas, etc.) aplicable al análisis de exámenes desde 1 pregunta hasta 70 preguntas y que ajusta los valores de acuerdo al número de exámenes evaluados (participantes); dicho algoritmo, al que hemos llamado "PROGRAMA DELFOS" se puede reproducir en una hoja electrónica como "EXCEL" utilizando las sencillas fórmulas que facilitamos. (Ver "PROGRAMA DELFOS" en ANEXOS).

En el Cuadro N° 1 se introduce el número de exámenes (Ej. 733), la franja verde al lado de "apr" inscribe automáticamente el número de sujetos que aprobarían el examen si este constara únicamente del número de preguntas enunciado al lado de la casilla "preg" dado el grado de dificultad de cada pregunta que esta enunciado en la casilla "grado", así por ejemplo, si el examen constata nada más de 5 preguntas, (las "preg" 1,2,3, 4, y 5) y cada una tuviera los grados de dificultad consignados en las casillas correspondientes (0,47; 0,21; 0,13; 0,4; 0,23 respectivamente) aprobarían el examen 100 sujetos de los 733, si fueran 6 preguntas, el numero bajaría a 32, según el grado de dificultad de la pregunta 6 y así sucesivamente. Los datos de la línea "grado" pueden ser copiados directamente de la base de datos del examen transponiendo los datos de la columna GD.

En la línea "p.a." se inscribe la probabilidad de "aprobar" es decir de responder la mitad más uno de las opciones de respuesta de cada pregunta, las que están destacadas en celeste para cada pregunta y reflejan el algoritmo acumulativo de responder cada nueva pregunta y la anterior, según un conjunto de ecuaciones revisadas y explicadas en ANEXOS.

MANEJO DEL PROGRAMA

Su manejo es simple, como se dijo, basta introducir los valores del grado de dificultad de cada pregunta de un examen en las casillas celestes debajo de los números de las preguntas y verificar en la franja verde de la parte superior el número de aprobados.

CALCULO DEL NÚMERO DE APROBADOS SOLAMENTE POR AZAR

Si introducimos el valor del grado de dificultad de respuesta por azar (0,2) en las casillas correspondientes a exámenes de 1; 2; 3, hasta 15 preguntas, veremos cifras significativas de aprobados de acuerdo a la cantidad deexaminados, más allá de este número de preguntas, el número de aprobados por azar se hace muy bajo o insignificante.

NÚMERO DE APROBADOS SEGÚN EL GRADO DE DIFICULTAD DE LAS PREGUNTAS

Al contrario, el número de sujetos que podrían aprobar el examen solamente por un bajo grado de dificultad de las preguntas puede ser muy alto, así si un examen tiene un promedio de dificultad (XGD) de 0,8 la proporción de aprobación se hace cercana al 100 % (todos aprueban), como se ve en el Cuadro N° 2.

¿Qué significa esto? Que para un análisis del rendimiento académico real, debemos calcular el número de aprobados de un examen asumiendo que se aplicara a un grupo de sujetos que no saben nada del tema y descontando esta cifra del número de aprobados del grupo completo.

Para calcular esta posibilidad debemos seleccionar las respuestas de un grupo representativo de sujetos que reprobaron el examen, en el entendido de que saben poco o nada del tema, y sus respuestas reflejan el azar o un bajo grado de dificultad de las preguntas, en la práctica calcularemos el grado de dificultad de cada pregunta en este grupo de exámenes e introduciremos estos valores en el programa "Delfos" extrapolando los datos al total de la población examinada a fin de tener un indicador de cuantos hubieran aprobado solamente por el grado de dificultad.

 

APLICACIÓN DE CAMPO

A manera de ejemplo analizaremos los datos de un examen de neurofisiología de años anteriores; lo rindieron 600 estudiantes, el número de aprobados fue de 66 (11%), la nota máxima 27 pts. y la distribución de las respuestas correctas siguió una curva normal levemente sesgada, con un promedio de 12 pts.

En el Cuadro N° 6 adjunto, se muestra el número de respuestas correctas de las primeras 20 preguntas y la proporción de respuestas correctas de los 600 cursantes ambos destacados en amarillo, el promedio de dificultad de las preguntas fue 3,55 (media difícil),

Procedimos a seleccionar los exámenes de las 150 calificaciones más bajas (descartando las ultimas 10) y calculamos los grados de dificultad para cada una de las 35 preguntas del examen, trasladamos los datos al predictor y calculamos para los 600 exámenes, encontramos que ningún sujeto aprobaría solamente por el grado de dificultad de las preguntas, de hecho, la cifra se hace 0 a partir de la pregunta 24 del examen, lo que nos indica que el grado de aprovechamiento reportado inicialmente fue el real (que está muy lejos de cumplir con las expectativas de rendimiento académico esperado).

 

OTRAS APLICACIONES

Solo estamos inaugurando esta metodología de análisis en nuestra facultad, sus aplicaciones son potencialmente amplias, sobre todo en la evaluación del rendimiento académico en diferentes escenarios académicos, para citar ejemplos: análisis de rendimiento en grupos seleccionados de sujetos, evaluación del rendimiento académico según categoría de preguntas, obviamente según el grado de dificultad de preguntas, etc.

 

DISCUSIÓN

Citando a Edel Navarro afirmamos que "Probablemente una de las dimensiones más importantes en el proceso de enseñanza aprendizaje lo constituye el rendimiento académico del alumno" 2. Probablemente la variable más empleada al aproximarnos al rendimiento académico son las calificaciones, razón de que existan índices de fiabilidad y validez de estas, considerados como "predictivos" del rendimiento 3; la validez de tales indicadores tanto en el análisis individual como grupal del rendimiento académico tienen importancia para el docente y el planificador académico así como para diversas instituciones por el abandono estudiantil en razón de un bajo desempeño académico 4, la correcta aplicación e interpretación de los datos debe considerar el efecto del azar en exámenes de pocas preguntas, como también el efecto del grado de dificultad en exámenes de muchas preguntas, a fin de ajustar nuestros indicadores, cuya mejoría se incorpora cada vez más en las necesidades de facultad de medicina, que se enfrentar a una heterogeneidad cada vez mayor de los estudiantes en términos socio-económicos, educativos y niveles de aspiración 5, desafiando la habilidad docente para formar profesionales que tengan los conocimientos y habilidades necesarios para el éxito laboral sin rebajar los niveles de calidad que requiere nuestro medio. El presente es un pequeño aporte en tal sentido.

ANEXO 1

ALGORITMO DE ANÁLISIS:

Si en la casilla "pc" de una hoja de EXCEL consignamos el grado de dificultad de la pregunta N (proporción de respuestas correctas/ total de respuestas de esta pregunta) y en la casilla "pc" consignamos su complementario (1 - "pc") que refleja la proporción de respuestas erróneas / total de respuestas a esta misma pregunta) y combinamos los datos de la siguiente pregunta (N+1) en una tabla de contingencia tendríamos:

Donde la casilla "A" indicaría la probabilidad de responden correctamente ambas preguntas, la casilla "B" indicaría la probabilidad de responder correctamente la pregunta "N" pero erróneamente la pregunta "N+1", la casilla "C" indicaría la probabilidad de responder correctamente la pregunta "N+1", pero erróneamente la pregunta "N", y finalmente la casilla "D" indicaría la probabilidad de responder erróneamente las preguntas "N" y "N+1".

Asumiendo respuestas por azar, la "pc" de la pregunta "N" es 0,2, la "pe" seria 0,8, de la misma manera para la pregunta "N+1", entonces la probabilidad de responder correctamente ambas preguntas se hace 0,04, la probabilidad de responder correctamente al menos una de las preguntas se hace 0,32 (0,16 + 0,16) y la probabilidad de responder erróneamente ambas preguntas se hace 0,64.

Si utilizamos estos datos para calcular la probabilidad de responder tres preguntas, todas por azar, el arreglo seria el siguiente:

La probabilidad de responder correctamente las 3 preguntas es 0,008.

La probabilidad de responder al menos 2 preguntas es 0,096 (0,064 + 0,032). La probabilidad de responder al menos una pregunta es 0,384 (0,128 + 0,256) y la probabilidad de responder erróneamente todas es 0,512.

A partir de este punto podemos seguir añadiendo nuevas preguntas en este algoritmo y calculando la probabilidad de responder correctamente un número grande de preguntas.

Evidentemente en un examen de apenas 5 preguntas se considera aprobación responder correctamente las cinco, o cuatro o al menos tres preguntas, sumando la probabilidad de estas tres situaciones. (Es decir la probabilidad acumulada "p.a.").

ANEXO 2

Definiciones y consideraciones:

RENDIMIENTO ACADÉMICO:

Se define el rendimiento académico como "un nivel de conocimientos demostrado en un área o materia comparado con la norma de tal nivel" \ en tal sentido los exámenes brindan una excelente oportunidad de evaluar dicho rendimiento, tanto individual como grupalmente en los estudiantes de pregrado. La importancia del tema es obvia para toda la comunidad, particularmente la académica y es una etapa básica, previa a cualquier análisis de causales y consecuencias.

ANÁLISIS DEL PORCENTAJE DE APROBACIÓN POR AZAR.

Dado que el porcentaje de respuestas correctas únicamente por el azar depende del número de preguntas que se realicen, es lógico analizar por separado los exámenes de pocas preguntas (10 o menos) y los de muchas preguntas (35 o más).

Imaginemos las respuestas a una pregunta de elección múltiple de 5 ítems aplicada a 100 cursantes de una materia completamente desconocida para ellos; el número de sujetos que acertarían con la respuesta correcta únicamente por el azar es de 20 sujetos (1/5 de las opciones disponibles), lo que daría un aparente rendimiento académico del 20%. Si en vez de una, fueran 2 preguntas, el número de respuestas correctas a ambas preguntas en los 100 sujetos seria 4, como se desprende del análisis del siguiente Cuadro N° 4 de contingencia:

La proporción de respuestas correctas para cada pregunta es de 0,2, que se combinan (multiplican) en la casilla "a" de la tabla, para dar una probabilidad de 0,04, que tomando en cuenta los 100 sujetos que responden ambas preguntas da un total de: (0,04 x 100 = 4 sujeto o 4%); ¿cuantos responderían al menos una respuesta correcta? Una proporción del 0,16 respondería correctamente la preg.1 (16 de los 100 sujetos) y la misma proporción lo haría con la pregunta 2 (otros 16 de los 100 sujetos) lo que da un total de 32 sujetos (32%) que responden al menos una respuesta correcta, mientras que 64% no responderían ni una pregunta correctamente.

Lógicamente, si aumentamos el número de preguntas, el porcentaje de respuestas correctas por el azar disminuye, en el caso de 3 preguntas, el número de 3 respuestas correctas por azar entre 100 sujetos se hace (0,2 ^3) es decir: 0,2 x 0,2 x 0,2 = 0,008; que multiplicado por 100 da un total de 0,8 (no llega a un sujeto siquiera que respondería las 3 preguntas correctamente entre los 100), 9 sujetos responderían 2 preguntas correctamente, 38 responderían al menos una pregunta y 51 no responderían ni una pregunta correctamente, según se desprende del análisis del Cuadro N° 5 de contingencia siguiente:


(Que multiplicado por 100 nos dan los porcentajes respectivos).

El procedimiento se puede extender para analizar un número cada vez mayor de preguntas, pero para motivos prácticos, es más interesante saber cuántos cursantes responderían correctamente la mitad más una de las preguntas solamente por azar, (es decir "aprobarían" dicho examen), si calculamos las proporciones de respuestas correctas en un examen de 10 preguntas, para lo cual sumamos las proporciones (o probabilidad) de responder 10, 9 , 8 ,7, 6 y 5 preguntas correctamente solo por el azar, obtendremos la cifra de 0,03279, que multiplicada por el número de sujetos que están rindiendo dicho examen (digamos 100) nos expresaría que 3 sujetos pudieran aprobar el examen solamente por azar; esta es la situación en los exámenes que se acostumbran a hacer para evaluaciones de las prácticas en todas las materias de las carreras de la facultad de medicina; por lo que estas consideraciones tienen importancia a la hora de juzgar el rendimiento académico evaluado con pocas preguntas aplicadas a grupos más o menos grandes de estudiantes.

La proporción de aprobación solamente por el azar se hace insignificante, incluso para grupos grandes (1000 estudiantes o más) cuando el número de preguntas de un examen supera las 20 preguntas, por lo que para los exámenes parciales de 35 preguntas que se acostumbra elaborar en materias de la carrera de medicina la proporción de alumnos que pudiera aprobar solo por azar es cercana a cero.

APROBACIÓN POR AZAR SEGÚN GRADO DE DIFICULTAD DE LAS PREGUNTAS

En realidad el número de sujetos que pueden aprobar un examen solamente por azar depende sobre todo del grado de dificultad de cada pregunta, por lo que para un análisis preciso debemos utilizar esta variable en nuestros cálculos.

Una vez más, para calcular el número de sujetos que acertarían solamente por azar las respuestas correctas de 2 preguntas con grados de dificultad de, por ejemplo 0,58 y 0,45 vemos los siguientes valores en el Cuadro N° 6 de contingencia:


Que aplicado a 100 sujetos nos muestra que 26 responderían ambas preguntas correctamente y más de 50 sujetos responderían correctamente al menos una. El efecto de un bajo grado de dificultad en las preguntas persiste en exámenes con más de 10 preguntas, reflejándose incluso en los resultados de exámenes con 30 o 35 preguntas (finales o parciales).

 

REFERENCIAS

1.- JIMÉNEZ, M. (2000) Competencia social: intervención preventiva en la escuela. Universidad de Alicante. Infancia y sociedad. 24. 21-48.- 2000.        [ Links ]

2.- Ruben Edel Navarro El rendimiento académico: concepto investigación y desarrollo. Revista electrónica iberoamericana sobre calidad, eficacia y cambio en educación, Vol 1, num.2. 2003http://www.ice.deusto. eslRINACEIreicelvol1n2IEdel.htm        [ Links ]

3.- Inocencio Vicente Gascón. Analisis de las calificaciones escolares como criterio de rendimiento académico. En https://campus.usal.es/~inico/ investigacion/jornadas/jornada2/ comun/c17.html        [ Links ]

4.- Ana María García de Fanelli Rendimiento académico y abandono universitario: modelos, resultados y alcances de la producción academica en la Argentina http://www.cedes.org.ar/PUBLICACIONES/ EDSUP/2014/10646.pdf        [ Links ]

5.- CINDA (2006). Repitencia y deserción universitaria en América Latina. Santiago de Chile: CINDA-IESALC-Universidad de Talca, cinda.cl/download/libros/Repitencia%20y%20Deserción%20Universitaria%20en%20 América%20Latina.pdf        [ Links ]

 

 

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons