INTRODUCCIÓN
Una de las responsabilidades que tiene el profesor en el aula es la de recopilar evidencias que sustenten en qué nivel se han logrado los aprendizajes esperados de un programa de estudios y asignar la calificación correspondiente a los alumnos. Este proceso de evaluación y calificación es relevante por las consecuencias que tiene ya sea de manera inmediata o cuando trasciende más allá de un ciclo escolar, porque de ello depende la continuación de estudios en grados superiores (Tierney, 2015); la calificación que se asienta en una boleta determina si el alumno es promovido de grado académico, si aparece en un cuadro de honor, si necesita clases de recuperación o si es aceptado en una institución superior (Guskey y Link, 2018); es decir, tiene un impacto en cuanto a las oportunidades futuras personales y educativas (Reeves, 2016).
La calificación, según la RAE (Real Academia Española, 2020), es la “puntuación obtenida en un examen o en cualquier tipo de prueba”. Para Brookhart y colaboradores (2016), son los símbolos que se asignan a los alumnos en las boletas de calificaciones, referidos a trabajos individuales o medidas compuestas de su desempeño. Haladyna y State (2019) la identifican como una variable cuantitativa, comúnmente expresada en número, que refleja el logro de desempeño de los alumnos. Un elemento adicional es que los números, letras o porcentajes asignados como calificación están basadas en estándares (Chen y Bonner, 2017).
A pesar de la relevancia de las calificaciones para la educación y la investigación, como señala Chen y Bonner (2017), no se ha documentado de manera suficiente el proceso de toma de decisiones que explica cómo toma dicha decisión un docente y, es necesario conocer cómo están evaluando y calificando los profesores a sus alumnos para identificar en qué medida están considerando las pautas establecidas en los documentos oficiales como plan y programas de estudio (Gómez y Jakobsson, 2015), u otros documentos que orientan y regulan este proceso; o si sus prácticas están influenciadas por creencias personales sobre el aprendizaje, así como creencias y conocimientos sobre la calificación (Chen y Bonner, 2017). En la medida que exista una concordancia entre las calificaciones de los estudiantes y su desempeño, tendremos calificaciones efectivas y contaremos con prácticas válidas y confiables de calificación cuando estas estén alineadas con los criterios de evaluación (Svennberg et al., 2018).
La presente investigación tiene como propósito determinar las prácticas de evaluación que sustentan la calificación asignada por los profesores a los alumnos y que tan válida y confiable es la información que sustenta la calificación.
MÉTODO
Se realizó un estudio de revisión documental. En este tipo de estudio se identificó y sistematizó de manera cuidadosa la literatura relevante sobre un campo de conocimiento, metodología o enfoque teórico (Palmatier, Houston, y Hulland, 2018); además, los resultados de la búsqueda de publicaciones sobre el tema son reproducibles (Linares-Espinós, Hernández, Domínguez-Escrig, Fernández-Pello, Hevia, Mayor y Ribal, 2018).
Para la búsqueda de la literatura se atendió a las tres recomendaciones que da Palmatier y colaboradores (2018): 1) Reunir un cuerpo de investigaciones adecuado sobre el tema para que la síntesis sea valiosa; 2) debe estar bien ejecutado, con técnicas de análisis y literatura adecuada y 3) se deben ofrecer nuevas perspectivas a partir de la comparación sistemática de los estudios.
La búsqueda de la información se realizó en cuatro bases de datos especializadas: ERIC, Google Académico, SCOPUS y Web of Science y se utilizaron como criterios de inclusión que fueran publicaciones comprendidas en el periodo 2015-2020, publicadas en revistas indexadas y que correspondieran al ámbito de la educación básica y/o educación media superior. Se excluyeron publicaciones correspondientes a ponencias y tesis de grado así como las referidas a campos diferentes al educativo.
En ERIC se utilizó la ecuación de búsqueda: (assessment AND grading) AND (secondary education) y se filtró el resultado para seleccionar artículos de revista de los años 2016 a 2020, en inglés. Se obtuvieron 56 resultados. En Google Académico se utilizó la ecuación de búsqueda: allintitle: "evaluación y calificación" + "educación" y se utilizó como filtro los años 2015-2020; se obtuvieron 12 resultados. En la base SCOPUS se utilizó la ecuación de búsqueda: (TITLE (assessment) AND TITLE-ABS-KEY (grading) AND TITLE-ABS-KEY (school) AND (LIMIT-TO (PUBSTAGE, "final"). Se delimitó la búsqueda al periodo 2015-2020, artículos publicados en revistas indexadas. Se obtuvo como resultado 53 referencias. Adicionalmente se realizó una búsqueda relacionada con la práctica de la evaluación, con la ecuación: (TITLE (teachers) AND TITLE (assessment) AND TITLE (practice)), esta búsqueda se delimitó al periodo 2016-2020, artículos publicados en revistas indexadas y se localizaron 44 referencias.
Finalmente, en la base Web of Science se buscó con la ecuación: TÍTULO: (assessment) AND TÍTULO: (teachers) AND TÍTULO: (practice). Se delimitó la búsqueda para artículos de revista arbitrada en inglés y/o español, en los años 2017-2020. Se encontraron 69 documentos. También se realizó una búsqueda de artículos sobre literacidad en evaluación, con la ecuación de búsqueda: TÍTULO: (assessment) AND TÍTULO: (teachers) AND TÍTULO: (literacy) se delimitó la búsqueda a los cinco años recientes y se localizaron 33 referencias (ver Tabla 1).
Todas las referencias se exportaron al gestor Mendeley, en donde se procedió a identificar duplicados para su eliminación. Posteriormente se realizó un cribado (Linares-Espinós, Hernández, Domínguez-Escrig, Fernández-Pello, Hevia, Mayor y Ribal, 2018) a partir de los títulos y resúmenes o con la revisión del texto completo cuando en el resumen no se tuvo información suficiente para decidir su inclusión. Finalmente, las referencias aceptadas de la búsqueda fueron 26 y se agregó un capítulo de libro citado con frecuencia en el tema.
Para la revisión de la información recopilada se establecieron cuatro categorías de análisis; 1) Evaluación y evaluación formativa; 2). Calificación; 3). Práctica de evaluación y 4). Literacidad en evaluación.
RESULTADOS Y DISCUSIÓN
Evaluación y evaluación formativa
En la revisión de la literatura se encontró que cinco investigaciones aluden a la relación del docente con la evaluación en general y la evaluación formativa en particular.
En una investigación se señala que los maestros tienen conocimiento o conocimiento parcial de los principios de evaluación; sin embargo, evidencian conflicto entre las recomendaciones de los expertos, la realidad en el aula y las políticas escolares (Chen y Bonner, 2017). Esta idea es reforzada también por la investigación de Mellati y Khademi (2018), quienes encontraron que los docentes con una baja literacidad en evaluación no usan la evaluación formativa, argumentando limitaciones de tiempo, conocimiento y salario.
En otro estudio se exploró la actitud de maestros de primaria hacia la evaluación formativa (Ahmedi, 2019) y se encontró que los docentes manifiestan una actitud positiva hacia la evaluación formativa, sin embargo, no la implementan en el aula. En el mismo sentido, en un tercer estudio, se encontró una situación contradictoria pues aunque los maestros indicaron tener nociones de la evaluación formativa, en el aula aplican una evaluación sumativa (Fernández-Ruiz, y Panadero, 2020).
La cuarta investigación, es una revisión sistemática realizada por Schildkamp y colaboradores (2020), quienes identifican varios pre requisitos que influyen en el uso de la evaluación formativa por parte del maestro. Dichos autores los agrupan en tres categorías: 1). Conocimiento y habilidades: acopio de información, construcción de instrumentos, análisis e interpretación de información, conocimiento pedagógico. 2). Factores psicológicos: actitudes y creencias, autonomía para tomar decisiones, presión social y 3). Factores sociales: colaboración con colegas e involucrar a los alumnos.
Práctica de evaluación
En un primer grupo se identificaron siete estudios que dan cuenta de los instrumentos, técnicas y/o métodos de evaluación utilizados por los maestros. Utilizan pruebas o exámenes escritos (Arsyad, 2020; Gómez y Jakobsson, 2015; Fernández-Ruiz y Panadero, 2020; Narathakoon et al., 2020). También utilizan pruebas orales, trabajo individual y grupal, evaluación formativa y sumativa (Isnawati y Saukah, 2017); retroalimentación verbal y no verbal (Seden y Svaricek, 2018); autoevaluación y autocalificación (Fraile Ruiz, Pardo, y Panadero, 2018); proyectos individuales y por equipo, evaluación del desempeño y, en menor medida, preguntas tipo ensayo (Cheng y Sun, 2015)
En un segundo grupo de estudios se ubicaron aquellos donde se identificaron los criterios utilizados por los maestros para evaluar. En la mayoría de los estudios se encontró que los maestros utilizan tanto factores cognitivos como no cognitivos (Arsyad Arrafii, 2020; Ashraf, y Zolfaghari, 2018; Cheng y Sun, 2015; Collazo, 2007; Guskey y Link, 2018; Marmeleira y colaboradores, 2020; Michael y colaboradores, 2016).
Además de los dos criterios anteriores, también señalaron la política escolar (Brookhart y colaboradores, 2016; Isnawati y Saukah, 2017). Por su parte, en el estudio de Chiekem (2015), se encontraron sólo factores no cognitivos y, finalmente en el estudio de Seden y Svaricek (2018) el criterio más relevante fue la política escolar.
Un tercer grupo de investigaciones se refiere a dos estudios que tratan sobre la práctica de evaluación y qué tanto está alineada al programa. En uno de ellos se encontró que 74% de los maestros utilizó estándares para la evaluación y calificación de los alumnos (Michael y colaboradores, 2016); en el otro se encontró que la evaluación del aprendizaje está alejada de lo que establecen los principios teóricos y empíricos de la evaluación formativa (Fernández-Ruiz y Panadero, 2020).
Literacidad en evaluación
En relación con los estudios referidos a la formación de los maestros en evaluación; la investigación de Michael y colaboradores (2016) con docentes de educación física del estado de California, en EE.UU., encontró que 74% de los profesores refirió utilizar los estándares establecidos por el estado para evaluar y calificar a sus alumnos y quienes no los utilizaron, en su mayoría (91%) no tenían una formación sobre el tema. En el estudio de Collazo (2007), se reportó que 31% había aprobado un curso universitario específico de evaluación y, finalmente en el estudio de Cheng y Sun (2015), se reportó que 32% de los docentes tenía una formación en evaluación en lenguas.
En otro grupo de estudios se encontró que reportan escaza formación en evaluación en los profesores. Por ejemplo, en la investigación de Lam (2019), se encontró que los profesores tenían perfiles de alta calificación académica y una experiencia laboral sólida, pero un nivel básico de literacidad en evaluación. En otros estudios se reportó que los maestros sólo tienen una formación en un programa para docentes (Link, 2018), formación en el campo de la enseñanza del inglés (Tierney, 2015); otros reportaron que los profesores tienen poca o alguna formación (Chen y Bonner, 2017; Cheng, DeLuca, Braund, Yan y Rasooli, 2020; Guskey y Link, 2018); o que es incierta (Fernández-Ruiz, y Panadero, 2020); en otro estudio se reportó que tienen una formación en evaluación pero es inconsistente y poco útil (Battistone, Buckmiller, y Peters, 2019); otra investigación reportó que 8 maestros de una muestra de 35 recibió entrenamiento en evaluación (Cheng, DeLuca, Braund, Yan, y Rasooli, 2020). En otros casos, recibieron una capacitación general en la implementación del plan de estudios (Isnawati y Saukah, 2017) y, finalmente Brookhart y colaboradores (2016), establecieron en su estudio de revisión sistemática que la mayoría de los profesores no tienen una formación en el campo de la evaluación.
Calificación
De acuerdo a los estudios revisados, algunas de las prácticas de evaluación se caracterizan por asignar ceros a trabajos incompletos y restar puntos por entregas tardías (Link, 2018) o utilizan el promedio y mecanismos de ajuste como redondeo, libretas, oportunidades adicionales, notas de clase diarias o eliminación de algunas notas (Collazo, 2007). En la investigación de Borghouts y colaboradores (2017), el esfuerzo fue el factor más considerado para calificar; adicionalmente tomaron en cuenta las tácticas de juego, participación, conducta social y habilidades técnico/motoras.
En otro estudio (Guskey y Link, 2018), se reportó que factores no cognitivos como participación en clase, hábitos de trabajo, limpieza, puntualidad en las entregas determinan del 10 al 20% de la calificación. En esta misma idea Seden y Svaricek (2018) reportaron en su estudio que la mayoría de los maestros utilizaron métodos obsoletos y contrarios a lo que establece la investigación de la evaluación en el aula.
En otra investigación se encontró que, además del rendimiento académico de los alumnos, los maestros consideraron el esfuerzo, hábitos de estudio, participación, comportamiento para calificar y también influyó la política escolar (Isnawati y Saukah, 2017). Adicionalmente, hay casos en los que se alteraron calificaciones, por ejemplo Tierney (2015) reportó en su estudio el caso de 8 alumnos en los que se alteró la calificación por diferentes motivos: dar oportunidad a los estudiantes, motivos compasivos, y dar lecciones de vida. En un estudio se encontró que los maestros establecieron criterios de calificación y los dieron a conocer a sus alumnos (Lopez-Pastor, Perez-Pueyo, Barba, y Lorente-Catalan, 2016).
En relación con los referentes que tienen los docentes para asignar las calificaciones, están los programas de estudio, la normatividad vigente referida a la evaluación y calificación, además de la formación y/o capacitación.
La revisión de la literatura en el presente estudio mostró que existen diferentes factores que determinan la calificación que el maestro asigna a los alumnos y existe algo que Guskey (2015) denomina ingenuidad compartida, en el sentido que el docente en la mayoría de los casos utiliza su idiosincrasia, sus métodos no están alineados con lo que establecen los estándares para el aprendizaje, además de que pocos maestros y directivos saben qué implementar para lograr un cambio en este tema. Lo anterior se confirma con lo que establece Guskey y Link (2018) al señalar que las políticas de calificación de los maestros rara vez reflejan las recomendaciones de la investigación o están alineadas a enfoques basados en estándares. En Suecia por ejemplo, como menciona Gómez y Jakobsson, (2015), después de 20 años de un cambio curricular, los docentes de ciencias siguen utilizando prácticas de evaluación tradicional en el aula.
La formación en el campo de la evaluación, sin embargo, no es factor determinante. Los participantes del estudio de Battistone et al., (2019), reconocieron haber recibido alguna formación sobre el tema, pero fue poco útil, pues no los involucró en el proceso de pensar y diseñar evaluaciones. En cambio, en el trabajo realizado por (López-Pastor y colaborados (2016), los participantes valoran positivamente su participación en un proceso de evaluación formativa al considerarlo como una experiencia con altas posibilidades de ser transferida a su práctica docente. Esto implica que cuenta la formación, pero más específicamente la metodología utilizada en dicho proceso.
Aquí puede resaltarse la necesidad de procesos de formación dirigidos a los futuros maestros o de capacitación a los que están en servicio utilizando por ejemplo la metodología de la evaluación socioformativa, en donde se parte de identificar y resolver problemas de contexto y la colaboración (Tobón, 2017). La capacitación o formación profesional debe apoyar a los maestros para que logren alinear su práctica de evaluación con lo que establece el currículo (Battistone, Buckmiller y Peters, 2019); debe contemplarse también el modelo propuesto por Schildkamp y colaboradores (2020), que atiende tres factores importantes de la formación docente: social, psicológico y conocimientos.
Los docentes suelen considerar como algo complejo el proceso de calificación y esto puede deberse a carencias en la formación o capacitación, pero también de acuerdo con Collazo (2007), a la falta de sistematización de la información recopilada del estudiante y mezclar en una misma nota asuntos de diversa índole. Sin embargo, es aún limitada la investigación sobre la preparación que reciben los maestros en formación relacionada con la evaluación y la calificación (Battistone, Buckmiller y Peters, 2019).
En cuanto a las prácticas de evaluación que sustentan la calificación asignada por los docentes; para tomar la decisión ha realizado un proceso de acopio de información pertinente que refleja el desempeño del alumno; para ello utilizó instrumentos, técnicas, métodos, estableció criterios de evaluación y calificación; sin embargo, existen prácticas de evaluación que Reeves (2016) llama tóxicas porque tienen un impacto negativo en el rendimiento académico y conductual de los alumnos y se caracterizan por el uso del cero en una escala de cien puntos y el uso del promedio para calcular calificaciones finales.
También se debe señalar que en la mayoría de los estudios revisados la información no proviene de observación directa de la práctica docente y las respuestas obtenidas a través de un auto reporte pueden estar influidas por la deseabilidad social (Fernández-Ruiz y Panadero, 2020) y su práctica actual de evaluación y calificación puede ser diferente a lo que reportan (Michael et al. 2016). Por ejemplo, en la investigación de (Ahmedi, 2019) se encontró que existía en los docentes una actitud positiva hacia la evaluación formativa pero no la implementaban en el aula o, como se encontró en el estudio de Fernández-Ruiz y Panadero, (2020), donde se señala que los docentes dicen tener nociones de la evaluación formativa, pero en su práctica aplican una evaluación sumativa. Hay disonancias entre las creencias y las prácticas de evaluación de los profesores como señalan Widiastuti y colaboradores (2020) y estas pueden deberse entre otros factores a la carga de trabajo del maestro, condiciones del salón de clase y limitaciones de tiempo.
Se ha señalado que la práctica de evaluación y calificación realizada por el docente no atiende las recomendaciones de la investigación y tampoco está alineada con los programas de estudio, tanto en el uso de instrumentos, técnicas y métodos, como en los criterios. La evaluación del aprendizaje que se realiza está alejada de lo que establecen los principios teóricos y empíricos de la evaluación formativa (Fernández-Ruiz y Panadero, 2020); pero aun teniendo conocimiento de evaluación y calificación, su práctica puede seguir igual porque existen otras condicionantes como la presión social y la política escolar; esto refuerza la idea de fortalecer en los docentes, además de los conocimientos, los factores psicológicos y sociales que señala (Schildkamp, van der Kleij, Heitink, Kippers, y Veldkamp, 2020).
En cuanto a los planteamientos que establecen el significado de la confiabilidad y validez de la información que sustenta la calificación, están expresados en dos estudios (Brookhart, 2017; Haladyna, 2019). La validez se entiende como la precisión en que la calificación refleja el nivel de desempeño académico logrado por el alumno y la certeza de que efectivamente refleja lo que dijimos que calificamos y no otra cosa. Por su parte, la confiabilidad se refiere a la confianza que se tiene en la consistencia de esa medida.
Para que la calificación sea válida Haladyna (2019) sugiere que deben darse las siguientes condiciones: 1. Se identificaron los temas y se compartieron con los alumnos, 2) se proporcionó una instrucción que dio oportunidad al alumno de adquirir los conocimientos y habilidades establecidos, 3) los criterios de calificación representaron de manera justa y razonable el dominio, 4) se compartieron los principios de calificación con los alumnos y 5) los estándares de calificación fueron justos y se dieron a conocer el primer día de clases.
A partir de estos referentes se puede afirmar que es cuestionable la confiabilidad y validez en las calificaciones asignadas por los docentes, en los estudios revisados; excepto en el estudio de López-Pastor y colaboradores (2016). El resto de los estudios revisados dan cuenta de calificaciones obtenidas a partir de una mezcla de factores cognitivos y no cognitivos; algunos criterios utilizados como asistencia, participación en clase, trabajos o créditos extra, esfuerzo y comportamiento, son denominados por Haladyna (2019) controversiales e inapropiados. Incluso en algunos casos se realizan prácticas tóxicas de evaluación (Reeves, 2016).
Para atender esta situación se debe promover en mayor medida el trabajo colaborativo ya que la mayoría de los docentes como señala Brookhart y colaboradores (2016), además de no contar con una capacitación para calificar a sus alumnos, realizan esta labor en solitario, rara vez realizan trabajo con sus colegas para verificar confiabilidad y validez de sus calificaciones. También los directivos que acompañan orientan y supervisan la actividad docente necesitan conocer como implementar cambios para modificar las prácticas de calificación.
La investigación apoya que se debe calificar basándose solamente en los estándares de desempeño establecidos en los programas de estudio y, en una evaluación separada considerar el esfuerzo y el comportamiento (Brookhart, 2017); se pueden evaluar además otros factores que inciden en el desarrollo integral del alumno pero estos se reportan por separado. Atendiendo a la validez de la calificación ésta se debe asignar considerando criterios alineados con el programa de estudio.
CONCLUSIONES
Se concluye que la tendencia en la práctica docente es el establecimiento de una evaluación formativa que involucre al alumno y la calificación basada en estándares alineados con los programas de estudio vigentes. Además, para poner en práctica los principios de evaluación y calificación establecidos en las reformas curriculares se deben acompañar con asesorías a docentes y directivos mediante estrategias que logren un impacto efectivo en el aula. Por eso es cuestionable la validez y confiabilidad de las calificaciones asignadas a los alumnos y conjuntamente hay que cambiar las prácticas de evaluación y calificación de los maestros tiene el potencial de beneficiar el éxito académico de los alumnos.
En futuras investigación se puede considerar la revisión de listas de evaluación o libro de evaluación del docente para verificar cómo sistematiza la información, si existe alguna ponderación en cuanto a los criterios de evaluación y en qué medida estos se alinean a lo establecido en el programa de estudios. Puede ser también de interés conocer qué formación tienen los maestros en el campo de la evaluación y calificación, sobre todo en el contexto de nuestro país, así como investigar la participación de directivos y supervisores que deben tener un papel decisivo en la asesoría del docente y en la definición de políticas de calificación en la escuela alineadas a lo establecido en los programas educativos y lo que indica la normatividad sobre la evaluación y calificación