Riesgos de sesgo en los procesos de evaluación docente

En referencia a un interesante artículo publicado sobre el fracaso del constructivismo en la educación es que me he atrevido a publicar este comentario relativo a evaluación de desempeño docente y a de las llamadas evaluaciones cualitativas en ámbitos tan sensibles como éste.

En otras ocasiones y a nivel laboral he comentado lo mucho que me cuesta ver aplicados algunos de los criterios de evaluación que se incluyen en las pautas de evaluación docente porque, con más o menos incidencia, muchas están pensadas desde lo constructivista cuando no necesariamente todo contenido de determinadas asignaturas está abierto a debate y a cuestionamiento. En particular, si la intención es hacer emerger una verdad o «construirla», entonces surgen problemas prácticos como ocurre en mis cursos, un ejemplo: ¿se les ocurre algo menos intuitivo que una desviación estándar? estoy seguro que se pueden proponer prácticas con base constructivista para llegar a la comprensión de este concepto fundamental, pero ¿cuánto tiempo de clase tomaría?, ¿una, dos, tres clases?, posiblemente más de una eso seguro, con el impacto y atraso en la revisión de otras materias fundamentales. Uno de mis problemas con mis cursos es que estadística es de definiciones precisas, teoremas, que no están sujetos a debate, son supuestos y su «construcción» no es social, no de lo social cotidiano. Tomás Ibañez en su libro «Análisis del Discurso» señalaba en su introducción que actualmente hay muchas cosas que «no se dejan decir» por el discurso y cuya emergencia no proviene de la palabra, déjenme puntualizar: de la construcción social a través de la palabra. Con más claridad apuntan: «Esto no significa que un enfoque ‘discursivo’ sea una panacea, ya sea en psicología o en cualquier otra disciplina de Humanidades o Ciencias Sociales». Pese a que muchos aspectos y problemas de la sociedad son discursivos o pueden ser estudiadospor muchas diferentes formas de análisis del discurso, esto no significa que la sociedad sea sólo discursiva, como muestran la pobreza, el hambre, las enfermedades, la violencia contra las mujeres, el racismo y muchos otros problemas fundamentales de la sociedad». Otra cosa muy distinta es que esta realidad (o realidades) sean expresadas de diversos modos a través del discurso, son reproducidas mediante el discurso.

(apunte extra: en conversaciones con alumnos e incluso colegas, tengo la sensación, por muy vulgar que suene la comparación, de que se piensa en el discurso como un poder tal, que en él reside la creación de la realidad, casi al estilo Matrix, en donde todo lo que nos rodea no es sino fruto de una percepción que en virtud de la palabra, adquiere una existencia tangible en nuestras vidas; y por añadidura, si cambiamos las claves del discurso cambiamos la naturaleza del fenómeno… me perdonarán mi escepticismo)

En ciencia el tema no es menor, yo considero que la investigación con base constructivista y en consecuencia cualitativa es sumamente valiosa, pero después de años en el área me he convencido que no puede reemplazar completamente a la ciencia tradicional. Un elemento fundamental para mi juicio es el concepto de refutación a la manera popperiana. En investigación cualitativa no hay refutación, hay por cierto algunos mecanismos de regulación -que dicho sea de paso, no son aceptados por todos los investigadores cualitativos- pero que rara vez se ponen en práctica. Eso ha llevado -lo he visto y trabajado directamente- a que investigaciones cualitativas con un propósito claro que no han podido ejecutarse por dificultades meramente técnicas (y no teóricas) terminan brindando IGUAL una propuesta y discusión de los datos que aparece como algo útil y rescatable. Y esto ocurre porque no hay refutación y no hay ninguna consideración a la posibilidad de error, todo investigador cualitativo obtiene una investigación fructífera, independiente de su grado de preparación y lo que es peor, un investigador cualitativo consagrado obtendrá sin mucho cuestionamiento, casi por defecto, una investigación «consagrada» (las únicas ocasiones en que puede llegar a haber alguna mención a deficiencias es cuando se intenta determinar la «eficacia» de una intervención o proyecto, entonces las deficiencias llegan a ser bastante más claras para todos). La pregunta es ¿puede ser esto útil como conocimiento científico? Estadística ciertamente aplana la realidad, no toma en cuenta procesos y es casi imposible adquirir una visión integral de un fenómeno sólo a través de las herramientas que nos proporciona, en consecuencia las críticas que se le hacen son absolutamente legítimas, pero algo valioso desde esta perspectiva es que siempre se incluye el error, a mi esto me parece muy honesto y la frustración se impone como algo con lo que se tiene que convivir y que es casi connatural al investigador tradicional producto de las investigaciones fallidas. Los investigadores cualitativos no suelen enfrentar este dilema, sus datos siempre brindan «algo rescatable», muchas veces incluso independiente de la calidad de su trabajo, que no suele ser auditado (no hay patrón común, se impone la artesanía metodológica en muchos casos).

Déjenme extrapolar esto a lo que hemos discutido recientemente con respecto a la evaluación docente que se ha discutido en el ámbito de mi universidad (y por ende no sé si sea extrapolable a otras entidades), y cuya discusión me llevé para la casa en mi cabeza, sintetizaré mi opinión en dos aspectos técnicos que concretan en problemáticas lo que he indicado anteriormente:

– Los instrumentos en evaluación del desempeño docente:

La evaluación siempre ha sido un tema polémico, mi opinión personal es que es necesaria y la valido absolutamente, pero del mismo modo que no le pasamos la misma prueba a todos los estudiantes para evaluar sus conocimientos en todas las asignaturas, tampoco me parece que un instrumento «oficial» sea único y con una sola mirada para todos los profesores. Lo matices no pueden estar centrados en las personalidades de los dcoentes, pero ciertamente debe tomar en cuenta las peculiaridades de los cursos. Retomo mi caso, muchos de los elementos vistos en metodología no admiten de buenas a primeras una discusión abierta, cuando se opina de pedagogía, todos, quien más quien menos, han pasado por la experiencia docente y tienen una opinión, ¿qué opinión de antemano se tiene de una distribución binomial?, ¿qué opinión se tiene de un modelo predictivo o de un diseño prospectivo con grupo de cuasicontrol?, a mi juicio es necesario saber bastante para adquirir cierto know how de base y poder opinar con fundamento. En este caso en particular se requieren otros tipo de indicadores, un poco ajenos quizás a la perspectiva colaborativa habitual.

A lo anterior le agrego otro elemento: las evaluaciones de carácter cualitativo, porque dependiendo de cómo se le entienda, una evaluación cualitativa a mi me suena a paradoja irresoluble, una suerte de monstruo informe difícil de catalogar. Si se propone un modelo cualitativo (paradigmático) de evaluación y no sólo un instrumento con preguntas cualitativas, entonces caemos en dicha paradoja porque, ¿alguna vez alguien ha leído que las aproximaciones de indagacion cualitativa tienen el propósito de evaluar? (ojo, hay libros de evaluación cualitativa pero su aproximación es técnica, no epistemológica), desde los orígenes mismos de lo cualitativo ¿fue el propósito de Margaret Mead decir «miren los papuanos están más avanzados que los estadounidenses en religión pero van mal en tecnología»?. Tal como dijo Dilthey, lo cualitativo (en realidad lo humanista) propende a la Verstehen (comprensión) y no ha sido el propósito de esta perspectiva el evaluar, porque evaluar implica comparar y lo que a veces es peor: comparar con un estándar. Cualquier aproximación evaluativa constructivista se pisa la cola desde este punto de vista. En investigación suelo escuchar otros docentes que le dicen a los tesistas: «miren lo que van a hacer es ir a una escuela donde haya proyecto de (integración, etc) y van a hacer grupos de discusión y luego van a otra escuela donde no haya proyecto de… y hacen otros tantos grupos de discusión», a mi juicio esto no es sino el viejo esquema experimental de grupo experimental y control que está incrustado en la mente de la mayoría de los docentes e investigadores, pero reemplazando los instrumentos por otros cualitativos. Yo pienso que si se quiere ser cualitativo en serio, hay que olvidar la perspectiva evaluativa, no es ése su fuerte, la ciencia tradicional ya lo hace bastante bien en ese plano, en particular cuando se quiere evaluar eficacia. No hablo aquí de lo sociocrítico, donde la evaluación no es ni siquiera necesaria, ya que los postulados fundamentales que mueven a la acción son conocidos y conforman el sustento teórico mismo de dicha perspectiva (dominación, emancipación, etc.)

Un tercer elemento ligado a los instrumentos es la objetividad de los mismos. Nosotros en Chile que siempre estamos atrasados como 25 años en evaluación respecto de lo que se hace en EEUU o Europa no tenemos la misma cultura que ellos cuando hablamos de evaluación. No puedo hacerme cargo de todo lo que implica evaluación en pedagogía (no tengo ese dominio), así que sólo me remitiré a lo que implica en psicometría y la evaluación del desempeño. Ya a fines de los 40 y comienzos de los 50, pero en particular durante la época de los derechos civiles en EEUU la evaluación del desempeño siempre fue un dolor de cabeza para los psicómetras, tanto, que actualmente la construcción de cualquier instrumento demanda una refinada batería de análisis que debiera cumplirse a cabalidad para cualquier test que tiene el fin tan delicado de evaluar a las personas y especialmente a los profesionales. Y esto no sólo atañe a tests psicológicos, también a tests de rendimiento o aprovechamiento. Demás está decir que en Chile esa bateria de análisis no se aplica ni por si acaso. No me consta en cuanto a los instrumentos presentados en particular en la universidad en la que trabajo, pero me temo que tampoco cumplen con esas condiciones. Durante la época mencionada, muchas fueron las demandas legales en contra de evaluadores y evaluaciones por haber efectuado mediciones sesgadas o derechamente discriminatorias. Eso llevó a la necesidad de asegurar evaluaciones objetivas -fiables y válidas por supuesto- pero particularmente libres de sesgo (un concepto con el que deberíamos estar todos familiarizados es funcionamiento diferencial de ítem o DIF). Además, lo que se evalúa (y con esto hago mención a validez) no debe representar significaciones equívocas para los evaluados (otra razón más por la cual lo constructivista tiende a generar confusión) recuerdo en particular una dimensión de la prueba de mi universidad que consulta sin más por el «compromiso del estudiante» (hay que decir que por suerte es una dimensión con algunos indicadores bien objetivos como «asistencia»), pero nunca se define claramente qué se entiende por «compromiso» y esto es obvio, porque compromiso así como «satisfacción», «libertad» y otros muchos conceptos son de aquellas palabras «cajón de sastre» que se aplican a muchas cosas sin nunca definirse adecuadamente. Esto se debe evitar si se quiere una evaluación objetiva, pero más importante aún, una evaluación justa para todos.

– Del proceso de evaluación docente:

Si es una evaluación de desempeño con mayor razón debe tomarse en cuenta lo que señalo. No puede ser esencialmente voluntaria. Esto pasa a llevar cualquier criterio de representación adecuada de la opinión estudiantil sobre los cursos dictados. En política en Chile votan unos 6 millones de personas por 16 millones, sin embargo, aparentemente la tendencia en las elecciones parece representar adecuadamente la opinión de los chilenos (al menos en apariencia), quizás sea lógico, en 6 millones de personas sí podremos encontrar representadas toda la gama de opiniones que se tengan de los políticos o de un sistema político, pero la pregunta es: ¿y en cuarenta o cincuenta personas, 20 estudiantes serán representativos de todo el curso? Lo digo derechamente: NO. Esa es la razón por la cual se toman muestras «representativas» considerando que todos los sujetos tengan la misma probabilidad de ser elegidos o incluidos y ésa es la razón por la que poblaciones pequeñas requieren muestras más grandes y poblaciones grandes muestras pequeñas, si hiciésemos el cálculo, de una población de 40 estudiantes, la muestra no sería menor a 38 o 39, esto es coherente: si yo tengo un curso de 10 mil personas (imposible, eso sólo un ejemplo didáctico), probablemente con 1 mil personas ya abarco toda la gama de opiniones posibles en esa población, esto implica que es difícil hallar 10 mil opiniones distintas si nos centramos en contenidos y sus significados, pero seguramente se podría hallar 500 o mil opiniones diversas, en cambio, es muy posible que 50 personas sí brinden sobradamente 50 opiniones distintas, o dicho de otro modo, quizás sí obtenga fácilmente 50 matices de un par de opiniones centrales, sean éstas negativas o positivas.

La voluntariedad para responder la encuesta es otro elemento que claramente es fuente de sesgo y además, sesgo grave. ¿Quienes son los voluntarios? claramente los que tienen intenciones o intereses claros con respecto a lo evaluado. Este problema se conoce desde siempre en experimentos, en donde se suele trabajar con voluntarios, el sólo hecho de que sean voluntarios (y peor aún, voluntarios pagados) los predispone a mostrar un desempeño acorde «con lo deseos del investigador». En el caso de la evaluación de desempeño, es claro que el efecto es inverso pero igualmente presente. Del mismo modo que el libro de sugerencias de una empresa está lleno de «quejas» o «reclamos» y muy poco de comentarios positivos, así también los que se aproximan voluntariamente a la evaluación tendrán más bien intereses en destacar lo que no les parece antes que lo que les parece, porque a quienes les parece que todo va bien, brindar una opinión consonante les resulta una redundancia, más aún si el curso se seguirá dictando. Permítanme dar un ejemplo más cercano a la realidad docente, ¿cuál es la proporción de anotaciones negativas versus positivas en los libros de clase?, no creo que sea necesario adivinar hacia dónde está la tendencia. La voluntariedad es una conducta que deja fuera de verdad una parte importante de la diversidad de opinión que debe primar en una evaluación. Se ha dicho por allí que «con todo, es una opinión, y que el profesor debe hacerse cargo», estoy de acuerdo, pero mi crítica es que es una opinión parcial y no toda la opinión de la que un docente debe hacerse cargo, en el contexto universitario resulta algo más sencillo «hacerse cargo» de opiniones parciales, aunque sea injusto, pero dejénme cambiar el contexto: ¿y si las opiniones condicionan la vida y la muerte del incauto profesor?, no creo que sea necesario señalar que probablemente se hará lo imposible por buscar por cielo, mar y tierra a aquel alumno que tenga una opinión diferente de la dada por los «opinantes voluntarios». Hay incluso un elemento psicológico curioso en todo esto, se suele señalar que las personas tenemos mucha mayor capacidad para detectar estados negativos que positivos (basta darse cuenta cuántas palabras tenemos para describir estados anímicos asociados con tristeza versus estados anímicos relacionados con alegría -de hecho es difícil separar conceptualmente alegría, felicidad, contento o dicha, mientras que es fácil definir diferencialmente nostalgia, tristeza, melancolía, depresión, distimia, etc.) porque así se les identifica mejor y con ello se puede planear mejor su superación, en cierto modo, pareciera que identificar y describir mejor lo negativo es una estrategia de adaptación y en este sentido no es intrínsecamente malo, lo malo es que en ámbitos donde la ponderación es importante, esta conducta adaptativa puede llevar a los problemas comentados.

Con todo esto no pretendo sino levantar alguna discusión al respecto, yo creo que un proceso tan importante como la evaluación docente no puede ser tomado de buenas a primeras sin discutir mucho sobre el particular. Ha pasado el tiempo desde los primeros intentos de evaluación docente y de repente siento que es importante contribuir con este debate que además debería ser permanente, porque como todo proceso de evaluación, es infinitamente perfectible.

L	M	X	J	V	S	D
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Riesgos de sesgo en los procesos de evaluación docente

Deja tu comentario Cancelar la respuesta

Bienvenidos al sitio

Últimas entradas

Blogroll

Comentarios de usuarios

Acceso administrador