El mayor predictor de si su entrevista le dirá algo útil no es quién la conduce. Es si escribió las preguntas antes de que el candidato entrara.
Las entrevistas no estructuradas (la charla amistosa, el check al feeling, la ronda de simpatía) rinden peor de forma consistente que las estructuradas en cada medida estudiada. La investigación tiene décadas de profundidad, los tamaños de efecto son grandes, y la implicación práctica para selección en pyme es casi siempre la misma: el hiring manager que conduce la entrevista no puede a la vez ser la capa de calibración. La estructura tiene que ser la capa de calibración.
Lo que sigue es el marco que usamos en Join cuando diseñamos nuestros propios bucles de entrevista, condensado para responsables de selección en pyme sin talent partner dedicado.
Lo que 25 años de investigación realmente dicen
El texto de referencia para la validez de los métodos de selección es la meta-análisis de Schmidt y Hunter (1998) en Psychological Bulletin, que abarca 85 años de investigación sobre 19 procedimientos de selección. El número más citado: las entrevistas estructuradas predicen el desempeño laboral con un coeficiente de validez de alrededor de .51, mientras que las no estructuradas se sitúan en torno a .38. Combinadas con una medida de capacidad cognitiva general (GMA), las entrevistas estructuradas suben a .63.
Un meta-análisis anterior de McDaniel y colegas (1994) en el Journal of Applied Psychology, con datos de 86 311 individuos, encontró patrones similares: las entrevistas situacionales superan a las entrevistas relacionadas con el puesto, que a su vez superan a las entrevistas psicológicamente enmarcadas; y la estructura le gana a la no estructura de principio a fin. Trabajos más recientes de la SIOP han matizado los números de 1998 sin revertir su dirección: las entrevistas estructuradas siguen entre los métodos de selección más predictivos, sobre todo combinadas con pruebas de muestra de trabajo.
Una tabla mental rápida:
| Método de selección | Validez (≈) |
|---|---|
| Prueba de muestra de trabajo | .54 |
| Entrevista estructurada | .51 |
| Capacidad cognitiva (GMA) | .51 |
| Entrevista no estructurada | .38 |
| Comprobación de referencias (no estructurada) | .26 |
| Años de educación | .10 |
La línea interesante es la brecha entre .38 y .51. Esa brecha no se produce contratando entrevistadores más listos. Se produce escribiendo mejores preguntas con antelación.
Tipos de preguntas que predicen
Tres categorías cargan el peso.
- Preguntas conductuales. « Cuénteme una vez en que tuvo que entregar un proyecto en un plazo que sabía irrealizable. ¿Qué cambió, con quién habló, y qué pasó? » Piden al candidato que recorra una instancia pasada concreta. La señal está en el nivel de detalle que recuerda y en la limpieza de su relato causa-efecto. Las respuestas vagas correlacionan fuertemente con un desempeño pasado vago.
- Preguntas situacionales (hipotéticas). « Entra el próximo mes. La product manager ha lanzado una funcionalidad que está perdiendo clientes; ingeniería dice seis semanas para el fix; ventas lo quiere en dos. ¿Qué hace esta semana? » Piden al candidato razonar en tiempo real sobre un escenario relevante para el puesto. McDaniel encontró que las entrevistas situacionales superaron a las conductuales en validez predictiva en muchas familias de puestos. También se sienten como el trabajo real, lo que mejora la experiencia del candidato.
- Pruebas de muestra de trabajo. Una tarea de 30 a 60 minutos que se parece al trabajo real. Un take-home para una ingeniera; una edición en vivo de 30 minutos para una redactora; un roleplay de llamada de ventas. Schmidt y Hunter sitúan las muestras de trabajo en .54 de validez, por encima de cualquier formato de entrevista. El compromiso es el tiempo del candidato y el marco legal sobre trabajo no remunerado, especialmente en España donde la prueba técnica no remunerada más allá de un volumen simbólico tiene límites.
La investigación publicada de Google sobre su propia práctica de contratación (re:Work) encontró internamente que las entrevistas estructuradas predijeron el desempeño laboral a través de funciones y niveles de seniority, y redujeron el impacto adverso sobre grupos protegidos. La segunda parte importa: la estructura no solo es más predictiva, es más defendible jurídicamente.
Tipos de preguntas que no predicen nada
Tres categorías aparecen en casi cada bucle de entrevista y producen ruido.
- Acertijos. « ¿Cuántas pelotas de golf caben en un 747? » La propia investigación de Google no encontró correlación con el desempeño y retiró estas preguntas en silencio. Sobreviven en los bucles como un modo de que el entrevistador se sienta listo. Cortar.
- Preguntas de rapport / « cuénteme sobre usted ». Útiles para los primeros treinta segundos de una conversación, inútiles como señal. Premian la fluidez, el pulido y la confianza (más correlacionados con el origen social que con la competencia) y predisponen al entrevistador a favor o en contra antes de recoger ninguna señal.
- Preguntas de autoevaluación. « ¿Cuál es su mayor debilidad? » / « ¿Cómo lo describiría su último manager? » Las respuestas son uniformemente ensayadas, la calibración es imposible, y la varianza que ve es varianza en arte de presentación, no en idoneidad para el puesto.
Cortar estas no ahorra tiempo de entrevista. Ahorra atención de entrevista, y la atención es el cuello de botella.
Una rúbrica que el hiring manager realmente usará
Una entrevista estructurada sin rúbrica es media estructura. La puntuación obliga al entrevistador a comparar contra un estándar y no contra el candidato anterior.
La rúbrica mínima:
- Una fila por pregunta.
- Cada fila con una escala de 1 a 5 con al menos dos anclas escritas (por ej. « 3 = recorrió un proyecto, recordó resultados pero no decisiones concretas; 5 = recorrió un proyecto, recordó decisiones concretas, causa y efecto, y qué cambiaría con perspectiva »).
- El entrevistador puntúa cada fila antes de cualquier debrief con otros entrevistadores, para evitar la racionalización posterior y el pensamiento de grupo.
- La decisión final contratar/no-contratar es una función de las puntuaciones, no un feeling separado.
Esta es también la sección más reutilizada. Los mismos outcomes a 60 días que entran en la descripción de puesto (ver nuestra guía para redactar descripciones de puesto) son los mismos outcomes contra los que debería puntuar en entrevistas. Si la rúbrica no mapea al anuncio, uno de los dos documentos está mal.
Para hiring managers en pyme que conducen la entrevista ellos mismos, esta disciplina es todo el juego. No hay un panel de entrevistadores senior que se calibren en la sala. La rúbrica, escrita antes de que el candidato llegara, ocupa el lugar de ese panel.
Dónde ayuda la IA, y dónde se para
Redactar preguntas de entrevista a partir de la descripción de puesto es una tarea de 30 segundos para el modelo y una ayuda de productividad para el humano. Estructurar las respuestas del candidato para el debrief posterior también está bien. Ambas caen del lado de riesgo limitado de la línea regulatoria UE.
Puntuar candidatos con IA cae al otro lado de esa línea. El Reglamento de IA de la UE clasifica los sistemas de IA usados para el reclutamiento o selección de personas físicas como de alto riesgo según el anexo III, con las obligaciones completas (evaluación de riesgos, pruebas de sesgo, supervisión humana, transparencia) aplicables desde el 2 de agosto de 2026. Una IA que clasifique candidatos o recomiende contratar/no-contratar en base a respuestas de entrevista está en el ámbito. Una IA que ayude al entrevistador humano a redactar y recordar, no.
La línea divisoria es la misma que aplicamos en el producto en Join: IA como asistente, no como decisora. En un bucle de entrevista, la rúbrica es la asistencia que el hiring manager realmente necesita. La IA es una herramienta por debajo de eso.
Cómo se ve esto en la práctica
Para la mayoría de contrataciones en pyme que los clientes de Join hacen, tres a cinco preguntas estructuradas por entrevista, dos entrevistadores (uno con veto), un paso de muestra de trabajo, y una rúbrica rellena antes del debrief, es la configuración que produce las decisiones de contratación más limpias. Añadir más de cuatro entrevistadores rara vez mejora la validez predictiva en los pipelines de nuestros clientes; añadir más de cuatro rondas rara vez cambia la decisión. Lo que cambia la decisión es qué preguntas se hicieron, y eso está aguas arriba de cuántas personas hay en la sala.
La lección de veinticinco años de meta-análisis, condensada: escriba las preguntas primero. Calibre antes del debrief. Trate la IA como asistencia de redacción, no como jueza. El resto es edición.