La variedad de técnicas que componen la ciencia de datos (nuevas herramientas para analizar datos, nuevos conjuntos de datos y formas novedosas de datos) tienen un gran potencial para ser utilizadas en políticas públicas. Sin embargo, hasta la fecha, estas herramientas han sido principalmente del dominio de los académicos y, donde se han puesto en uso, el sector privado ha liderado el camino.
Al mismo tiempo, muchos de los usos del aprendizaje automático han sido de interés bastante abstracto para el gobierno. Por ejemplo, identificar tendencias en Twitter es útil pero no inherentemente valioso. Los proyectos que muestran el poder de los nuevos datos y las nuevas herramientas, como la utilización de algoritmos de aprendizaje automático para vencer a los expertos humanos en el juego Go, o para identificar la prevalencia de videos de gatos que apoyan a un candidato político u otro, han estado a cierta distancia de la aplicación a fines gubernamentales. Incluso cuando han sido aplicables, a menudo no se han probado adecuadamente en el campo y las herramientas creadas a partir de ellas no se han basado en la comprensión de las necesidades de los usuarios finales.
Por lo tanto, junto con muchos otros, durante el último año hemos estado trabajando para llevar a cabo proyectos ejemplares rápidos en el uso de la ciencia de datos, de una manera que produzca inteligencia procesable o conocimiento que pueda usarse no solamente como una herramienta para comprender el mundo, o para monitorear el desempeño, sino también para sugerir intervenciones prácticas que los gobiernos pueden implementar.
Hemos llevado a cabo ocho ejemplos de este tipo, enfocados en cuatro áreas: dirigir las inspecciones, mejorar la calidad de los ensayos controlados aleatorios (ECA), ayudar a los profesionales a tomar mejores decisiones y predecir qué colisiones de tráfico tienen más posibilidades de provocar la muerte o lesiones graves de alguien. Este informe cubre seis de estos ocho ejemplos.
Focalizando las inspecciones
- Descubrimos que el 65 por ciento de las escuelas «requiere mejoras» y las escuelas «inadecuadas» estaban dentro del 10 % de las escuelas identificadas como de mayor riesgo por nuestro modelo. Aumentando esto al 20 % más riesgoso, nuestro modelo capturó el 87 % de estas escuelas.
- Usando datos disponibles publicados por la Comisión de Calidad de la Atención (CQC) y otras fuentes, el 95 % de las prácticas inadecuadas de los médicos de cabecera pueden identificarse inspeccionando solo una de cada cinco prácticas.
- Al usar solamente la parte pública del sistema de monitoreo inteligente de CQC, que se basa en varios indicadores clínicos, un modelo similar solo detectaría el 30 % de las prácticas inadecuadas para el mismo esfuerzo de inspección.
- También hemos creado un modelo para predecir los resultados de la inspección de los hogares de ancianos, pero este modelo es mucho menos exitoso, lo que sugiere que se necesitan más datos o que las técnicas de aprendizaje automático podrían tener un uso limitado aquí.
Mejora de los ensayos controlados aleatorios
- Anteriormente, hemos utilizado datos de RCT para estudiar cómo varía la efectividad de las intervenciones para subgrupos específicos, lo que permite que las intervenciones estén mejor dirigidas.
- Estos subgrupos tendían a estar ampliamente definidos por una o dos características predeterminadas y las combinaciones de características se ignoraban en gran medida.
- Al aplicar algoritmos de aprendizaje automático causal a los datos de los ECA, podemos identificar los impactos diferenciales de una intervención en todas las características observables, asegurando que las personas obtengan la mejor intervención para ellos y ayudando a prevenir los efectos contraproducentes.
- Reproducimos un experimento realizado en 2016 con el King’s College London, en el que se animaba a los estudiantes a asistir a una feria de bienvenida enviándoles mensajes de texto que enfatizaban la empleabilidad o la pertenencia social, siendo la condición de pertenencia la que funcionaba mejor.
- En nuestro estudio de replicación, los participantes fueron asignados al azar para recibir uno de los brazos de mensajería asignados al azar o el mensaje que el algoritmo de aprendizaje automático predijo les daría el mejor resultado según sus características observables.
- En nuestro primer estudio con estas técnicas, encontramos un pequeño efecto positivo, pero no estadísticamente significativo de la asignación de mensajes por algoritmo, que creemos que se debe a la complejidad del modelo mal regulado. Estamos mejorando el diseño de nuestra focalización mediante el uso de un consenso de modelos en lugar de uno.
Ayudando a los profesionales a tomar mejores decisiones
- Los trabajadores sociales necesitan tomar una gran cantidad de decisiones, muy a menudo con poco tiempo e información incompleta.
- Nuestro trabajo anterior en esta área ha demostrado que una gran cantidad de casos para la evaluación de los trabajadores sociales puede influir en las decisiones que se toman.
- Trabajando con una autoridad local, utilizamos el procesamiento de lenguaje natural para predecir qué casos que se marcaron para que no se tomaran más medidas regresarían dentro de los tres meses y darían como resultado un plan de protección infantil o un niño bajo tutela.
- El análisis utilizando tanto texto como datos estructurados nos permitió predecir, 8,3 veces mejor que el azar, qué casos era probable que se remitieran de nuevo al sistema.
- Utilizando solamente el análisis del texto, podemos detectar el 45,6 % de los casos que regresarán de poco menos del 6 % de todos los casos, lo que permite que las intervenciones se orienten con precisión para apoyar a las familias más necesitadas.
- Estamos trabajando con trabajadores sociales para construir una herramienta digital que pueda usarse para ayudar a informar sus decisiones.
Predicción de colisiones de tráfico graves
- Las colisiones de tráfico en East Sussex han desafiado la tendencia nacional de menos incidentes de víctimas mortales y heridas graves.
- Somos capaces de predecir qué accidentes resultarán en la muerte o lesiones graves de alguien, con factores de comportamiento de los conductores, y no las condiciones de la carretera, que contribuyen más a la explicación.
- Hemos podido acabar con algunos mitos, por ejemplo, sobre los conductores mayores y los vehículos de mercancías.
- Los motociclistas, los jóvenes y las personas de mediana edad tienen una probabilidad desproporcionadamente mayor de verse involucrados en incidentes con muertos y heridos graves en East Sussex.