El estudio :
En primer lugar, se comparan los métodos de la ciencia de datos con el enfoque del MLG:
Galea realizó un estudio sobre la experiencia de siniestros de una aseguradora de automóviles para su cobertura de responsabilidad civil. El objetivo era modelizar el número y el coste de los siniestros de los asegurados, tanto por el enfoque «clásico» del MLG como por los métodos de ciencia de datos, y comparar la eficacia de los distintos modelos obtenidos.
La calidad de los modelos se midió mediante el error medio cuadrático (RMSE). Cuanto menor sea el RMSE, mejor será el enfoque. La siguiente tabla muestra los resultados obtenidos. El mejor enfoque se indica en rojo.
Cuadro 1- Resumen de los errores en la base de pruebas (RMSE)
Para la predicción del número de siniestros, el modelo GLM resultó ser el mejor. Sin embargo, los enfoques de ciencia de datos muestran un nivel de calidad similar, siendo el mejor el Random Forest. En cuanto al coste de los siniestros, el enfoque CART permite una modelización más fina que el GLM. El análisis realizado muestra que, en dos ejemplos, los métodos de ciencia de datos ofrecen rendimientos comparables a los de los modelos lineales. En la mayoría de las estructuras, la determinación de las tarifas de los automóviles se basa hoy exclusivamente en modelos lineales generalizados GLM, que es interesante cuestionar utilizando diferentes enfoques para determinar los más pertinentes caso por caso.
Sin embargo, el hecho es que el MLG es mejor comprendido por muchos operadores y más fácil de insertar en sus sistemas de gestión y en el VAO para algunos.