Cada modelo aprendido por pendiente de gradiente es aproximadamente una máquina de kernel

 Los éxitos del aprendizaje profundo a menudo se atribuyen a su capacidad para descubrir automáticamente nuevas representaciones de los datos, en lugar de depender de características hechas a mano como otros métodos de aprendizaje. Sin embargo, mostramos que las redes profundas aprendidas por el algoritmo de descenso de gradiente estándar son de hecho matemáticamente aproximadamente equivalentes a las máquinas kernel, un método de aprendizaje que simplemente memoriza los datos y los usa directamente para la predicción a través de una función de similitud (el kernel). Esto mejora enormemente la interpretabilidad de las ponderaciones de redes profundas, al aclarar que son efectivamente una superposición de los ejemplos de entrenamiento. La arquitectura de la red incorpora el conocimiento de la función de destino en el kernel. Esta mejor comprensión debería conducir a mejores algoritmos de aprendizaje.

https://arxiv.org/abs/2012.00152

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Crea tu sitio web con WordPress.com
Comenzar
A %d blogueros les gusta esto: