Investigadores Revolucionan el Estado de la IA al Eliminar la Multiplicación de Matrices en los Modelos de Lenguaje
Investigadores afirman haber desarrollado una nueva forma de ejecutar modelos de lenguaje de inteligencia artificial (IA) de manera más eficiente, eliminando la multiplicación de matrices del proceso. Esto rediseña fundamentalmente las operaciones de redes neuronales que actualmente son aceleradas por chips GPU. Los hallazgos, detallados en un reciente artículo prepublicado por investigadores de la Universidad de California Santa Cruz, UC Davis, LuxiTech y la Universidad de Soochow, podrían tener profundas implicaciones en el impacto ambiental y los costos operativos de los sistemas de IA.
La multiplicación de matrices (a menudo abreviada como “MatMul”) está en el centro de la mayoría de las tareas computacionales de las redes neuronales hoy en día, y las GPU son particularmente buenas ejecutando las operaciones matemáticas rápidamente porque pueden realizar un gran número de multiplicaciones en paralelo. Esa capacidad hizo momentáneamente a Nvidia la empresa más valiosa del mundo la semana pasada; la empresa actualmente posee un estimado 98 por ciento de la cuota de mercado de GPU para centros de datos, que comúnmente se usan para impulsar sistemas de IA como ChatGPT y Google Gemini.
En el nuevo artículo, titulado “Modelado de Lenguaje Escalable Sin MatMul”, los investigadores describen la creación de un modelo personalizado de 2.7 mil millones de parámetros sin usar MatMul que presenta un rendimiento similar al de los modelos de lenguaje grandes convencionales (LLMs). También demuestran la ejecución de un modelo de 1.3 mil millones de parámetros a 23.8 tokens por segundo en una GPU que fue acelerada por un chip FPGA programado a medida que usa aproximadamente 13 vatios de potencia (sin contar el consumo de la GPU). La implicación es que un FPGA más eficiente “allanará el camino para el desarrollo de arquitecturas más eficientes y amigables con el hardware”, escriben.
El artículo no proporciona estimaciones de potencia para los LLM convencionales, pero esta publicación de UC Santa Cruz estima aproximadamente 700 vatios para un modelo convencional. Sin embargo, en nuestra experiencia, se puede ejecutar una versión de 2.7B parámetros de Llama 2 competentemente en una PC doméstica con una RTX 3060 (que usa aproximadamente 200 vatios en su pico) alimentada por una fuente de poder de 500 vatios. Entonces, si teóricamente pudieras ejecutar completamente un LLM en solo 13 vatios en un FPGA (sin una GPU), eso sería una disminución de 38 veces en el uso de energía.
La técnica aún no ha sido revisada por pares, pero los investigadores—Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou y Jason Eshraghian—afirman que su trabajo desafía el paradigma predominante de que las operaciones de multiplicación de matrices son indispensables para construir modelos de lenguaje de alto rendimiento. Argumentan que su enfoque podría hacer que los modelos de lenguaje grandes sean más accesibles, eficientes y sostenibles, particularmente para su despliegue en hardware con recursos limitados, como los teléfonos inteligentes.
Eliminando las matemáticas de matrices
En el artículo, los investigadores mencionan a BitNet (la llamada técnica de “transformador de 1-bit” que hizo su aparición como prepublicación en octubre) como un precursor importante de su trabajo. Según los autores, BitNet demostró la viabilidad de usar pesos binarios y ternarios en los modelos de lenguaje, escalando con éxito hasta 3 mil millones de parámetros mientras mantenía un rendimiento competitivo.