¿Qué Es Más Limpio Para El Medio Ambiente: Entrenar Un Modelo De IA O Cinco Coches? - Vista Alternativa

Tabla de contenido:

¿Qué Es Más Limpio Para El Medio Ambiente: Entrenar Un Modelo De IA O Cinco Coches? - Vista Alternativa
¿Qué Es Más Limpio Para El Medio Ambiente: Entrenar Un Modelo De IA O Cinco Coches? - Vista Alternativa

Vídeo: ¿Qué Es Más Limpio Para El Medio Ambiente: Entrenar Un Modelo De IA O Cinco Coches? - Vista Alternativa

Vídeo: ¿Qué Es Más Limpio Para El Medio Ambiente: Entrenar Un Modelo De IA O Cinco Coches? - Vista Alternativa
Vídeo: Inteligencia Artificial aplicada al Medio Ambiente: TOP 10. #NatZone 2024, Julio
Anonim

El campo de la inteligencia artificial a menudo se compara con la industria del petróleo: una vez extraídos y refinados, los datos, como el petróleo, pueden convertirse en un producto muy rentable. Sin embargo, ahora se hace evidente que esta metáfora se está expandiendo. Al igual que los combustibles fósiles, el aprendizaje profundo tiene un gran impacto en el medio ambiente. En un nuevo estudio, los científicos de la Universidad de Massachusetts Amherst evaluaron el ciclo de vida del aprendizaje de varios modelos grandes de IA comunes.

Encontró que este proceso puede generar más de 626,000 libras (aproximadamente 300,000 kg) de dióxido de carbono equivalente, casi cinco veces las emisiones de un automóvil típico en cinco años (incluida la producción del automóvil en sí).

Cómo se entrenan los modelos de IA

norte

Esta es una cuantificación asombrosa de lo que los investigadores de IA han sospechado durante mucho tiempo.

Huella de carbono del procesamiento del lenguaje natural

Video promocional:

El documento aborda específicamente el proceso de entrenamiento de un modelo para el procesamiento del lenguaje natural (NLP), un subcampo de la IA que se ocupa de entrenar máquinas para trabajar con el lenguaje humano. Durante los últimos dos años, la comunidad de PNL ha logrado varios hitos importantes en las áreas de traducción automática, finalización de oraciones y otras tareas de calificación estándar. El infame modelo OpenAI GPT-2, como ejemplo, ha logrado escribir noticias falsas convincentes.

Pero tales avances requirieron entrenar modelos cada vez más grandes en conjuntos de datos extendidos a partir de oraciones extraídas de Internet. Este enfoque es computacionalmente costoso y consume mucha energía.

Los investigadores observaron los cuatro modelos en el área responsables de los mayores saltos en el rendimiento: Transformer, ELMo, BERT y GPT-2. Entrenaron a cada uno de ellos en una sola GPU durante un día para medir el consumo de energía.

Luego tomaron la cantidad de horas de capacitación especificadas en los documentos del modelo original para calcular la energía total consumida durante todo el proceso de capacitación. Esa cantidad se convirtió en el equivalente a libras de dióxido de carbono, que era consistente con la combinación de energía de AWS de Amazon, el proveedor de nube más grande del mundo.

Encontró que los costos computacionales y ambientales de la capacitación aumentaron en proporción al tamaño del modelo y luego aumentaron exponencialmente cuando se ajustó la precisión final del modelo. Una búsqueda de arquitectura neuronal que intenta optimizar un modelo cambiando gradualmente la estructura de la red neuronal mediante prueba y error incurre en costos extremadamente altos con poca ganancia de rendimiento. Sin él, el modelo BERT más caro dejó una huella de carbono de 1,400 libras (635 kg), cerca de un viaje de ida y vuelta trans-estadounidense.

Además, estas cifras solo deben considerarse como líneas de base.

En total, los científicos estiman que el proceso de creación y prueba del modelo final digno de publicación requirió entrenar 4.789 modelos en seis meses. En términos de CO2 equivalente, esto es aproximadamente 35.000 kg.

La importancia de estos números es colosal, especialmente dadas las tendencias actuales en la investigación de la IA. En general, la investigación de IA descuida la eficiencia porque las grandes redes neuronales se reconocen como útiles para diversas tareas, y las empresas con recursos informáticos ilimitados las utilizarán para obtener una ventaja competitiva.

Ilya Khel

Recomendado: