MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje

04/11/2024 20 min Temporada 1 Episodio 18

Escuchar "MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje"

Descargar episodio Ver en sitio original

Síntesis del Episodio

MM1.5 es una nueva familia de Modelos Multimodales de Lenguaje a Gran Escala (MLLMs) diseñada para mejorar las capacidades en la comprensión de imágenes ricas en texto, referencia visual y ubicación, y razonamiento con múltiples imágenes. Este podcast explora las innovaciones detrás de MM1.5, incluyendo:Un enfoque centrado en los datos para el entrenamiento del modelo. Esto implica el uso de datos OCR de alta calidad y subtítulos sintéticos para el pre-entrenamiento continuo, así como una mezcla optimizada de datos de ajuste de instrucciones visuales para la sintonización fina supervisada.Modelos que van desde 1B a 30B parámetros, incluyendo variantes densas y de Mezcla de Expertos (MoE). Se destaca que incluso los modelos más pequeños (1B y 3B) pueden lograr un rendimiento sólido con una selección cuidadosa de datos y estrategias de entrenamiento.Dos variantes especializadas: MM1.5-Video, diseñado para la comprensión de video, y MM1.5-UI, adaptado para la comprensión de la interfaz de usuario móvil.Un análisis profundo de los procesos de entrenamiento y las decisiones de diseño, ofreciendo información valiosa para futuras investigaciones en el desarrollo de MLLM.Acompáñanos mientras desglosamos los componentes clave de MM1.5, sus capacidades y su impacto potencial en el futuro de la IA. Hosted on Acast. See acast.com/privacy for more information.

Más episodios del podcast Ideas Resumidas

La Fórmula del Éxito: "Launch" por Jeff Walker 28/11/2024

Building a Second Brain - Tiago Forte 28/11/2024

Shane Parrish, "Pensar con Claridad" 28/11/2024

El poder de los hábitos: Cómo las empresas nos enganchan - Nir Eyal 28/11/2024

El Trabajo Profundo: El Secreto para Triunfar en la Era Digital (Basado en el libro "Deep Work" de Cal Newport) 28/11/2024

El Juego Infinito - Simon Sinek 28/11/2024

IA: La Clave para Navegar la Incertidumbre Empresarial 13/11/2024

Más Allá de la Vista: La Era de la IA con Sentido del Tacto 02/11/2024

"Piénsalo Otra Vez" de Adam Grant 02/11/2024

"The Algebra of Wealth" de Scott Galloway 30/10/2024

Ver todos los episodios

ZARZA Somos ZARZA, la firma de prestigio que esta detras de los grandes proyectos en tecnología de la información.

MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje

Escuchar "MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje"

Síntesis del Episodio

Más episodios del podcast Ideas Resumidas

Mi Dirección IP

Test de Ping

Traceroute

Escáner de Puertos

MTR - Diagnóstico

Consulta DNS