**¡Puede oír y ver, dándole al modelo diferentes sentidos para entender el mundo! **
Los modelos de lenguaje a gran escala actuales, como ChatGPT, solo pueden aceptar texto como entrada. Incluso la versión mejorada de GPT-4 solo agrega la función de entrada de imagen y no puede manejar otros datos modales, como video y audio.
Recientemente, investigadores de la Universidad de Cambridge, el Instituto Avanzado de Ciencia y Tecnología de Nara y Tencent propusieron de manera conjunta y de código abierto la instrucción general siguiendo el modelo PandaGPT, que también es el primero en realizar seis modalidades cruzadas (imagen/video, texto, audio, profundidad, térmica e IMU) ejecutan instrucciones siguiendo el modelo subyacente de los datos.
Enlace de papel:
Enlace de código:
Sin una supervisión multimodal explícita, PandaGPT demuestra sólidas capacidades multimodales para realizar tareas complejas de comprensión/razonamiento, como la generación de descripciones detalladas de imágenes, escribir historias inspiradas en videos y responder preguntas sobre audio, múltiples rondas de diálogo, etc.
En resumen, la principal innovación de PandaGPT es que puede aceptar múltiples entradas modales al mismo tiempo y, de forma natural, combinar la semántica de diferentes modalidades, superando el análisis monomodal tradicional, ampliando los escenarios de aplicaciones posteriores y acercándose a la implementación. de AGI.
Ejemplo
Preguntas y respuestas basadas en imágenes:
Respuesta a preguntas de múltiples rondas basadas en imágenes:
Preguntas y respuestas basadas en video:
Escritura creativa inspirada en imágenes/videos:
Capacidad de razonamiento visual:
Capacidades de razonamiento de audio:
Capacidad de comprensión multimodal de imagen + audio:
Capacidad de comprensión multimodal de video + audio:
PandaGPT multimodal
En comparación con el modelo de IA atrapado en la computadora, los seres humanos tienen múltiples sentidos para comprender el mundo. Pueden ver una imagen y escuchar varios sonidos en la naturaleza; si la máquina también puede ingresar información multimodal, puede ser más completa .resolver varios problemas.
La mayor parte de la investigación multimodal actual se limita a una sola modalidad, o una combinación de texto y otras modalidades, que carecen de la integridad y complementariedad de percibir y comprender la entrada multimodal.
Para hacer que la entrada multimodal de PandaGPT sea compatible, los investigadores combinaron el codificador multimodal de ImageBind con un modelo de lenguaje a gran escala Vicuna, los cuales han logrado un rendimiento muy sólido en tareas de seguimiento de instrucciones basadas en audio y visuales.
Al mismo tiempo, para que los espacios de características de los dos modelos fueran consistentes, los investigadores utilizaron 160 000 datos de seguimiento de instrucciones de lenguaje de imágenes de código abierto para entrenar PandaGPT, donde cada instancia de entrenamiento incluye una imagen y un conjunto de múltiples datos de diálogo redondos, y el diálogo contiene comandos humanos y respuestas del sistema.
Para reducir la cantidad de parámetros entrenables, los investigadores solo entrenaron la representación de ImageBind utilizada para conectar Vicuna y pesos LoRA adicionales en el módulo de atención de Vicuna.
Durante el proceso de entrenamiento, basado en los recursos de cálculo de GPU 8×A100 40G, si la longitud máxima de secuencia de Vicuna-13B se establece en 400, el entrenamiento dura aproximadamente 7 horas.
Vale la pena señalar que la versión actual de PandaGPT se entrena solo con datos de texto de imagen alineados, pero al utilizar las seis modalidades (imagen/video, texto, audio, profundidad, térmica e IMU) heredadas en el codificador ImageBind congelado, PandaGPT exhibe , capacidades multimodales de tiro cero.
límite
A pesar de la increíble capacidad de PandaGPT para manejar múltiples modalidades y combinaciones de modalidades, PandaGPT puede mejorarse aún más de varias formas:
El proceso de entrenamiento de PandaGPT se puede enriquecer introduciendo más datos de alineación, como otras modalidades (audio-texto) que coinciden con el texto.
Los investigadores solo usan un vector de incrustación para representar contenido modal que no sea texto, y se necesita más investigación sobre las deformidades de extracción de características de grano fino. Por ejemplo, los mecanismos de atención multimodal pueden ser beneficiosos para mejorar el rendimiento.
Actualmente, PandaGPT solo usa información multimodal como entrada y, en el futuro, puede introducir contenido multimedia más rico en el lado de la generación, como generar imágenes y respuestas de texto en audio.
También se necesitan nuevos puntos de referencia para evaluar la capacidad de combinar insumos multimodales
PandaGPT también puede exhibir varias trampas comunes de los modelos de lenguaje existentes, incluidas las alucinaciones, la toxicidad y los estereotipos.
Los investigadores también señalaron que PandaGPT es actualmente solo un prototipo de investigación y no puede usarse directamente para aplicaciones del mundo real.
Materiales de referencia:
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
El equipo chino de Cambridge de código abierto PandaGPT: el primer modelo básico a gran escala que arrasó con los "seis modos"
Fuente: Xinzhiyuan
Los modelos de lenguaje a gran escala actuales, como ChatGPT, solo pueden aceptar texto como entrada. Incluso la versión mejorada de GPT-4 solo agrega la función de entrada de imagen y no puede manejar otros datos modales, como video y audio.
Recientemente, investigadores de la Universidad de Cambridge, el Instituto Avanzado de Ciencia y Tecnología de Nara y Tencent propusieron de manera conjunta y de código abierto la instrucción general siguiendo el modelo PandaGPT, que también es el primero en realizar seis modalidades cruzadas (imagen/video, texto, audio, profundidad, térmica e IMU) ejecutan instrucciones siguiendo el modelo subyacente de los datos.
Enlace de código:
Sin una supervisión multimodal explícita, PandaGPT demuestra sólidas capacidades multimodales para realizar tareas complejas de comprensión/razonamiento, como la generación de descripciones detalladas de imágenes, escribir historias inspiradas en videos y responder preguntas sobre audio, múltiples rondas de diálogo, etc.
Ejemplo
Preguntas y respuestas basadas en imágenes:
PandaGPT multimodal
En comparación con el modelo de IA atrapado en la computadora, los seres humanos tienen múltiples sentidos para comprender el mundo. Pueden ver una imagen y escuchar varios sonidos en la naturaleza; si la máquina también puede ingresar información multimodal, puede ser más completa .resolver varios problemas.
La mayor parte de la investigación multimodal actual se limita a una sola modalidad, o una combinación de texto y otras modalidades, que carecen de la integridad y complementariedad de percibir y comprender la entrada multimodal.
Para hacer que la entrada multimodal de PandaGPT sea compatible, los investigadores combinaron el codificador multimodal de ImageBind con un modelo de lenguaje a gran escala Vicuna, los cuales han logrado un rendimiento muy sólido en tareas de seguimiento de instrucciones basadas en audio y visuales.
Al mismo tiempo, para que los espacios de características de los dos modelos fueran consistentes, los investigadores utilizaron 160 000 datos de seguimiento de instrucciones de lenguaje de imágenes de código abierto para entrenar PandaGPT, donde cada instancia de entrenamiento incluye una imagen y un conjunto de múltiples datos de diálogo redondos, y el diálogo contiene comandos humanos y respuestas del sistema.
Para reducir la cantidad de parámetros entrenables, los investigadores solo entrenaron la representación de ImageBind utilizada para conectar Vicuna y pesos LoRA adicionales en el módulo de atención de Vicuna.
Vale la pena señalar que la versión actual de PandaGPT se entrena solo con datos de texto de imagen alineados, pero al utilizar las seis modalidades (imagen/video, texto, audio, profundidad, térmica e IMU) heredadas en el codificador ImageBind congelado, PandaGPT exhibe , capacidades multimodales de tiro cero.
límite
A pesar de la increíble capacidad de PandaGPT para manejar múltiples modalidades y combinaciones de modalidades, PandaGPT puede mejorarse aún más de varias formas:
El proceso de entrenamiento de PandaGPT se puede enriquecer introduciendo más datos de alineación, como otras modalidades (audio-texto) que coinciden con el texto.
Los investigadores solo usan un vector de incrustación para representar contenido modal que no sea texto, y se necesita más investigación sobre las deformidades de extracción de características de grano fino. Por ejemplo, los mecanismos de atención multimodal pueden ser beneficiosos para mejorar el rendimiento.
Actualmente, PandaGPT solo usa información multimodal como entrada y, en el futuro, puede introducir contenido multimedia más rico en el lado de la generación, como generar imágenes y respuestas de texto en audio.
También se necesitan nuevos puntos de referencia para evaluar la capacidad de combinar insumos multimodales
PandaGPT también puede exhibir varias trampas comunes de los modelos de lenguaje existentes, incluidas las alucinaciones, la toxicidad y los estereotipos.
Los investigadores también señalaron que PandaGPT es actualmente solo un prototipo de investigación y no puede usarse directamente para aplicaciones del mundo real.
Materiales de referencia: