Comentarios recientes

    Welcome On Mobius

    Mobius was created by professionnal coders and passionate people.

    We made all the best only for you, to enjoy great features and design quality. Mobius was build in order to reach a pixel perfect layout.

    Mobius includes exclusive features such as the Themeone Slider, Themeone Shorcode Generator and Mobius Grid Generator.

    Our Skills

    WordPress90%
    Design/Graphics75%
    HTML/CSS/jQuery100%
    Support/Updates80%

    MIT presenta nuevo sistema de reconocimiento de imágenes y voz

    By admin 4 semanas ago
    Home  /  Tecnología  /  MIT presenta nuevo sistema de reconocimiento de imágenes y voz


    Imagen de Christine Daniloff

    Un grupo de informáticos del prestigioso MIT ha desarrollado un sistema que aprende a identificar objetos dentro de una imagen basándose en una descripción oral de la misma.

    Solo tienen que obtener la fotografía y un título en audio para que el sistema resalte en tiempo real las regiones relevantes de la imagen que se describe.

    El modelo no requiere transcripciones manuales y anotaciones, ya que aprende palabras directamente de clips de voz grabados y objetos en imágenes sin procesar, y los asocia entre sí. Puede reconocer varios cientos de palabras y tipos de objetos diferentes, pero los investigadores esperan que algún día su técnica combinada de reconocimiento de objetos de habla pueda ahorrar innumerables horas de trabajo manual y abrir nuevas puertas en reconocimiento de voz e imagen.

    Sobre los problemas actuales comentan:

    Los sistemas de reconocimiento de voz como Siri y Google Voice, por ejemplo, requieren transcripciones de miles de horas de grabaciones de voz. Usando estos datos, los sistemas aprenden a mapear señales de voz con palabras específicas. Tal enfoque se vuelve especialmente problemático cuando, digamos, nuevos términos ingresan a nuestro léxico, y los sistemas deben ser entrenados nuevamente.

    Quieren hacer reconocimiento de voz de una manera más natural, aprovechando las señales adicionales y la información que los seres humanos tienen el beneficio de usar, pero que los algoritmos de aprendizaje automático no suelen tener acceso. Quieren entrenar a los sitemas informáticos de la misma forma que lo hacemos con los niños: paseando por el mundo y comentando lo que vemos.

    En el documento, los investigadores demuestran su modelo con la imagen de la captura superior, donde una niña con cabello rubio y vestido azul se encuentra frente a faro blanco con un techo rojo en el fondo. El modelo aprendió a asociar qué píxeles en la imagen correspondían con las palabras “niña”, “cabello rubio”, “vestido azul”, “faro blanco” y “techo rojo”. Cuando se escuchaba un subtítulo de audio narrado, el modelo resaltó cada uno de esos objetos en la imagen tal y como se describieron.

    Un paso muy importante para la Inteligencia Artificial.



    Fuente Original

    Category:
      Tecnología
    this post was shared 0 times
     000