A Microsoft revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos hiper-realistas de rostos humanos. A novidade, chamada VASA-1, consegue criar vídeos de pessoas falando a partir de uma única foto e um arquivo de áudio.
Desenvolvido com foco em acessibilidade e educação, a tecnologia permite a geração de personagens virtuais que podem desempenhar diversos papéis, desde auxiliar indivíduos com dificuldades de comunicação até oferecer companhia ou suporte terapêutico.
Apesar dos benefícios potenciais, há preocupações sobre o uso ético da IA, especialmente em relação à criação de deepfakes, técnica para criar vídeos falsos. A Microsoft enfatizou que não lançará comercialmente o modelo VASA-1 até que medidas de segurança adequadas sejam implementadas para evitar possíveis abusos.
“Estamos empenhados em desenvolver a IA de forma responsável, com o objetivo de promover o bem-estar humano. Dado esse contexto, não temos planos de lançar uma demonstração on-line, API, produto, detalhes adicionais de implementação ou quaisquer ofertas relacionadas até que tenhamos certeza de que a tecnologia será usada de forma responsável e de acordo com os regulamentos adequados”, disse a empresa em comunicado.
Detalhes técnicos do VASA-1
A big tech revelou a capacidade do modelo de renderizar vídeos de alta qualidade com baixa latência, suportando resoluções de até 512×512 pixels e 45 FPS (frames por segundo).
Além de gerar vídeos de até um minuto de duração a partir de uma única imagem, o VASA-1 também se destaca pela sua capacidade de sincronizar movimentos labiais com arquivos de áudio e reproduzir expressões faciais de forma realista. Este modelo de geração de vídeo por IA também oferece controles granulares aos usuários para ajustar diferentes aspectos do vídeo, como direção do olhar e distância da cabeça.
Leia também:
Meta lança assistente de IA para Instagram, Facebook e WhatsApp
Microsoft adiciona tecla que ativa o chatbot de IA no teclado