Shanghai (Gasgoo)- Em 18 de fevereiro, o Grupo Geely Auto e seu parceiro de ecossistema tecnológico Stepfun anunciaram a abertura de código de dois grandes modelos de IA multimodal—o Step-Video-T2V para geração de vídeos e o Step-Audio para interação por voz.
A colaboração aproveitou as forças de ambas as empresas em poder de computação, algoritmos e treinamento baseado em cenários, melhorando significativamente o desempenho dos modelos de IA. A Stepfun afirmou que a iniciativa visa compartilhar os mais recentes avanços em grandes modelos multimodais com a comunidade global de código aberto e contribuir para seu desenvolvimento.
Step-Video-T2V
Com 30 bilhões de parâmetros, o Step-Video-T2V pode gerar vídeos de alta qualidade em resolução 540p com 204 quadros, garantindo densidade e consistência excepcionais de informações.
Para avaliar de forma abrangente a qualidade dos vídeos gerados por IA, a Stepfun também lançou um conjunto de dados de referência de código aberto, o Step-Video-T2V-Eval. Este conjunto de dados inclui 128 consultas reais em chinês para avaliar o desempenho dos vídeos em 11 categorias, como movimento, paisagens, animais, conceitos abstratos, surrealismo, figuras humanas, animação 3D e cinematografia.
A empresa afirmou que o Step-Video-T2V supera os modelos de código aberto existentes em aderência às instruções, suavidade dos movimentos, realismo físico e apelo estético. O modelo se destaca na geração de sequências de movimento complexas, figuras humanas expressivas, cenas visualmente imaginativas, integração de texto bilíngue e composições cinematográficas avançadas.
A capacidade do modelo de IA de retratar com precisão movimentos intrincados é particularmente notável. Seja a graça do balé, a intensidade do caratê, a velocidade do badminton ou as rotações em alta velocidade do mergulho, o modelo demonstra um profundo entendimento do espaço físico e das dinâmicas de movimento. Em um caso de teste, retratou realisticamente as relações espaciais entre um panda, uma superfície inclinada e um skate, produzindo visuais conscientes de física—um dos aspectos mais desafiadores da geração de vídeos por IA atualmente.
Step-Audio
De acordo com a Stepfun, o Step-Audio é o primeiro modelo de interação por voz de código aberto em nível de produto da indústria. Ele pode gerar fala com diversas emoções, dialetos, idiomas, estilos de canto e expressões personalizadas, permitindo conversas naturais e de alta qualidade em vários cenários, incluindo cinema, entretenimento, interações sociais e jogos.
A empresa acrescentou que o Step-Audio superou modelos de código aberto semelhantes em cinco grandes testes padrão da indústria, incluindo LLaMA Question e Web Questions. Seu desempenho na avaliação HSK-6 (Teste de Proficiência em Chinês Nível 6) destaca sua profunda compreensão da língua chinesa, tornando-o um dos modelos de IA de voz de código aberto mais proficientes para falantes de chinês.
Além da compreensão linguística, o Step-Audio também demonstra alta inteligência emocional, oferecendo respostas empáticas e reflexivas, como um amigo próximo que fornece orientação diante dos desafios da vida.
Adicionalmente, ele se destaca no processamento de ritmo e melodia, permitindo gerar performances dinâmicas de rap com uma profunda compreensão da cadência e do fluxo linguístico.
Reconhecendo a falta de benchmarks abrangentes para avaliação de IA de voz, a Stepfun também introduziu o StepEval-Audio-360, uma estrutura de teste de código aberto. Este benchmark avalia modelos de IA de voz em nove dimensões-chave, incluindo interpretação de papéis, raciocínio lógico, geração de conteúdo, jogos de palavras, habilidades criativas e seguimento de instruções.