Inteligência artificial mais rápida, custos mais baixos: DeepSeek diz que DSpark alivia gargalos de inferência e pressão de chip – The Hyper

A startup chinesa de inteligência artificial DeepSeek fez uma grande atualização em seu principal modelo V4, com o objetivo de acelerar significativamente a geração de respostas de IA à medida que a concorrência entre os desenvolvedores chineses muda cada vez mais para Reduza os custos de serviço e melhore a experiência do usuário.

A produção tradicional token por token dos modelos de IA muitas vezes fica mais lenta quando os tempos de resposta são longos, levando à baixa utilização da unidade de processamento gráfico (GPU) e longos tempos de espera percebidos pelo usuário, que são “um grande gargalo no atendimento à IA”, disse a empresa em pesquisa divulgada no sábado.

DeepSeek disse que o módulo DSpark acelera a geração de respostas de IA – também conhecida como inferência de IA, que se refere ao uso de modelos de rascunho leves para propor respostas candidatas e, em seguida, verificação em lote delas usando modelos maiores, acelerando assim a saída e fornecendo assim um modelo treinado para responder às consultas do usuário.

O DSpark refina ainda mais essa abordagem usando um método de geração semiautoregressivo, permitindo que o modelo gere tokens em pequenos pedaços, em vez de estritamente um de cada vez.

Um programador disse que a nova tecnologia poderia reduzir os recursos computacionais necessários para servir os sistemas de inteligência artificial. Obturador

Ele também introduz um sistema de agendamento baseado em confiança que pode ajustar dinamicamente a quantidade de verificação aplicada com base nas necessidades de computação, ajudando a equilibrar a velocidade e a qualidade da saída.

Link da fonte