A produção tradicional token por token dos modelos de IA muitas vezes fica mais lenta quando os tempos de resposta são longos, levando à baixa utilização da unidade de processamento gráfico (GPU) e longos tempos de espera percebidos pelo usuário, que são “um grande gargalo no atendimento à IA”, disse a empresa em pesquisa divulgada no sábado.
DeepSeek disse que o módulo DSpark acelera a geração de respostas de IA – também conhecida como inferência de IA, que se refere ao uso de modelos de rascunho leves para propor respostas candidatas e, em seguida, verificação em lote delas usando modelos maiores, acelerando assim a saída e fornecendo assim um modelo treinado para responder às consultas do usuário.
O DSpark refina ainda mais essa abordagem usando um método de geração semiautoregressivo, permitindo que o modelo gere tokens em pequenos pedaços, em vez de estritamente um de cada vez.
Ele também introduz um sistema de agendamento baseado em confiança que pode ajustar dinamicamente a quantidade de verificação aplicada com base nas necessidades de computação, ajudando a equilibrar a velocidade e a qualidade da saída.



