Julgue o item subsequente, a respeito de LLM e IA generativa.
No processo de inferência, o LLaMA utiliza decodificação paralela em vez de decodificação sequencial, gerando todos os tokens simultaneamente, sem depender do contexto anterior, o que elimina a necessidade de otimizações como layer-wise quantization.
Provas
Questão presente nas seguintes provas
Analista Judiciário - TI/Gestão e Governança
120 Questões