Uma plataforma de e-commerce deseja analisar automaticamente as avaliações deixadas pelos clientes nos produtos para determinar se são positivas ou negativas. Para isso, a equipe de ciência de dados está treinando um modelo de aprendizado de máquina para análise de sentimentos. Dado que as avaliações são textos não estruturados, a equipe experimentou diferentes métodos de representação vetorial para transformar os textos em formatos que o modelo pode processar. Após testar diferentes abordagens, eles obtiveram os seguintes resultados em um modelo de classificação de sentimentos:
Representação Vetorial
Acurácia nos Dados de
Treinamento
Acurácia nos Dados de
Teste
Bag of Words (BoW)
95%
70%
TF-IDF
94%
73%
Word2Vec (CBOW)
90%
80%
BERT (Transformers)
89%
88%
Com base nos resultados apresentados, assinale a alternativa que descreve a melhor escolha de representação vetorial para este problema e sua justificativa.
Em aprendizado de máquina, underfitting (subajuste) e
overfitting (sobreajuste) são problemas que afetam o
desempenho dos modelos. Considerando as definições
apresentadas, assinale a alternativa que descreve a diferença
entre esses dois problemas.
Uma empresa multinacional lida com grandes volumes de
dados provenientes de diversas fontes, incluindo bancos de
dados transacionais, sensores IoT, logs de servidores e redes
sociais, envolvendo dados estruturados e não estruturados. Durante o processo de armazenamento e recuperação de
dados, a organização enfrenta desafios de desempenho e
consistência.
Considerando o cenário descrito, assinale a alternativa que
apresenta a abordagem mais adequada para otimizar a
recuperação eficiente e garantir a integridade dos dados.
O pré-processamento de textos é uma etapa importante¬¬no
processo de análise e classificação de dados textuais. Ele visa
transformar textos brutos em um formato adequado para ser
utilizado em algoritmos de aprendizado de máquina. Entre as
técnicas mais comuns no pré-processamento de textos, estão
a remoção de stop words, a tokenização, a lematização e o
estemização. Considere o texto original a seguir:
"O carro estava muito sujo, então ele decidiu limpar o carro
depois de um longo dia de trabalho. O carro ficou brilhante
após a limpeza." Com base nas técnicas de pré-processamento citadas, como
ficará o texto original após a aplicação de tokenização e
remoção de stop words?
Um modelo de linguagem baseado em unigramas foi treinado
em um grande volume de textos em português. Esse modelo
atribui probabilidades a palavras individuais, sem levar em
consideração a ordem em que aparecem na sentença.
Sabendo-se que a perplexidade é uma métrica que mede
quão bem um modelo de linguagem prediz um texto, assinale
a alternativa que melhor representa a perplexidade do modelo
nas frases "qual sanduíche Maria comeu" e "Maria comeu o
sanduíche".
Em aprendizado de máquina, a calibração de
hiperparâmetros é um processo importante para otimizar o
desempenho de um modelo. Considere o seguinte cenário:
Você está treinando um modelo de Random Forest para prever
o preço de imóveis e percebe que o desempenho do modelo
não está satisfatório. Após uma análise, você decide calibrar
os hiperparâmetros para tentar melhorar o modelo. Para isso,
você seleciona os seguintes hiperparâmetros para calibração:
• n_estimators (número de árvores na floresta);
• max_depth (profundidade máxima de cada árvore);
• min_samples_split (número mínimo de amostras
necessárias para dividir um nó).
Assinale a alternativa que apresenta a melhor abordagem
para encontrar a combinação ideal desses hiperparâmetros.
Os algoritmos de clusterização são utilizados na ciência de dados para agrupar elementos semelhantes com base em suas características. Um dos métodos mais comuns para medir a similaridade entre pontos é a distância Euclidiana, que calcula o quão próximos ou distantes os elementos estão em um espaço multidimensional. Essa métrica é a base para a determinação da formação dos clusters em algoritmos como K-Means e DBSCAN. Uma empresa deseja agrupar clientes com base em seu comportamento de compra. Para isso, foram coletados dois atributos: a quantidade de produtos diferentes comprados no último mês (X) e o valor total gasto (em centenas de reais) (Y). A tabela, a seguir, apresenta os dados coletados de quatro clientes, que serão usados para gerar a matriz de distâncias com base na distância Euclidiana:
Cliente
Qtde de produtos (X)
Valor Gasto (Y)
A
2
3
B
5
7
C
1
4
D
6
2
Em relação à matriz de distância gerada, assinale a alternativa correta.
Uma ONG, especializada na busca por gatos desaparecidos,
contratou uma empresa de tecnologia para desenvolver um
sistema de classificação de imagens baseado em
Aprendizado Profundo. O objetivo é que o sistema identifique
gatos em fotos enviadas por usuários. Para isso, a empresa
optou por utilizar Redes Neurais Convolucionais (CNNs), dada
sua capacidade de extrair automaticamente padrões visuais
hierárquicos.
Durante o treinamento, os desenvolvedores perceberam que
a rede estava obtendo alta acurácia no conjunto de treino, mas
baixo desempenho no conjunto de teste. Além disso, ao
inspecionar os mapas de ativação, notaram que a rede estava
focando em características irrelevantes do fundo da imagem
em vez de identificar os gatos corretamente.
E relação ao problema descrito, assinale a alternativa que
apresenta a abordagem mais eficaz para aprimorar a
capacidade de generalização de um modelo de aprendizado
de máquina.
Uma grande empresa do setor financeiro decidiu modernizar
sua infraestrutura de dados para suportar análises preditivas
e relatórios gerenciais avançados, além de manter a eficiência
nas transações diárias de seus clientes. Atualmente, a
empresa possui um banco de dados relacional tradicional que
armazena transações bancárias em tempo real, mas enfrenta
dificuldades ao executar consultas analíticas complexas,
como identificação de padrões de fraude e segmentação de
clientes com base no histórico de gastos.
Diante desse cenário, a empresa considera a separação da
sua arquitetura de dados em dois ambientes distintos: um
banco de dados transacional (OLTP) e um ambiente analítico
(OLAP). Em relação ao contexto apresentado, assinale a alternativa
correta.
No Power BI, a modelagem de dados é essencial para garantir
desempenho e a correta interpretação das informações. Um
modelo, no Power BI, consiste em uma ou mais tabelas e
diversas relações entre elas (quando existir mais de uma
tabela). Para garantir granularidade e eficiência nas
visualizações e relatórios, a escolha do esquema de dados é
fundamental. Uma empresa está implementando um dashboard no Power
BI para monitorar as vendas de seus produtos em diversas
regiões do país. O banco de dados contém informações
sobre:
• Vendas realizadas (data, valor, quantidade, produto
vendido, vendedor e região).
• Detalhes dos produtos (código, categoria, marca e
preço unitário).
• Informações dos clientes (nome, CPF, idade, estado
civil e cidade).
• Registros de vendedores (nome, código do vendedor
e equipe de vendas).
Considerando as melhores práticas de modelagem de dados
no Power BI, qual esquema de dados é mais adequado para
estruturar esse modelo e garantir performance e facilidade de
análise?