Foram encontradas 5.143 questões.
Os modelos preditivos são algoritmos de aprendizado de máquina projetados para analisar dados históricos e identificar padrões ou relações entre variáveis que possam ser usados para fazer previsões sobre eventos futuros ou tomar decisões automatizadas. Entre eles, há um modelo que tenta classificar cada amostra de um conjunto de dados avaliando sua distância em relação aos vizinhos mais próximos. Nesse modelo, se os vizinhos mais próximos forem majoritariamente de uma classe, a amostra em questão será classificada nesta categoria. É correto afirmar que o modelo é o
Provas
Os outliers geralmente representam dados com valores absurdos que representam erro nos dados coletados. Analise o seguinte código em Python:
import numpy as np
import pandas as pd
from scipy import stats
data = {'A':[1,2,3,4,5,6,7,8,9,10,1000]}
df = pd.DataFrame(data)
z_scores = np.abs(stats.zscore(df['A']))
threshold = 3
outlier_indices = np.where(z_scores) > threshold) [0]
clean_df = df.drop(outlier_indices)
É correto afirmar que a variável “clean_df” armazena
Provas
O sistema de arquivos baseado em Java que oferece armazenamento de dados escalável e confiável para Data Lake é conhecido como
Provas
Processos conhecidos como ETL são comumente utilizados no contexto de arquiteturas de soluções de BI. A etapa do ETL onde ocorre remoção de dados duplicados, correção de erros, conversão de formatos de dados, agregação de dados e enriquecimento de dados com informações adicionais é:
Provas
Provas
Disciplina: TI - Ciência de Dados e BI
Banca: Instituto Access
Orgão: CEASA-ES
Provas
Ao avaliar o desempenho organizacional, a análise de métricas específicas é fundamental para monitorar e medir o progresso em relação aos objetivos estratégicos. Qual termo é comumente associado a essas métricas no contexto de Business Intelligence (BI)?
Provas
Disciplina: TI - Ciência de Dados e BI
Banca: CESPE / CEBRASPE
Orgão: TCE-PR
Uma equipe estadual de TI teve acesso a um data lake sobre dados de estradas do estado do Paraná e vai cruzar informações com o objetivo de otimizar o fluxo de veículos. Para isso, o time de Big Data optou por inicialmente descartar as variáveis correlacionadas redundantes.
Nessa situação, a técnica que o time de Big Data deve adotar é a(o)
Provas
Disciplina: TI - Ciência de Dados e BI
Banca: CESPE / CEBRASPE
Orgão: TCE-PR
Caso se queira analisar a relação entre três variáveis climáticas de uma região no interior do Paraná para prever futuras situações de emergência, então se deve utilizar, para tal fim, a técnica de
Provas
Disciplina: TI - Ciência de Dados e BI
Banca: CESPE / CEBRASPE
Orgão: TCE-PR
Considere que certa organização não governamental tenha coletado diversos dados de determinado bioma do estado do Paraná e esteja estudando qual é a melhor técnica para analisar tais dados. Haja vista a inexistência de qualquer base de referência, a técnica mais indicada para agrupamento é a
Provas
Caderno Container