Foram encontradas 5.009 questões.
Ao se utilizar bancos de dados reais no treinamento de métodos de aprendizado de máquina é normal se deparar com entradas que possuem um ou mais parâmetros (campos) ausentes.
Com relação às estratégias para lidar com dados ausentes, analise as afirmativas a seguir.
I. Só é possível realizar imputation quando o atributo (feature) ausente é numérico.
II. Ao utilizar o k-nearest neighbors (KNN) para fazer o imputation é uma boa estratégia primeiro fazer a normalização ou padronização dos dados.
III. Ao se trabalhar com bancos de dados com poucas amostras (itens), uma estratégia usualmente utilizada para lidar com as amostras) que possuem valores ausentes é a remoção.
Está correto o que se afirma em
Provas
Alguns algoritmos de aprendizado de máquina foram desenvolvidos para trabalhar com atributos discretos. Porém, dados coletados no mundo real muitas vezes são contínuos.
Nesses casos, podemos usar métodos de discretização no tratamento dos dados. Um desses métodos de discretização consiste em estabelecer os limites das partições de forma que cada partição tenha aproximadamente o mesmo número de elementos.
O método acima descrito é o
Provas
Os candidatos de um concurso público realizaram um teste de redação que vale até 1000 pontos. 5000 candidatos realizaram o teste, o que gerou uma distribuição das notas cuja média foi de 600 pontos e cujo desvio padrão foi de 90 pontos.
Dessa distribuição são retiradas 40 novas amostras, com 100 notas em cada amostra, sem reposição.
Dados: \( \sqrt{4999}=70,7;\dfrac{100}{101}=0,99 \)
O desvio-padrão da distribuição das 40 médias obtidas a partir das novas amostras (de 100 notas) retiradas é igual a
Provas
Testes de hipóteses são ferramentas estatísticas que viabilizam a tomada de decisões com base em dados, mesmo quando há incerteza.
A respeito dessas ferramentas, relacione cada definição com as características a que elas mais se adequam:
1. Teste-z
2. Teste-t
3. ANOVA
4. Teste chi-quadrado (χ2)
( ) Usado(a) para comparar as médias de duas amostras independentes, com amostragens suficientemente grandes e desvios-padrão conhecidos.
( ) Usado(a) para comparar as médias de duas ou mais amostras independentes, normalmente distribuídas.
( ) Usado(a) para comparar as médias de duas amostras independentes, com pequeno número de amostras ou com desvio-padrão desconhecido.
( ) Usado(a) para verificar a normalidade de uma amostra.
A relação correta, na ordem apresentada, é
Provas
Considere a existência de duas caixas idênticas A e B. Na caixa A são colocadas duas bolinhas de cor verde e duas bolinhas cor-de-rosa. Na caixa B são colocadas quatro bolinhas de cor verde.
Em seguida, executam-se sequencialmente os passos a seguir:
1. Escolhe-se, aleatoriamente, uma das caixas, sem, no entanto, identificá-la.
2. Retira-se uma bolinha da caixa escolhida, que revela possuir a cor verde.
3. Retira-se uma segunda bolinha da caixa escolhida, que também acaba por possuir a cor verde.
A sequência que indica a evolução das probabilidades de que a caixa inicialmente escolhida seja a caixa A ou a caixa B, respectivamente, imediatamente após os passos 1, 2, e 3, é dada por:
Provas
A densidade de probabilidade de uma variável aleatória segue a função p(x) = 1 – | x |, caso | x | < 1, ou 0, caso contrário.
Ao retirar-se uma amostra aleatória x, a probabilidade de -3,0 < x < 0,8 é:
Provas
Sobre o Modelo de Referência Cross- Industry Standard Process for Data Mining (CRISP-DM), avalie as afirmativas a seguir:
I. Após a fase de “Preparação dos dados” ocorre a fase de “Compreensão dos dados”.
II. Durante a fase de “Mineração de Dados” ocorre a aplicação de algoritmos de mineração de dados buscando a extração de padrões.
III. Durante a fase de “Preparação dos Dados”, pode ocorrer a construção de novos atributos a partir de outros já existentes.
Está correto o que se afirma em
Provas
Disciplina: TI - Ciência de Dados e BI
Banca: CESPE / CEBRASPE
Orgão: Pref. Mossoró-RN
Julgue o item a seguir, a respeito de sistemas de arquivos, banco de dados NoSQL e sistemas de indexação de dados.
O Hadoop Distributed File System (HDFS) usa uma tabela para rastrear os clusters em um volume de armazenamento; esses clusters se conectam por meio de diretórios e arquivos associados e o HDFS suporta arquivos com tamanhos de volume de até 4 GB.
Provas
I. Tipicamente, data warehouses armazenam dados em esquemas definidos, o que permite otimizar consultas em SQL.
II. Data lakes prestam-se a armazenar dados oriundos de fontes externas, tais como sensores e mídias sociais, dentre outras, com formatos diversificados e estruturas não completamente definidas.
III. Embora haja diferenças importantes, ambos são implementados e operados por meio de Sistemas Gerenciados de Bancos de Dados (SGBD) e coletam dados por meio de ferramentas de ETL.
Está correto somente o que se afirma em
Provas
Z = (x – µ) / σ
Na fórmula, “Z” é um fator (ou escore) que permite estabelecer se o valor numérico “x” deve ser considerado um outlier ou não.
Os símbolos “µ” e “σ” empregados na fórmula significam respectivamente:
Provas
Caderno Container