Prova Completa: Técnico de Planejamento e Pesquisa - Ciência de Dados (IPEA - CESGRANRIO

3076541 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoTratamento de Dados Ausentes

Em um estudo de saúde pública, um pesquisador está analisando um conjunto de dados que inclui informações sobre idade, peso, altura e nível de atividade física dos participantes, no entanto ele percebe que alguns dados referentes ao peso estão ausentes.

Considerando-se a necessidade de manter a precisão e a confiabilidade do estudo, qual das seguintes abordagens seria a mais apropriada para tratar esses dados ausentes sobre o peso dos participantes?

A

Interpolação de dados, para estimar os valores de peso ausentes, com base em um modelo matemático que leva em conta as tendências e os padrões dos dados existentes.

B

Remoção de registros, para excluir todos os registros de participantes que não incluíram informações de peso, mesmo que as outras informações estejam completas.

C

Substituição por zero, para substituir os dados de peso ausentes por zero, assumindo que a ausência de informação indica a menor medida possível.

D

Substituição por valores extremos, para substituir os dados de peso ausentes pelos valores máximos ou mínimos observados no conjunto de dados.

E

Uso de dados de outra pesquisa, para substituir os dados de peso ausentes por dados de peso de um estudo similar.

Provas

Questão presente nas seguintes provas

3076540 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoNormalização

Considere um conjunto de dados que inclui as variáveis idade, altura e peso. Os dados de idade estão entre 0 e 100 anos, os dados de altura estão entre 1,50 e 2,00 metros e os dados de peso estão entre 50 e 100 kg.

Qual das seguintes técnicas de normalização numérica é mais adequada para esse conjunto de dados?

A

Normalização Min-Max, para transformar os dados de modo que os valores fiquem entre 0 e 1.

B

Normalização Z-Score, para transformar os dados de modo que a média seja 0 e o desvio padrão seja 1.

C

Normalização de Binário, para transformar os dados de modo que os valores fiquem entre 0 e 1, sendo 0 para valores menores ou iguais a um determinado limite e 1 para valores maiores que esse limite.

D

Normalização de Decil, para transformar os dados de modo que os valores fiquem entre 0 e 100, sendo 0 para o menor valor e 100 para o maior valor.

E

Normalização de Quantil, para transformar os dados de modo que os valores fiquem entre 0 e 100, sendo 0 para o primeiro percentil e 100 para o último percentil.

Provas

Questão presente nas seguintes provas

3076539 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoDeduplicação

A deduplicação de dados é uma técnica importante no gerenciamento de informações, especialmente em ambientes onde grandes volumes de dados são gerados e armazenados. Essa técnica é necessária em ambientes onde grandes volumes de dados são gerados porque pode ajudar a reduzir o consumo de armazenamento e a aumentar a eficiência dos processos de análise de dados.

A deduplicação de dados é útil, por exemplo, no domínio da medicina, em que há grandes conjuntos de dados genômicos que são analisados para identificar padrões e mutações associadas a doenças específicas. Nesse cenário, a deduplicação é vital para assegurar a precisão das análises, pois, se amostras de DNA de um mesmo paciente são coletadas e sequenciadas em diferentes momentos e locais, pode haver uma repetição inadvertida dessas amostras no banco de dados. Nesse contexto, a deduplicação de dados é crucial para a integridade da pesquisa, pois dados duplicados podem levar a interpretações errôneas, como a superestimação da prevalência de uma mutação genética rara.,

A técnica de deduplicação de dados consiste em um processo de

A

agregação de dados, que combina duplicatas em um único conjunto de dados.

B

compactação de dados, que reduz o tamanho de um conjunto de dados, eliminando duplicatas.

C

restauração de dados, que recupera dados duplicados e otimiza o processo de backup.

D

replicação de dados, que permite gerar cópias de um conjunto de dados, aumentando a disponibilidade dos mesmos.

E

redução de dados, que remove duplicatas de um conjunto de dados, mantendo apenas uma única instância de cada dado.

Provas

Questão presente nas seguintes provas

3076538 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamento

A partir de dados da pesquisa Perfil do Processado e Produção de Provas nas Ações Criminais por Tráfico de Drogas, realizada em dezembro de 2023 pelo Instituto de Pesquisa Econômica Aplicada (Ipea), é possível levantar informações sociodemográficas sobre os bairros em que o direito à inviolabilidade domiciliar é relativizado. Os resultados revelam que os bairros mais ricos e aqueles de população predominantemente branca são praticamente imunes às entradas em domicílio, as quais se concentram substancialmente nos bairros mais pobres e naqueles com população predominantemente negra ou minoritariamente branca.

Qual técnica de desidentificação de dados sensíveis é a mais adequada para preservar a privacidade dos indivíduos processados, permitindo, ainda, a análise sociodemográfica dos bairros?

A

Anonimização: remover todos os identificadores diretos dos indivíduos, incluindo nome, CPF, RG e endereço, e também remover qualquer referência a bairro ou características sociodemográficas.

B

Pseudonimização: substituir os identificadores diretos dos indivíduos por códigos ou símbolos, mas publicar a tabela de correspondência junto com os dados.

C

Agregação: agrupar os dados dos indivíduos em categorias amplas, como faixa etária e classe social, mas excluir informações sobre cor ou raça e bairro.

D

Perturbação: adicionar ruído ou alterar aleatoriamente todos os valores dos dados, incluindo informações sociodemográficas e de bairro, de forma a tornar os dados inúteis para análise específica de bairro.

E

Generalização: substituir informações detalhadas de identificação pessoal por categorias mais amplas, mantendo dados sobre bairro e características sociodemográficas, como faixa etária, classe social, cor ou raça.

Provas

Questão presente nas seguintes provas

3076537 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesPLN: Processamento de Linguagem Natural

Algoritmos fuzzy matching em processamento de linguagem natural são métodos que permitem encontrar correspondências aproximadas entre strings, ou seja, sequências de caracteres, como palavras ou frases. Esses algoritmos são úteis para lidar com situações, tais como erros de digitação, variações ortográficas, sinônimos, abreviações. Eles também podem ser aplicados para comparar textos, extrair informações, classificar sentimentos, entre outras finalidades. Existem diferentes tipos de algoritmos fuzzy matching, como a Similaridade de Jaccard, que mede a proporção de elementos comuns entre dois conjuntos de strings.

Qual das palavras a seguir apresenta o maior valor da similaridade de Jaccard, quando comparada com a palavra “computador”?

Provas

Questão presente nas seguintes provas

3076536 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Governança de DadosQualidade de Dados

A limpeza de dados, data cleansing, é uma tarefa importante que pode ser complexa e demorada, no entanto é um investimento fundamental que pode melhorar a qualidade e a utilidade dos dados para futuras análises.

Seja um conjunto de dados com informações de saúde referentes a uma população. Pode-se limpar esses dados para identificar e tratar valores extremos, discrepantes, contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.

Por exemplo, seja o conjunto de dados abaixo referente a uma amostra de 5 indivíduos em uma mesma cidade, na qual um analista percebeu a necessidade de limpeza de dados por conta de potenciais inconsistências

Indivíduo 1: Sexo: Feminino; Idade: 8 anos; Altura: 1,15m; Peso: 40kg; Batimento Cardíaco em Repouso: 85 bpm

Indivíduo 2: Sexo: Masculino; Idade: 22 anos; Altura: 1,60m; Peso: 60kg; Batimento Cardíaco em Repouso: 72 bpm

Indivíduo 3: Sexo: Feminino; Idade: 40 anos; Altura: 1,60m; Peso: 55kg; Batimento Cardíaco em Repouso: 10 bpm

Indivíduo 4: Sexo: Masculino; Idade: 55 anos; Altura: 1,90m; Peso: 100kg; Batimento Cardíaco em Repouso: 70 bpm

Indivíduo 5: Sexo: Feminino; Idade: 70 anos; Altura: 1,50m; Peso: 60kg; Batimento Cardíaco em Repouso: 70 bpm

Qual ação é a única claramente necessária para realizar data cleansing neste conjunto de dados específico?

A

Corrigir o valor da altura no indivíduo 1, pois parece anormalmente alto.

B

Verificar o peso no indivíduo 2, pois nessa idade e altura deveria ser um valor maior.

C

Confirmar o valor do batimento cardíaco no indivíduo 3, que parece anormalmente baixo.

D

Alterar o peso no indivíduo 4, pois não condiz com os valores de sexo, idade e altura indicados.

E

Modificar o valor da altura do indivíduo 5, pois é anormalmente baixo para a idade e sexo.

Provas

Questão presente nas seguintes provas

3076535 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoDiscretização

Um cientista de dados precisa discretizar uma variável, representando distâncias entre cidades em quilômetros em 10 intervalos com, aproximadamente, o mesmo número de observações.

Nesse contexto, a técnica mais adequada é a discretização

Provas

Questão presente nas seguintes provas

3076534 Ano: 2024
Disciplina: TI - Banco de Dados
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

SQLDMLSELECTGROUP BY e HAVING

Para a avaliação de políticas públicas na área de Segurança Alimentar e Nutricional, um município brasileiro utilizou dados persistidos em três relações (tabelas) organizadas de acordo com o seguinte modelo relacional:

PRODUTO (cod-produto, nome-produto, grupo-alimentar)
FORNECEDOR (CNPJ, nome-empresa, tipo)
COMPRADO (CNPJ, cod-produto, data, quantidade, valor)

Os atributos que formam as chaves primárias de cada tabela estão sublinhados.

Nesse contexto, considere o comando SQL apresentado a seguir.

SELECT P.cod-produto, SUM (quantidade)
FROM PRODUTO P, FORNECEDOR F, COMPRADO C
WHERE P.cod-produto = C.cod-produto
AND C.CNPJ = F.CNPJ
AND F.tipo = 'agricultura familiar'
GROUP BY P.cod-produto
HAVING SUM (quantidade) > 10000

Os resultados produzidos pela execução desse comando apresentam o código do produto e a soma das quantidades compradas dos produtos de

Provas

Questão presente nas seguintes provas

3076533 Ano: 2024
Disciplina: TI - Banco de Dados
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

Banco de Dados RelacionalÁlgebra Relacional

Para um estudo do tema Educação, foram coletados dados de escolas e de professores em todos os municípios brasileiros.

Esses dados foram armazenados em duas relações (tabelas), organizadas de acordo com o seguinte modelo relacional:

ESCOLA (cod-escola, nome-escola, cod-municipio, quantidade-alunos)
PROFESSOR (CPF, nome-prof, data-nascimento, cod-municipio-residencia, cod-escola-prof)

A chave primária de ESCOLA é cod-escola, e a de PROFESSOR é CPF. A coluna cod-escola-prof em PROFESSOR é uma chave estrangeira e indica em que escola o professor leciona. Considere a utilização dos operadores de Projeção (p ou PROJETE), Seleção (σ ou SELECIONE) e Junção ( ou JUNTE) da Álgebra Relacional.

Que sequência de operações, em Álgebra Relacional, produz como resultado uma relação R-X com CPF e nome dos professores que NÃO residem no mesmo município onde lecionam?

A

R-X ← SELECIONE CPF, nome-prof de PROFESSOR onde cod-municipio-residencia é diferente de cod-municipio

B

R-A ← JUNTE PROFESSOR a ESCOLA onde cod-municipio-residencia é diferente de cod-municipio
R-X ← PROJETE CPF, nome-prof de R-A

C

R-A ← SELECIONE CPF, nome-prof de PROFESSOR
R-X ← JUNTE R-A a ESCOLA onde cod-escola-prof = cod-escola

D

R-A ← JUNTE PROFESSOR a ESCOLA onde cod-escola-prof = cod-escola
R-B ← SELECIONE R-A onde cod-municipio-residencia é diferente de cod-municipio
R-X ← PROJETE CPF, nome-prof de R-B

E

R-A ← PROJETE CPF, nome-prof de PROFESSOR
R-B ← JUNTE R-A a ESCOLA onde cod-escola-prof = cod-escola
R-X ← SELECIONE R-B onde cod-municipio-residencia é diferente de cod-municipio

Provas

Questão presente nas seguintes provas

3076532 Ano: 2024
Disciplina: TI - Banco de Dados
Banca: CESGRANRIO
Orgão: IPEA

Provas:

Técnico de Planejamento e Pesquisa - Ciência de Dados
Provas ×

NoSQLFundamentos de NoSQL

Uma das principais características de sistemas gerenciadores de bancos de dados (SGBD) NoSQL, quando comparados aos sistemas gerenciadores bancos de dados relacionais (SGBDR), é que seu esquema é considerado flexível ou não existente (schemaless).

O esquema de um SGBD NoSQL ser flexível ou não existente tem como consequência o fato de que

A

a qualidade de dados pode ser mais difícil de ser garantida, quando comparado a um SGBDR.

B

a realização de adaptações para persistir conteúdos distintos é mais demorada do que em um SGBDR.

C

o desempenho de uma consulta aos dados é maior do que em um SGBDR.

D

os formatos de data são padronizados, da mesma forma que em SGBDR.

E

dados binários de qualquer natureza podem ser persistidos, o que um SGBDR não consegue fazer.

Comentários 1