Foram encontradas 5.012 questões.
Provas
Disciplina: TI - Ciência de Dados e BI
Banca: VUNESP
Orgão: Pref. Sorocaba-SP
Na modelagem dimensional utilizada no projeto de data warehouses, há as tabelas fato e dimensão, sendo certo que
Provas
Em relação a dados Estruturados, Não Estruturados e Semiestruturados, considere as assertivas abaixo:
I – Os dados estruturados tem um padrão pré-definido, uma estrutura bem definida e rígida.
II – Semelhantes aos dados estruturados, os dados não estruturados também possuem uma estrutura definida, e podem ser organizados em tabelas.
III – Dados semiestruturados são parcialmente estruturados, mas não se limitam a uma estrutura rígida.
IV – Dados não estruturados são dinâmicos, podendo ser compostos por diversos elementos diferentes dentro um todo.
Estão CORRETAS somente as assertivas:
Provas
Sobre Big Data, considere as seguintes afirmações:
I – Big data é um conjunto de dados maior e mais complexo, especialmente de novas fontes de dados. Esses conjuntos de dados são tão volumosos que o software tradicional de processamento de dados normalmente não consegue gerenciá-los.
II – Velocidade é a taxa mais rápida na qual os dados são recebidos e talvez administrados. Normalmente, a velocidade mais alta dos dados é transmitida diretamente para a memória, em vez de ser gravada no disco.
III – Variedade refere-se aos vários tipos de dados disponíveis. Tipos de dados tradicionais foram estruturados e se adequam perfeitamente a um banco de dados relacional.
IV – As soluções de Big Data são feitas para lidar com um grande volume de dados estruturados que obrigatoriamente têm relação entre si.
V – Por conta do grande volume de dados e complexidade envolvidos, as soluções Big Data apresentam um grau relativamente baixo de confiabilidade.
Estão INCORRETAS as afirmações:
Provas
Dados são um conjunto de fatos em estado bruto que podem ser utilizados para tomadas de decisão. Os dados podem ser divididos entre estruturados e não-estruturados. Sobre os dados estruturados, assinale a afirmativa correta.
Provas
Acerca de governança de dados, assinale a alternativa correta.
Provas
Certa empresa se deparou com o seguinte cenário: seus cientistas de dados reprocessavam toda a base de dados sempre que tinham dados novos disponíveis. Nesse processo, os dados eram apagados de suas bases e eram novamente obtidos de suas fontes originais. Isso gerava um alto custo financeiro para a empresa em razão do grande volume de dados disponíveis para obtenção. Foi desenvolvido, então, um novo processo no qual, uma vez por dia, os novos dados eram carregados para dentro do sistema, de forma a não ser mais necessário realizar a carga total das informações. Esse novo processo é conhecido como ingestão de dados
Provas
Uma das soluções de Big Data mais presentes no mercado é o Apache Spark. Quanto a essa framework, assinale a alternativa correta.
Provas
Uma base de dados hipotética possui como informação mais importante os dados provenientes de um sensor de temperatura ambiente. Após um mês de coleta de dados, foi realizada uma verificação e constatou-se que o sensor apresentava leituras sabidamente errôneas em 95% das medições realizadas. Também observou-se que a demora para a identificação do problema se deu pelas leituras do sensor, que, apesar de errôneas, continuavam com valores válidos para medições de temperaturas, não disparando os alarmes predefinidos pela equipe. Suponha que não houve qualquer influência não esperada advinda do ambiente e nem de erro humano, como mau posicionamento do sensor, instalação errada, manipulação externa, entre outras, e também considere que os demais dados dessa base não apresentaram nenhuma alteração em sua qualidade. Acerca dessa situação hipotética, assinale o aspecto da disciplina de qualidade de dados que mais foi afetado por esse problema.
Provas
Na modelagem multidimensional de um Data Warehouse, há dois modelos que são mais utilizados. O primeiro deles é um schema no qual somente a tabela fato e as tabelas de dimensões a ela relacionadas estão nele contidas e não é usada normalização; nesse schema, poucas junções com chave estrangeira são usadas e há menos redundância de dados. O segundo é um schema no qual a tabela fato, bem como as tabelas de dimensões e as tabelas de outras hierarquias (subdimensões) relacionadas estão nele contidas; nesse schema há mais junções com chaves estrangeiras e pode haver uma maior redundância de dados.
O primeiro e o segundo schemas são, correta e respectivamente, denominados
Provas
Caderno Container