Foram encontradas 5.012 questões.
Disciplina: TI - Ciência de Dados e BI
Banca: CESPE / CEBRASPE
Orgão: Petrobrás
As métricas de avaliação de desempenho de um modelo de aprendizado de máquina, que é um componente integrante de qualquer projeto de ciência de dados, destinam-se a estimar a precisão da generalização de um modelo sobre os dados futuros (não vistos ou fora da amostra). Dentre as métricas mais conhecidas, estão a matriz de confusão, precisão, recall, pontuação, especificidade e a curva de características operacionais do receptor (ROC).
Acerca das características específicas dessas métricas, julgue o próximo item.
As curvas ROC a seguir mostram a taxa de especificidade (verdadeiros positivos) versus a taxa de sensibilidade (falsos positivos) do modelo adotado; a linha tracejada é a linha de base da métrica de avaliação e define uma adivinhação aleatória.

Provas
Disciplina: TI - Ciência de Dados e BI
Banca: CESPE / CEBRASPE
Orgão: Petrobrás
As métricas de avaliação de desempenho de um modelo de aprendizado de máquina, que é um componente integrante de qualquer projeto de ciência de dados, destinam-se a estimar a precisão da generalização de um modelo sobre os dados futuros (não vistos ou fora da amostra). Dentre as métricas mais conhecidas, estão a matriz de confusão, precisão, recall, pontuação, especificidade e a curva de características operacionais do receptor (ROC).
Acerca das características específicas dessas métricas, julgue o próximo item.
A matriz de confusão a seguir apresenta três rótulos de classe; os elementos diagonais representam o número de pontos para os quais o rótulo previsto é igual ao rotulo verdadeiro, enquanto qualquer coisa fora da diagonal teve um rótulo atribuído erroneamente pelo classificador. Quanto menores forem os valores diagonais da matriz de confusão, melhor o modelo adotado.

Provas
A mineração de dados (Data Mining) envolve um conjunto de algoritmos e ferramentas que são utilizados para a exploração de dados.
Assinale o algoritmo/método usado na extração de regras de associação.
Provas
No contexto dos processos ETL (Extract, Transform & Load), analise as afirmativas a seguir.
I. A Stage Area é comumente usada para a limpeza, consolidação, agregação, alinhamento e outras funções aplicadas aos dados oriundos de múltiplas fontes.
II. Além de bancos de dados de produção, arquivos avulsos formatados como por exemplo CSV, planilhas, XML, JSON são frequentemente usados no processo de carga (load).
III. Na Stage Area são criados bancos de dados próprios com dados temporários apenas, cuja finalidade é aproveitar as facilidades de acesso e manipulação para as tarefas de transformação dos dados.
Está correto o que se afirma em
Provas
Julgue o item subsecutivo, referentes a técnicas de otimização de consultas SQL e a técnicas de modelagem multidimensional.
Apesar de poupar espaço de armazenamento, a modelagem snowflake é contraindicada para consultas com alta demanda de processamento em razão do seu potencial para impactar negativamente os tempos de resposta das consultas.
Provas
A respeito de data warehouse, data mining e business intelligence, julgue o item subsequente.
Sistemas de data mining viabilizam a extração de novos padrões significativos de informação que não seriam necessariamente encontrados por meio de meras consultas ou processamento de dados ou metadados no data warehouse.
Provas
A respeito de data warehouse, data mining e business intelligence, julgue o item subsequente.
Coletar e transformar dados de várias fontes e descobrir tendências e inconsistências são etapas gerais dos processos de business intelligence.
Provas
A respeito de data warehouse, data mining e business intelligence, julgue o item subsequente.
Diferentemente dos bancos de dados transacionais, os data warehouses caracterizam-se pela volatilidade, já que neles as informações armazenadas são alteradas com muito mais frequência, praticamente em tempo real.
Provas
Com respeito a dados abertos, julgue o seguinte item.
Entre os princípios que regem os dados abertos governamentais, encontra-se aquele que estabelece que os dados devem ser publicados conforme foram coletados da fonte e, preferencialmente, na forma não estruturada.
Provas
Com respeito a dados abertos, julgue o seguinte item.
Os dados devem ser disponibilizados em um formato de arquivo não proprietário, como txt, csv e ods.
Provas
Caderno Container