Magna Concursos

Foram encontradas 5.143 questões.

Em processamento de linguagem natural (Natural Language Processing - NLP), é fundamental que sejam utilizadas técnicas para representar palavras numericamente como vetores. As representações numéricas são importantes para capturar relações semânticas entre as palavras, permitindo, por exemplo, processamentos para a detecção de similaridades entre palavras e o desenvolvimento de chatbots.

Entre as técnicas de NLP para a representação numérica de palavras destacam-se as seguintes:

 

Provas

Questão presente nas seguintes provas
3307993 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PA

A análise de componentes principais (Principal Component Analysis - PCA) é uma técnica de redução de dimensionalidade de dados utilizada em diversas aplicações, tais como em compressão de imagens e em processamento de linguagem natural.

Em relação à análise de componentes principais, avalie se as afirmativas a seguir são verdadeiras (V) ou falsas.

( ) Permite a identificação de correlações e de estruturas de menor dimensionalidade na distribuição espacial dos dados, caracterizadas pelas direções onde há maior variância.

( ) Envolve o cálculo de autovalores e autovetores de matrizes de covariâncias, determinando-se as componentes principais das distribuições de dados.

( ) É adequada para identificar correlações não-lineares entre os dados de um conjunto de alta dimensionalidade, projetando estruturas em espaços vetoriais de menores dimensões.

As afirmativas são, respectivamente,

 

Provas

Questão presente nas seguintes provas

Alguns algoritmos de aprendizado de máquina servem para agrupar instâncias de dados em clusters, podendo ser utilizados para tarefas como segmentação de imagens, ou segmentação social (por exemplo, para agrupamento de clientes em uma mesma categoria.

Dois dos mais populares algoritmos são o K-means e o DBSCAN. A respeito desses algoritmos, relacione-os com suas principais características:

1. K-means

2. DBSCAN

( ) Precisa da definição de um número inicial de agrupamentos.

( ) Mais robusto à ocorrência de outliers, por sua provável localização em regiões de baixa densidade de dados.

( ) Precisa da definição do número mínimo de vizinhos e do raio da vizinhança para determinar limites dos agrupamentos.

( ) Determina centróides dos agrupamentos e agrupa as instâncias de dados em função de uma métrica de distância entre as instâncias e os centróides.

Das opções a seguir, aquela que indica a relação correta na sequência apresentada é

 

Provas

Questão presente nas seguintes provas

Modelos de previsão podem ser obtidos a partir do uso de técnicas de regressão. Dentre essas técnicas, pode-se citar a técnica de regressão polinomial.

Considere o conjunto de dados e a informação a seguir:

Y

2

4

3

1

X

0

1

2

3

Informação: \( \begin{bmatrix} 4 & 6 & 14 \\ 6 & 14 & 36 \\ 14 & 36 & 98 \\ \end{bmatrix}^{-1} \) \( =\dfrac{1}{20} \) \( \begin{bmatrix} 19 & -21 & 5 \\ -21 & 49 & -15 \\ 5 & -15 & 5 \\ \end{bmatrix} \) .

Deseja-se encontrar um modelo de regressão polinomial de 2º grau \( Y \) = \( a \)0 + \( a \)1 \( X \) + \( a \)2 \( X \)2 que melhor se encaixe nesse conjunto de dados.

Estimando-se pelo método dos mínimos quadrados, os valores de \( a \)0, \( a \)1 e \( a \)2 serão dados, respectivamente, por

 

Provas

Questão presente nas seguintes provas

Diferentes técnicas de classificação são utilizadas em aprendizado de máquina para organizar e categorizar dados de acordo com características predefinidas.

Com respeito a técnicas de classificação em aprendizado de máquina, analise as afirmativas a seguir:

I. A regressão logística determina um hiperplano no espaço \( n \)- dimensional para separar as instâncias de dados de entrada em partições de acordo com suas classes.

II. As máquinas de vetores de suporte (Support Vector Machines - SVM) consistem em uma abordagem probabilística, determinando uma distribuição de probabilidades de que uma nova instância de dados de entrada pertença as respectivas classes.

III. O algoritmo K vizinhos mais próximos (K Nearest Neighbors - KNN) classifica uma nova instância de dados de entrada conforme a classe das instâncias mais próximas já observadas.

Está correto o que se afirma em

 

Provas

Questão presente nas seguintes provas
3307988 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PA

Sobre a Análise Exploratória de Dados (AED), avalie as afirmativas a seguir.

I. A AED permite a obtenção do entendimento sobre os dados coletados.

II. A AED fornece uma ideia de como os dados se distribuem e sua forma de apresentação.

III. Algoritmos de Machine Learning são as principais ferramentas utilizadas na AED.

Está correto o que se afirma em

 

Provas

Questão presente nas seguintes provas
3307987 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PA

Associe os conceitos a seguir às respectivas características.

1. Data Lake

2. Data Mart

( ) Surgiu como uma alternativa aos armazéns de dados tradicionais, permitindo o armazenamento de grandes volumes de dados de qualquer tipo e tamanho.

( ) São criados para tornar os dados mais facilmente acessíveis para geração de relatórios, além de fornecer um estágio adicional de transformação além das tubulações ETL iniciais.

( ) Tipo de armazenamento de dados frequentemente usado para suportar camadas de apresentação do ambiente de data warehouse.

( ) Fornece um local central de armazenamento para dados brutos, com o mínimo de transformação, se houver.

A associação correta, na ordem dada, é:

 

Provas

Questão presente nas seguintes provas
3307986 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PA

O conceito de Big Data engloba não apenas o volume de dados, mas também a variedade e a velocidade com que são produzidos os chamados 3Vs, os principais desafios ou dimensões do Big Data.

Posteriormente, de acordo com o DAMA-DBOK, aos 3Vs iniciais foram adicionados outros 3Vs aos principais desafios ou dimensões do Big Data. São eles:

 

Provas

Questão presente nas seguintes provas
3307985 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PA

Analise o trecho a seguir:

É um padrão de transformação de dados em lote que foi introduzido como uma alternativa para lidar com grandes volumes de dados. Consiste em tarefas de mapa que leem blocos de dados individuais espalhados pelos nós, seguidas por uma etapa de shuffle que redistribui os dados de resultado e uma etapa de redução que agrega os dados em cada nó. Seu paradigma foi construído em torno da ideia de que a capacidade e largura de banda do disco magnético eram tão baratas que fazia sentido simplesmente usar uma enorme quantidade de disco para realizar consultas ultrarrápidas.

A tecnologia em questão é:

 

Provas

Questão presente nas seguintes provas
3307984 Ano: 2024
Disciplina: TI - Ciência de Dados e BI
Banca: FGV
Orgão: TCE-PA

Sobre o processo de ingestão de dados, avalie se as afirmativas a seguir são verdadeiras (V) ou falsas (F).

( ) Dados não estruturados podem incluir arquivos de texto, logs e outras formas de informação não padronizada.

( ) A ingestão de dados em lote pode ser iniciada mediante agendamento ou quando os dados atingem um limite de tamanho predeterminado.

( ) Apesar de ser mais simples de implementar, a ingestão de dados incremental ou diferencial é ideal para minimizar o tráfego na rede e o uso do storage.

( ) É mais comum adicionar etapas adicionais de transformação e limpeza dos dados em dados estruturados do que em não estruturados.

As afirmativas são, respectivamente,

 

Provas

Questão presente nas seguintes provas