Prova Completa: Analista de TI - Ciência de Dados (USP - FUVEST

2966153 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningOtimização e Regularização

Considere que você possua um dataset contendo 100 instâncias de uma classe A e 120 instâncias de uma classe B.

Você utilizou 80% das instâncias de cada classe deste dataset para treinar um classificador, e o utilizou para prever a classe de todas as 220 instâncias do dataset. Curiosamente, seu classificador acertou a classe de todas as instâncias que foram utilizadas no treinamento do classificador, mas acertou apenas cerca de 50% das instâncias que não foram usadas no treinamento.

Este é um cenário típico que indica que você deveria ter aplicado qual técnica no seu processo de treinamento?

Provas

Questão presente nas seguintes provas

2966152 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningAlgoritmosSVM: Máquinas de Vetores de Suporte

Sobre o algoritmo SVM (máquinas de vetores de suporte), pode-se afirmar que são classificadores

A

não-lineares multiclasse que usam funções kernel para mapear um espaço de características separado para cada classe presente na amostra de treinamento.

B

de texto que usam a representação vetorial de palavras e que usam diferentes funções kernel para identificar o tópico central do texto.

C

que não necessitam de uma etapa de treinamento, pois usam funções kernel para identificar a classe mais próxima da entrada.

D

lineares binários que usam funções kernel para manipular os dados em um espaço que pode ou não ser diferente do espaço de características original.

E

não supervisionados para criação de agrupamentos que usam funções kernel para identificar k centroides, um de cada classe, sendo k informado inicialmente.

Provas

Questão presente nas seguintes provas

2966151 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningSeleção de Modelos
Análise de DadosTécnicas de Pré-processamentoRedução de Dimensionalidade

Sobre redução de dimensionalidade e seleção de características, assinale a alternativa correta.

A

PCA (análise de componentes principais) é uma técnica supervisionada de redução de dimensionalidade.

B

O algoritmo de indução de uma árvore de decisão já realiza seleção de características durante o treinamento.

C

Todas as técnicas de redução de dimensionalidade sempre selecionam um subconjunto das características originais.

D

Oversampling é uma técnica de seleção de características baseada na priorização das características mais frequentes.

E

Não é possível realizar redução de dimensionalidade sem uma amostra de treinamento.

Provas

Questão presente nas seguintes provas

2966124 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Introdução à Ciência de DadosDados Estruturados, Não-Estruturados e Semiestruturados

Suponha que você precisa analisar posts em uma rede social sobre opiniões de clientes da sua empresa.

O conjunto de textos desses posts são considerados dados

Provas

Questão presente nas seguintes provas

2966123 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Introdução à Ciência de DadosDados Abertos

Dados abertos são dados que

Provas

Questão presente nas seguintes provas

2966122 Ano: 2023
Disciplina: TI - Sistemas Operacionais
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Sobre técnicas de agrupamento (clusterização), assinale a alternativa correta.

A

Algoritmos de agrupamento hierárquico somente podem ser utilizados quando se sabe o número de classes presentes nos dados.

B

Se os dados pertencerem a mais de duas classes, os agrupamentos são identificados utilizando um algoritmo supervisionado de classificação multiclasse.

C

K-médias é um exemplo de algoritmo de agrupamento particional no qual o número de classes que se pretende encontrar deve ser informado.

D

PCA (análise de componentes principais) é um exemplo de algoritmo de agrupamento hierárquico no qual as classes principais são identificadas primeiro.

E

K-vizinhos-mais-próximos é uma medida de distância entre grupos utilizada em algoritmos de agrupamentos particionais que tendem a encontrar grupos compactos.

Provas

Questão presente nas seguintes provas

2966114 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Análise de DadosTécnicas de Pré-processamentoTratamento de Outliers

Sobre anomalias (outliers), assinale a alternativa correta.

A

As anomalias normalmente residem em regiões densas do espaço de características.

B

Dependendo do problema a ser tratado, as anomalias devem ser eliminadas ou são justamente o que se pretende modelar.

C

Anomalias nos dados de treinamento não interferem no desempenho de um classificador supervisionado.

D

Algoritmos de tokenização frequentista podem ser utilizados para a detecção de anomalias.

E

A aplicação de uma normalização do tipo min-max é suficiente para eliminar anomalias.

Provas

Questão presente nas seguintes provas

2966113 Ano: 2023
Disciplina: TI - Banco de Dados
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

SQLConceitos e Fundamentos de SQL
SQLDMLSELECTSubquery

O esquema parcial de um Banco de Dados Relacional de uma Universidade é apresentado a seguir, composto pelas relações Estudante, Disciplina, TurmaDisciplina e HistoricoEscolar. Os nomes entre parênteses definem os atributos armazenados para cada relação; atributos sublinhados indicam chave primária e atributos em negrito indicam chave estrangeira. Atributos que compõem chaves estrangeiras são identificados com o mesmo nome dos atributos que compõem chaves primárias às quais fazem referência.

Considere a execução do seguinte comando em Structured Query Language (SQL) padrão:

Estudante(e-codigo, e-nome, e-curso)

Disciplina(d-codigo,d-nome,d-quantidade-aulas)

TurmaDisciplina(td-codigo, d-codigo, td-ano, td-semestre, td-local-aula)

HistoricoEscolar(e-codigo,td-codigo, he-notafinal, he-frequencia)

Comando SQL executado:

select

e.e-nome, d.d-nome, he.he-nota-final

from

Estudante e, Disciplina d, TurmaDisciplina td,

HistoricoEscolar he

where

he.e-codigo = e.e-codigo and

he.td-codigo = td.td-codigo and

td.d-codigo = d.d-codigo and

td.td-ano = 2023 and

td.td-semestre = 1 and

(he.td-codigo,he.he-nota-final) in

(select he2.td-codigo, max(he2.he-nota-final)

from HistoricoEscolar he2

group by he2.td-codigo);

É correto afirmar que o comando mostra o nome do aluno, o nome da disciplina e a nota final

A

de um aluno que obteve a maior nota final de cada uma das turmas oferecidas no primeiro semestre de 2023.

B

de todos os alunos que obtiveram a maior nota final de cada uma das turmas oferecidas no primeiro semestre de 2023.

C

de todos os alunos que obtiveram a maior nota final de todas as turmas oferecidas no ano de 2023.

D

do aluno que obteve a maior nota final entre todas as turmas oferecidas no primeiro semestre de 2023.

E

somente do primeiro aluno gravado no banco de dados que obteve a maior nota final em cada uma das turmas oferecidas no primeiro semestre de 2023.

Provas

Questão presente nas seguintes provas

2966112 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Sobre a krigagem, no contexto de análise de dados georreferenciados, a seguinte afirmação é correta:

A

É uma técnica concebida para a predição de valores de uma ou mais variáveis em pontos quaisquer de uma área geográfica, a partir de uma amostra de pontos previamente observados nessa área; tal predição leva em consideração a estrutura de covariância espacial dos pontos observados.

B

É uma técnica concebida para a suavização dos valores de uma ou mais variáveis em um conjunto de dados georreferenciados; baseada no LOWESS (locally weighted estimated scatterplot smoothing), a função de atenuação leva em consideração a estrutura de covariância espacial dos pontos observados.

C

É uma técnica de conversão entre sistemas de referência de coordenadas, concebida para permitir a incorporação de variáveis numéricas em um Sistema de Informações Geográficas - o que não é possível, por exemplo, com o sistema geodésico mundial WGS84.

D

É uma técnica baseada no Fuzzy c-means, concebida para detecção de agrupamentos em dados georreferenciados; o cálculo das distâncias entre os pontos observados e os centroides dos agrupamentos combina o vetor original de cada ponto com sua coordenada geográfica, explorando, dessa forma, a estrutura de covariância espacial dos dados.

E

É uma técnica baseada no LOWESS (locally weighted estimated scatterplot smoothing), concebida para a detecção e remoção de outliers em dados georreferenciados; o limiar para determinar se um valor é ou não um outlier é calculado levando-se em consideração a estrutura de covariância espacial dos dados.

Provas

Questão presente nas seguintes provas

2965697 Ano: 2023
Disciplina: Estatística
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

RegressãoRegressão Linear SimplesAnálise de Variância da Regressão Simples

Um modelo de regressão linear simples foi ajustado sobre um conjunto de pares !$ (x_1, \, y_1) \, ... \, (x_5, \, y_5), !$ com o objetivo de se prever o valor da variável !$ y, !$ dado o valor de !$ x. !$

Denotamos por !$ \hat{y} !$ o valor predito de !$ y_i, !$ dado o valor de !$ x_i, !$ e denotamos por !$ \bar{y} !$ a média dos valores de !$ y_1 \, , \, ... \, , \, y_5. !$

Suponha que, após o ajuste do modelo, os seguintes indicadores de ajuste tenham sido obtidos:

!$ TSS \, = \, \sum\limits_{i=1}^5 \, (y_i \, - \, \bar {y})^2 \, = \, 16. !$

!$ RSS \, = \, \sum\limits_{i=1}^5 \, (y_i \, - \, \hat {y})^2 \, = \, 4; !$

Com base nestas informações, qual é o valor do coeficiente de determinação, R²?