Prova Completa: Analista de TI - Ciência de Dados (USP - FUVEST

2966200 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningRedes Neurais

Sobre redes neurais convolucionais profundas (CNNs), assinale a alternativa correta.

A

A aplicação de dropout é importante para ajustar o formato dos dados para serem processados pela camada totalmente conectada.

B

São tradicionalmente adequadas para processar dados textuais devido à sua arquitetura baseada em word embeddings dinâmicos.

C

Data augmentation é o processo de transferência de aprendizado em que o fine-tuning é realizado nas primeiras camadas convolucionais da rede.

D

As camadas de convolução realizam extração de características enquanto as camadas de pooling reduzem a dimensionalidade.

E

CNNs podem ser usadas como extratores de características para classificadores SVM porque compartilham os mesmos tipos de kernels.

Provas

Questão presente nas seguintes provas

2966199 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Data Mining

Em Mineração de Dados, após o pré-processamento dos dados, inicia-se a fase de análises. Para esta fase há análises descritivas e análises preditivas.

Quais das tarefas a seguir são todas análises descritivas?

Provas

Questão presente nas seguintes provas

2966198 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Big Data

Um conceito importante em ciência de dados é o de Big Data.

As três características mais importantes deste tipo de dados são conhecidas como os três V's, que são:

Provas

Questão presente nas seguintes provas

2966197 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

BI: Business IntelligenceModelagem Multidimensional

A visualização de dados vem se tornando um mecanismo indispensável em organizações para tomada de decisão em diversos níveis hierárquicos gerenciais. Ferramentas de visualização de dados, também denominadas ferramentas analíticas, tais como Power BI e Tableau, têm sido amplamente divulgadas e empregadas para apoiar a decisão baseada em dados.

Essas ferramentas possibilitam a importação

A

de dados a partir de bancos de dados e a criação de painéis de visualização somente estáticos a partir desta importação.

B

somente a partir de bancos de dados relacionais e a criação de painéis de visualização somente estáticos a partir desta importação.

C

de dados a partir de bancos de dados e a criação de painéis de visualização dinâmicos a partir desta importação.

D

de dados somente a partir de bancos de dados relacionais e a criação de painéis de visualização dinâmicos a partir desta importação.

E

somente de dados armazenados por ferramentas do mesmo fabricante e a criação de painéis de visualização dinâmicos a partir desta importação.

Provas

Questão presente nas seguintes provas

2966196 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Inteligência ArtificialMachine LearningAplicaçõesPLN: Processamento de Linguagem Natural

Considerando a área de Processamento de Linguagem Natural, assinale a alternativa correta.

A

LDA (Latent Dirichlet Allocation) é uma técnica utilizada em modelagem de tópicos que considera que cada texto é predominantemente de um único tópico a ser predito por aprendizado supervisionado.

B

Representações de texto baseadas em n-gramas possuem a desvantagem de criarem um espaço de características mais esparso que a estratégia de bag of words simples (uma só palavra).

C

BERT (Bidirecional Encoder Representations from Transformers) é um exemplo de classificador não supervisionado baseado em propriedades sonoras independentes entre si para classificação de sentimentos a partir de textos.

D

Word embeddings é um tipo de representação vetorial em que o texto todo é representado como um vetor ndimensional, sendo n o número total de palavras do dicionário linguístico adotado.

E

TF-IDF é um modelo de transformadores (do inglês transformers) baseado em redes neurais profundas generativas.

Provas

Questão presente nas seguintes provas

2966195 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

BI: Business IntelligenceData Warehouse

Ao se considerar a modelagem de dados em um ambiente de data warehouse, qual das seguintes afirmações descreve corretamente vantagens e/ou desvantagens do esquema "estrela" (star schema) e do esquema "floco de neve" (snowflake schema)?

A

O esquema "floco de neve", devido à sua estrutura mais simples, pode exigir menos esforço para manutenção e modificações, diminuindo a complexidade do desenvolvimento de consultas e relatórios.

B

Diferentemente do esquema "floco de neve", o esquema "estrela" reduz o espaço de armazenamento dos dados ao unificar tabelas dimensionais relacionadas, pois evita duplicação desnecessária de dados.

C

O esquema "floco de neve" é mais flexível e escalável, embora requeira mais junções entre tabelas para consultar os dados, o que pode aumentar a complexidade e afetar negativamente o desempenho de consulta.

D

No esquema "estrela", as tabelas de dimensões não são normalizadas para poder reduzir a redundância e melhorar a consistência dos dados, enquanto o esquema floco de neve mantém uma estrutura mais normalizada.

E

A principal diferença entre o esquema "estrela" e o esquema "floco de neve" esta na modelagem das dimensões, pois, no esquema estrela, ocorrem ligações entre as tabelas dimensionais, e, no esquema "floco de neve", não.

Provas

Questão presente nas seguintes provas

2966157 Ano: 2023
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

LinguagensPython

Considere o seguinte código na linguagem de programação Python:

def misterio (a):

aux = 0.0

for v in a:

if v < aux:

a.append (aux)

c = (aux, a)

return c

b = [2, 4, 1, -5, 10]

resp = misterio (b)

print (resp [1])

Qual é a saída que será impressa após a execução deste programa?

Provas

Questão presente nas seguintes provas

2966156 Ano: 2023
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Engenharia de SoftwareTestesTipos de Testes
Qualidade de SoftwareAvaliação da Qualidade de Software

Suponha que você possua um dataset que represente uma amostra de treinamento balanceada de 500.000 instâncias para classificação binária. Devido à demanda de tempo de processamento dos algoritmos de indução de classificadores que você usará, você definiu que cada treinamento deve ser realizado apenas por 40.000 instâncias e cada teste sobre 10.000 instâncias. Uma vez que 1) cada treinamento e teste demoram juntos 2 horas, 2) você tem disponível apenas 20 horas para executar a estimação de desempenho do algoritmo usado em seus dados, e 3) você quer fazer o máximo de treinamentos/testes possível nessas 20 horas, uma boa estratégia a ser aplicada sobre seu dataset para a estimação de desempenho é:

A

validação cruzada 10-vezes (ou 10X) estratificada a partir de todo o dataset original.

B

leave-one-out de forma a manter o balanceamento entre as classes em cada uma das 10 execuções.

C

10 hold-outs balanceados independentes, cada um contendo 50.000 instâncias sorteadas do dataset.

D

grid-search balanceado com dimensão total = 40.000 x 10.000 x 10 com bootstrap.

E

10 etapas de resubstituição do dataset original já balanceado e sem bootstrap.

Provas

Questão presente nas seguintes provas

2966155 Ano: 2023
Disciplina: TI - Ciência de Dados e BI
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Análise de Dados

Suponha que você possua dados de uma grande rede de lojas e que precise criar um classificador para prever se um determinado cliente comprará ou não um determinado produto. Para isso, a empresa disponibilizou uma amostra contendo dados de 10.000 clientes que compraram o produto e de 10.000 clientes que não compraram o produto. Dentre os vários atributos (ou características) de cada cliente estão: faixa de renda familiar (um valor discreto de 1 a 5), idade, o valor total de produtos já comprados da empresa (somando todas as compras já realizadas), e se comprou ou não o produto (0 = não, 1 = sim) durante uma campanha.

Antes de executar um algoritmo de treinamento do classificador, um procedimento importante de pré-processamento a ser realizado sobre esses dados é:

Provas

Questão presente nas seguintes provas

2966154 Ano: 2023
Disciplina: TI - Desenvolvimento de Sistemas
Banca: FUVEST
Orgão: USP

Provas:

Analista de TI - Ciência de Dados
Provas ×

Considere um classificador binário treinado para classificar dados de um e-mail em spam ou não-spam. A seguinte matriz de confusão foi obtida após a aplicação desse classificador binário em uma amostra de teste: