Perguntas escritas do teste de análise de dados de recrutamento da escola 2020 Xiaohongshu

O caminho da Star Coke para a análise de dados

aprender juntos

Olá a todos, eu sou a Coca-Cola

Hoje, trarei a você uma explicação detalhada das perguntas do teste escrito de análise de dados para o recrutamento da escola Xiaohongshu em 2020

1. Se um determinado comerciante no shopping Xiaohongshu definir um preço para um produto, se o preço for definido no preço mais baixo de 500 yuans em toda a rede, os clientes definitivamente escolherão comprar aqui; para cada aumento de 1 yuan no preço, a possibilidade de perda de clientes aumenta. aumentará em 1%. Em seguida, o comerciante cita o melhor preço para o cliente como ()

A、520
B、535
C、550
D、565

Resposta: C

Análise:
Quando o preço é exigido, o lucro pode ser maximizado. Seja o aumento de preço x, o lucro seja y e M seja o número desconhecido de clientes, mas um valor fixo. Encontre o valor máximo da equação linear binária y=M(1-x/100)x .


2. Em um evento de coleta de cartas, existem 5 cartas diferentes que aparecem com a mesma probabilidade. Cada vez que você compartilha uma nota, você pode obter uma carta. A expectativa do número de notas necessárias para coletar todas as cartas está relacionada a qual dos seguintes resultados mais próximos? ()

A、9
B、11
C、13
D、15

Resposta: B

Análise:
Investigue a soma de múltiplas distribuições geométricas .

Em primeiro lugar, o tópico está de acordo com a distribuição geométrica, experimento independente -> a probabilidade de obter uma carta é a mesma -> quantas tentativas são necessárias para coletar todas as cartas. Para uma distribuição geométrica, se a probabilidade de cada sucesso for p, então a expectativa é 1/p.

Voltando a esta questão, existem várias situações:

  • Suponha que haja apenas um tipo de carta nele, e todas as cartas são pegas uma vez, e a expectativa é 1

  • Supondo que existam dois tipos de cartas, você pode definitivamente pegar uma pela primeira vez, quantas vezes você pode pegar as outras, torna-se uma distribuição geométrica novamente, p = 1/2, a expectativa é 2, então o total a expectativa é 1+2=3

  • Supondo que existam 3 tipos de cartas, uma deve ser obtida na primeira vez, a expectativa é 1, e os dois tipos restantes devem ser obtidos na segunda vez, p = 2/3, a expectativa é 3/2 e a terceira o tempo é pegar uma das duas cartas restantes. Pegue a terceira, p = 1/3, a expectativa é 3, então a expectativa geral é 1+3/2+3=11/2

  • Por analogia, a expectativa de obter todos os 5 tipos de cartas deve ser:
    na primeira vez que você obtém 1 tipo, a expectativa é 1, e na segunda vez você obtém 1 tipo dos 4 tipos restantes, p=4/5, E= 5/ 4. Na terceira vez para obter 1 dos 3 tipos restantes, p=3/5, E=5/3, na quarta vez para obter 1 dos 2 tipos restantes, p=2/5, E=5/ 2. A quinta vez para obter o restante, p=1/5, E=5.

  • A expectativa total é: 1+5/4+5/3+5/2+5, aproximadamente igual a 11,42

Este é o mesmo que Ji 5 Fu .


3. Como combinar o valor do caractere da coluna a e o valor do caractere da coluna b em uma string c() no Excel

A、c=a+b
B、c=a
&b C、c=a e b
D、c=a*b

Análise:
Investigue o uso básico do Excel

A combinação de caracteres no Excel utiliza o símbolo "&", podendo também ser utilizada a função CONCATENAR. Use "+" para concatenar strings em Python.
Você pode usar "+" ou a função concat para concatenar caracteres em SQL.


4、selecione count(open) count(distinct user_id) from temp1
()
A、3,4
B、5,5
C、5,3
D、3,5

Não sei o que essa pergunta significa, então não dei uma tabela.


5. Investigue as despesas médias de transporte de 1.000 funcionários da empresa, faça uma amostragem sem reposição e selecione 100 deles para investigação. De acordo com pesquisas anteriores, pode-se saber que a variância da população s² é 100, então a variância da média da amostra é ()

A、0.1
B、1
C、100/111
D、10/111

Resposta: C

Análise:
quando a amostragem não é redefinida, a variação da média da amostra é calculada usando a seguinte fórmula:


100/100x(1000-100)/(1000-1)=100/111

6. Sabendo que as taxas de crescimento mensal de fevereiro a maio são de 5,6%, 7,1%, 8,5% e 6,4%, respectivamente, a taxa de crescimento de maio em comparação com janeiro é ()

A、5,6% 7,1% 8,5% 6,4% 

B、(105,6% 107,1% 108,5% 106,4%)-100%
C、(5,6% 7,1% 8,5% 6,4%)+100% 

D、105,6% 107,1% 108,5% 106,4%

Resposta: B

Análise:
Examinando a taxa de crescimento de base fixa e a taxa de crescimento mês a mês

A taxa de crescimento em maio em comparação com janeiro é a taxa de crescimento de base fixa. Não há relação de conversão direta entre a taxa de crescimento de base fixa e a taxa de crescimento em cadeia. Multiplique após 1 e, em seguida, subtraia 1 do resultado para obter o fixo -taxa de crescimento de base, então a taxa de crescimento de base fixa é (107,8% × 109,5% × 106,2% × 104,9%) -100%.


7. "Você não pode ter peixe e pata de urso" significa: ()

A. Ou você pega peixe ou pata de urso
B. Se você pega pata de urso, você não pega peixe
C. Ou você pega peixe ou pata de urso
D. Se você não pega pata de urso, você pega peixe

Resposta: B

Análise:
Examinando eventos mutuamente exclusivos

Peixe e pata de urso são eventos mutuamente exclusivos, apenas um deles acontecerá, apenas B significa isso


8. Qual dos seguintes é um modelo discriminante? () -- múltipla escolha

A. Markov oculto
B. Árvore de decisão
C. Máquina de vetores de suporte
D. Bayesiano ingênuo
E. Modelo de máxima entropia

Resposta: AEC

Análise:
examinando os conceitos básicos de algoritmos de aprendizado de máquina

Árvores de decisão, máquinas de vetores de suporte e modelos de máxima entropia são modelos discriminativos.Modelos discriminativos típicos incluem KNN, regressão logística e redes neurais. Naive Bayes e Hidden Markov são modelos generativos.

Em relação ao modelo discriminativo e ao modelo generativo, Bowen machine learning modelo discriminativo e modelo generativo - nolonely - blog garden dá um exemplo:

  • Exemplo de modelo discriminante: Para determinar se uma ovelha é uma cabra ou uma ovelha, o método de usar o modelo discriminante é aprender o modelo a partir de dados históricos e, em seguida, prever a probabilidade de que a ovelha seja uma cabra extraindo as características do ovelha. probabilidade.

  • Exemplo de um modelo generativo: usar um modelo generativo é primeiro aprender um modelo de cabra com base nas características de uma cabra e depois aprender um modelo de ovelha com base nas características de uma ovelha, depois extrair características da ovelha e colocar no modelo de cabra para ver a probabilidade é Quanto, coloque no modelo de ovelha para ver qual é a probabilidade, o que for maior é qual.


9. Entre os seguintes formatos de entrada de fórmula do Excel, o correto é ()

A、=SOMA(1,2,,,,99,100)
B、=SOMA(E1:E6)
C、=SOMA(E1;E6)
D、SOMA(“18”,”25”,7)

Resposta: B

Análise:
Investigue o uso básico do Excel

O uso da função soma no Excel é a opção B


10. Em relação à distribuição normal, qual das seguintes afirmações está correta ()--Múltipla escolha

A. A distribuição normal tem concentração e simetria
B. A média e a variância da distribuição normal determinam a posição e a forma da distribuição normal
C. A assimetria da distribuição normal é 0 e a curtose é 1
D. A distribuição normal padrão A a média é 0 e a variância é 1

Resposta: ABD

Análise:
examina o conhecimento básico da distribuição normal

A curva de distribuição normal é simétrica, com simetria, e a média e a mediana estão no centro, com concentração.
A média da distribuição normal determina a posição central da curva, e a variância indica a dispersão, ou seja, quanto maior a variância, mais plana e larga a curva, o que determina sua forma.
A distribuição normal padrão tem uma média de 0 e uma variância de 1.
Uma distribuição normal padrão tem uma assimetria de 0 e uma curtose de 0 (3).


11. X obedece à distribuição uniforme no intervalo (1,5), encontre a probabilidade de que pelo menos 2 das 3 observações independentes de X sejam maiores que 2 ()

Resposta: 27/32

Análise:
examinando o uso da distribuição binomial

Três observações independentes satisfazem a distribuição binomial X~B(3,3/4)


Aqui a probabilidade de maior que 2 p=3/4, q=1/4, n=3
requer pelo menos 2 observações maiores que a probabilidade de 2, que é encontrar P(X=2)+P(X=3 )
   P = 3! /2!(3-2)! (3/4)^2 (1/4)+3!/3! * (3/4)^3
  =3 (3/4) (3/ 4)*(1/4)+ (3/4)^3
  =27/32

Para a distribuição binomial, consulte meu artigo anterior:
Distribuição de probabilidade de variáveis ​​aleatórias discretas


12. Existem três bons padrões para estimativa de amostragem: (), e há quatro fatores que afetam a série temporal: ()

Respostas: imparcialidade, consistência, validade; tendências de longo prazo, mudanças sazonais, flutuações cíclicas, flutuações irregulares

Análise: examine os conceitos básicos de estimativa de amostragem e séries temporais
em estatística

questão conceitual


13. Forneça três algoritmos de agrupamento comuns: ()

Resposta: agrupamento K-means, agrupamento K-centróide, algoritmo EM, algoritmo OPTICS, algoritmo DBSCAN, etc.

Análise:
examine os conceitos básicos de algoritmos de agrupamento


14. O sistema de reconhecimento facial de Xiaohongshu reconhece as identidades das pessoas que estão entrando em Xiaohongshu. O sistema reconhece três tipos diferentes de pessoas: funcionários, entregadores de comida e estranhos. Qual método de aprendizado é adequado para este requisito de aplicativo ()

Resposta: multicategoria

Análise:
examinando as aplicações do aprendizado de máquina


15. Xiaohongshu lançou um novo módulo na página inicial. O objetivo é aumentar o tempo de navegação do usuário. Desenhe um plano de análise para medir se o tempo de permanência do usuário melhorou após o lançamento do módulo?

Análise:
A ideia é o Teste A/B , que será discutido em detalhes na questão 19 a seguir.


16. A tabela a seguir mostra os dados de vendas de uma empresa de comércio eletrônico em diferentes categorias e em diferentes meses
(1) Use soma ou somas para calcular o volume de vendas de limpador facial em 201901 na célula F3
(2) Use a função para calcular quantos meses o limpador facial tem O volume de vendas do produto excede 1 milhão
(3) Use a função para calcular a taxa de crescimento mensal composta da categoria de limpador facial

Resposta:
=SUMIFS(C4:C15,B4:B15,E4,A4:A15,F3)
=COUNTIFS(B2:B13,B2,C2:C13,">100")
=pow(160/120,1/3) -1

Análise:
Investigue a aplicação prática do Excel

A primeira pergunta examina o uso da função SUMIFS . Essa função é usada para soma condicional. A função tem pelo menos três parâmetros:

  • sum_range: Refere-se à célula ou intervalo de células a ser somado (intervalo somado)

  • Intervalo_critério: Intervalo do critério, ao somar, este intervalo participará do julgamento das condições

  • Criterl: Geralmente é um valor específico envolvido no julgamento. Vem da área de condição. É
    muito simples expandir esta função em detalhes:

A segunda pergunta examina o uso da função COUNTIFS . Essa função é usada para contagem condicional. Seus parâmetros são:

  • critérios_intervalo[N]: refere-se à célula ou intervalo de células a ser contado (intervalo condicional)

  • critérios[N]: valor da condição.
    Esta fórmula também é muito fácil de entender após a expansão:

A terceira questão é o cálculo da taxa de crescimento composta . Sua fórmula é:
(valor existente/valor básico)^(1/período) - 1
Aqui, a taxa de crescimento composta mensal do limpador facial deve ser calculada. Use a função de potência no Excel Computa poderes.


17. Há uma ordem na tabela de transações:

ordens

Existe uma tabela de transações favoritas:
favoritos

Use uma frase de SQL para extrair as características de comportamento de todos os usuários do produto. As características são divididas em compradas, compradas, mas não coletadas, coletadas, mas não compradas e coletadas e compradas (os resultados de saída são mostrados na tabela a seguir)
resultado

Responder:

SELECT o.user_id,o.item_id,
(CASE when o.pay_time is not null then 1 else 0 end) as '已购买',
(CASE when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '购买未收藏',
(CASE when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买',
(CASE when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '收藏且购买'
FROM orders o
LEFT JOIN favorites f 
ON o.user_id = f.user_id 
AND o.item_id = f.item_id
UNION
SELECT
f.user_id,f.item_id,
(CASE when o.pay_time is not null then 1 else 0 end) as '已购买',
(CASE when o.pay_time is not null and f.fav_time is null then 1 else 0 end) as '购买未收藏',
(CASE when o.pay_time is null and f.fav_time is not null then 1 else 0 end) as '收藏未购买',
(CASE when o.pay_time is not null and f.fav_time is not null then 1 else 0 end) as '收藏且购买'
FROM orders o 
RIGHT JOIN favorites f 
ON o.user_id = f.user_id 
AND o.item_id = f.item_id
ORDER BY user_id, item_id;

Análise:
Investigue o uso de case when, junção externa e união na instrução SQL


18. A taxa positiva é um indicador importante para os usuários avaliarem os produtos. Agora precisamos contar a taxa de elogios da marca "DW" na categoria "Mãe e bebê" enviada pelo usuário 'Xiao Zhang' de 1º de março de 2019 a 31 de março de 2019 (taxa de elogios = "Valor da avaliação de elogios" / Valor total da avaliação ), escreva instruções de consulta SQL/Python/outras linguagens:
tabela de detalhes da avaliação do usuário: um
campo: id (id da avaliação, chave primária), create_time (hora da criação da avaliação, formato '2019-01-01'), user_name (nome do usuário), goods_id (id da mercadoria, chave estrangeira),
sub_time (horário de envio da avaliação, formato '2019-01-01 23:10:32'), sat_name (tipo de taxa favorável, incluindo: "boas críticas", " avaliações médias", " Revisão ruim")
tabela de detalhes do produto:
campo b: goods_id (id do produto, chave primária), goods_name (categoria do produto), brand_name (nome da marca)

Responder:

select 
sum(case when sat_name = '好评' then 1 else 0 end)/sum(case when sat_name is not null then 1 else 0 end) as '好评率'
from a join b on a.goods_id = b.goods_id
where a.user_name = '小张'
and goods_name = '母婴'
and brand_name = 'DW'
and create_time between '2019-03-01' and '2019-03-31'

Análise:
examine a instrução SQL


19. Após algumas pesquisas, desenvolvemos um novo algoritmo de recomendação para o módulo "Produtos Relacionados" na página do produto e pretendemos passar no Teste AB (50% dos usuários mantêm a lógica do algoritmo original como grupo de controle e 50 % dos usuários usam o novo A lógica do algoritmo é o grupo experimental) para avaliar o efeito do novo algoritmo. Supondo que você seja o analista de dados deste experimento, como você avaliaria o desempenho do grupo de controle e do grupo experimental? (Assumindo que todos os dados necessários estejam disponíveis) Por favor, liste os três indicadores mais importantes em ordem de importância e dê seu processo de análise/pensamentos.

Analisar:

  • Indicadores: cliques/impressões de produtos relacionados; taxa de conversão de compras adicionais/compras imediatas após entrar na página de detalhes do produto; vendas totais

  • Método: Teste de Hipóteses

O teste de hipótese pode ser feito das seguintes maneiras: 1. Determine 3. Teste Talternativa
e
a hipótese nula , calcule o valor P 4. Resultados da análise: Se o índice após o uso do novo algoritmo for muito menor que o índice sem o novo algoritmo, se o novo algoritmo não tiver efeito, a probabilidade desse resultado é muito alta Baixa, então a hipótese nula é rejeitada, ou seja, é válida após o uso do novo algoritmo.



Princípio: método de contraprova de pequena probabilidade


20. Se constatarmos que as vendas da categoria X em uma loja em março deste ano caíram 50% em relação a março do ano passado, se você fosse o analista de dados responsável por essa análise, como você analisaria? Por favor, escreva seu pensamento analítico/processo/ideia.

Análise:
Pergunta aberta, deixe-me colocar um dos meus pensamentos:

  • Elimine o problema dos próprios dados: em primeiro lugar, determine se os dados estão corretos, se a fonte de dados e o calibre estão corretos e, em seguida, continue a analisar;

  • Confirme a racionalidade do declínio: caiu 50% e analise se seu declínio é razoável em combinação com o mês a mês, ano a ano e coorte;

  • Análise de motivos externos: quais possíveis motivos externos estão relacionados ao declínio e em que medida, como se outros departamentos relevantes realizaram iterações de produtos, ajustes nas estratégias operacionais, falhas de equipamentos, etc.;

  • Análise de razões internas: pode ser analisada a partir de múltiplas dimensões, como análise sob a perspectiva de usuários, produtos e mercados e divisão de índices;

  • Confirme o grau de impacto: confirme qual link tem um problema que leva ao declínio do indicador, se o declínio do indicador tem algum impacto nos indicadores-chave e a extensão do impacto;

  • Formular medidas de consolidação: como evitar tais problemas no futuro.


21. A DAU de um app em julho aumentou 10% em relação a maio do mesmo ano Como analista de dados, sob quais aspectos você analisaria os motivos do aumento da DAU? Por favor, liste pelo menos duas ideias para a divisão.

Análise:
Esta pergunta é muito parecida com a anterior, uma é porque o indicador caiu e a outra é porque o indicador subiu. Mas esta questão presta mais atenção ao exame e análise de razões internas, mas a primeira e mais importante é verificar a precisão dos dados.

Aqui está a resposta de um internauta, a ideia é bem clara (fonte: Niuke.com):


22. Escolha qualquer APP da comunidade (excluindo Xiaohongshu) que você tenha usado e responda às seguintes perguntas:
(1) Descreva as características dos usuários que usam este APP e compare as características dos usuários deste APP com os de Xiaohongshu. diferenças
(2) Estime quantas pessoas postam conteúdo neste aplicativo todos os dias. Anote os dados auxiliares necessários e descreva brevemente o método de estimativa
(3) O APP que você escolher convidará um dos três grupos de artistas do ABC para realizar uma atividade conjunta em um futuro próximo. O objetivo principal da atividade é para aumentar DAU.
Partindo da premissa de que a forma de atividade é exatamente a mesma, qual grupo você escolherá?
Requisitos de resposta: 1) Descreva brevemente as ideias de análise, 2) Liste os indicadores de dados correspondentes

Análise:
Tópico aberto.


23. Após algumas pesquisas, decidimos adicionar uma breve página de introdução de vídeo quando novos usuários ativam o APP pela primeira vez para aumentar a percepção dos usuários sobre o produto e planejamos passar no Teste AB (50% é o grupo de controle, 50 % dos usuários verão uma breve introdução em vídeo) para avaliação. Se você fosse o analista de dados desse experimento, como avaliaria o desempenho do grupo de controle e do grupo experimental? Por favor, liste os indicadores que você considera importantes e forneça o processo de análise e os métodos estatísticos que podem ser usados.

Análise:
O objetivo deve ser entender o comportamento dos usuários depois de assistir à página de introdução do vídeo curto, para julgar se a página de introdução do vídeo curto é útil.

  • Indicadores: Preste atenção à taxa de cliques, taxa de rejeição e tempo de exibição de vídeos curtos no grupo experimental e compare o volume de ativação do usuário, taxa de ativação de registro e retenção subsequente dos dois grupos.

  • Método: Teste de Hipóteses


24. Há uma loja de conveniência no térreo do escritório de Xiaohongshu em Xangai, com uma área de cerca de 20 metros quadrados, que oferece principalmente lanches e bebidas. Por favor, estime o volume de negócios semanal desta loja de conveniência?

Análise:
Para estimar esse tipo de problema, a principal direção é realizar uma desmontagem lógica , e desmontar um problema complexo em problemas específicos e simples. Poste uma das ideias, vamos dar uma olhada:

O faturamento pode ser dividido em fluxo de passageiros X consumo médio. A área é de 20 metros quadrados, sendo 10 metros quadrados para a colocação de mercadorias e 10 metros quadrados para a área do cliente, que pode acomodar 5 clientes ao mesmo tempo. Supondo que o tempo médio de consumo seja de 10 minutos por pessoa, o fluxo de passageiros é 30 pessoas por hora, e o consumo per capita é de 25 yuan. O horário comercial é de 10 horas por dia e o volume de negócios semanal é de 30 25 10 * 7 = 52500 yuan.


25. Se o APP tiver uma função que as informações de localização do usuário possam ser carregadas no banco de dados a cada 1 minuto, como desempenhar esse papel?

Análise:
A direção da resposta desta pergunta deve ser o que pode ser feito com as informações de localização deste usuário. Por exemplo, de acordo com as informações de localização, a trajetória de comportamento do usuário pode ser obtida e, em seguida, os hábitos de comportamento do usuário podem ser analisados ​​para fornecer serviços de recomendação em tempo real correspondentes.

Resumir

  • Alguns tópicos examinam o conhecimento estatístico, como a aplicação de distribuição geométrica e distribuição binomial;

  • Alguns tópicos são problemas matemáticos relativamente básicos, como encontrar o valor máximo de uma equação linear em duas variáveis, aceleração, etc.;

  • Investigue o uso básico do Excel, como se a fórmula está escrita corretamente;

  • Investigue alguns pontos básicos de conhecimento de aprendizado de máquina e estatística, como quais algoritmos de agrupamento existem, apenas saiba;

  • Investigando a aplicação de SQL, é mais importante escrever SQL diretamente para as duas questões principais;

  • Na grande questão, o foco é a aplicação do Teste A/B, o pensamento das três questões tem isso, o que é muito importante.


você pode gostar:

Quais são os livros de leitura obrigatória para análise de dados?

Quais erros são frequentemente cometidos na análise de dados e como resolvê-los?

Elaborar análise de regressão

clique para compartilhar

Como

clique para assistir

Acho que você gosta

Origin blog.csdn.net/data_cola/article/details/116026175
Recomendado
Clasificación