¿Qué preguntas se hacen en una entrevista de ciencia de datos?

Harvard Business Review se refirió a los científicos de datos como el “trabajo más sexy del siglo XXI”. Glassdoor lo colocó #1 en la lista de 25 mejores trabajos en América. Según IBM, la demanda de este papel se elevará un 28 por ciento para 2020 . No debería sorprender que en la nueva era de big data y aprendizaje automático , los científicos de datos se están convirtiendo en estrellas de rock. Las empresas que son capaces de aprovechar cantidades masivas de datos para mejorar la forma en que sirven a los clientes, construyen productos y ejecutan sus operaciones estarán posicionadas para prosperar en esta economía.

Y si usted está moviendo hacia abajo el camino para convertirse en un científico de datos , usted debe estar preparado para impresionar a los posibles empleadores con su conocimiento. Y para hacer eso usted debe ser capaz de romper su próxima entrevista de ciencia de datos en una sola vez! ¡Hemos batido una lista de las preguntas más populares de la entrevista de ciencia de datos que usted puede esperar en su próxima entrevista!

En este artículo, hemos incluido el más comúnmente pedido Ciencia de los datos preguntas de entrevistas tanto para los recién llegados como para los experimentados.

Su carrera científica de datos está a sólo 6 meses de distancia!

2. ¿Cómo se hace la regresión logística?

La regresión logística mide la relación entre la variable dependiente (nuestra etiqueta de lo que queremos predecir) y una o más variables independientes (nuestras características) mediante la estimación de la probabilidad utilizando su función logística subyacente (sigmoide).

3. Explique los pasos para tomar un árbol de decisiones.

Calcular la entropía de la variable diana, así como los atributos predictores
Calcular la ganancia de información de todos los atributos (obtenemos información sobre la clasificación de diferentes objetos entre sí)
Elija el atributo con la mayor ganancia de información como el nodo raíz
Repetir el mismo procedimiento en cada rama hasta que se finalice el nodo de decisión de cada rama

Por ejemplo, digamos que quieres construir un árbol de decisiones para decidir si usted debe aceptar o rechazar una oferta de trabajo. El árbol de decisiones para este caso es el siguiente:

Del árbol de decisión se desprende claramente que se acepta una oferta si:

Sueldo superior a $50,000
El viaje es de menos de una hora
Se ofrecen incentivos

4. ¿Cómo se construye un modelo forestal aleatorio?

A bosque aleatorio se construye de una serie de árboles de decisión. Si divide los datos en diferentes paquetes y toma un árbol de decisiones en cada uno de los diferentes grupos de datos, el bosque aleatorio reúne todos esos árboles.

Pasos para construir un modelo forestal aleatorio:

Seleccione aleatoriamente 'k' características de un total de'm' características donde k m
Entre las características 'k', calcular el nodo D utilizando el mejor punto de división
Dividir el nodo en nodos hija usando la mejor división
Repita los pasos dos y tres hasta que los nodos de la hoja estén finalizados
Construir el bosque repitiendo los pasos uno a cuatro para 'n' veces para crear 'n' número de árboles

5. ¿Cómo se puede evitar el exceso de ajuste de su modelo?

El exceso de ajuste se refiere a un modelo que sólo está establecido para una cantidad muy pequeña de datos e ignora la imagen más grande. Hay tres métodos principales para evitar sobreadaptación :

Mantenga el modelo simple: tenga en cuenta menos variables, eliminando así parte del ruido en los datos de entrenamiento
Utilizar técnicas de validación cruzada, como k pliegues validación cruzada
Utilizar técnicas de regularización, como LASSO, que penalicen ciertos parámetros del modelo si es probable que causen un exceso de ajuste

¡Comience su carrera científica de datos con nosotros!

Univariado

Los datos univariados contienen sólo una variable. El propósito del análisis univariado es describir los datos y encontrar patrones que existen dentro de ellos.

Ejemplo: altura de los estudiantes

Altura (en cm)

164

167,3

170

174,2

178

180

Los patrones pueden ser estudiados sacando conclusiones usando media, mediana, modo, dispersión o rango, mínimo, máximo, etc.

Bivariado

Los datos bivariados involucran dos variables diferentes. El análisis de este tipo de datos se refiere a causas y relaciones y el análisis se realiza para determinar la relación entre las dos variables.

Ejemplo: ventas de helados y temperatura en la temporada de verano

Temperatura (en Celcio)

Ventas

2.000

2.100

2.300

2.400

2.600

3.100

Aquí, la relación es visible desde la tabla que la temperatura y las ventas son directamente proporcionales entre sí. Cuanto más caliente sea la temperatura, mejores serán las ventas.

Multivariable

Los datos multivariables involucran tres o más variables, se clasifica bajo multivariante. Es similar a una bivariada pero contiene más de una variable dependiente.

Ejemplo: datos para la predicción del precio de la vivienda

No. de habitaciones

Pisos

Área (pies cuadrados)

Precio

900

$4000,00

1.100

600.000 dólares

3.5

1.500

900.000 dólares

2.100

1.200.000 dólares

Los patrones pueden ser estudiados sacando conclusiones usando media, mediana y modo, dispersión o rango, mínimo, máximo, etc. Puedes empezar a describir los datos y usarlos para adivinar cuál será el precio de la casa.

7. ¿Cuáles son los métodos de selección de características utilizados para seleccionar las variables correctas?

Métodos de filtrado

La mejor analogía para seleccionar características es "malos datos dentro, mala respuesta fuera." Cuando limitamos o seleccionamos las características, todo se trata de limpiar los datos que vienen.

Métodos del envoltorio

Esto implica:

Selección hacia adelante: Probamos una característica a la vez y seguimos agregándolas hasta que consigamos un buen ajuste
Selección hacia atrás: Probamos todas las características y empezamos a eliminarlas para ver qué funciona mejor
Recursive Característica Eliminación: Recursivamente mira a través de todas las diferentes características y cómo se combinan

Los métodos de envoltorio son muy intensivos en mano de obra, y se necesitan computadoras de gama alta si se realizan muchos análisis de datos con el método de envoltorio.

8. En su elección de idioma, escriba un programa que imprima los números que van de uno a 50.

Pero para múltiplos de tres, imprima "Fizz" en lugar del número, y para múltiplos de cinco, imprima "Buzz". Para los números que son múltiplos de tres y cinco, imprimir "FizzBuzz"

El código se muestra a continuación:

Tenga en cuenta que el rango mencionado es 51, lo que significa cero a 50. Sin embargo, el rango que se plantea en la pregunta es de uno a 50. Por lo tanto, en el código anterior, puede incluir el rango como (1,51).

La salida del código anterior es la siguiente:

9. Se le da un conjunto de datos que consiste en variables con más de 30 por ciento de valores que faltan. ¿Cómo vas a lidiar con ellos?

Las siguientes son formas de manejar los valores de datos que faltan:

Si el conjunto de datos es grande, simplemente podemos eliminar las filas con valores de datos que faltan. Es la forma más rápida; usamos el resto de los datos para predecir los valores.

Para conjuntos de datos más pequeños, podemos sustituir los valores faltantes con la media o media del resto de los datos usando el marco de datos de los pandas en python. Hay diferentes maneras de hacerlo, como df.mean(), df.fillna(media).

10. Para los puntos dados, ¿cómo se calcula la distancia euclidiana en Python?

Echa un vistazo al video de Simplilearn sobre "Pregunta de Entrevista a la Ciencia de los Datos" comisariado por expertos de la industria para ayudarte a prepararte para una entrevista.

11. ¿Qué son la reducción de la dimensión y sus beneficios?

Los Reducción de la dimensión se refiere al proceso de conversión de un conjunto de datos con grandes dimensiones en datos con menos dimensiones (campos) para transmitir información similar de forma concisa.

Esta reducción ayuda a comprimir los datos y a reducir el espacio de almacenamiento. También reduce el tiempo de computación ya que menos dimensiones conducen a menos computación. Elimina las características redundantes; por ejemplo, no tiene sentido almacenar un valor en dos unidades diferentes (metros y pulgadas).

13. ¿Cómo se debe mantener un modelo desplegado?

Monitor

Se necesita un monitoreo constante de todos los modelos para determinar su precisión de rendimiento. Cuando cambias algo, quieres averiguar cómo tus cambios van a afectar las cosas. Esto necesita ser monitoreado para asegurarse de que está haciendo lo que se supone que debe hacer.

Evaluar

Las métricas de evaluación del modelo actual se calculan para determinar si se necesita un nuevo algoritmo.

Comparar

Los nuevos modelos se comparan entre sí para determinar qué modelo tiene el mejor rendimiento.

Reconstruir

El modelo de mejor rendimiento se reconstruye en el estado actual de los datos.

14. ¿Qué son los sistemas recomendados?

Un sistema recomendador predice lo que un usuario calificaría un producto específico en función de sus preferencias. Se puede dividir en dos áreas diferentes:

Filtro colaborativo

Como ejemplo, Last.fm recomienda pistas que otros usuarios con intereses similares juegan a menudo. Esto también se ve comúnmente en Amazon después de hacer una compra; los clientes pueden notar el siguiente mensaje acompañado de recomendaciones del producto: "Los usuarios que compraron esto también compraron..."

Filtrado basado en contenido

Como ejemplo: Pandora utiliza las propiedades de una canción para recomendar música con propiedades similares. Aquí, miramos el contenido, en lugar de ver quién más está escuchando música.

20. ¿Cómo se puede calcular la precisión usando una matriz de confusión?

Puede ver los valores de los datos totales, los valores reales y los valores predichos.

La fórmula para la exactitud es:

Precisión = (verdadero positivo + verdadero negativo) / Observaciones totales

= (262 + 347) / 650

= 609 / 650

= 0,93

Como resultado, obtenemos una exactitud del 93 por ciento.

21. Escribe la ecuación y calcula la precisión y la tasa de recuperación.

Considere la misma matriz de confusión utilizada en la pregunta anterior.

Precisión = (verdadero positivo) / (verdadero positivo + falso positivo)

= 262 / 277

= 0,94

Tasa de recuperación = (verdadero positivo) / (total positivo + falso negativo)

= 262 / 288

= 0,90

22. 'La gente que compró esto también compró...' recomendaciones vistas en Amazon son un resultado de qué algoritmo?

El motor de recomendación se realiza con filtrado colaborativo. El filtrado colaborativo explica el comportamiento de otros usuarios y su historial de compra en términos de calificaciones, selección, etc.

El motor hace predicciones sobre lo que podría interesar a una persona basándose en las preferencias de otros usuarios. En este algoritmo, las características del elemento son desconocidas.

Por ejemplo, una página de ventas muestra que un cierto número de personas compran un teléfono nuevo y también compran vidrio templado al mismo tiempo. La próxima vez, cuando una persona compra un teléfono, él o ella puede ver una recomendación para comprar vidrio templado también.

23. Escriba una consulta SQL básica que enumere todos los pedidos con información del cliente.

Por lo general, tenemos tablas de pedidos y tablas de clientes que contienen las siguientes columnas:

Cuadro de pedidos
Orderid
clientId
Número de orden
Total
Cuadro del cliente
Id
PrimeroName
ÚltimoName
Ciudad
País
La consulta SQL es:
SELECT OrderNumber, TotalAmount, FirstName, LastName, City, Country
DE ORDEN
Únete al cliente
A pedido.ClienteId = Cliente.Id

24. Se le administra un conjunto de datos sobre detección de cáncer. Usted ha construido un modelo de clasificación y ha logrado una precisión del 96 por ciento. ¿Por qué no deberías estar contento con tu actuación como modelo? ¿Qué puedes hacer al respecto?

La detección del cáncer da lugar a datos desequilibrados. En un conjunto de datos desequilibrado, la precisión no debe basarse en una medida del rendimiento. Es importante centrarse en el cuatro por ciento restante, que representa a los pacientes que fueron diagnosticados erróneamente. El diagnóstico temprano es crucial cuando se trata de la detección del cáncer, y puede mejorar en gran medida el pronóstico del paciente.

25. ¿Cuál de los siguientes algoritmos de aprendizaje automático se puede utilizar para introducir valores faltantes tanto de variables categóricas como continuas?

Agrupación K-significa
Regresión lineal
K-NN (vecino k-nearest)
Árboles de decisión

Los K vecino más cercano algoritmo se puede utilizar porque puede calcular el vecino más cercano y si no tiene un valor, sólo calcula el vecino más cercano basado en todas las otras características.

Cuando estás lidiando con el agrupamiento de medios K o regresión lineal , tienes que hacer eso en tu pre-procesamiento, de lo contrario, se estrellarán. Árboles de decisión también tienen el mismo problema, aunque hay alguna varianza.

27. Queremos predecir la probabilidad de muerte por enfermedad cardíaca en base a tres factores de riesgo: edad, sexo y nivel de colesterol en sangre. ¿Cuál es el algoritmo más apropiado para este caso?

28. Después de estudiar el comportamiento de una población, usted ha identificado cuatro tipos individuales específicos que son valiosos para su estudio. Le gustaría encontrar a todos los usuarios que son más similares a cada tipo individual. ¿Qué algoritmo es más apropiado para este estudio?

Elija la opción correcta:

Agrupación K-significa
Regresión lineal
Normas de asociación
Árboles de decisión

Como estamos buscando agrupar a las personas específicamente por cuatro similitudes diferentes, indica el valor de k. Por lo tanto, K-significa clustering (respuesta A) es el algoritmo más apropiado para este estudio.

29. Usted ha ejecutado el algoritmo de reglas de asociación en su conjunto de datos, y las dos reglas {banana, apple} => {grape} y {manzana, naranja} => {grape} se han encontrado relevantes. ¿Qué más debe ser verdad?

Elija la respuesta correcta:

{banana, manzana, uva, naranja} debe ser un elemento frecuente
{banana, manzana} => {naranja} debe ser una regla relevante
{grape} => {banana, manzana} debe ser una regla relevante
{Grape, manzana} debe ser un ítem frecuente

La respuesta es A: {grape, manzana} debe ser un ítem frecuente

30. Su organización tiene un sitio web donde los visitantes reciben al azar uno de dos cupones. También es posible que los visitantes del sitio web no reciban un cupón. Se le ha pedido que determine si ofrecer un cupón a los visitantes del sitio web tiene algún impacto en sus decisiones de compra. ¿Qué método de análisis debe utilizar?

ANOVA de un solo sentido
Agrupación K-significa
Normas de asociación
Prueba t-estudiante

La respuesta es A: ANOVA de un solo sentido

31. ¿Qué entiendes acerca de la verdadera tasa positiva y la tasa falsa positiva?

La verdadera tasa positiva (TPR) define la probabilidad de que un positivo real resulte ser positivo.
La tasa positiva falsa (FPR) define la probabilidad de que un resultado negativo real se muestre como positivo, es decir, la probabilidad de que un modelo genere una falsa alarma.

La tasa de falsos positivos (FPR) se calcula tomando la proporción de los [positivos falsos (FP)] y [positivos verdaderos (TP) & falsos positivos (FP)].

La fórmula para lo mismo se indica a continuación -

FPR=FP/TN+FP

32. ¿Qué es la curva ROC?

El gráfico entre la tasa positiva verdadera en el eje y y la tasa positiva falsa en el eje x se llama la curva ROC y se utiliza en la clasificación binaria.

La tasa de falsos positivos (FPR) se calcula tomando la relación entre los falsos positivos y el número total de muestras negativas, y la tasa de verdaderos positivos (TPR) se calcula tomando la relación entre los verdaderos positivos y el número total de muestras positivas.

Para construir la curva ROC, los valores TPR y FPR se trazan en valores de umbral múltiples. El rango de área bajo la curva ROC tiene un rango entre 0 y 1. Un modelo completamente aleatorio, que está representado por una línea recta, tiene un 0.5 ROC. La cantidad de desviación que un ROC tiene de esta línea recta denota la eficiencia del modelo.

La imagen anterior denota un ejemplo de curva ROC.

33. ¿Qué es una matriz de confusión?

La matriz de confusión es el resumen de los resultados de predicción de un problema particular. Es una tabla que se utiliza para describir el rendimiento del modelo. La matriz de confusión es una matriz n*n que evalúa el rendimiento del modelo de clasificación.

34. ¿Qué entiendes sobre la tasa de verdadero positivo y la tasa de falso positivo?

RÉGIMEN VERDADERO-POSITIVO: La tasa de verdadero positivo da la proporción de predicciones correctas de la clase positiva. También se utiliza para medir el porcentaje de positivos reales que se verifican con precisión.

RÉGIMEN FALSO-POSITIVO: La tasa de falsos positivos da la proporción de predicciones incorrectas de la clase positiva. Un falso positivo determina que algo es cierto cuando eso es inicialmente falso.

35. ¿En qué se diferencia la Ciencia de los Datos de la programación tradicional de aplicaciones?

La diferencia principal y vital entre Data Science y la programación tradicional de aplicaciones es que en la programación tradicional, uno tiene que crear reglas para traducir la entrada a la salida. En Ciencia de Datos, las reglas se producen automáticamente a partir de los datos.

36. ¿Cuál es la diferencia entre los datos de formato largo y los de formato amplio?

DATOS DEL FORMATO LARGO: Contiene valores que se repiten en la primera columna. En este formato, cada fila es un punto único por tema.

DATOS DEL FORMATO DE VIDA: En los datos de formato amplio, las respuestas repetidas de los datos estarán en una sola fila, y cada respuesta se puede registrar en columnas separadas.

Tabla de formato largo:

NOMBRE

ATTRIBUTE

VALOR

RAMA

HELIGHT

182

SITA

HELIGHT

160

Tabla de formato amplio:

NOMBRE

HELIGHT

RAMA

182

SITA

160

37. Mencione algunas técnicas utilizadas para el muestreo. ¿Cuál es la principal ventaja del muestreo?

El muestreo es la selección de miembros individuales o un subconjunto de la población para estimar los caracteres de toda la población. Hay dos tipos de muestreo, a saber, la probabilidad y la no probabilidad de muestreo.

39. ¿Cuáles son las bibliotecas populares utilizadas en Ciencia de Datos?

40. ¿Qué es la varianza en la Ciencia de los Datos?

Diferencia es el valor que representa las figuras individuales en un conjunto de datos que se distribuyen sobre la media y describe la diferencia de cada valor con respecto al valor medio. Datos Los científicos usan la varianza para entender la distribución de un conjunto de datos.

41. ¿Qué es la poda en un algoritmo de árbol de decisión?

En Ciencia de datos y aprendizaje automático, la poda es una técnica relacionada con los árboles de decisión. La poda simplifica el árbol de decisiones reduciendo las reglas. La poda ayuda a evitar la complejidad y mejora la precisión. Reducción del error Poda, coste de la complejidad de la poda, etc. son los diferentes tipos de poda.

42. ¿Qué es la entropía en un algoritmo de árbol de decisión?

La entropía es la medida de la aleatoriedad o trastorno en el grupo de observaciones. También determina cómo un árbol de decisiones cambia para dividir datos. La entropía también se utiliza para comprobar la homogeneidad de los datos dados. Si la entropía es cero, entonces la muestra de datos es totalmente homogénea, y si la entropía es uno, entonces indica que la muestra está dividida por igual.

43. ¿Qué información se obtiene en un algoritmo de árbol de decisiones?

La ganancia de información es la reducción esperada de la entropía. La ganancia de información decide la construcción del árbol. Información Ganar hace que el árbol de decisión sea más inteligente. La ganancia de información incluye el nodo padre R y un conjunto E de ejemplos de entrenamiento K. Calcula la diferencia entre la entropía antes y después de la división.

44. ¿Qué es la validación cruzada de k-fold?

La validación cruzada de k-fold es un procedimiento utilizado para estimar la habilidad del modelo en nuevos datos. En la validación cruzada de k-fold, cada observación del conjunto de datos original puede aparecer en el conjunto de entrenamiento y pruebas. La validación cruzada K-fold estima la exactitud, pero no le ayuda a mejorar la precisión.

45. ¿Qué es una distribución normal?

La distribución normal también se conoce como distribución gaussiana. La distribución normal muestra los datos cerca de la media y la frecuencia de esos datos en particular. Cuando se representa en forma gráfica, la distribución normal aparece como una curva de campana. Los parámetros incluidos en la distribución normal son Media, Desviación Estándar, Mediana, etc.

46. ¿Qué es el aprendizaje profundo?

El aprendizaje profundo es uno de los factores esenciales de la ciencia de los datos, incluidas las estadísticas. El aprendizaje profundo nos hace trabajar más estrechamente con el cerebro humano y confiable con los pensamientos humanos. Los algoritmos son creados sinceramente para parecerse al cerebro humano. En Deep Learning, se forman múltiples capas a partir de la entrada en bruto para extraer la capa de alto nivel con las mejores características.

47. ¿Qué es una RNN (red neural periódica)?

RNN es un algoritmo que utiliza datos secuenciales. RNN se utiliza en la traducción de idiomas, reconocimiento de voz, captura de imágenes, etc. Hay diferentes tipos de redes RNN como uno-a-uno, uno-a-muchos, muchos-a-uno y muchos-a-muchos. RNN se utiliza en la búsqueda de voz de Google y Siri de Apple.

¡Salta y comienza tu carrera como científico de datos!

Preguntas de Entrevista Científica de Datos Básicos

48. ¿Cuáles son los vectores de características?

Un vector de características es un vector n-dimensional de características numéricas que representan un objeto. En el aprendizaje automático, los vectores de características se utilizan para representar características numéricas o simbólicas (llamadas características) de un objeto de una manera matemática que es fácil de analizar.

49. ¿Cuáles son los pasos para tomar un árbol de decisiones?

Tome todo el conjunto de datos como entrada.
Busca una división que maximice la separación de las clases. Una división es cualquier prueba que divide los datos en dos conjuntos.
Aplicar la división a los datos de entrada (dividir paso).
Volver a aplicar los pasos uno y dos a los datos divididos.
Deténgase cuando cumpla con cualquier criterio de detención.
Este paso se llama poda. Limpia el árbol si fuiste demasiado lejos haciendo splits.

50. ¿Qué es el análisis de la causa raíz?

El análisis de la causa raíz se desarrolló inicialmente para analizar accidentes industriales, pero ahora se utiliza ampliamente en otras áreas. Es una técnica de resolución de problemas utilizada para aislar las causas profundas de fallas o problemas. Un factor se llama causa raíz si su deducción de la secuencia problema-culpa evita que el evento indeseable final se repita.

51. ¿Qué es la regresión logística?

La regresión logística también se conoce como el modelo logit. Es una técnica utilizada para predecir el resultado binario de una combinación lineal de variables predictoras.

52. ¿Qué son los sistemas recomendados?

Los sistemas de recomendación son una subclase de sistemas de filtrado de información que están destinados a predecir las preferencias o calificaciones que un usuario daría a un producto.

53. Explicar la validación cruzada.

La validación cruzada es una técnica de validación modelo para evaluar cómo los resultados de un análisis estadístico se generalizarán a un conjunto de datos independiente. Se utiliza principalmente en los antecedentes donde el objetivo es pronosticar y uno quiere estimar con qué precisión se logrará un modelo en la práctica.

El objetivo de validación cruzada es un conjunto de datos para probar el modelo en la fase de entrenamiento (es decir, conjunto de datos de validación) para limitar problemas como la sobreadaptación y obtener información sobre cómo el modelo se generalizará a un conjunto de datos independiente.

54. ¿Qué es el filtrado colaborativo?

La mayoría de los sistemas recomendados utilizan este proceso de filtrado para encontrar patrones e información mediante la colaboración de perspectivas, numerosas fuentes de datos y varios agentes.

55. ¿Convergen siempre los métodos de descenso de gradiente a puntos similares?

No lo hacen, porque en algunos casos, llegan a un mínimo local o a un punto optima local. No llegarías al punto global de la optima. Esto se rige por los datos y las condiciones de inicio.

56. ¿Cuál es el objetivo de A/B Testing?

Se trata de pruebas de hipótesis estadísticas para experimentos aleatorizados con dos variables, A y B. El objetivo de Ensayos A/B es detectar cualquier cambio en una página web para maximizar o aumentar el resultado de una estrategia.

57. ¿Cuáles son los inconvenientes del modelo lineal?

La suposición de linealidad de los errores
No se puede utilizar para contar resultados o resultados binarios
Hay problemas demasiado adecuados que no puede resolver

58. ¿Cuál es la ley de los grandes números?

Es un teorema que describe el resultado de realizar el mismo experimento con mucha frecuencia. Este teorema forma la base del pensamiento de estilo de frecuencia. Afirma que la media de la muestra, la varianza de la muestra y la desviación estándar de la muestra convergen a lo que están tratando de estimar.

59. ¿Cuáles son las variables de confusión?

Estas son variables extrañas en un modelo estadístico que se correlaciona directa o inversamente tanto con la variable dependiente como con la variable independiente. La estimación no explica el factor de confusión.

Campo de arranque de carrera de ciencia de datos

60. ¿Qué es el esquema estelar?

Es un esquema de base de datos tradicional con una tabla central. Las tablas satelitales mapean los identificadores a los nombres o descripciones físicos y pueden conectarse a la tabla central de datos utilizando los campos ID; estas tablas se conocen como tablas de búsqueda y son principalmente útiles en aplicaciones en tiempo real, ya que ahorran mucha memoria. A veces, los esquemas de estrellas involucran varias capas de resumen para recuperar información más rápido.

61. ¿Con qué frecuencia debe actualizarse un algoritmo?

Usted querrá actualizar un algoritmo cuando:

Usted quiere que el modelo evolucione como flujos de datos a través de la infraestructura
La fuente de datos subyacente está cambiando
Hay un caso de no estacionario

62. ¿Qué son el valor propio y el vector propio?

Los valores propios son las direcciones a lo largo de las cuales una transformación lineal en particular actúa volteando, comprimiendo o estirando.

Los autovectores son para entender las transformaciones lineales. En el análisis de datos, generalmente calculamos los autovectores para una matriz de correlación o covarianza.

63. ¿Por qué se hace el muestreo?

El muestreo se realiza en cualquiera de estos casos:

Estimación de la exactitud de las estadísticas de muestras mediante el uso de subconjuntos de datos accesibles, o dibujo al azar con sustitución de un conjunto de puntos de datos

64. ¿Qué es el sesgo de selección?

El sesgo de selección, en general, es una situación problemática en la que se introduce un error debido a una muestra de población no aleatoria.

65. ¿Cuáles son los tipos de sesgos que pueden ocurrir durante el muestreo?

Sesgo de selección
Sesgo de subcobertura
Sesgo de supervivencia

66. ¿Qué es el sesgo de supervivencia?

El sesgo de supervivencia es el error lógico de centrarse en aspectos que apoyan la supervivencia de un proceso y descuidar casualmente a aquellos que no lo hicieron debido a su falta de prominencia. Esto puede llevar a conclusiones erróneas de muchas maneras.

67. ¿Cómo trabajas hacia un bosque al azar?

El principio subyacente de esta técnica es que varios alumnos débiles se combinan para proporcionar un aprendizaje fuerte. Las medidas en cuestión son las siguientes:

Construir varios árboles de decisión en bootstrapped muestras de entrenamiento de datos
En cada árbol, cada vez que se considera una división, se elige una muestra aleatoria de predictores mm como candidatos divididos de todos los predictores pp

68. ¿Qué es una compensación de sesgo-varianza?

Bias: Debido a una simplificación excesiva de un algoritmo de aprendizaje automático, ocurre un error en nuestro modelo, que se conoce como Bias. Esto puede dar lugar a una cuestión de adecuación insuficiente y podría dar lugar a suposiciones excesivamente simplificadas en el momento de la capacitación modelo para facilitar y simplificar la comprensión de las funciones objetivo.

Algunos de los populares algoritmos de aprendizaje automático que son bajos en la escala de sesgos son:

Diferencia: Debido a un algoritmo complejo de aprendizaje automático, un modelo funciona muy mal en un conjunto de datos de prueba, ya que el modelo aprende incluso ruido del conjunto de datos de entrenamiento. Este error que ocurre en el modelo Machine Learning se llama Variance y puede generar exceso de ajuste e hipersensibilidad en los modelos Machine Learning.

Mientras tratamos de superar el sesgo en nuestro modelo, tratamos de aumentar la complejidad del algoritmo de aprendizaje automático. Aunque ayuda a reducir el sesgo, después de un cierto punto, genera un efecto de exceso de ajuste en el modelo, lo que resulta en hipersensibilidad y alta varianza.

Bias-Variance compensación: Para lograr el mejor rendimiento, el objetivo principal de un algoritmo de aprendizaje automático supervisado es tener baja varianza y sesgo.

Las siguientes cosas se observan con respecto a algunos de los populares algoritmos de aprendizaje automático -

Los Algoritmo Vector Machine de soporte (SVM) tiene alta varianza y sesgo bajo. Con el fin de cambiar la compensación, podemos aumentar el parámetro C. El parámetro C resulta en una disminución de la varianza y un aumento en el sesgo al influir en las violaciones del margen permitido en conjuntos de datos de entrenamiento.
A diferencia de la SVM, el algoritmo K-Nearest Neighbors (KNN) Machine Learning tiene una alta varianza y un sesgo bajo. Para cambiar la compensación de este algoritmo, podemos aumentar la predicción que influye en los vecinos aumentando el valor K, aumentando así el sesgo del modelo.

69. ¿Describe las cadenas de Markov?

Markov Chains define que la probabilidad futura de un estado depende sólo de su estado actual.

Las cadenas Markov pertenecen a la categoría de tipo de proceso estocástico.

El siguiente diagrama explica un modelo paso a paso de las Cadenas Markov cuya salida depende de su estado actual.

Un ejemplo perfecto de las cadenas de Markov es el sistema de recomendación de palabras. En este sistema, el modelo reconoce y recomienda la siguiente palabra basada en la palabra inmediatamente anterior y no nada antes de eso. Las Cadenas Markov toman los párrafos anteriores que eran similares a los conjuntos de datos de capacitación y generan las recomendaciones para los párrafos actuales en consecuencia sobre la base de la palabra anterior.

70. ¿Por qué se utiliza R en la visualización de datos?

R es ampliamente utilizado en visualizaciones de datos por las siguientes razones:

Podemos crear casi cualquier tipo de gráfico usando R.
R tiene múltiples bibliotecas como celosía, ggplot2, folleto, etc, y tantas funciones incorporadas también.
Es más fácil personalizar gráficos en R en comparación con Python.
R se utiliza en la ingeniería de características y en el análisis de datos exploratorios también.

71. ¿Cuál es la diferencia entre un gráfico de caja y un histograma?

La frecuencia de los valores de una determinada característica se denota visualmente por ambas parcelas de caja

e histogramas.

Los boxplots se utilizan más a menudo en la comparación de varios conjuntos de datos y en comparación con los histogramas, toman menos espacio y contienen menos detalles. Los histogramas se utilizan para conocer y entender la distribución de probabilidad subyacente a un conjunto de datos.

El diagrama anterior denota un boxplot de un conjunto de datos.

72. ¿Qué significa el NLP?

NLP es la abreviatura de Procesamiento del Lenguaje Natural. Se trata del estudio de cómo las computadoras aprenden una gran cantidad de datos textuales a través de la programación. Algunos ejemplos populares de NLP son stemming, análisis sentimental, tokenización, eliminación de palabras de parada, etc.

73. Diferencia entre un error y un error residual

La diferencia entre un error residual y un error se define a continuación -

Error

Error residual

La diferencia entre el valor real y el valor predicho se llama error.

Algunos de los medios populares para calcular los errores de la ciencia de los datos son -

Error cuadrado medio de raíz (RMSE)
Error absoluto medio (MAE)
Error cuadrado medio (MSE)

La diferencia entre la media aritmética de un grupo de valores y el grupo de valores observado se llama error residual.

Un error es generalmente inobservable.

Un error residual se puede representar usando un gráfico.

Se utiliza un error residual para mostrar cómo los datos de población de la muestra y los datos observados difieren entre sí.

Un error es cómo los datos reales de la población y los datos observados difieren entre sí.

74. Diferencia entre normalización y normalización

Normalización

La técnica de conversión de datos de tal manera que se distribuya normalmente y tenga una desviación estándar de 1 y una media de 0.
La técnica de convertir todos los valores de datos entre 1 y 0 se conoce como Normalización. Esto también se conoce como escala de min-max.
La normalización se encarga de que la distribución normal estándar sea seguida por los datos.
Los datos que regresan al rango 0 a 1 son atendidos por Normalización.
Fórmula de normalización

X’ = (X - Xmin) / (Xmax - Xmin)

Aquí,

Xmin - el valor mínimo de la característica,

Xmax - el valor máximo de la característica.

Fórmula de normalización

X’ = (X - μ) /

75. Diferencia entre las estimaciones puntuales y el intervalo de confianza

Intervalo de confianza: El intervalo de confianza da un rango de valores que probablemente contienen el parámetro población. Además, incluso nos dice lo probable que ese intervalo en particular puede contener el parámetro población. El Coeficiente de Confianza (o nivel de Confianza) es denotado por 1-alfa, lo que da la probabilidad o semejanza. El nivel de significación es dado por el alfa.

Estimación de puntos: Una estimación del parámetro población se da por un valor particular llamado la estimación de puntos. Algunos métodos populares utilizados para derivar los estimadores de Population Parameters’ Point son - Máxima estimación de probabilidad y el método de los momentos.

Para concluir, el sesgo y la varianza son inversamente proporcionales entre sí, es decir, un aumento del sesgo resulta en una disminución de la varianza, y un aumento de la varianza resulta en una disminución del sesgo.

Preguntas de una entrevista de ciencia de datos

Abrir una entrevista de ciencia de datos no es caminar por el parque. Requiere conocimientos y experiencia en profundidad en diversos temas. Además, los proyectos en los que has trabajado pueden aumentar significativamente tu potencial en muchas entrevistas. Con el fin de ayudarle con sus entrevistas, hemos compilado un conjunto de preguntas para que usted se relacione con. Dado que la ciencia de los datos es un campo extenso, no hay limitaciones en el tipo de preguntas que pueden ser consultadas. Dicho esto, usted puede responder a cada una de estas preguntas dependiendo de los proyectos en los que ha trabajado y las industrias en las que ha estado. Trate de responder a cada una de estas preguntas de muestra y luego compartir su respuesta con nosotros a través de los comentarios.

Consejo Pro: No importa lo básica que pueda parecer una pregunta, siempre trate de verla desde una perspectiva técnica y utilice cada pregunta para demostrar sus habilidades y habilidades técnicas únicas.

76. ¿Cuál es tu algoritmo de aprendizaje automático favorito y por qué?

77. ¿Cuál según usted es la habilidad más importante que hace un buen científico de datos?

78. ¿Por qué crees que la ciencia de los datos es tan popular hoy en día?

79. Explique el proyecto de ciencia de datos más desafiante en el que trabajó.

80. ¿Cómo sueles preferir trabajar en un proyecto, individualmente, en un equipo pequeño o en un equipo grande?

81. Basado en tu experiencia en la industria, háblame de tus 5 predicciones principales para los próximos 10 años.

82. ¿Cuáles son algunas habilidades únicas que usted puede traer al equipo como científico de datos?

83. ¿Siempre estuvo en el campo de la ciencia de los datos? Si no, ¿qué te hizo cambiar tu trayectoria profesional y cómo mejorar tus habilidades?

84. Si le damos un conjunto de datos aleatorios, ¿cómo averiguará si se adapta a las necesidades del negocio o no?

85. Dada la oportunidad, si pudieras elegir una carrera aparte de ser un científico de datos, ¿qué elegirías?

86. Dado el cambio constante en el campo de la ciencia de los datos, ¿qué tan rápido puede adaptarse a las nuevas tecnologías?

87. ¿Alguna vez ha estado en conflicto con sus colegas con respecto a diferentes estrategias para llevar a cabo un proyecto? ¿Cómo pudiste resolverlo?

88. ¿Se puede romper un algoritmo que ha utilizado en un proyecto reciente?

89. ¿Qué herramientas usaste en tu último proyecto y por qué?

90. Piensa en el último problema técnico que resolviste. Si no tuvieras limitaciones con el presupuesto del proyecto, ¿cuál sería la primera cosa que harías para resolver el mismo problema?

91. Cuando se le asignan varios proyectos al mismo tiempo, ¿cómo organizar mejor su tiempo?

92. Háblame de una época en la que tu proyecto no iba de acuerdo con el plan y lo que aprendiste de él.

93. ¿Alguna vez has creado un algoritmo original? ¿Cómo hiciste eso y con qué propósito?

94. ¿Cuál es su estrategia más favorecida para limpiar un conjunto de big data y por qué?

95. ¿Contribuye a algún proyecto de código abierto?

¿Estás deseando convertirte en un experto en Ciencia de Datos? Esta guía de carrera es una lectura perfecta para empezar en el próspero campo de la ciencia de los datos. Descargar el eBook ahora ¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡¡

Manténgase alerta con nuestras preguntas de la entrevista de ciencia de datos

Para los científicos de datos, el trabajo no es fácil, pero es gratificante y hay un montón de posiciones disponibles por ahí. Estas preguntas sobre ciencia de datos pueden ayudarte a acercarte un paso más a tu trabajo soñado. Así que prepárate para los rigores de la entrevista y mantente alerta con las tuercas y los tornillos de la ciencia de los datos.

Simplilearn's comprehensivo Postgrado en Ciencias de los Datos , en asociación con Purdue University y en colaboración con IBM le preparará para una de las fronteras tecnológicas más emocionantes del mundo.