Chaque jour, de grandes quantités d’informations arrivent sur Internet. Le nombre réel pourrait être difficile à comprendre même! Ces quantités de données diverses doivent être structurées et organisées pour qu’elles aient un sens. C’est là que la science des données entre en jeu - elle fournit un moyen de donner un sens à toutes ces informations. Naturellement, il existe un besoin énorme en informaticiens qualifiés sur le marché. Les possibilités d'emploi pour ce poste sont en augmentation constante. Par conséquent, si vous envisagez de postuler à un poste de Data Scientist, vous devez connaître les questions essentielles des entretiens Data Science. Ce tutoriel vous fournira exactement cela.
Le guide est divisé en deux grandes parties: les bases et les éléments les plus avancés. Bien parler des questions d'entrevue Big Data, différencier les scientifiques de données des analystes de données et ainsi de suite. Tout à la fin, je vais vous donner quelques conseils et nous résumerons le didacticiel.
Contenus
- 1. Introduction
- 1.1. Question 1: Qu'est-ce que la «science des données»?
- 1.2. Question 2: Quelle est la différence entre ‘data science’ et ‘big data’?
- 1.3. Question 3: Quelle est la différence entre un "informaticien" et un "analyste de données"?
- 1.4. Question 4: Quelles sont les caractéristiques fondamentales qui représentent le Big Data?
- 1.5. Question 5: Qu'est-ce qu'un "système de recommandation"?
- 1.6. Question 6: Citez l'une des raisons pour lesquelles il est préférable d'utiliser Python dans la science des données plutôt que dans la plupart des autres langages de programmation.
- 1.7. Question 7: Qu'est-ce qu'un test A/B?
- 1.8. Question 8: Qu'est-ce que Hadoop et pourquoi devrais-je m'en soucier?
- 1.9. Question 9: Qu'est-ce qu'un "biais de sélection"?
- 1.10. Question 10: Qu'est-ce qu'une "analyse de pouvoir"?
- 2. Questions d'entretiens chez Advanced Data Science
- 2.1. Question 1: Définissez le "filtrage collaboratif".
- 2.2. Question 2: Quel est le "fsck"?
- 2.3. Question 3: Qu'est-ce que la «validation croisée»?
- 2.4. Question 4: Quel est le meilleur - de bonnes données ou de bons modèles?
- 2.5. Question 5: Quelle est la différence entre l’apprentissage «supervisé» et l’apprentissage «non supervisé»?
- 2.6. Question 6: Quelle est la différence entre la "valeur attendue" et la "valeur moyenne"?
- 2.7. Question 7: Quelle est la différence entre «bivariée», «multivariée» et «univariée»?
- 2.8. Question 8: Et si deux utilisateurs devaient accéder au même fichier HDFS en même temps?
- 2.9. Question 9: Combien y a-t-il de formats d'entrée Hadoop courants? Que sont-ils?
- 2.10. Question 10: Quel est l’échantillonnage en grappes?
- 3. Conseils généraux et résumé
- 4. Conclusions
Introduction
Prenons-le du haut et parlons des définitions.
Les Offres Les Plus Récentes Fonctionnelles Actuellement:
GET 50% OFF
DataCamp Black Friday Sale
During this DataCamp Black Friday, you can access the top-rated courses with a 50% discount. Enroll now for way less!
Un grand nombre de vos premières questions d’entrevue sur la science des données peut inclure une distinction entre des termes apparemment similaires, mais quelque peu différents. C’est la raison pour laquelle c’est probablement une bonne idée de partir de ces définitions afin de bien comprendre ce que l’on avance.
Question 1: Qu'est-ce que la «science des données»?
La science des données est une forme de méthodologie utilisée pour extraire et organiser diverses données et informations à partir de sources de données gigantesques (structurées ou non).
La façon dont cette forme de science fonctionne consiste à utiliser divers algorithmes et mathématiques appliquées pour extraire des connaissances et des informations utiles et les organiser de manière à donner un sens et à accorder un certain usage.
Question 2: Quelle est la différence entre ‘data science’ et ‘big data’?
Sûrement l’une des questions les plus difficiles de l’entrevue en science des données, beaucoup de gens ne parviennent pas à exprimer une différence claire. Ceci est principalement dû à un manque d'informations sur le sujet.
Cependant, la réponse elle-même est en réalité très simple: étant donné que l’expression «Big Data» implique d’énormes volumes de données et d’informations, une méthode spécifique doit être analysée. Donc, le Big Data est ce que la science des données analyse.
Question 3: Quelle est la différence entre un "informaticien" et un "analyste de données"?
Même s’il s’agit également d’une des questions fondamentales de l’entrevue en science des données, les termes ont toujours tendance à être confondus.
Les scientifiques de données extraient, traitent et analysent des données. Ils se préoccupent de fournir aux entreprises des prévisions sur les problèmes qu’elles pourraient rencontrer.
Les analystes de données résolvent les problèmes métier non résolus au lieu de les prédire à l'avance. Ils identifient les problèmes, effectuent l'analyse des informations statistiques et documentent tout.
Question 4: Quelles sont les caractéristiques fondamentales qui représentent le Big Data?
Maintenant que nous avons couvert les définitions, nous pouvons passer aux questions d’entrevue spécifiques à la science des données. Gardez toutefois à l'esprit que vous serez obligé de recevoir des questions d'entrepreneur en données informatiques, d'analyste et de Big Data. La raison en est que toutes ces sous-catégories sont imbriquées les unes dans les autres.
Il y a cinq catégories qui représentent le Big Data, appelées les «5 V»:
- Valeur;
- Variété;
- Rapidité;
- Véracité;
- Le volume.
Tous ces termes correspondent aux big data d'une manière ou d'une autre.
Question 5: Qu'est-ce qu'un "système de recommandation"?
Il s'agit d'un type de système utilisé pour prédire le niveau de classement que les utilisateurs attribueraient à certains objets spécifiques (films, musique, produits dérivés, etc.). Inutile de dire que de nombreuses formules complexes sont impliquées dans un tel système.
Question 6: Citez l'une des raisons pour lesquelles il est préférable d'utiliser Python dans la science des données plutôt que dans la plupart des autres langages de programmation.
Naturellement, Python est très riche en bibliothèques de science des données, il est incroyablement rapide et facile à lire et à apprendre. La suite de Python, qui comprend des outils d'apprentissage en profondeur spécialisés et d'apprentissage automatique, comprend des outils populaires tels que scikit-learn, Keras et TensorFlow, qui permettent aux scientifiques de développer des modèles de données sophistiqués directement raccordés à un système de production.
Pour découvrir des informations à partir des données, vous devez utiliser Pandas, la bibliothèque d'analyse de données pour Python. Il peut contenir de grandes quantités de données sans le moindre retard provenant d'Excel. Vous pouvez effectuer une analyse de modélisation numérique avec Numpy. Vous pouvez faire du calcul scientifique et des calculs avec SciPy. Vous pouvez accéder à de nombreux algorithmes puissants d’apprentissage automatique avec la bibliothèque de codes scikit-learn. Avec l'API Python et le Notebook IPython fourni avec Anaconda, vous obtiendrez de puissantes options pour visualiser vos données.
Question 7: Qu'est-ce qu'un test A/B?
Bien que les tests A/B puissent s’appliquer à différents créneaux, il s’agit également de l’une des questions les plus importantes posées lors des entretiens en science des données. Alors c'est quoi?
Le test A/B est une forme de test réalisée pour déterminer quelle version de la même chose est la plus utile pour obtenir le résultat souhaité.
Dites, par exemple, que vous voulez vendre des pommes. Vous ne savez pas quel type de pommes - rouges ou vertes - vos clients préféreront. Vous essayez donc les deux. Vous essayez d’abord de vendre les pommes rouges, puis les vertes. Une fois que vous avez terminé, vous calculez simplement ceux qui sont les plus rentables et c’est tout: le test A / B!
Question 8: Qu'est-ce que Hadoop et pourquoi devrais-je m'en soucier?
Hadoop est une infrastructure de traitement distribué open source qui gère le traitement et le stockage des données pour les applications Big Data exécutées dans des systèmes en cluster.
Apache Hadoop est un ensemble d'utilitaires logiciels à code source ouvert qui facilitent l'utilisation d'un réseau de nombreux ordinateurs pour résoudre des problèmes impliquant des quantités énormes de données et de calculs. Il fournit une structure logicielle pour le stockage distribué et le traitement de données volumineuses à l'aide du modèle de programmation MapReduce.
Hadoop divise les fichiers en gros blocs et les distribue entre les nœuds d'un cluster. Il transfère ensuite le code empaqueté dans des nœuds pour traiter les données en parallèle. Cela permet de traiter le jeu de données plus rapidement et plus efficacement que dans une architecture de supercalculateur plus conventionnelle.
Question 9: Qu'est-ce qu'un "biais de sélection"?
Le biais de sélection est le biais introduit par la sélection d'individus, de groupes ou de données à analyser, de sorte qu'une randomisation correcte ne soit pas obtenue, garantissant ainsi que l'échantillon obtenu ne soit pas représentatif de la population devant être analysée.
Si le biais de sélection n'est pas pris en compte, certaines conclusions de l'étude risquent de ne pas être exactes.
Question 10: Qu'est-ce qu'une "analyse de pouvoir"?
Un type d’analyse utilisé pour déterminer quel type d’effet une unité aura simplement en fonction de sa taille.
L'analyse de puissance est directement liée aux tests d'hypothèses. Le principal objectif de l'analyse de puissance est d'aider le chercheur à déterminer la plus petite taille d'échantillon appropriée pour détecter l'effet d'un test donné au niveau de signification souhaité.
Questions d'entretiens chez Advanced Data Science
Maintenant que nous avons abordé les questions d’entrevue de base relatives à la science des données de niveau d’introduction, passons aux sujets plus avancés.
La matière fournie à l’avenir est un mélange de données scientifiques, de questions volumineuses et de questions d’entrevue avec un analyste de données. Ce sont le type de questions que vous pourriez être spécifiquement demandé de développer.
Question 1: Définissez le "filtrage collaboratif".
Comme son nom l'indique, le filtrage collaboratif est un processus de filtrage utilisé par de nombreux systèmes de recommandation. Ce type de filtrage est utilisé pour rechercher et classer certains modèles.
Le filtrage collaboratif est une méthode permettant de faire des prédictions automatiques (filtrage) sur les intérêts d'un utilisateur en collectant les préférences ou les informations de goût de nombreux utilisateurs (en collaborant). Ce type de filtrage est utilisé pour rechercher et classer certains modèles.
Question 2: Quel est le "fsck"?
‘Fsck’ est l’abréviation de «Vérification du système de fichiers». Il s'agit d'un type de commande qui recherche les erreurs possibles dans le fichier et, si des erreurs ou des problèmes sont détectés, fsck les signale au système de fichiers distribué Hadoop.
Question 3: Qu'est-ce que la «validation croisée»?
Encore une autre addition aux questions de l’analyste de données, la validation croisée peut être assez difficile à expliquer, en particulier de manière simpliste et facilement compréhensible.
La validation croisée est utilisée pour analyser si un objet fonctionnera comme il le devrait une fois placé sur les serveurs actifs. En d’autres termes, il vérifie la manière dont certains résultats d’analyses statistiques spécifiques seront mesurés lorsqu’ils seront placés dans un ensemble de données indépendant.
Question 4: Quel est le meilleur - de bonnes données ou de bons modèles?
C’est peut-être l’une des questions les plus populaires sur les interviews Big Data, bien qu’elle fasse également partie de la catégorie des questions sur les interviews Data Science.
La réponse à cette question est vraiment très subjective et dépend de chaque cas. Les grandes entreprises peuvent préférer de bonnes données, car elles sont au cœur de toute entreprise prospère. D’autre part, de bons modèles ne pourraient pas vraiment être créés sans de bonnes données.
Vous devriez probablement choisir en fonction de vos préférences personnelles - il n’existe vraiment aucune réponse bonne ou fausse (à moins que la société recherche spécifiquement l’une d’elles).
Question 5: Quelle est la différence entre l’apprentissage «supervisé» et l’apprentissage «non supervisé»?
Bien qu’il ne s’agisse pas d’une des questions d’interview les plus courantes en informatique, elle a plus à voir avec l’apprentissage automatique qu’autre chose, mais elle relève toujours de la science des données. C’est donc utile de le savoir.
Pendant l’apprentissage supervisé, vous déduirez une fonction à partir d’une partie étiquetée de données conçue pour la formation. Fondamentalement, la machine tirerait des exemples objectifs et concrets que vous fournissez.
L'apprentissage non supervisé fait référence à une méthode d'apprentissage de la machine qui n'utilise aucune réponse étiquetée - la machine apprend en décrivant les données d'entrée.
Question 6: Quelle est la différence entre la "valeur attendue" et la "valeur moyenne"?
En ce qui concerne la fonctionnalité, il n’ya aucune différence entre les deux. Cependant, ils sont tous deux utilisés dans des situations différentes.
Les valeurs attendues reflètent généralement des variables aléatoires, tandis que les valeurs moyennes reflètent ect la population de l'échantillon.
Question 7: Quelle est la différence entre «bivariée», «multivariée» et «univariée»?
Une analyse à deux variables concerne deux variables à la fois, tandis qu'une analyse à plusieurs variables traite de plusieurs variables. L'analyse univariée est la forme la plus simple d'analyse de données. "Uni" signifie "un", donc en d'autres termes, vos données n'ont qu'une seule variable. Il ne traite pas des causes ou des relations (contrairement à la régression) et son objectif principal est de décrire; il prend des données, les résume et trouve des modèles dans les données.
Question 8: Et si deux utilisateurs devaient accéder au même fichier HDFS en même temps?
C’est également l’une des questions d’entrevue les plus populaires parmi les chercheurs de données - et elle est un peu délicate. La réponse en elle-même n’est pas difficile du tout, mais il est facile de la mélanger avec la réaction de programmes similaires.
Si deux utilisateurs essaient d'accéder à un fichier dans HDFS, la première personne obtient l'accès, tandis que le second utilisateur (qui était un peu en retard) est refusé.
Question 9: Combien y a-t-il de formats d'entrée Hadoop courants? Que sont-ils?
Une des questions d’entrevue pour analyste de données qui pourrait également figurer dans la liste des questions d’interview de Data Science. C’est difficile parce que vous devez non seulement connaître le nombre, mais également les formats eux-mêmes.
Au total, il existe trois formats d'entrée Hadoop courants. Ils vont comme suit: format clé-valeur, format de fichier de séquence et format de texte.
- Facile à utiliser
- Propose un contenu de qualité
- Transparent dans ses tarifs
- Certificats d'achèvement gratuits
- Se focalise sur la science des données
- Rythme d'apprentissage flexible
- Design simple (pas d'information inutile)
- Excellente qualité des cours (même ceux qui sont gratuits)
- De nombreuses fonctionnalités
- Programmes Nano-diplômes
- Idéal pour les entreprises
- Certificats d'achèvement payants
- Très bien établi sur le marché
- Un grand nombre de fonctionnalités
- Cours de niveau universitaire
- Cours de niveau universitaire
- Idéal pour les entreprises
- Certificats d'achèvement payants
Question 10: Quel est l’échantillonnage en grappes?
L'échantillonnage en grappes fait référence à un type de méthode d'échantillonnage. Avec l'échantillonnage en grappes, le chercheur divise la population en groupes distincts, appelés grappes. Ensuite, un échantillon aléatoire simple de grappes est sélectionné dans la population. Le chercheur effectue son analyse sur les données des grappes échantillonnées.
Conseils généraux et résumé
Maintenant que nous avons abordé les questions d’entrevue de base et plus avancées relatives à la science des données, examinons rapidement ce que nous avons appris.
Les définitions les plus importantes à retenir au début de votre entretien d’emploi sont les définitions. Si vous avez les définitions et que vous pouvez les expliquer de manière compréhensible, vous avez en principe la garantie de laisser une bonne et durable impression aux enquêteurs.
Après cela, assurez-vous de réviser tous les sujets avancés. Il n’est pas forcément nécessaire d’approfondir chacune des milliers de questions posées lors des interviews sur la science des données. La révision des sujets principaux et la simple connaissance des concepts avec lesquels vous n'êtes toujours pas familier devraient être votre objectif avant l'entretien d'embauche.
Votre objectif principal lors de l'entretien devrait être de montrer les connaissances que vous possédez. Qu'il s'agisse de questions d'entretien pour un analyste de données ou de toute autre chose - si votre employeur constate que vous maîtrisez le sujet, il est beaucoup plus susceptible de vous considérer comme un employé potentiel.
Rappelez-vous cependant - la connaissance n'est qu'une partie de l'équation. Les autres choses que les employeurs recherchent activement sont l'humilité, le respect, la réputation, la fiabilité, etc. N'ayez pas peur de parler de vous-même, mais restez humble, il y a une différence à faire entre connaître votre valeur et se vanter.
Saviez-vous?
Vous êtes-vous déjà demandé quels sont les meilleures plateformes d'apprentissage en ligne pour vos objectifs de carrière?
Conclusions
Avec de telles quantités énormes de nouvelles informations chaque jour, il devient de plus en plus difficile pour les entreprises de gérer leurs données et de prendre les décisions qui s’imposent. C’est pourquoi des machines puissantes doivent être mises en place afin d’organiser les informations et de les présenter de manière réaliste. Cependant, ces machines nécessitent que les experts en données puissent les utiliser et obtenir les meilleurs résultats.
Dans ce tutoriel, je n'ai décrit que quelques-unes des principales questions d'entrevue avec des scientifiques de données que vous pourriez éventuellement obtenir lors de votre réunion de travail. Au contraire, vous auriez dû pouvoir au moins avoir une idée de ce à quoi vous devriez vous attendre à travers le processus d’entretien. Mettez le temps et le travail dur, et vous vous sentirez que vous obtenez de mieux en mieux!
J'espère que vous réussirez à décrocher ce poste de spécialiste des données (ou analyste!) Et vous souhaite bonne chance!