Διερευνητική Ανάλυση για Μηχανική Μάθηση

0
Διερευνητική Ανάλυση για Μηχανική Μάθηση

Καλώς ήρθατε στο Μέρος 2 του Data Science Primer. Η διερευνητική ανάλυση είναι απαραίτητη για την αποτελεσματική επιστήμη των δεδομένων, επειδή σας βοηθά να αποφύγετε τα κυνηγητά άγριας χήνας και τα αδιέξοδα. Αυτό το βήμα δεν πρέπει να συγχέεται με την οπτικοποίηση δεδομένων ή τα στατιστικά σύνοψης. Αυτά είναι απλώς εργαλεία… μέσα για ένα σκοπό.

Η σωστή διερευνητική ανάλυση αφορά την απάντηση σε ερωτήσεις. Πρόκειται για την εξαγωγή αρκετών πληροφοριών από το σύνολο δεδομένων σας για να διορθωθούν πριν χάνεσαι στα αγριόχορτα. Σε αυτόν τον οδηγό, εξηγούμε ποιες πληροφορίες πρέπει να αναζητάτε στα δεδομένα σας.

Γιατί να κάνετε εκ των προτέρων διερευνητική ανάλυση;

Ο σκοπός της διερευνητικής ανάλυσης είναι να „να γνωρίσουν“ το σύνολο δεδομένων. Αν το κάνετε αυτό εκ των προτέρων, θα κάνετε το υπόλοιπο έργο πολύ πιο ομαλό, με 3 βασικούς τρόπους:

  1. Θα λάβετε πολύτιμες συμβουλές για το Data Cleaning (που μπορεί να φτιάξει ή να καταστρέψει τα μοντέλα σας).
  2. Θα σκεφτείτε ιδέες για Feature Engineering (που μπορεί να μεταφέρει τα μοντέλα σας από το καλό στο εξαιρετικό).
  3. Θα έχετε μια «αίσθηση» για το σύνολο δεδομένων, η οποία θα σας βοηθήσει να επικοινωνήσετε τα αποτελέσματα και να έχετε μεγαλύτερο αντίκτυπο.

Ωστόσο, θα πρέπει να γίνεται διερευνητική ανάλυση για τη μηχανική μάθηση γρήγορη, αποτελεσματική και αποφασιστική… όχι πολύ καιρό και κουρασμένο! Μην παραλείψετε αυτό το βήμα, αλλά και μην κολλήσετε σε αυτό.

Βλέπετε, υπάρχουν άπειρες πιθανές γραφές, γραφήματα και πίνακες, αλλά χρειάζεστε μόνο α χούφτα να «γνωρίσετε» τα δεδομένα αρκετά καλά για να εργαστείτε με αυτά. Σε αυτόν τον οδηγό, θα σας δείξουμε τις απεικονίσεις που προσφέρουν το μεγαλύτερο τζίρο για το χρήμα σας.

Ξεκινήστε με τα Βασικά

Αρχικά, θα θέλετε να απαντήσετε σε ένα σύνολο βασικών ερωτήσεων σχετικά με το σύνολο δεδομένων:

  • Πόσες παρατηρήσεις έχω;
  • Πόσα χαρακτηριστικά;
  • Ποιοι είναι οι τύποι δεδομένων των δυνατοτήτων μου; Είναι αριθμητικά; Κατηγορηματικός?
  • Έχω μεταβλητή στόχο;

Πέταξε κάποιος από αυτούς τους όρους πάνω από το κεφάλι σας; Εάν ναι, ανατρέξτε στη Βασική Ορολογία για τη Μηχανική Εκμάθηση.

Βασικές πληροφορίες
Μάθετε με τι δουλεύετε.

Παραδείγματα παρατηρήσεων

Στη συνέχεια, θα θέλετε να εμφανίσετε παραδείγματα παρατηρήσεων από το σύνολο δεδομένων. Αυτό θα σας δώσει μια «αίσθηση» για τις τιμές κάθε δυνατότητας και είναι ένας καλός τρόπος να ελέγξετε αν όλα έχουν νόημα.

Ακολουθεί ένα παράδειγμα από ένα σύνολο δεδομένων ακινήτων:

Παραδείγματα συνόλου δεδομένων ακινήτων

Ο σκοπός της εμφάνισης παραδειγμάτων από το σύνολο δεδομένων δεν είναι η εκτέλεση αυστηρής ανάλυσης. Αντ ‚αυτού, είναι να πάρετε ένα ποιοτική „αίσθηση“ για το σύνολο δεδομένων.

  • Έχουν νόημα οι στήλες;
  • Έχουν νόημα οι τιμές σε αυτές τις στήλες;
  • Είναι οι τιμές στη σωστή κλίμακα;
  • Είναι δεδομένα που λείπουν θα είναι μεγάλο πρόβλημα με βάση ένα γρήγορο τεστ του βολβού του ματιού;

Οικόπεδο Αριθμητικές Κατανομές

Στη συνέχεια, μπορεί να είναι πολύ διαφωτιστικό να σχεδιάζετε τις κατανομές των αριθμητικών σας χαρακτηριστικών. Συχνά, ένα γρήγορο και βρώμικο πλέγμα ιστογράμματα αρκεί για να κατανοήσουμε τις διανομές.

Πλέγμα ιστογράμματος

Εδώ είναι μερικά πράγματα που πρέπει να προσέξετε:

  • Διανομές που είναι απροσδόκητες
  • Πιθανές ακραίες τιμές που δεν έχουν νόημα
  • Λειτουργίες που πρέπει να είναι δυαδικές (π.χ. „μεταβλητές ένδειξης wannabe“)
  • Όρια που δεν έχουν νόημα
  • Πιθανά σφάλματα μέτρησης

Σε αυτό το σημείο, θα πρέπει να αρχίσετε να κάνετε σημειώσεις σχετικά με πιθανές διορθώσεις που θέλετε να κάνετε. Εάν κάτι φαίνεται παράταιρο, όπως ένα ενδεχόμενο ακραίο στοιχείο σε ένα από τα χαρακτηριστικά σας, τώρα είναι η κατάλληλη στιγμή να ρωτήσετε τον πελάτη/κλειδί ενδιαφερόμενο ή να σκάψετε λίγο πιο βαθιά.

Ωστόσο, θα περιμένουμε μέχρι το Data Cleaning να κάνει διορθώσεις, ώστε να μπορούμε να κρατάμε τα βήματά μας οργανωμένα.

Οικόπεδο Κατηγορικές Διανομές

Τα κατηγορικά χαρακτηριστικά δεν μπορούν να απεικονιστούν μέσω ιστογραμμάτων. Αντίθετα, μπορείτε να χρησιμοποιήσετε οικόπεδα μπαρ. Ειδικότερα, θα θελήσετε να προσέξετε αραιές τάξειςοι οποίες είναι τάξεις που έχουν πολύ μικρό αριθμό παρατηρήσεων.

Παρεμπιπτόντως, α „τάξη“ είναι απλώς μια μοναδική τιμή για ένα κατηγορηματικό χαρακτηριστικό. Για παράδειγμα, το ακόλουθο διάγραμμα ράβδων δείχνει την κατανομή για ένα χαρακτηριστικό που ονομάζεται „εξωτερικοί_τοίχοι“. Έτσι, το Wood Siding, το Brick και το Stucco είναι κάθε κατηγορία για αυτό το χαρακτηριστικό.

Οικόπεδα μπαρ

Τέλος πάντων, πίσω στα αραιά μαθήματα… όπως μπορείτε να δείτε, μερικά από τα μαθήματα για „εξωτερικοί_τοίχοι“ έχουν πολύ κοντά μπαρ. Είναι αραιές τάξεις.

Τείνουν να είναι προβληματικά κατά την κατασκευή μοντέλων.

  • Στην καλύτερη περίπτωση, δεν επηρεάζουν πολύ το μοντέλο.
  • Στη χειρότερη περίπτωση, μπορούν να προκαλέσουν το μοντέλο να είναι υπερπροσαρμογή.

Επομένως, συνιστούμε να σημειώσετε συνδυασμός ή εκ νέου ανάθεση μερικές από αυτές τις τάξεις αργότερα. Προτιμούμε να το αποθηκεύσουμε μέχρι το Feature Engineering.

Τμηματοποιήσεις οικοπέδου

Οι τμηματοποιήσεις είναι ισχυροί τρόποι παρατήρησης του σχέση μεταξύ κατηγορικών χαρακτηριστικών και αριθμητικών χαρακτηριστικών. Οικόπεδα κουτιού σας επιτρέπουν να το κάνετε.

Τμηματοποίηση Οικόπεδο Πλαισίου

Ακολουθούν μερικές πληροφορίες που θα μπορούσατε να αντλήσετε από το παρακάτω διάγραμμα.

  • ο διάμεσος η τιμή συναλλαγής (μεσαία κάθετη μπάρα στο κουτί) για μονοκατοικίες ήταν πολύ υψηλότερη από αυτή για διαμερίσματα / διαμερίσματα / κατοικίες.
  • ο ελάχ και Μέγιστη Οι τιμές συναλλαγής είναι συγκρίσιμες μεταξύ των δύο κατηγοριών.
  • Στην πραγματικότητα, το ελάχιστο στρογγυλό αριθμό (200.000 $) και το μέγιστο (800.000 $) προτείνουν περικοπή δεδομένων
  • …το οποίο είναι πολύ σημαντικό να θυμάστε κατά την αξιολόγηση του γενίκευση των μοντέλων σας αργότερα!

Αξιολογήστε τις συσχετίσεις

Τέλος, οι συσχετισμοί σάς επιτρέπουν να εξετάσετε το σχέσεις μεταξύ αριθμητικών χαρακτηριστικών και άλλων αριθμητικών χαρακτηριστικών.

Η συσχέτιση είναι μια τιμή μεταξύ -1 και 1 που αντιπροσωπεύει πόσο στενά κινούνται ταυτόχρονα δύο χαρακτηριστικά. Δεν χρειάζεται να θυμάστε τα μαθηματικά για να τα υπολογίσετε. Απλώς ξέρετε την ακόλουθη διαίσθηση:

  • Θετικός συσχέτιση σημαίνει ότι καθώς αυξάνεται το ένα χαρακτηριστικό, αυξάνεται και το άλλο. Πχ η ηλικία ενός παιδιού και το ύψος του.
  • Αρνητικός συσχέτιση σημαίνει ότι καθώς το ένα χαρακτηριστικό αυξάνεται, το άλλο μειώνεται. Π.χ. ώρες μελέτης και αριθμός παρευρισκομένων.
  • Οι συσχετίσεις κοντά στο -1 ή το 1 δείχνουν α ισχυρή σχέση.
  • Όσοι είναι πιο κοντά στο 0 δείχνουν α αδύναμη σχέση.
  • Το 0 δείχνει καμία σχέση.

Συσχέτιση χάρτες θερμότητας να σας βοηθήσει να οπτικοποιήσετε αυτές τις πληροφορίες. Ακολουθεί ένα παράδειγμα (σημείωση: όλες οι συσχετίσεις πολλαπλασιάστηκαν επί 100):

Συσχετισμοί Heatmap

Σε γενικές γραμμές, θα πρέπει να προσέξετε:

  • Ποια χαρακτηριστικά συσχετίζονται στενά με το μεταβλητή στόχου?
  • Υπάρχουν ενδιαφέροντα ή απροσδόκητος ισχυρές συσχετίσεις μεταξύ άλλων χαρακτηριστικών;

Και πάλι, ο στόχος σας είναι να αποκτήσετε διαίσθηση σχετικά με τα δεδομένα, κάτι που θα σας βοηθήσει σε όλη την υπόλοιπη ροή εργασίας. Μέχρι το τέλος του βήματος της Διερευνητικής Ανάλυσης, θα έχετε μια αρκετά καλή κατανόηση του συνόλου δεδομένων, μερικές σημειώσεις για τον καθαρισμό δεδομένων και πιθανώς κάποιες ιδέες για τη μηχανική χαρακτηριστικών.

Αυτό το ολοκληρώνει για το βήμα διερευνητικής ανάλυσης της ροής εργασίας μηχανικής μάθησης. Στη συνέχεια, ήρθε η ώρα να μάθετε περισσότερα για το επόμενο βασικό βήμα: Καθαρισμός Δεδομένων!

Περισσότερα για την Εξερευνητική Ανάλυση

Διαβάστε το υπόλοιπο της Εισαγωγής μας στην Επιστήμη Δεδομένων εδώ.

Schreibe einen Kommentar