The Machine Learning Workflow: Bird’s Eye View

0
The Machine Learning Workflow: Bird’s Eye View

Καλώς ήρθατε στο Μέρος 1 του Data Science Primer. Αυτή η πανοραμική άποψη του ροή εργασιών μηχανικής εκμάθησης θα σας δώσει ένα ολοκληρωμένο σχέδιο για την επιστήμη δεδομένων και την εφαρμοσμένη ML. Θα μάθετε τη διαίσθηση «ELI5» πίσω από τη μηχανική μάθηση, τη βασική ορολογία και τα συστατικά ενός αποτελεσματικού μοντέλου ML.

Ίσως έχετε ήδη δει μερικά από τα σεμινάρια στον ιστότοπό μας. Τα σεμινάρια είναι εξαιρετικά για να βρέξετε τα πόδια σας, αλλά για να έχετε σταθερά εξαιρετικά αποτελέσματα στην επιστήμη των δεδομένων, πρέπει να έχετε μια συστηματική πλησιάζω για την επίλυση προβλημάτων. Αυτό λοιπόν θα σας παρέχουμε εδώ!

Αρχικά, πρέπει να ξεκαθαρίσουμε μια από τις μεγαλύτερες παρανοήσεις σχετικά με τη μηχανική μάθηση:

Μηχανική Μάθηση ≠ Αλγόριθμοι

Όταν ανοίγετε ένα σχολικό βιβλίο ή ένα πρόγραμμα σπουδών πανεπιστημίου, συχνά θα σας υποδεχτεί μια λίστα με αλγόριθμους παντοπωλείου. Όλα έχουν φανταχτερά ονόματα και συνήθως γεμίζουν ολόκληρο τον πίνακα περιεχομένων.

Αυτό τροφοδότησε την εσφαλμένη αντίληψη ότι η εκμάθηση μηχανικής μάθησης αφορά την απομνημόνευση δεκάδων αλγορίθμων:

Η μηχανική εκμάθηση δεν αφορά τους αλγόριθμους
Η μηχανική εκμάθηση δεν είναι απλώς μια λίστα αλγορίθμων.

Ωστόσο, αυτή δεν είναι καθόλου η πλήρης εικόνα. Στην πράξη, η εφαρμοσμένη μηχανική μάθηση είναι δεν σχετικά με τους αλγόριθμους. Είναι πολύ περισσότερο από αυτό.

Η μηχανική μάθηση είναι μια περιεκτική προσέγγιση για την επίλυση προβλημάτων

…και οι μεμονωμένοι αλγόριθμοι είναι μόνο ένα κομμάτι του παζλ. Το υπόλοιπο του παζλ είναι πώς τα εφαρμόζετε με τον σωστό τρόπο.

Τι κάνει τη μηχανική μάθηση τόσο ξεχωριστή; (ELI5)

Η μηχανική μάθηση είναι η πρακτική της διδασκαλίας στους υπολογιστές πώς να μαθαίνουν μοτίβα από δεδομένα, συχνά για τη λήψη αποφάσεων ή προβλέψεων. Για την αληθινή μηχανική μάθηση, ο υπολογιστής πρέπει να μπορεί να μαθαίνει μοτίβα ότι δεν είναι ρητά προγραμματισμένο να αναγνωρίζει.

ELI5: Το περίεργο παιδί

Παρόλο που ακούγεται δροσερό και μυστηριώδες, η μηχανική μάθηση είναι απλώς μια αντανάκλαση του τρόπου με τον οποίο οι άνθρωποι μαθαίνουν φυσικά. Ακολουθεί ένα παράδειγμα για το πώς «μαθαίνουμε μηχανικά» όταν είμαστε παιδιά:

Ωχ ένα κερί!
Ωχ ένα κερί!

Φανταστείτε ένα παιδί να παίζει στο σπίτι, στο σαλόνι. Ξαφνικά, βλέπει ένα κερί για πρώτη φορά! Του κεντρίζει την περιέργεια και κερνά προσεκτικά.

  1. Αφού δεν ξέρει καλύτερα, κολλάει το χέρι του πάνω από τη φλόγα του κεριού.
  2. „Ωχ!“ φωνάζει, καθώς σηκώνει το χέρι του πίσω.
  3. «Χμ… αυτό κόκκινο και φωτεινό πράγμα πραγματικά πονάει!»
Όχι, δεν το αγγίζω!
#thanksmachinelearning

Δύο μέρες μετά, το παιδί παίζει στην κουζίνα. Ξαφνικά, βλέπει ένα εστίες για πρώτη φορά! Και πάλι, σκαρφαλώνει προσεκτικά.

  1. Είναι πάλι περίεργος, και σκέφτεται να κολλήσει το χέρι του πάνω του.
  2. Ξαφνικά, παρατηρεί ότι είναι κόκκινο και φωτεινό!
  3. «Αχ…» σκέφτεται, «όχι σήμερα!»
  4. Αυτό το θυμάται κόκκινο και φωτεινό σημαίνει πόνο, και αγνοεί την εστία.

Για να είμαστε σαφείς, αυτό είναι μόνο μηχανική μάθηση επειδή το παιδί έμαθε μοτίβα από το κερί. Έμαθε ότι το πρότυπο του «Κόκκινο και λαμπερό σημαίνει πόνο».

Από την άλλη, αν αγνόησε την εστία απλά επειδή οι γονείς του τον προειδοποίησαν, Αυτό θα ήταν «σαφής προγραμματισμός» αντί για μηχανική μάθηση.

Βασική Ορολογία

Όταν ξεκινάτε με την επιστήμη των δεδομένων, είναι καλύτερο να εστιάσετε στην ανάπτυξη πρακτικής διαίσθησης αντί να βουτήξετε σε τεχνικές λεπτομέρειες (τις οποίες μπορείτε να επανέλθετε αργότερα). Επομένως, είναι σημαντικό να είμαστε σαφείς και συνοπτικοί με την ορολογία μας.

Πριν προχωρήσουμε περαιτέρω, ας βεβαιωθούμε ότι έχουμε μια κοινή γλώσσα για τη συζήτηση της ροής εργασιών μηχανικής εκμάθησης:

  • Μοντέλο – ένα σύνολο προτύπων που μαθαίνονται από δεδομένα.
  • Algorithm – μια συγκεκριμένη διαδικασία ML που χρησιμοποιείται για την εκπαίδευση ενός μοντέλου.
  • Δεδομένα προπόνησης – το σύνολο δεδομένων από το οποίο ο αλγόριθμος μαθαίνει το μοντέλο.
  • Δεδομένα δοκιμής – ένα νέο σύνολο δεδομένων για αξιόπιστη αξιολόγηση της απόδοσης του μοντέλου.
  • Χαρακτηριστικά – Μεταβλητές (στήλες) στο σύνολο δεδομένων που χρησιμοποιούνται για την εκπαίδευση του μοντέλου.
  • Μεταβλητή στόχος – Μια συγκεκριμένη μεταβλητή που προσπαθείτε να προβλέψετε.
  • Παρατηρήσεις – Σημεία δεδομένων (γραμμές) στο σύνολο δεδομένων.

Παράδειγμα: Μαθητές δημοτικού

Για παράδειγμα, ας υποθέσουμε ότι έχετε ένα σύνολο δεδομένων 150 μαθητών δημοτικού σχολείου και θέλετε να προβλέψετε το ύψος τους με βάση την ηλικία, το φύλο και το βάρος τους…

Βασική ορολογία για DS και ML

Δείτε πώς θα περιγράφατε το πρόβλημα:

  • Έχετε 150 παρατηρήσεις…
  • 1 μεταβλητή στόχου (Ύψος)…
  • 3 χαρακτηριστικά (Ηλικία, Φύλο, Βάρος)…
  • Στη συνέχεια, μπορείτε να διαχωρίσετε το σύνολο δεδομένων σας σε δύο υποσύνολα:
    1. Σετ των 120 που χρησιμοποιείται για την εκπαίδευση πολλών μοντέλων (σετ προπόνησης)
    2. Σετ των 30 που χρησιμοποιείται για την επιλογή του καλύτερου μοντέλου (σετ δοκιμής)

Παρεμπιπτόντως, θα εξηγήσουμε γιατί η ξεχωριστή προπόνηση και τα σετ δοκιμών είναι εξαιρετικά σημαντικά στο Model Training.

Εργασίες Μηχανικής Μάθησης

Η ακαδημαϊκή μηχανική μάθηση συνήθως επικεντρώνεται στην ανάλυση μεμονωμένων αλγορίθμων. Ωστόσο, στην εφαρμοσμένη μηχανική εκμάθηση, θα πρέπει πρώτα να επιλέξετε τη σωστή εργασία μηχανικής εκμάθησης για τη δουλειά.

  • ΕΝΑ έργο είναι ένας συγκεκριμένος στόχος για τους αλγόριθμούς σας.
  • Οι αλγόριθμοι μπορούν να εναλλάσσονται μέσα και έξω, αρκεί να επιλέξετε τη σωστή εργασία.
  • Στην πραγματικότητα, θα έπρεπε δοκιμάζετε πάντα πολλούς αλγόριθμους γιατί πιθανότατα δεν θα ξέρετε ποιο θα έχει καλύτερη απόδοση για το σύνολο δεδομένων σας.

Οι δύο πιο κοινές κατηγορίες εργασιών είναι η εποπτευόμενη μάθηση και η μάθηση χωρίς επίβλεψη. (Υπάρχουν και άλλες εργασίες, αλλά ας ξεκινήσουμε με τα βασικά.)

Εποπτευόμενη μάθηση

Η εποπτευόμενη μάθηση περιλαμβάνει εργασίες για «επισημασμένα» δεδομένα (δηλαδή έχετε μια μεταβλητή στόχο). Στην πράξη, χρησιμοποιείται συχνά ως προηγμένη μορφή προγνωστική μοντελοποίηση.

Για την εποπτευόμενη μάθηση, κάθε παρατήρηση πρέπει να επισημαίνεται με μια «σωστή απάντηση». Μόνο τότε μπορείτε να δημιουργήσετε ένα μοντέλο πρόβλεψης επειδή πρέπει να πείτε στον αλγόριθμο τι είναι «σωστό» ενώ τον εκπαιδεύετε (άρα, «επιβλέποντάς τον»).

  • Οπισθοδρόμηση είναι η εργασία για μοντελοποίηση συνεχείς μεταβλητές στόχου.
  • Ταξινόμηση είναι η εργασία για μοντελοποίηση κατηγορικές (γνωστές και ως «κλάση») μεταβλητές στόχου.
Logistic Regression (Εποπτευόμενη μάθηση)

Μάθηση χωρίς επίβλεψη

Η μάθηση χωρίς επίβλεψη περιλαμβάνει εργασίες για δεδομένα «χωρίς ετικέτα». (δηλαδή δεν έχετε μεταβλητή στόχο). Στην πράξη, χρησιμοποιείται συχνά είτε ως μορφή αυτοματοποιημένη ανάλυση δεδομένων ή αυτοματοποιημένη εξαγωγή σήματος.

Τα δεδομένα χωρίς ετικέτα δεν έχουν προκαθορισμένη „σωστή απάντηση“. Αντίθετα, θα επιτρέψετε στον αλγόριθμο να μαθαίνει απευθείας μοτίβα από τα δεδομένα (χωρίς «επίβλεψη»).

  • Ομαδοποίηση είναι η πιο κοινή εργασία μάθησης χωρίς επίβλεψη και είναι για εύρεση ομάδων μέσα στα δεδομένα σας.
Ομαδοποίηση (Μάθηση χωρίς επίβλεψη)

Συστατικά για την αποτελεσματική μηχανική μάθηση

Παρόλο που υπάρχουν διαφορετικοί τύποι εργασιών ML (και πολλοί διαφορετικοί αλγόριθμοι για το καθένα), τα βασικά συστατικά για την επιτυχία είναι πάντα τα ίδια. Για να δημιουργήσετε με συνέπεια αποτελεσματικά μοντέλα ML που έχουν εξαιρετικά αποτελέσματα στον πραγματικό κόσμο, θα χρειαστείτε τους ακόλουθους τρεις πυλώνες:

Ειδικευμένος σεφ (Συστατικά για αποτελεσματικό ML)

#1: Ένας ικανός σεφ (ανθρώπινη καθοδήγηση)

Πρώτον, παρόλο που «διδάσκουμε τους υπολογιστές να μαθαίνουν μόνοι τους», η ανθρώπινη καθοδήγηση παίζει τεράστιο ρόλο. Οι επιστήμονες δεδομένων πρέπει να λάβουν δεκάδες αποφάσεις στην πορεία.

Για παράδειγμα, πόσα δεδομένα χρειάζεστε; Υπάρχουν μοιραία ελαττώματα στα δεδομένα; Ποια είναι η σωστή εργασία ML για τη δουλειά; Πώς ορίζετε την επιτυχία; Αυτές είναι όλες οι βασικές αποφάσεις που θα χρειαστεί να λάβετε ως ο ανθρώπινος «χειριστής».

Φρέσκα συστατικά (Συστατικά για την αποτελεσματική ML)

#2: Φρέσκα υλικά (καθαρά, σχετικά δεδομένα)

Το δεύτερο ουσιαστικό στοιχείο είναι το ποιότητα των δεδομένων σας. Garbage In = Garbage Out, ανεξάρτητα από τους αλγόριθμους που χρησιμοποιείτε. Αυτό είναι κάτι που καταλαβαίνουν πολύ γρήγορα όλοι οι επαγγελματίες επιστήμονες δεδομένων.

Αυτός είναι ο λόγος για τον οποίο οι επιστήμονες δεδομένων ξοδεύουν τον περισσότερο χρόνο τους για να κατανοήσουν τα δεδομένα, να τα καθαρίσουν και να δημιουργήσουν νέα χαρακτηριστικά. Δεν είναι το πιο «σέξι» κομμάτι της δουλειάς, αλλά είναι αυτό που τελικά θα κινήσει περισσότερο τη βελόνα όσον αφορά την απόδοση του μοντέλου.

Μην το παραψήσετε (συστατικά για το αποτελεσματικό ML)

#3: Μην το παραψήσετε (αποφύγετε την υπερβολική τοποθέτηση)

Μία από τις πιο επικίνδυνες παγίδες στη μηχανική μάθηση είναι υπερπροσαρμογή. Ένα μοντέλο overfit έχει «απομνημόνευσε» τον θόρυβο στο σετ εκπαίδευσης, αντί να μάθουν τα αληθινά υποκείμενα μοτίβα.

Ένα μοντέλο υπερπροσαρμογής σε ένα hedge fund μπορεί να κοστίσει εκατομμύρια δολάρια σε ζημίες. Ένα μοντέλο overfit μέσα σε ένα νοσοκομείο μπορεί να κοστίσει χιλιάδες ζωές. Για τις περισσότερες εφαρμογές, τα πονταρίσματα δεν θα είναι αρκετά ότι ψηλά, αλλά η υπερβολική τοποθέτηση εξακολουθεί να είναι το μοναδικό μεγαλύτερο λάθος που πρέπει να αποφύγετε.

Στο Model Training, θα σας διδάξουμε στρατηγικές για την αποφυγή της υπερπροσαρμογής (Α) επιλέγοντας τους σωστούς αλγόριθμους και (Β) ρυθμίζοντας τους σωστά. Μπορείτε επίσης να μάθετε περισσότερα σχετικά με αυτό διαβάζοντας για το Bias-Variance Tradeoff.

Ροή εργασιών Applied Machine Learning

Με όλες τις βασικές αρχές και την ορολογία εκτός λειτουργίας, ήρθε η ώρα να μιλήσουμε για τη ροή εργασιών μηχανικής εκμάθησης. Θυμηθείτε, ως επιστήμονες δεδομένων θέλουμε α συνεπής διαδικασία για να έχετε εξαιρετικά αποτελέσματα. Εκεί είναι η μηχανική μάθηση ροή εργασιών Έρχεται σε.

Υπάρχουν πέντε βασικά βήματα:

  1. Διερευνητική Ανάλυση – Πρώτα, «γνωρίστε» τα δεδομένα. Αυτό το βήμα πρέπει να είναι γρήγορο, αποτελεσματικό και αποφασιστικό.
  2. Καθαρισμός δεδομένων – Στη συνέχεια, καθαρίστε τα δεδομένα σας για να αποφύγετε πολλές κοινές παγίδες. Τα καλύτερα δεδομένα ξεπερνούν τους πιο εντυπωσιακούς αλγόριθμους.
  3. Μηχανική Χαρακτηριστικών – Στη συνέχεια, βοηθήστε τους αλγόριθμούς σας να «εστιάσουν» σε ό,τι είναι σημαντικό δημιουργώντας νέες δυνατότητες.
  4. Επιλογή αλγορίθμου – Επιλέξτε τους καλύτερους, πιο κατάλληλους αλγόριθμους χωρίς να χάνετε χρόνο.
  5. Εκπαίδευση μοντέλου – Τέλος, εκπαιδεύστε τα μοντέλα σας. Αυτό το βήμα είναι αρκετά τυπικό μόλις ολοκληρώσετε τα πρώτα τέσσερα.
Τι περιλαμβάνει ένα επιτυχημένο μοντέλο

Φυσικά, υπάρχουν και άλλα βήματα της κατάστασης:

  • Οριοθέτηση έργου – Μερικές φορές θα χρειαστεί να χαρτογραφήσετε το έργο και να προβλέψετε τις ανάγκες δεδομένων.
  • Διαμάχη δεδομένων – Μπορεί επίσης να χρειαστεί να αναδιαρθρώσετε το σύνολο δεδομένων σας σε μια μορφή που μπορούν να χειριστούν οι αλγόριθμοι.
  • Προεπεξεργασία – Ο μετασχηματισμός των δυνατοτήτων σας πρώτα μπορεί συχνά να βελτιώσει περαιτέρω την απόδοση.
  • Σύνολο – Μπορείτε να εξοικονομήσετε ακόμα μεγαλύτερη απόδοση συνδυάζοντας πολλά μοντέλα.

Για αρχάριους, συνιστούμε να εστιάσετε πρώτα στα πέντε βασικά βήματα. Αυτά είναι τα αδιαπραγμάτευτα βήματα για την εκπαίδευση ενός αποτελεσματικού μοντέλου με χρήση ML. Τα άλλα μπαίνουν εύκολα μόλις κατανοήσετε τη βασική ροή εργασίας μηχανικής εκμάθησης.

Αυτό το ολοκληρώνει για το Bird’s Eye View της ροής εργασίας Machine Learning. Στη συνέχεια, ήρθε η ώρα να μάθετε περισσότερα για το πρώτο βασικό βήμα: Διερευνητική Ανάλυση!

Περισσότερα για τη ροή εργασίας ML

Διαβάστε το υπόλοιπο της Εισαγωγής μας στην Επιστήμη Δεδομένων εδώ.

Schreibe einen Kommentar