Καλώς ήρθατε στο Μέρος 6 του Data Science Primer μας. Σε αυτόν τον οδηγό, θα σας μεταφέρουμε βήμα-βήμα μέσα από το μοντέλο εκπαίδευσης επεξεργάζομαι, διαδικασία. Εφόσον έχουμε ήδη κάνει το δύσκολο κομμάτι, η εφαρμογή (γνωστός και ως προπόνηση) του μοντέλου μας θα είναι αρκετά απλή.
Υπάρχουν μερικές βασικές τεχνικές που θα συζητήσουμε, και αυτές έχουν γίνει ευρέως αποδεκτές βέλτιστες πρακτικές στο πεδίο. Και πάλι, αυτό το primer προορίζεται να είναι μια απαλή εισαγωγή στην επιστήμη των δεδομένων και τη μηχανική μάθηση, επομένως δεν θα μπούμε ακόμα σε αυτό το θέμα. Έχουμε πολλά άλλα σεμινάρια για αυτό.
Πώς να εκπαιδεύσετε μοντέλα ML
Επιτέλους, ήρθε η ώρα να φτιάξουμε τα μοντέλα μας! Μπορεί να φαίνεται ότι μας πήρε λίγο χρόνο για να φτάσουμε εδώ, αλλά οι επαγγελματίες επιστήμονες δεδομένων ξοδεύουν πραγματικά τον μεγαλύτερο μέρος του χρόνου τους στα βήματα που οδηγούν σε αυτό:
- Διερεύνηση των δεδομένων.
- Καθαρισμός των δεδομένων.
- Μηχανική νέα χαρακτηριστικά.
Και πάλι, αυτό είναι επειδή Τα καλύτερα δεδομένα ξεπερνούν τους πιο εντυπωσιακούς αλγόριθμους.
Σε αυτόν τον οδηγό, θα μάθετε πώς να ρυθμίζετε ολόκληρη τη διαδικασία μοντελοποίησης για να μεγιστοποιήσετε την απόδοση ενώ προστασία από υπερβολική τοποθέτηση. Θα ανταλλάξουμε αλγόριθμους μέσα και έξω και θα βρούμε αυτόματα τις καλύτερες παραμέτρους για κάθε έναν.
Διαχωρισμός συνόλου δεδομένων
Ας ξεκινήσουμε με ένα κρίσιμο αλλά μερικές φορές παραβλέπεται βήμα: Ξοδεύοντας τα δεδομένα σας. Σκεφτείτε τα δεδομένα σας ως α περιορισμένους πόρους.
- Μπορείτε να ξοδέψετε μέρος από αυτό για να εκπαιδεύσετε το μοντέλο σας (δηλαδή να το τροφοδοτήσετε στον αλγόριθμο).
- Μπορείτε να ξοδέψετε μέρος από αυτό για να αξιολογήσετε (δοκιμάσετε) το μοντέλο σας.
- Αλλά δεν μπορείτε να επαναχρησιμοποιήσετε τα ίδια δεδομένα και για τα δύο!
Εάν αξιολογήσετε το μοντέλο σας με τα ίδια δεδομένα που χρησιμοποιήσατε για να το εκπαιδεύσετε, το μοντέλο σας θα μπορούσε να είναι πολύ υπερβολικό και δεν θα το ξέρετε καν! Ένα μοντέλο πρέπει να κρίνεται με βάση την ικανότητά του να προβλέπει νέα, αόρατα δεδομένα.
Επομένως, θα πρέπει να έχετε ξεχωριστά υποσύνολα εκπαίδευσης και δοκιμής του συνόλου δεδομένων σας.

Σετ προπόνησης χρησιμοποιούνται για την προσαρμογή και τη ρύθμιση των μοντέλων σας. Δοκιμαστικά σετ παραμερίζονται ως «αόρατα» δεδομένα για την αξιολόγηση των μοντέλων σας.
Θα πρέπει πάντα να χωρίζετε τα δεδομένα σας πριν κάνοντας οτιδήποτε άλλο. Αυτός είναι ο καλύτερος τρόπος για να λάβετε αξιόπιστες εκτιμήσεις για την απόδοση των μοντέλων σας. Αφού χωρίσετε τα δεδομένα σας, μην αγγίζετε το σετ δοκιμών σας μέχρι να είστε έτοιμοι να επιλέξετε το τελικό μοντέλο σας!
Η σύγκριση της απόδοσης δοκιμής και προπόνησης μας επιτρέπει να αποφύγουμε την υπερβολική προσαρμογή… Εάν το μοντέλο έχει πολύ καλή απόδοση στα δεδομένα εκπαίδευσης αλλά κακώς στα δεδομένα δοκιμής, τότε είναι υπερπροσαρμογή.
Τι είναι οι Υπερπαράμετροι;
Μέχρι στιγμής, μιλούσαμε επιπόλαια για «συντονισμό» μοντέλων, αλλά τώρα ήρθε η ώρα να αντιμετωπίσουμε το θέμα πιο επίσημα. Όταν μιλάμε για μοντέλα συντονισμού, εννοούμε συγκεκριμένα συντονισμό υπερπαράμετροι.
Υπάρχουν δύο τύποι παραμέτρων στους αλγόριθμους μηχανικής μάθησης. Η βασική διάκριση είναι αυτή παραμέτρους μοντέλου μπορεί να μαθευτεί απευθείας από τα δεδομένα εκπαίδευσης ενώ υπερπαράμετροι δεν μπορώ.

Παράμετροι μοντέλου είναι μαθημένες ιδιότητες που καθορίζουν μεμονωμένα μοντέλα. Μπορεί να είναι έμαθε άμεσα από τα δεδομένα της εκπαίδευσης.
- π.χ. συντελεστές παλινδρόμησης
- π.χ. τοποθεσίες διαχωρισμού δέντρων αποφάσεων
Υπερπαράμετροι εκφράζουν „υψηλού επιπέδου“ δομικές ρυθμίσεις για αλγόριθμους. Αυτοί είναι αποφασισμένος πριν τοποθετήσετε το μοντέλο επειδή δεν μπορούν να μαθευτούν από τα δεδομένα.
- π.χ. η ισχύς της ποινής που χρησιμοποιείται στην κανονικοποιημένη παλινδρόμηση
- π.χ. ο αριθμός των δέντρων που πρέπει να συμπεριληφθούν σε ένα τυχαίο δάσος
Τι είναι η Cross-Validation;
Στη συνέχεια, ήρθε η ώρα να παρουσιάσουμε μια ιδέα που θα μας βοηθήσει να συντονίσουμε τα μοντέλα μας: διασταυρωμένη επικύρωση. Η διασταυρούμενη επικύρωση είναι μια μέθοδος για τη λήψη α αξιόπιστη εκτίμηση της απόδοσης του μοντέλου χρησιμοποιώντας μόνο τα δεδομένα προπόνησής σας.
Υπάρχουν διάφοροι τρόποι διασταυρούμενης επικύρωσης. Το πιο συνηθισμένο, 10-πλάσια διασταυρούμενη επικύρωσησπάει τα δεδομένα της προπόνησής σας σε 10 ίσα μέρη (γνωστά και ως πτυχές), δημιουργώντας ουσιαστικά 10 μικροσκοπικές διαιρέσεις αμαξοστοιχίας/δοκιμών.

Αυτά είναι τα βήματα για 10-πλάσια διασταυρούμενη επικύρωση:
- Διαχωρίστε τα δεδομένα σας σε 10 ίσα μέρη ή «διπλώσεις».
- Εκπαιδεύστε το μοντέλο σας στις 9 πτυχές (π.χ. τις πρώτες 9 πτυχές).
- Αξιολογήστε το στο 1 πτυχίο που απομένει.
- Εκτελέστε τα βήματα (2) και (3) 10 φορές, κρατώντας κάθε φορά ένα διαφορετικό πάσο.
- Μέσος όρος απόδοσης και στις 10 πτυχές συγκράτησης.
Η μέση απόδοση στις 10 πτυχές αναμονής είναι η τελική εκτίμηση απόδοσης, η οποία ονομάζεται επίσης δική σας επικυρωμένη βαθμολογία. Επειδή δημιουργήσατε 10 mini trains/test splits, αυτή η βαθμολογία είναι συνήθως αρκετά αξιόπιστη.
Fit and Tune Models
Τώρα που χωρίσαμε το σύνολο δεδομένων μας σε σύνολα εκπαίδευσης και δοκιμών και μάθαμε για τις υπερπαραμέτρους και τη διασταυρούμενη επικύρωση, είμαστε έτοιμοι να προσαρμόσουμε και να συντονίσουμε τα μοντέλα μας. Βασικά, το μόνο που χρειάζεται να κάνουμε είναι να εκτελέσουμε ολόκληρο τον βρόχο διασταυρούμενης επικύρωσης που περιγράφεται παραπάνω σε καθένα σύνολο τιμών υπερπαραμέτρων θα θέλαμε να δοκιμάσουμε.
Ο ψευδο-κώδικας υψηλού επιπέδου μοιάζει με αυτό:
Για κάθε αλγόριθμο (δηλ. κανονικοποιημένη παλινδρόμηση, τυχαίο δάσος κ.λπ.): Για κάθε σύνολο τιμών υπερπαραμέτρων που πρέπει να δοκιμάσετε: Εκτελέστε διασταυρούμενη επικύρωση χρησιμοποιώντας το σετ εκπαίδευσης. Υπολογισμός διασταυρούμενης επικυρωμένης βαθμολογίας. |
Στο τέλος αυτής της διαδικασίας, θα έχετε μια διασταυρούμενη επικυρωμένη βαθμολογία για κάθε σύνολο τιμών υπερπαραμέτρων… για κάθε αλγόριθμο.
Για παράδειγμα:

Στη συνέχεια, θα επιλέξουμε το καλύτερο σύνολο υπερπαραμέτρων μέσα σε κάθε αλγόριθμο.
Για κάθε αλγόριθμο: Διατηρήστε το σύνολο τιμών υπερπαραμέτρων με την καλύτερη διασταυρούμενη επικυρωμένη βαθμολογία. Εκπαιδεύστε ξανά τον αλγόριθμο σε ολόκληρο το σετ εκπαίδευσης (χωρίς διασταυρούμενη επικύρωση). |
Είναι κάπως σαν τα Hunger Games… κάθε αλγόριθμος στέλνει τους δικούς του «εκπροσώπους» (δηλαδή μοντέλο εκπαιδευμένο στο καλύτερο σύνολο τιμών υπερπαραμέτρων) στην τελική επιλογή.
Επιλέξτε το μοντέλο που κερδίζει
Μέχρι τώρα, θα έχετε ένα «καλύτερο» μοντέλο για κάθε αλγόριθμο που έχει συντονιστεί μέσω διασταυρούμενης επικύρωσης. Το πιο σημαντικό είναι ότι έχετε χρησιμοποιήσει μόνο τα δεδομένα εκπαίδευσης μέχρι στιγμής. Τώρα είναι ώρα να αξιολογήσετε κάθε μοντέλο και να επιλέξετε το καλύτερο, το στυλ Hunger Games.

Γιατί το έσωσες σετ δοκιμής ως ένα πραγματικά αόρατο σύνολο δεδομένων, μπορείτε τώρα να το χρησιμοποιήσετε για να πάρετε μια αξιόπιστη εκτίμηση της απόδοσης κάθε μοντέλου.
Υπάρχουν μια ποικιλία από μετρήσεις απόδοσης μπορούσες να διαλέξεις. Δεν θα αφιερώσουμε πολύ χρόνο σε αυτά εδώ, αλλά γενικά:
- Για εργασίες παλινδρόμησης, προτείνουμε Μέσο τετράγωνο σφάλμα (MSE) ή Μέσο απόλυτο σφάλμα (MAE). (Οι χαμηλότερες τιμές είναι καλύτερες)
- Για εργασίες ταξινόμησης, προτείνουμε Περιοχή κάτω από την καμπύλη ROC (AUROC). (Οι υψηλότερες τιμές είναι καλύτερες)
Η διαδικασία είναι πολύ απλή:
- Για κάθε μοντέλο σας, κάντε προβλέψεις στο σετ δοκιμών σας.
- Υπολογίστε τις μετρήσεις απόδοσης χρησιμοποιώντας αυτές τις προβλέψεις και τη μεταβλητή στόχου „βασική αλήθεια“ από το σύνολο δοκιμών.
Τέλος, χρησιμοποιήστε αυτές τις ερωτήσεις για να σας βοηθήσουν να επιλέξετε το νικητήριο μοντέλο:
- Ποιο μοντέλο είχε την καλύτερη απόδοση στο σετ δοκιμών; (εκτέλεση)
- Έχει καλή απόδοση σε διάφορες μετρήσεις απόδοσης; (ευρωστία)
- Είχε επίσης (ένα από) τα καλύτερα διασταυρωμένα αποτελέσματα από το σετ προπόνησης; (συνοχή)
- Λύνει το αρχικό επιχειρηματικό πρόβλημα; (συνθήκη νίκης)
Αυτό το ολοκληρώνει για το βήμα Εκπαίδευσης Μοντέλων της Ροής Εργασιών Μηχανικής Μάθησης. Για να αποκτήσετε περισσότερη πρακτική εξάσκηση, συνιστούμε να ελέγξετε μερικούς από τους πρόσθετους πόρους παρακάτω ή να γίνετε μέλος μας Επιταχυντής μηχανικής μάθησης σειρά μαθημάτων.
Περισσότερα για το Model Training
Διαβάστε το υπόλοιπο της Εισαγωγής μας στην Επιστήμη Δεδομένων εδώ.