Με την παγκόσμια δεξαμενή ανθρώπινης γνώσης να εξαντλείται, τα συνθετικά δεδομένα μπορεί να κρατήσουν την ΤΝ σε τροχιά μάθησης — ή να την παγιδεύσουν σε έναν ατελείωτο βρόχο των δικών της λαθών.
Στο μεγαλύτερο μέρος της σύντομης ιστορίας της, η τεχνητή νοημοσύνη έχει τραφεί με ένα «διαιτολόγιο» ανθρώπινων δημιουργημάτων — τα κείμενα που γράφουμε, τις φωτογραφίες που μοιραζόμαστε, τις ετικέτες που προσθέτουμε. Κι αυτό γιατί — αν δεν το γνωρίζετε ήδη — πάνω σε αυτά εκπαιδεύτηκαν τα μαγικά μοντέλα όπως το ChatGPT ή το Gemini.
Τα τεράστια σύνολα δεδομένων που εκπαίδευσαν τα πιο σύγχρονα μοντέλα δεν εμφανίστηκαν από το πουθενά. Είναι το απόσταγμα του συλλογικού μας πολιτισμού, προσεκτικά δημιουργημένο και επιμελημένο από ανθρώπους. Ένας ταξιδιώτης, για παράδειγμα, ανεβάζει στο Facebook ή το Instagram μια φωτογραφία του Ναού του Ποσειδώνα στο Σούνιο και τη συνοδεύει με τον ανάλογο τίτλο. Αυτή η απλή πράξη διδάσκει σε ένα μοντέλο πολλά: πώς μοιάζει ένας ναός, ότι αυτός ο συγκεκριμένος είναι ένα σύμπλεγμα από ανοιχτόχρωμες μαρμάρινες κολόνες με θέα τη θάλασσα και ότι βρίσκεται σε ένα ακρωτήρι νότια της Αθήνας. Παρομοίως, η λεζάντα σε μια παιδική ζωγραφιά ή η ονομασία ενός φαγητού στο Instagram συμβάλλουν στο να χτίζει το μοντέλο έναν χάρτη του κόσμου, όπως τον αντιλαμβανόμαστε εμείς.
Είναι εύκολο να ξεχάσουμε ότι αυτή η γνώση δεν είναι εγγενής στη μηχανή. Η ΤΝ δεν «ανακαλύπτει» το Σούνιο από μόνη της· κληρονομεί αυτή την επίγνωση από εμάς και τις επώνυμες ή ανώνυμες αναρτήσεις μας στο διαδίκτυο. Η ακρίβεια των απαντήσεών της και ο πλούτος των συσχετίσεών της είναι τόσο ποιοτικά και ευρεύεα όσο και το ανθρώπινο υλικό που τη θρέφει.
Και τώρα αυτό το πηγάδι στερεύει. Όπως προειδοποίησε ο πολύς Έλον Μασκ νωρίτερα φέτος: «Έχουμε πλέον εξαντλήσει ουσιαστικά το σωρευτικό σύνολο της ανθρώπινης γνώσης... στην εκπαίδευση της ΤΝ. Αυτό συνέβη ουσιαστικά πέρυσι». Με λιγότερα φρέσκα δεδομένα να αντληθούν, η πρόοδος των μοντέλων ΤΝ κινδυνεύει να σταματήσει. Είναι μια στιγμή όχι πολύ διαφορετική από το τέλος της μεγάλης εποχής των εξερευνήσεων.
Η Υπόσχεση των Συνθετικών Δεδομένων
Μια αναδυόμενη λύση είναι η χρήση συνθετικών δεδομένων - πληροφορίας που δημιουργείται από συστήματα ΤΝ αντί να συλλέγεται από ανθρώπινη δραστηριότητα. Στην περίπτωση του Ναού του Ποσειδώνα, ένα μοντέλο θα μπορούσε να παράγει αμέτρητες φανταστικές εικόνες ναών σε διαφορετικό φωτισμό, εποχές, καιρικές συνθήκες και αρχιτεκτονικά στυλ, διευρύνοντας την ικανότητά του να αναγνωρίζει τέτοιες δομές σε ποικίλα περιβάλλοντα.
Παρόμοιες τεχνικές μπορούν να προσομοιώσουν σπάνιες αλλά κρίσιμες ιατρικές περιπτώσεις για τη βελτίωση διαγνωστικών συστημάτων ή να δημιουργήσουν σενάρια ακραίων καιρικών φαινομένων για την εκπαίδευση εργαλείων αντιμετώπισης καταστροφών. Εξερευνώντας καταστάσεις που είναι σπάνιες, δαπανηρές ή αδύνατον να καταγραφούν στην πραγματικότητα, τα συνθετικά δεδομένα μπορούν να βοηθήσουν τα μοντέλα να μαθαίνουν ταχύτερα, να προσαρμόζονται σε περισσότερες από τις πολυπλοκότητες του κόσμου και να εντοπίζουν ακραίες περιπτώσεις για τις οποίες υπάρχει ελάχιστο ή καθόλου προηγούμενο.
Οι Κίνδυνοι της «Φωτοτυπίας της Φωτοτυπίας»
Ωστόσο, τα συνθετικά δεδομένα δεν είναι τέλεια υποκατάστατα του πλούτου της ανθρώπινης γνώσης. Όσο περισσότερο ένα μοντέλο εκπαιδεύεται σε δεδομένα που έχουν παραχθεί από άλλα μοντέλα και όχι από άμεση ανθρώπινη εμπειρία, τόσο περισσότερο διαβρώνεται το θεμέλιο της κατανόησής του. Είναι σαν φωτοτυπία μιας φωτοτυπίας: κάθε γενιά χάνει λίγο από τον πλούτο, την ποικιλία και την αυθεντικότητα.
Μαζί με τις αλήθειες, τα μοντέλα κληρονομούν και τα λάθη και τις προκαταλήψεις των προκατόχων τους. Με τον καιρό, αυτός ο βρόχος ανατροφοδότησης υποβαθμίζει τόσο τα δεδομένα όσο και την ακρίβεια του μοντέλου, με κίνδυνο την κατάρρευση του μοντέλου — μια κατάσταση όπου η ΤΝ απομακρύνεται τόσο από την πραγματικότητα που δεν μπορεί πλέον να την αναπαραστήσει ή να την ερμηνεύσει αξιόπιστα.
Τα συνθετικά δεδομένα μπορούν να παίξουν κρίσιμο ρόλο στο μέλλον της ΤΝ, αλλά μόνο αν χρησιμοποιηθούν με προσοχή. Σε συνδυασμό με ποιοτικά, ανθρώπινα δεδομένα και επαλήθευση έναντι πραγματικών δειγμάτων, μπορούν να διατηρήσουν τη μάθηση των μοντέλων ακόμη και όταν τα φρέσκα ανθρώπινα δεδομένα σπανίζουν. Αν χρησιμοποιηθούν απερίσκεπτα, κινδυνεύουν να δημιουργήσουν έναν αυτοαναφορικό θάλαμο ηχούς που θα επιταχύνει την ίδια την παρακμή που υποτίθεται ότι αποτρέπουν. Η ασφαλέστερη πορεία είναι να αντιμετωπίζουμε τα συνθετικά δεδομένα ως συμπλήρωμα και όχι ως υποκατάστατο — διασφαλίζοντας ότι τα θεμέλια της ΤΝ θα παραμείνουν αγκυροβολημένα στον πλούτο και την ποικιλία της ανθρώπινης εμπειρίας.
Αλλιώς, κινδυνεύουμε να δημιουργήσουμε μηχανές που, αντί να ανοίγουν παράθυρα στον κόσμο, θα κοιτούν διαρκώς τον εαυτό τους σε έναν καθρέφτη που σταδιακά θα θολώνει — με ό,τι αυτό συνεπάγεται.
* Ο Θάνος Παπαδημητρίου διδάσκει επιχειρηματικότητα στο NYU Stern της Νέας Υόρκης και εφοδιαστική αλυσίδα στο SDA Bocconi της Μουμπάι. Είναι συνιδρυτής της τεχνολογικής startup, Moveo AI.