Ο Stephen King, ο Zadie Smith και ο Michael Pollan είναι μεταξύ των χιλιάδων συγγραφέων των οποίων τα έργα που προστατεύονται από πνευματικά δικαιώματα χρησιμοποιούνται για την εκπαίδευση μεγάλων γλωσσικών μοντέλων.
…
Ένα από τα πιο ανησυχητικά ζητήματα σχετικά με τη γενετική τεχνητή νοημοσύνη είναι απλό: Κατασκευάζεται μυστικά. Για να παράγουν ανθρώπινες απαντήσεις σε ερωτήσεις, συστήματα όπως το ChatGPT επεξεργάζονται τεράστιες ποσότητες γραπτού υλικού. Ωστόσο, λίγοι άνθρωποι εκτός εταιρειών όπως η Meta και η OpenAI γνωρίζουν την πλήρη έκταση των κειμένων στα οποία έχουν εκπαιδευτεί αυτά τα προγράμματα.
Κάποιο εκπαιδευτικό κείμενο προέρχεται από τη Wikipedia και άλλες ηλεκτρονικές γραφές, αλλά η υψηλής ποιότητας γενετική τεχνητή νοημοσύνη απαιτεί εισαγωγή υψηλότερης ποιότητας από ό,τι συνήθως βρίσκεται στο Διαδίκτυο—δηλαδή, απαιτεί το είδος που υπάρχει στα βιβλία. Σε μια αγωγή που κατατέθηκε στην Καλιφόρνια τον περασμένο μήνα, οι συγγραφείς Sarah Silverman, Richard Kadrey και Christopher Golden ισχυρίζονται ότι η Meta παραβίασε τους νόμους περί πνευματικών δικαιωμάτων χρησιμοποιώντας τα βιβλία τους για να εκπαιδεύσει το LLaMA, ένα μεγάλο μοντέλο γλώσσας παρόμοιο με το GPT-4 του OpenAI — έναν αλγόριθμο που μπορεί να δημιουργήσει κείμενο μιμούμενο τα μοτίβα λέξεων που βρίσκει σε δείγματα κειμένων. Αλλά ούτε η ίδια η μήνυση ούτε ο σχολιασμός γύρω από αυτήν έδωσαν μια ματιά κάτω από την κουκούλα: Δεν γνωρίζαμε προηγουμένως με βεβαιότητα εάν ο LLaMA είχε εκπαιδευτεί στα βιβλία του Silverman, του Kadrey ή του Golden, ή σε άλλα, για αυτό το θέμα.
Στην πραγματικότητα, ήταν. Πρόσφατα απέκτησα και ανέλυσα ένα σύνολο δεδομένων που χρησιμοποιούσε η Meta για την εκπαίδευση του LLaMA. Το περιεχόμενό του δεν δικαιολογεί μια θεμελιώδη πτυχή των ισχυρισμών των συγγραφέων: πειρατικά βιβλία χρησιμοποιούνται ως είσοδοι για προγράμματα υπολογιστών που αλλάζουν τον τρόπο με τον οποίο διαβάζουμε, μαθαίνουμε και επικοινωνούμε. Το μέλλον που υπόσχεται η τεχνητή νοημοσύνη είναι γραμμένο με κλεμμένα λόγια.
Πάνω από 170.000 βιβλία, τα περισσότερα που έχουν εκδοθεί τα τελευταία 20 χρόνια, περιλαμβάνονται στα εκπαιδευτικά δεδομένα του LLaMA. Εκτός από το έργο των Silverman, Kadrey και Golden, χρησιμοποιείται πεζός λόγος των Michael Pollan, Rebecca Solnit και Jon Krakauer, όπως και θρίλερ των James Patterson και Stephen King και άλλα μυθιστορήματα των George Saunders, Zadie Smith και Junot Díaz. Αυτά τα βιβλία αποτελούν μέρος ενός συνόλου δεδομένων που ονομάζεται “Books3” και η χρήση του δεν έχει περιοριστεί στο LLaMA. Το Books3 χρησιμοποιήθηκε επίσης για την εκπαίδευση του BloombergGPT του Bloomberg , του GPT-J του EleutherAI —ένα δημοφιλές μοντέλο ανοιχτού κώδικα—και πιθανότατα άλλα προγράμματα παραγωγής τεχνητής νοημοσύνης που είναι τώρα ενσωματωμένα σε ιστότοπους στο διαδίκτυο. Ένας εκπρόσωπος της Meta αρνήθηκε να σχολιάσει τη χρήση του Books3 από την εταιρεία. Ένας εκπρόσωπος του Bloomberg επιβεβαίωσε μέσω email ότι το Books3 χρησιμοποιήθηκε για την εκπαίδευση του αρχικού μοντέλου του BloombergGPT και πρόσθεσε, “Δεν θα συμπεριλάβουμε το σύνολο δεδομένων Books3 στις πηγές δεδομένων που χρησιμοποιούνται για την εκπαίδευση μελλοντικών εκδόσεων του BloombergGPT”. Και η Stella Biderman, εκτελεστική διευθύντρια της EleutherAI, δεν αμφισβήτησε ότι η εταιρεία χρησιμοποίησε το Books3 στα δεδομένα εκπαίδευσης του GPT-J.
Ως συγγραφέας και προγραμματιστής υπολογιστών, ήμουν περίεργος για το τι είδους βιβλία χρησιμοποιούνται για την εκπαίδευση συστημάτων γενετικής τεχνητής νοημοσύνης. Νωρίτερα αυτό το καλοκαίρι, άρχισα να διαβάζω διαδικτυακές συζητήσεις μεταξύ ακαδημαϊκών και χομπίστων προγραμματιστών AI σε ιστότοπους όπως το GitHub και το Hugging Face. Αυτά τελικά με οδήγησαν σε απευθείας λήψη του «the Pile», μιας τεράστιας κρυφής μνήμης εκπαιδευτικού κειμένου που δημιουργήθηκε από την EleutherAI που περιέχει το σύνολο δεδομένων Books3, συν υλικό από διάφορες άλλες πηγές: υπότιτλους βίντεο YouTube, έγγραφα και μεταγραφές από το Ευρωπαϊκό Κοινοβούλιο, Αγγλική Wikipedia, email που στάλθηκαν και ελήφθησαν από τους υπαλλήλους της Enron Corporation πριν από την κατάρρευσή της το 2001 και πολλά άλλα. Η ποικιλία δεν προκαλεί έκπληξη. Το Generative AI λειτουργεί αναλύοντας τις σχέσεις μεταξύ των λέξεων σε γλώσσα ευφυούς ήχου και δεδομένης της πολυπλοκότητας αυτών των σχέσεων, το θέμα είναι συνήθως λιγότερο σημαντικό από την καθαρή ποσότητα του κειμένου. Γι’ αυτό το The-Eye.eu, ένας ιστότοπος που φιλοξενούσε το Pile μέχρι πρόσφατα — έλαβε μία ειδοποίηση κατάργησης από μια δανική ομάδα κατά της πειρατείας — λέει ότι σκοπός της είναι «να απορροφήσει και να εξυπηρετήσει μεγάλα σύνολα δεδομένων».
Το Pile είναι πολύ μεγάλο για να ανοίξει σε μια εφαρμογή επεξεργασίας κειμένου, γι’ αυτό έγραψα μια σειρά προγραμμάτων για να το διαχειριστώ. Πρώτα εξήγα όλες τις γραμμές με την ένδειξη “Books3” για να απομονώσω το σύνολο δεδομένων Books3. Ακολουθεί ένα δείγμα από το σύνολο δεδομένων που προκύπτει:
{“text”: “\n\nΑυτό το βιβλίο είναι ένα έργο φαντασίας. Τα ονόματα, οι χαρακτήρες, τα μέρη και τα περιστατικά είναι προϊόντα της φαντασίας των συγγραφέων ή χρησιμοποιούνται πλασματικά. Οποιαδήποτε ομοιότητα με πραγματικά γεγονότα ή τοποθεσίες ή πρόσωπα, ζωντανά ή νεκρά, είναι εντελώς συμπτωματικό.\n\n | POCKET BOOKS, ένα τμήμα της Simon & Schuster Inc. \n1230 Avenue of the Americas, Νέα Υόρκη, NY 10020 \nwww.SimonandSchuster.com\n\n—|—
Αυτή είναι η αρχή μιας γραμμής που, όπως όλες οι γραμμές του συνόλου δεδομένων, συνεχίζει για πολλές χιλιάδες λέξεις και περιέχει το πλήρες κείμενο ενός βιβλίου. Τι βιβλίο όμως; Δεν υπήρχαν σαφείς ετικέτες με τίτλους, ονόματα συγγραφέων ή μεταδεδομένα. Απλώς η ετικέτα “κείμενο”, που μείωσε τα βιβλία στη λειτουργία που εξυπηρετούν για εκπαίδευση τεχνητής νοημοσύνης. Για να αναγνωρίσω τις καταχωρήσεις, έγραψα ένα άλλο πρόγραμμα για την εξαγωγή ISBN από κάθε γραμμή. Έδωσα αυτά τα ISBN σε ένα άλλο πρόγραμμα που συνδέθηκε με μια ηλεκτρονική βάση δεδομένων βιβλίων και ανακτούσε πληροφορίες για τον συγγραφέα, τον τίτλο και τη δημοσίευση, τα οποία είδα σε ένα υπολογιστικό φύλλο. Αυτή η διαδικασία αποκάλυψε περίπου 190.000 καταχωρήσεις: Μπόρεσα να αναγνωρίσω περισσότερα από 170.000 βιβλία—περίπου 20.000 έλειπαν ISBN ή δεν υπήρχαν στη βάση δεδομένων βιβλίων. (Αυτός ο αριθμός περιλαμβάνει επίσης επανεκδόσεις με διαφορετικά ISBN, επομένως ο αριθμός των μοναδικών βιβλίων μπορεί να είναι κάπως μικρότερος από τον συνολικό αριθμό.) Περιήγηση ανά συγγραφέα και εκδότη, άρχισα να αντιλαμβάνομαι το εύρος της συλλογής.
Από τους 170.000 τίτλους, περίπου το ένα τρίτο είναι μυθοπλασίας και τα δύο τρίτα μη μυθοπλασίας. Είναι από μεγάλους και μικρούς εκδότες. Για να αναφέρουμε μερικά παραδείγματα, περισσότεροι από 30.000 τίτλοι προέρχονται από το Penguin Random House και τα αποτυπώματά του, 14.000 από το HarperCollins, 7.000 από τον Macmillan, 1.800 από το Oxford University Press και 600 από το Verso. Η συλλογή περιλαμβάνει μυθοπλασία και μη μυθοπλασία των Elena Ferrante και Rachel Cusk. Περιέχει τουλάχιστον εννέα βιβλία του Χαρούκι Μουρακάμι, πέντε της Τζένιφερ Έγκαν, επτά του Τζόναθαν Φράνζεν, εννέα από τον Μπελ Χουκς, πέντε του Ντέιβιντ Γκραν και 33 της Μάργκαρετ Άτγουντ. Αξίζει επίσης να σημειωθεί: 102 pulp μυθιστορήματα του L. Ron Hubbard, 90 βιβλία από τον πάστορα δημιουργιστή Young Earth John F. MacArthur και πολλά έργα της ψευδοϊστορίας των πυραμίδων από εξωγήινους του Erich von Däniken. Σε μια δήλωση που εστάλη μέσω email, ο Biderman έγραψε, εν μέρει, «Συνεργαζόμαστε στενά με τους δημιουργούς και τους κατόχους δικαιωμάτων για να κατανοήσουμε και να υποστηρίξουμε τις προοπτικές και τις ανάγκες τους. Αυτήν τη στιγμή βρισκόμαστε στη διαδικασία δημιουργίας μιας έκδοσης του Pile που περιέχει αποκλειστικά έγγραφα με άδεια χρήσης για αυτήν τη χρήση.”
Αν και δεν είναι ευρέως γνωστό εκτός της κοινότητας AI, το Books3 είναι ένα δημοφιλές σύνολο δεδομένων εκπαίδευσης. Το Hugging Face διευκόλυνε τη λήψη του από το Eye για περισσότερα από δυόμισι χρόνια. Ο σύνδεσμός του σταμάτησε να λειτουργεί την εποχή που το Books3 αναφέρθηκε σε αγωγές κατά των OpenAI και Meta νωρίτερα αυτό το καλοκαίρι. Ο ακαδημαϊκός συγγραφέας Peter Schoppert παρακολούθησε τη χρήση του στο ενημερωτικό δελτίο του Substack. Το Books3 έχει επίσης αναφερθεί στις ερευνητικές εργασίες των Meta και Bloomberg που ανακοίνωσαν τη δημιουργία των LLaMA και BloombergGPT. Τους τελευταίους μήνες, το σύνολο δεδομένων ήταν αποτελεσματικά κρυμμένο σε κοινή θέα, ήταν δυνατή η λήψη, αλλά ήταν δύσκολο να βρεθεί, να προβληθεί και να αναλυθεί.
Άλλα σύνολα δεδομένων, που πιθανώς περιέχουν παρόμοια κείμενα, χρησιμοποιούνται κρυφά από εταιρείες όπως το OpenAI. Ο Shawn Presser, ο ανεξάρτητος προγραμματιστής πίσω από το Books3, είπε ότι δημιούργησε το σύνολο δεδομένων για να δώσει στους ανεξάρτητους προγραμματιστές «δεδομένα εκπαίδευσης βαθμού OpenAI». Το όνομά του είναι μια αναφορά σε ένα έγγραφο που δημοσιεύτηκε από το OpenAI το 2020, το οποίο ανέφερε δύο «corpora βιβλίων βασισμένων στο διαδίκτυο» που ονομάζονται Books1 και Books2. Αυτό το έγγραφο είναι η μόνη κύρια πηγή που παρέχει ενδείξεις σχετικά με το περιεχόμενο των δεδομένων εκπαίδευσης του GPT-3, επομένως έχει εξεταστεί προσεκτικά από την κοινότητα ανάπτυξης.
Από πληροφορίες που συγκεντρώθηκαν σχετικά με τα μεγέθη των Βιβλίων1 και Βιβλίων2, το Books1 εικάζεται ότι είναι το πλήρες προϊόν του Project Gutenberg, ενός διαδικτυακού εκδότη περίπου 70.000 βιβλίων με ληγμένα πνευματικά δικαιώματα ή άδειες που επιτρέπουν τη μη εμπορική διανομή. Κανείς δεν ξέρει τι υπάρχει μέσα στο Books2. Κάποιοι υποπτεύονται ότι προέρχεται από συλλογές πειρατικών βιβλίων, όπως το Library Genesis, το Z-Library και το Bibliotik, που κυκλοφορούν μέσω του δικτύου κοινής χρήσης αρχείων BitTorrent. (Το Books3, όπως ανακοίνωσε ο Presser μετά τη δημιουργία του, είναι «όλα της Bibliotik».)
Ο Πρέσερ μου είπε τηλεφωνικά ότι συμμερίζεται τις ανησυχίες των συγγραφέων. Αλλά ο μεγάλος κίνδυνος που αντιλαμβάνεται είναι το μονοπώλιο της γενετικής τεχνητής νοημοσύνης από πλούσιες εταιρείες, δίνοντάς τους τον απόλυτο έλεγχο μιας τεχνολογίας που αναδιαμορφώνει την κουλτούρα μας: Δημιούργησε το Books3 με την ελπίδα ότι θα επέτρεπε σε κάθε προγραμματιστή να δημιουργήσει εργαλεία παραγωγής τεχνητής νοημοσύνης. «Θα ήταν καλύτερα αν δεν ήταν απαραίτητο να έχουμε κάτι σαν το Books3», είπε. «Αλλά η εναλλακτική είναι ότι, χωρίς το Books3, μόνο το OpenAI μπορεί να κάνει αυτό που κάνουν». Για να δημιουργήσει το σύνολο δεδομένων, ο Presser κατέβασε ένα αντίγραφο του Bibliotik από το The-Eye.eu και ενημέρωσε ένα πρόγραμμα που γράφτηκε πριν από μια δεκαετία από τον hacktivist Aaron Swartz για να μετατρέψει τα βιβλία από τη μορφή ePub (ένα πρότυπο για ηλεκτρονικά βιβλία) σε απλό κείμενο—μία απαραίτητη αλλαγή για να χρησιμοποιηθούν τα βιβλία ως δεδομένα εκπαίδευσης. Αν και ορισμένοι από τους τίτλους στα Βιβλία3 δεν έχουν σχετικές πληροφορίες διαχείρισης πνευματικών δικαιωμάτων, οι διαγραφές ήταν φαινομενικά υποπροϊόν της μετατροπής του αρχείου και της δομής των ηλεκτρονικών βιβλίων. Ο Presser μου είπε ότι δεν επεξεργάστηκε εν γνώσει του τα αρχεία με αυτόν τον τρόπο.
Πολλοί σχολιαστές υποστήριξαν ότι η εκπαίδευση της τεχνητής νοημοσύνης με υλικό που προστατεύεται από πνευματικά δικαιώματα συνιστά «δίκαιη χρήση», το νομικό δόγμα που επιτρέπει τη χρήση υλικού που προστατεύεται από πνευματικά δικαιώματα υπό ορισμένες συνθήκες, επιτρέποντας παρωδία, παραθέσεις και παράγωγα έργα που εμπλουτίζουν την κουλτούρα. Το επιχείρημα της βιομηχανίας για τη δίκαιη χρήση βασίζεται σε δύο ισχυρισμούς: ότι τα εργαλεία παραγωγής τεχνητής νοημοσύνης δεν αντιγράφουν τα βιβλία στα οποία έχουν εκπαιδευτεί, αλλά παράγουν νέα έργα και ότι αυτά τα νέα έργα δεν βλάπτουν την εμπορική αγορά για τα πρωτότυπα. Το OpenAI έκανε μια έκδοση αυτού του επιχειρήματος ως απάντηση σε ένα ερώτημα του 2019 από το Γραφείο Ευρεσιτεχνιών και Εμπορικών Σημάτων των Ηνωμένων Πολιτειών. Σύμφωνα με τον Jason Schultz, διευθυντή της Technology Law and Policy Clinic στο NYU, αυτό το επιχείρημα είναι ισχυρό.
Ρώτησα τον Schultz εάν το γεγονός ότι τα βιβλία αποκτήθηκαν χωρίς άδεια θα μπορούσε να βλάψει έναν ισχυρισμό θεμιτής χρήσης. «Αν η πηγή είναι μη εξουσιοδοτημένη, αυτό μπορεί να είναι ένας παράγοντας», είπε ο Σουλτς. Αλλά οι προθέσεις και η γνώση των εταιρειών τεχνητής νοημοσύνης έχουν σημασία. «Αν δεν είχαν ιδέα από πού προέρχονται τα βιβλία, τότε νομίζω ότι είναι λιγότερο σημαντικός παράγοντας». Η Rebecca Tushnet, καθηγήτρια νομικής στο Χάρβαρντ, επανέλαβε αυτές τις ιδέες και μου είπε ότι ο νόμος ήταν «αδιευκρίνιστος» όταν επρόκειτο για υποθέσεις ορθής χρήσης που αφορούσαν μη εξουσιοδοτημένο υλικό, με προηγούμενες υποθέσεις να δίνουν ελάχιστες ενδείξεις για το πώς ένας δικαστής θα μπορούσε να αποφανθεί στο μέλλον.
Αυτή είναι, ως ένα βαθμό, μια ιστορία για σύγκρουση πολιτισμών: Ο κόσμος της τεχνολογίας και των εκδόσεων είχαν εδώ και καιρό διαφορετικές στάσεις σχετικά με την πνευματική ιδιοκτησία. Για πολλά χρόνια, είμαι μέλος της κοινότητας λογισμικού ανοιχτού κώδικα. Το σύγχρονο κίνημα ανοιχτού κώδικα ξεκίνησε τη δεκαετία του 1980, όταν ένας προγραμματιστής ονόματι Richard Stallman απογοητεύτηκε με τον ιδιόκτητο έλεγχο της AT&T του Unix, ενός λειτουργικού συστήματος με το οποίο είχε συνεργαστεί. (Ο Stallman εργαζόταν στο MIT και το Unix ήταν μια συνεργασία μεταξύ της AT&T και πολλών πανεπιστημίων.) Σε απάντηση, ο Stallman ανέπτυξε ένα μοντέλο αδειοδότησης «copyleft», σύμφωνα με το οποίο το λογισμικό μπορούσε ελεύθερα να μοιράζεται και να τροποποιείται, εφόσον οι τροποποιήσεις κοινοποιούνταν εκ νέου χρησιμοποιώντας την ίδια άδεια. Η άδεια copyleft ξεκίνησε τη σημερινή κοινότητα ανοιχτού κώδικα, στην οποία οι χομπίστες προγραμματιστές δίνουν το λογισμικό τους δωρεάν. Εάν η δουλειά τους γίνει δημοφιλής, αποκτούν φήμη και σεβασμό που μπορεί να μετατραπεί σε μια από τις πολλές υψηλές αμειβόμενες θέσεις εργασίας της βιομηχανίας της τεχνολογίας. Έχω ωφεληθεί προσωπικά από αυτό το μοντέλο και υποστηρίζω τη χρήση ανοιχτών αδειών χρήσης λογισμικού. Αλλά έχω δει επίσης πώς αυτή η φιλοσοφία, και η γενική στάση της επιτρεπτικότητας που διαπερνά τη βιομηχανία, μπορεί να κάνει τους προγραμματιστές να βλέπουν κάθε είδους άδεια χρήσης ως περιττή.
Αυτό είναι επικίνδυνο επειδή ορισμένα είδη δημιουργικής εργασίας απλά δεν μπορούν να γίνουν χωρίς πιο περιοριστικές άδειες. Ποιος θα μπορούσε να περάσει χρόνια γράφοντας ένα μυθιστόρημα ή ερευνώντας ένα έργο βαθιάς ιστορίας χωρίς εγγύηση ελέγχου της αναπαραγωγής και της διανομής του τελικού έργου; Αυτός ο έλεγχος είναι μέρος του τρόπου με τον οποίο οι συγγραφείς κερδίζουν χρήματα για να ζήσουν.
Η ιδιοκτησιακή στάση της Meta με το LLaMA υποδηλώνει ότι η εταιρεία σκέφτεται παρόμοια για τη δουλειά της. Αφού το μοντέλο διέρρευσε νωρίτερα αυτό το έτος και έγινε διαθέσιμο για λήψη από ανεξάρτητους προγραμματιστές που το είχαν αποκτήσει, η Meta χρησιμοποίησε μια εντολή κατάργησης DMCA εναντίον τουλάχιστον ενός από αυτούς τους προγραμματιστές, υποστηρίζοντας ότι «κανείς δεν είναι εξουσιοδοτημένος να εκθέτει, να αναπαράγει, να μεταδίδει ή να διανείμει διαφορετικά τα Meta Properties χωρίς τη ρητή γραπτή άδεια της Meta.” Ακόμη και αφού είχε «ανοιχτού κώδικα» LLaMA, η Meta ήθελε ακόμα οι προγραμματιστές να συμφωνήσουν με μια άδεια πριν τη χρησιμοποιήσουν. Το ίδιο ισχύει και για μια νέα έκδοση του μοντέλου που κυκλοφόρησε τον περασμένο μήνα. (Ούτε το Pile ούτε το Books3 αναφέρονται σε μια ερευνητική εργασία σχετικά με αυτό το νέο μοντέλο.)
Ο έλεγχος είναι πιο ουσιαστικός από ποτέ, τώρα που η πνευματική ιδιοκτησία είναι ψηφιακή και ρέει από άτομο σε άτομο ως byte μέσω των ραδιοκυμάτων. Μια κουλτούρα πειρατείας υπάρχει από τις πρώτες μέρες του Διαδικτύου και κατά μία έννοια, οι προγραμματιστές AI κάνουν κάτι που φαίνεται φυσικό. Είναι δυσάρεστο ότι η σημερινή ναυαρχίδα τεχνολογία τροφοδοτείται από μαζική κλοπή.
Ωστόσο, η κουλτούρα της πειρατείας, μέχρι τώρα, διευκόλυνε κυρίως την προσωπική χρήση από μεμονωμένους ανθρώπους. Η εκμετάλλευση πειρατικών βιβλίων με σκοπό το κέρδος, με στόχο την αντικατάσταση των συγγραφέων των οποίων το έργο καταγράφηκε — αυτή είναι μια διαφορετική και ανησυχητική τάση.
*Φωτογραφία εξωφύλλου: Εικονογράφηση από το The Atlantic. Πηγή: Getty.
Του Alex Reisner
Πηγή: theatlantic