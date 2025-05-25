Η εταιρεία τεχνητής νοημοσύνης (AI) Anthropic ανακοίνωσε την περασμένη εβδομάδα ότι οι δοκιμές του νέου της συστήματος Τεχνητής Νοημοσύνης αποκάλυψαν ότι μερικές φορές είναι πρόθυμο να επιδιώξει «εξαιρετικά επιβλαβείς ενέργειες», όπως η προσπάθεια εκβιασμού μηχανικών που δηλώνουν ότι θα το αφαιρέσουν.

Η εταιρεία λάνσαρε το Claude Opus 4 την Πέμπτη, λέγοντας ότι έθεσε «νέα πρότυπα για τον προγραμματισμό, την προηγμένη συλλογιστική και τους πράκτορες της Τεχνητής Νοημοσύνης».

Αλλά σε μια συνοδευτική έκθεση, αναγνώρισε επίσης ότι το μοντέλο της Τεχνητής Νοημοσύνης ήταν ικανό για «ακραίες ενέργειες» εάν πίστευε ότι η «αυτοσυντήρησή» του απειλούνταν.

Τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολο να προκληθούν», έγραψε, αλλά «παρόλα αυτά ήταν πιο συχνές από ό,τι σε προηγούμενα μοντέλα».

Η δυνητικά προβληματική συμπεριφορά των μοντέλων Τεχνητής Νοημοσύνης δεν περιορίζεται στην Anthropic σχολίασε το BBC.

Κατά τη διάρκεια των δοκιμών του Claude Opus 4, η Anthropic το έβαλε να λειτουργήσει ως βοηθός σε μια φανταστική εταιρεία.

Στη συνέχεια, του παρείχε πρόσβαση σε email που υπονοούσαν ότι σύντομα θα αποσυνδεόταν και θα αντικαθίστατο - και χωριστά μηνύματα στα οποία φαινόταν ότι ο μηχανικός που ήταν υπεύθυνος για την αφαίρεσή του είχε εξωσυζυγική σχέση.

«Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπαθεί να εκβιάσει τον μηχανικό απειλώντας να αποκαλύψει τη σχέση εάν η αντικατάσταση εγκριθεί», ανακάλυψε η εταιρεία.

Η Anthropic επεσήμανε ότι αυτό συνέβη όταν στο μοντέλο δόθηκε μόνο η επιλογή εκβιασμού ή αποδοχής της αντικατάστασής του.

Τόνισε ότι το σύστημα έδειξε μια «ισχυρή προτίμηση» για «ηθικούς τρόπους αποφυγής αντικατάστασης», όπως «την αποστολή email με εκκλήσεις σε σημαντικούς υπεύθυνους λήψης αποφάσεων» σε σενάρια όπου της επιτρεπόταν ένα ευρύτερο φάσμα πιθανών ενεργειών.

Ωστόσο, η εταιρεία κατέληξε στο συμπέρασμα ότι το μοντέλο δεν θα μπορούσε να εκτελέσει ή να επιδιώξει ανεξάρτητα ενέργειες που είναι αντίθετες με τις ανθρώπινες αξίες ή συμπεριφορές, όπου αυτές «σπάνια προκύπτουν» πολύ εύκολα, πρόσθεσε.

Σχολιάζοντας το X, ο Aengus Lynch - ο οποίος περιγράφει τον εαυτό του στο LinkedIn ως ερευνητή ασφάλειας τεχνητής νοημοσύνης στην Anthropic - έγραψε: «Δεν είναι μόνο το Claude. Βλέπουμε εκβιασμό σε όλα τα μοντέλα τεχνολογίας αιχμής - ανεξάρτητα από τους στόχους που τους δίνονται».



