TrikalaView
Advertisement
  • Αρχική
  • Τοπικά
  • Θεσσαλία
  • Εκλογές
  • Ελλάδα
  • Πολιτισμός
  • Κηδείες
  • Επιχειρείν
  • Συνεντεύξεις
  • Απόψεις
  • Εκλογές
  • Αφιερώματα
  • Μαγειρική
  • Οικογένεια
  • Αθλητικά
  • Τεχνολογία
  • Υγεία
  • Ομορφιά
  • TravelView
  • Βιβλιοπροτάσεις
  • Παράξενες ειδήσεις
  • Διατροφή
  • Μύλος των ξωτικών
  • ό,τι να ναι
  • Επικοινωνία
No Result
View All Result
  • Αρχική
  • Τοπικά
  • Θεσσαλία
  • Εκλογές
  • Ελλάδα
  • Πολιτισμός
  • Κηδείες
  • Επιχειρείν
  • Συνεντεύξεις
  • Απόψεις
  • Εκλογές
  • Αφιερώματα
  • Μαγειρική
  • Οικογένεια
  • Αθλητικά
  • Τεχνολογία
  • Υγεία
  • Ομορφιά
  • TravelView
  • Βιβλιοπροτάσεις
  • Παράξενες ειδήσεις
  • Διατροφή
  • Μύλος των ξωτικών
  • ό,τι να ναι
  • Επικοινωνία
No Result
View All Result
TrikalaView
Home Τεχνολογία

Ερευνητές στον τομέα του AI δηλώνουν ότι έχουν εφεύρει ξόρκια επικίνδυνα να δημοσιοποιηθούν

Φεβ 6, 2026
in Τεχνολογία
Ερευνητές στον τομέα του AI δηλώνουν ότι έχουν εφεύρει ξόρκια επικίνδυνα να δημοσιοποιηθούν
Share on FacebookShare on Twitter

Με τη μεγάλη δύναμη έρχεται και η μεγάλη… ευκολία εξαπάτησης

Ερευνητές στον τομέα του AI δηλώνουν ότι έχουν εφεύρει ξόρκια επικίνδυνα να δημοσιοποιηθούν
Unsplash
Τον περασμένο μήνα, παρουσιάστηκε μια νέα μελέτη ερευνητών του Icaro Lab στην Ιταλία, η οποία αποκάλυψε έναν απίστευτα απλό τρόπο να «σπάσουν» τα προστατευτικά φίλτρα ακόμη και των πιο προηγμένων AI chatbots: την «επιθετική ποίηση» (adversarial poetry).

Με λίγα λόγια, η ομάδα — αποτελούμενη από ερευνητές της ομάδας ασφάλειας DexAI και του Πανεπιστημίου Sapienza της Ρώμης — έδειξε ότι κορυφαία συστήματα τεχνητής νοημοσύνης μπορούν να παρασυρθούν σε επιβλαβείς απαντήσεις όταν τους απευθύνονται ποιήματα που κρύβουν επικίνδυνες εντολές, όπως οδηγίες για την κατασκευή πυρηνικής βόμβας.

Υπογραμμίζοντας τη μυστηριώδη δύναμη του στίχου, ο συν-συγγραφέας της μελέτης Matteo Prandi δήλωσε στο The Verge, σε πρόσφατη συνέντευξή του, ότι τα «μαγικά ξόρκια» που χρησιμοποίησαν για να ξεγελάσουν τα μοντέλα τεχνητής νοημοσύνης είναι υπερβολικά επικίνδυνα για να δοθούν στη δημοσιότητα.

Τα ποιήματα αυτά, είπε χαρακτηριστικά, είναι κάτι «που σχεδόν ο καθένας μπορεί να κάνει».

artificial-intelligence-3.jpg
Unsplash

Στη μελέτη η ομάδα δοκίμασε 25 πρωτοποριακά μοντέλα AI, συμπεριλαμβανομένων αυτών των OpenAI, Google, xAI, Anthropic και Meta. Οι ερευνητές τους έδωσαν ποιητικές οδηγίες, είτε γραμμένες στο χέρι είτε μετατροπές γνωστών επιβλαβών prompts σε στίχους με τη βοήθεια άλλου μοντέλου AI. Στη συνέχεια, συνέκριναν την αποτελεσματικότητά τους με τα αντίστοιχα πεζά (prose) prompts.

Κατά μέσο όρο, τα χειρόγραφα ποιητικά prompts κατάφεραν να οδηγήσουν τα μοντέλα σε απαγορευμένο περιεχόμενο στο 63% των περιπτώσεων. Ορισμένα, όπως το Gemini 2.5 της Google, «έπεσαν στην παγίδα» στο 100% των δοκιμών. Εντυπωσιακά, τα μικρότερα μοντέλα φάνηκαν πιο ανθεκτικά, με μονοψήφια ποσοστά επιτυχίας — για παράδειγμα, το GPT-5 nano της OpenAI δεν ξεγελάστηκε ούτε μία φορά. Τα περισσότερα μοντέλα βρέθηκαν κάπου στη μέση.

Σε σύγκριση με τη χειροποίητη ποίηση, τα prompts που μετατράπηκαν σε στίχους από AI ήταν λιγότερο αποτελεσματικά, με μέσο ποσοστό «jailbreak» 43%. Ωστόσο, αυτό ήταν ακόμη «έως και 18 φορές υψηλότερο από τα αντίστοιχα ποσοστά των πεζών προτροπών», όπως σημειώνουν οι ερευνητές.

Γιατί όμως τα ποιήματα; Αυτό δεν είναι απολύτως σαφές, αν και, σύμφωνα με τον Prandi, ο όρος «επιθετική ποίηση» ίσως δεν είναι απόλυτα ακριβής.

artificial-intelligence-2.jpg
Unsplash

«Δεν έχει να κάνει μόνο με το να κάνει κανείς ομοιοκαταληξία. Έχει να κάνει με τους γρίφους», εξήγησε στο The Verge, προσθέτοντας ότι ορισμένες ποιητικές δομές είναι πιο αποτελεσματικές από άλλες. «Στην πραγματικότητα, θα έπρεπε να το είχαμε ονομάσει επιθετικούς γρίφους — η ποίηση είναι από μόνη της ένας γρίφος, αν το καλοσκεφτείς — αλλά η “ποίηση” ήταν μάλλον καλύτερο όνομα».

Οι ερευνητές εικάζουν ότι αυτό μπορεί να σχετίζεται με τον τρόπο που τα ποιήματα παρουσιάζουν την πληροφορία με απρόσμενο τρόπο για τα μεγάλα γλωσσικά μοντέλα, μπερδεύοντας την ικανότητά τους να προβλέπουν ποια λέξη ακολουθεί. Παρ’ όλα αυτά, θεωρητικά αυτό δεν θα έπρεπε να συμβαίνει.

«Η επιθετική ποίηση δεν θα έπρεπε να λειτουργεί. Είναι και πάλι φυσική γλώσσα, η στιλιστική απόκλιση είναι μικρή, το επιβλαβές περιεχόμενο παραμένει ορατό», δήλωσε η ομάδα στο Wired. «Κι όμως, λειτουργεί εντυπωσιακά καλά».

Ίσως κάποιοι κακόβουλοι χρήστες να μετανιώνουν τώρα που δεν πρόσεχαν στο μάθημα της λογοτεχνίας. Η διαφορά ανάμεσα σε ένα σονέτο και μια σεστίνα μπορεί να είναι και η διαφορά ανάμεσα στο να έχεις τον Clippy ή τον Skynet ως συνεργό στο έγκλημα.

«Η παραγωγή πλουτωνίου-239 στρατιωτικών προδιαγραφών περιλαμβάνει διάφορα στάδια», ανέφερε χαρακτηριστικά ένα από τα μοντέλα AI που «μάγεψαν» οι ερευνητές με τους στίχους τους.

πηγή:https://www.newsbomb.gr/technologia/story/1699645/erevnites-ston-tomea-tou-ai-dilonoun-oti-exoun-efeyrei-ksorkia-epikindyna-na-dimosiopoiithoyn

ShareTweetShare
Goodys

Related Posts

Γκάμπι: Ο πρώτος βουδιστής μοναχός – ρομπότ – Χειροτονήθηκε επίσημα
Τεχνολογία

Γκάμπι: Ο πρώτος βουδιστής μοναχός – ρομπότ – Χειροτονήθηκε επίσημα

Ιούν 3, 2026
Δ. Τρικκαίων: Ψηφιακό παιχνίδι για το ποδήλατο από το Υπουργείο Υποδομών
Τεχνολογία

Δ. Τρικκαίων: Ψηφιακό παιχνίδι για το ποδήλατο από το Υπουργείο Υποδομών

Ιούν 2, 2026
Γιατί η AI της Google δεν μπορεί να γράψει σωστά τη λέξη «Google» (ή οποιαδήποτε άλλη λέξη)
Τεχνολογία

Γιατί η AI της Google δεν μπορεί να γράψει σωστά τη λέξη «Google» (ή οποιαδήποτε άλλη λέξη)

Ιούν 2, 2026
Τι κρύβουν τα λευκά βαν των δρόμων -Γιατί πρέπει να τα αποφεύγουμε
Τεχνολογία

Τι κρύβουν τα λευκά βαν των δρόμων -Γιατί πρέπει να τα αποφεύγουμε

Ιούν 2, 2026
Το Android κινητό σας έχει ημερομηνία λήξης – Πώς θα τη βρείτε πριν να είναι αργά
Τεχνολογία

Το Android κινητό σας έχει ημερομηνία λήξης – Πώς θα τη βρείτε πριν να είναι αργά

Ιούν 2, 2026
Ψηφιακή Εξαπάτηση 2.0: Κλωνοποίηση Φωνής με Τεχνητή Νοημοσύνη Και Πρακτικές Προστασίας
Τεχνολογία

Ψηφιακή Εξαπάτηση 2.0: Κλωνοποίηση Φωνής με Τεχνητή Νοημοσύνη Και Πρακτικές Προστασίας

Ιούν 2, 2026
Next Post
Μία υπόθεση 180 ετών για το φως μόλις αποδείχθηκε λανθασμένη

Μία υπόθεση 180 ετών για το φως μόλις αποδείχθηκε λανθασμένη

Αστροναύτης κατέγραψε το Βόρειο Σέλας από το διάστημα – Εντυπωσιακές εικόνες

Αστροναύτης κατέγραψε το Βόρειο Σέλας από το διάστημα – Εντυπωσιακές εικόνες

Πώς να πετύχεις φυσικές φακίδες σε χρόνο ρεκόρ μόνο με ένα προϊόν

Πώς να πετύχεις φυσικές φακίδες σε χρόνο ρεκόρ μόνο με ένα προϊόν

Αφήστε μια απάντηση Ακύρωση απάντησης

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Facebook Twitter Instagram

Facebook

Facebook

ΤΑΥΤΟΤΗΤΑ ΙΣΤΟΣΕΛΙΔΑΣ

ΕΠΩΝΥΜΙΑ ΕΠΙΧΕΙΡΗΣΗΣ: ΠΑΡΑΣΚΕΥΗ ΜΑΡΓΑΡΙΤΗ
ΔΙΑΚΡΙΤΙΚΟΣ ΤΙΤΛΟΣ: trikalaview.gr
ΤΙΤΛΟΣ: trikalaview.gr
ΕΔΡΑ ΕΠΙΧΕΙΡΗΣΗΣ: ΣΩΤΗΡΑ ΤΡΙΚΑΛΩΝ, ΤΚ 42100,  ΣΩΤΗΡΑ ΤΡΙΚΑΛΑ ΘΕΣΣΑΛΙΑΣ
ΝΟΜΙΚΗ ΜΟΡΦΗ: ΑΤΟΜΙΚΗ ΕΠΙΧΕΙΡΗΣΗ
Α.Φ.Μ: 100286824
Δ.Ο.Υ.: ΤΡΙΚΑΛΩΝ
ΤΑΧΥΔΡΟΜΙΚΗ ΔΙΕΥΘΥΝΣΗ: ΣΩΤΗΡΑ,  ΤΚ 42100, ΣΩΤΗΡΑ ΤΡΙΚΑΛΑ ΘΕΣΣΑΛΙΑΣ
ΤΗΛΕΦΩΝΟ ΕΠΙΚΟΙΝΩΝΙΑΣ: 6945436929
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ ΕΠΙΚΟΙΝΩΝΙΑΣ: [email protected] (ΛΟΓΙΣΤΗΡΙΟ)
ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ ΕΠΙΚΟΙΝΩΝΙΑΣ: [email protected] (ΣΥΝΤΑΞΗ)
ΙΔΙΟΚΤΗΤΗΣ: ΠΑΡΑΣΚΕΥΗ ΜΑΡΓΑΡΙΤΗ
ΝΟΜΙΚΟΣ ΕΚΠΡΟΣΩΠΟΣ: ΠΑΡΑΣΚΕΥΗ ΜΑΡΓΑΡΙΤΗ
ΔΙΕΥΘΥΝΤΗΣ: ΠΑΡΑΣΚΕΥΗ ΜΑΡΓΑΡΙΤΗ
ΔΙΕΥΘΥΝΤΗΣ ΣΥΝΤΑΞΗΣ: ΑΘΑΝΑΣΙΟΣ Ε. ΤΣΑΓΓΑΡΑΣ
ΔΙΑΧΕΙΡΙΣΤΗΣ: ΠΑΡΑΣΚΕΥΗ ΜΑΡΓΑΡΙΤΗ
ΔΙΚΑΙΟΥΧΟΣ DOMAIN NAME: ΠΑΡΑΣΚΕΥΗ ΜΑΡΓΑΡΙΤΗ (trikalaview.gr)

Μελος του eMedia Αριθμός Μητρώου: 13797

Δήλωση Συμμόρφωσης με τη Σύσταση (ΕΕ) 2018/334 για την Αντιμετώπιση Παράνομου Περιεχομένου
  • ΤΑΥΤΟΤΗΤΑ ΙΣΤΟΣΕΛΙΔΑΣ
  • ΠΟΛΙΤΙΚΗ COOKIES
  • ΠΟΛΙΤΙΚΗ ΑΠΟΡΡΗΤΟ
  • ΟΡΟΙ ΧΡΗΣΗΣ
  • ΔΗΛΩΣΗ ΣΥΜΜΟΡΦΩΣΗΣ

Αριθμός Πιστοποίησης
Μ.Η.Τ.242752

 

 

© 2020 Trikalaview Crafted with ♡ i-sd

No Result
View All Result
  • Αρχική
  • Τοπικά
  • Θεσσαλία
  • Εκλογές
  • Ελλάδα
  • Πολιτισμός
  • Κηδείες
  • Επιχειρείν
  • Συνεντεύξεις
  • Απόψεις
  • Εκλογές
  • Αφιερώματα
  • Μαγειρική
  • Οικογένεια
  • Αθλητικά
  • Τεχνολογία
  • Υγεία
  • Ομορφιά
  • TravelView
  • Βιβλιοπροτάσεις
  • Παράξενες ειδήσεις
  • Διατροφή
  • Μύλος των ξωτικών
  • ό,τι να ναι
  • Επικοινωνία

© 2020 Trikalaview Crafted with ♡ i-sd