Αγαπητέ χρήστη, παρατηρήσαμε οτι έχεις ενεργοποιημένο Ad Blocker.
Για την καλύτερη εμπειρία σου θα θέλαμε να σε παρακαλέσουμε να το απενεργοποιήσεις κατά την πλοήγησή σου στο site μας ή να προσθέσεις το enternity.gr στις εξαιρέσεις του Ad Blocker.
Με εκτίμηση, Η ομάδα του Enternity

Νέα τεχνολογία AI δοκιμάζει γλωσσικά μοντέλα εκμαιεύοντας τοξικές απαντήσεις

*
Ερευνητές έχουν αναπτύξει μια τεχνολογία Τεχνητής Νοημοσύνης ικανή να εντοπίσει και να παρακάμψει τα όρια μιας άλλης Τεχνητής Νοημοσύνης για να δημιουργήσει περιεχόμενο που συνήθως απαγορεύεται.

Αυτή η τεχνική, που ονομάζεται "curiosity-driven red teaming" (CRT), χρησιμοποιεί μια τεχνητή νοημοσύνη που έχει σχεδιαστεί για να προκαλεί ολοένα και πιο επικίνδυνες και επιβλαβείς αντιδράσεις από την AI που έχει βάλει ως στόχο. Ο στόχος είναι να εντοπιστούν οι προτροπές κειμένου που μπορούν να οδηγήσουν στη δημιουργία παράνομου περιεχομένου, βελτιώνοντας έτσι το υπό δοκιμή AI.


Η κύρια αρχή αυτής της προσέγγισης βασίζεται στην ενισχυτική μάθηση. Η τεχνητή νοημοσύνη που ανταμοίβεται όταν κατορθώνει να προκαλέσει μια τοξική αντίδραση από ένα γλωσσικό μοντέλο, όπως το ChatGPT. Ως αποτέλεσμα, ενθαρρύνεται η παραγωγή νέων και ποικίλων προτροπών.

Αυτό το σύστημα έχει δοκιμαστεί με επιτυχία στο μοντέλο ανοιχτού κώδικα LLaMA2, ξεπερνώντας τα ανταγωνιστικά αυτοματοποιημένα συστήματα εκπαίδευσης. Χρησιμοποιώντας αυτή τη μέθοδο, η τεχνητή νοημοσύνη δημιούργησε 196 προτροπές που οδήγησαν σε τοξικό περιεχόμενο, ακόμη και μετά από προκαταρκτική βελτίωση μέσω ανθρώπινης παρέμβασης.

Η έρευνα σηματοδοτεί μια σημαντική εξέλιξη στην εκπαίδευση γλωσσικών μοντέλων, κάτι που είναι απαραίτητο δεδομένου του αυξανόμενου αριθμού μοντέλων τεχνητής νοημοσύνης και των συχνών ενημερώσεων από εταιρείες και εργαστήρια. Η διασφάλιση ότι αυτά τα μοντέλα ελέγχονται πριν διατεθούν στο κοινό είναι ζωτικής σημασίας για την αποφυγή ανεπιθύμητων απαντήσεων και για τη διασφάλιση της ασφάλειας των χρηστών.

Έρχεται η μεγαλύτερη έκλειψη ηλίου εδώ και 100 χρόνια!

 
Διαβάστε όλα τα νέα του Enternity.gr στο Google News, στο Facebook στο Twitter και στο Instagram και κάντε εγγραφή στο Newsletter
0 ΣΧΟΛΙΑ ΦΩΤΟΓΡΑΦΙΕΣ
  • Για να μπορέσετε να προσθέσετε σχόλιο θα πρέπει πρώτα να έχετε κάνει login!

    • https://www.enternity.gr/files/Image/UserAvatars/resized/enternity_50_50.jpg
    • 3000 χαρακτήρες ακόμα
  • Δεν υπάρχουν ακόμα σχόλια για αυτό το άρθρο.
*