
Καζακστάν: Ένα μεγάλου μεγέθους μοντέλο γλώσσας πρώτη φορά σε λειτουργία τον Δεκέμβριο

Σύμφωνα με την υπηρεσία τύπου του πανεπιστημίου, το ISSAI άρχισε τη συλλογή δεδομένων τον Μάρτιο και αυτή τη στιγμή εκπαιδεύει το μοντέλο χρησιμοποιώντας μια πλατφόρμα υπολογιστικού νέφους με ένα μικρό αριθμό κόμβων NVIDIA H100.
Ο καθηγητής Ατακάν Βάρολ, ιδρυτής και επικεφαλής του ISSAI, τόνισε ότι το έργο περιλαμβάνει φοιτητές από το NU και άλλα πανεπιστήμια όπως το Πανεπιστήμιο Πληροφορικής Astana, απόφοιτους υποτροφίας Bolashak και ντόπιους.
“Στο τέλος αυτού του έργου, θα δημιουργήσουμε το KazLLM, αλλά το πιο σημαντικό επίτευγμα θα είναι η δημιουργία μιας εργατικής δύναμης ικανής να παράγει προηγμένα εργαλεία και προϊόντα τεχνητής νοημοσύνης. Σε αυτήν τη συγκεκριμένη τεχνολογία, δεν είμαστε πολύ πίσω από άλλες χώρες. Μετά την ολοκλήρωση του KazLLM και των μοντέλων του, θα είμαστε 18 μήνες πίσω από αυτές. Η ένταξη της φωνής θα μειώσει αυτήν την χρονική χροιά σε 12 μήνες, δημιουργώντας μοντέλα γλωσσικής όρασης θα μας τοποθετήσει στο μέτωπο, και θα κάνουμε αυτά που κάνουν οι άλλες χώρες. Το σημαντικό είναι ότι κάνουμε αυτό για τον λαό του Καζακστάν στην καζακική γλώσσα”, δήλωσε.
Το έργο προέρχεται από μια ποικιλία άρθρων από τη Wikipedia, ειδησεογραφικές ιστοσελίδες, κυβερνητικές ιστοσελίδες και σύνολα δεδομένων ανοικτών δεδομένων όπως το Common Crawl. Τα τελευταία πέντε χρόνια, το ISSAI έχει αναπτύξει πολλά σύνολα δεδομένων επεξεργασίας φυσικής γλώσσας ειδικά για την καζακική γλώσσα. Το έργο αντιμετωπίζει θέματα εθνικής και πληροφοριακής ασφάλειας, καθώς η εξάρτηση από ξένα προϊόντα μπορεί να οδηγήσει σε διαρροή δεδομένων και προβολή αλλοιωμένων πληροφοριών.
Η Μαντίνα Αμπντραχμάνοβα, Αναπληρώτρια Διευθύντρια Εξωτερικών Σχέσεων και Κύρια Επιστήμονας Δεδομένων, πρόσθεσε ότι το σώμα εκπαίδευσης του μοντέλου θα αποτελείται τουλάχιστον από 100 δισεκατομμύρια τοκεν καζακικά, ρωσικά, αγγλικά και τουρκικά, με κάθε γλώσσα να εκπροσωπείται από 25 δισεκατομμύρια τοκεν.
“Τώρα έχουμε περισσότερα από 30 δισεκατομμύρια τοκεν. Ένα τοκεν είναι μια μονάδα αξιολόγησης δεδομένων, ένας λέξη ή μέρος μιας λέξης. Είκοσι έξι δισεκατομμύρια τοκεν δημιουργήθηκαν χρησιμοποιώντας τον μεταφραστή Tilmash για να μεταφράσουν δεδομένα από τα αγγλικά στα καζακικά. Το μοντέλό μας μπορεί τώρα να παράγει λογότεχνα καζακικά. Επιπλέον, θα δημιουργήσουμε μια διαδραστική διεπαφή για τους χρήστες, παρόμοια με αυτό που έχει κάνει η OpenAI”, επεσήμανε.
Το ISSAI σχεδιάζει να προσφέρει ένα υπηρεσία εγγραφής για γενικούς χρήστες και μια εξειδικευμένη διασύνδεση εφαρμογών (API) για προηγμένους χρήστες, για να διασφαλίσει την ευρεία υιοθέτηση. Αυτό θα επιτρέψει την άψογη ενσωμάτωση των μοντέλων σε διάφορα προϊόντα, συμπεριλαμβανομένων ιστότοπων, εφαρμογών smartphone, κωδικών προγραμμάτων και εφαρμογών υπολογιστή. Η πλατφόρμα θα υποστηρίζει τη διάδραση με το μοντέλο, την εκπαίδευση ενίσχυσης βάσει της ανθρώπινης ανατροφοδότησης και τη ρύθμιση για βέλτιστη απόδοση σε διαφορετικά σενάρια.