1. Η Πρόκληση: Η Τεχνητή Νοημοσύνη Φωνής σε Γλώσσες με Περιορισμένους Πόρους
Οι σύγχρονες τεχνολογίες φωνής βασίζονται σε συστήματα STT που έχουν εκπαιδευτεί κυρίως σε αγγλοκεντρικά, παγκόσμια δεδομένα. Αν και μοντέλα όπως τα Whisper της OpenAI και Canary της NVIDIA επιτυγχάνουν εξαιρετικά αποτελέσματα σε γλώσσες με άφθονα δεδομένα, η απόδοσή τους μειώνεται δραστικά όταν εκτεθούν σε διαλέκτους ή γλώσσες με περιορισμένα δεδομένα όπως η ελληνική, και ακόμα περισσότερο η κυπριακή διάλεκτος.
Η κυπριακή διάλεκτος παρουσιάζει μοναδικές προκλήσεις: ιδιαίτερη φωνητική, λεξιλόγιο και προφορά, που αποκλίνουν σημαντικά από τα πρότυπα της κοινής ελληνικής. Λόγω της περιορισμένης διαθεσιμότητας δεδομένων, τα υπάρχοντα STT συστήματα αποτυγχάνουν να κατανοήσουν σωστά την καθημερινή κυπριακή ομιλία, παράγοντας ποσοστά σφαλμάτων που καθιστούν την τεχνολογία μη βιώσιμη για παραγωγικές εφαρμογές.
Για τους κυπρίους χρήστες και επιχειρήσεις, αυτό έχει μεταφραστεί σε παρερμηνείες, χαμηλή ποιότητα απομαγνητοφώνησης και αδυναμία αξιοποίησης των πλεονεκτημάτων του αυτοματισμού μέσω φωνής. Η αποστολή της Aseto AI ήταν να καλύψει αυτό το κενό , να δημιουργήσει ένα μοντέλο που να κατανοεί φυσικά τον κυπριακό ομιλητή, μέσα στο δικό του γλωσσικό και πολιτισμικό πλαίσιο.
2. Η Προσέγγιση της Aseto
Η ανάπτυξη του STT μοντέλου της Aseto βασίστηκε σε τρεις πυλώνες:
α. Στοχευμένη Επιμέλεια Δεδομένων
Η Aseto δημιούργησε ένα ιδιόκτητο σύνολο δεδομένων ομιλίας στην κυπριακή διάλεκτο και στην ελληνική γλώσσα, το οποίο ηχογραφήθηκε σε ποικιλία ομιλητών, συνθηκών και περιβαλλόντων. Κάθε δείγμα απομαγνητοφωνήθηκε από φυσικούς ομιλητές, διασφαλίζοντας γλωσσική ακρίβεια και αυθεντικότητα, προσφέροντας έτσι ένα σπάνιο, υψηλής ποιότητας dataset για διαλεκτική προσαρμογή.
β. Πολύγλωσση Εκπαίδευση με Fine-Tuning
Ξεκινώντας από ανοιχτό λογισμικό, η Aseto εφάρμοσε fine-tuning σε επιμελημένα δεδομένα κυπριακής, ελληνικής και αγγλικής. Ο στόχος ήταν να ενισχυθεί η κατανόηση διαλέκτων, διατηρώντας παράλληλα τη γενικευσιμότητα του μοντέλου σε πολλές γλώσσες αποφεύγοντας το φαινόμενο της «καταστροφικής λήθης».
γ. Αυστηρή Κανονικοποιημένη Αξιολόγηση
Για αντικειμενικά και επαναλήψιμα αποτελέσματα, όλες οι απομαγνητοφωνήσεις κανονικοποιήθηκαν (πεζά γράμματα, αφαίρεση στίξης) πριν από τον υπολογισμό του Word Error Rate (WER), ώστε να μετρηθεί η καθαρή ακρίβεια αναγνώρισης ομιλίας χωρίς επιρροή από στίξη ή μορφοποίηση.
3. Αποτελέσματα Συγκριτικών Μετρήσεων
Η Aseto συνέκρινε το μοντέλο της με τα Whisper Large V3 και Canary-1b-v2 σε τρία σύνολα δεδομένων:
- Εσωτερικό Κυπριακό Dataset (συλλεγμένο και απομαγνητοφωνισμένο από την Aseto)
- Common Voice Greek (Validated Split)
- Common Voice English (Validated Split)
Η μέτρηση βασίστηκε στο Word Error Rate (WER) — όσο μικρότερη τιμή, τόσο καλύτερη απόδοση.
| Dataset | Aseto.ai (Prototype) | Whisper Large V3 | Canary-1b-v2 | Relative Improvement (vs. Whisper) |
|---|---|---|---|---|
| Κυπριακή Διάλεκτος | 24% | 38% | 55% | 35% λιγότερα σφάλματα |
| Κοινή Ελληνική | 9% | 16% | 25% | 45% λιγότερα σφάλματα |
| Αγγλικά | 7% | 6% | 5% | Αμελητέα διαφορά (≤2%) |
Η μέτρηση βασίστηκε στο Word Error Rate (WER) — όσο μικρότερη τιμή, τόσο καλύτερη απόδοση.
Ανάλυση:
Το μοντέλο της Aseto παρουσιάζει εξαιρετική γενίκευση σε διαλέκτους, ξεπερνώντας σημαντικά τα κορυφαία ανοιχτά μοντέλα τόσο στην κυπριακή όσο και στην ελληνική γλώσσα, ενώ διατηρεί σταθερή επίδοση στα αγγλικά.
Τα αποτελέσματα αυτά καθιστούν το μοντέλο της Aseto το πιο ακριβές σύστημα αναγνώρισης κυπριακής ομιλίας μέχρι σήμερα.
4. Πραγματικός Αντίκτυπος
Πέρα από τους αριθμούς, οι δοκιμές σε πραγματικά περιβάλλοντα ανέδειξαν τη σημασία αυτών των βελτιώσεων.
Εκεί όπου τα υπάρχοντα μοντέλα παρερμήνευαν αριθμούς, διευθύνσεις και ονόματα, το μοντέλο της Aseto παρήγαγε σταθερές, αξιόπιστες απομαγνητοφωνήσεις παραγωγικού επιπέδου. Αυτό έχει ήδη επιτρέψει:
- Εξυπηρέτηση πελατών μέσω φωνής - ακριβής απομαγνητοφώνηση τηλεφωνικών κλήσεων σε μικτή ελληνική–κυπριακή ομιλία.
- Αυτόματη συμπλήρωση εντύπων - αξιόπιστη αναγνώριση προφορικών δεδομένων όπως αριθμοί ταυτότητας, ημερομηνίες και διευθύνσεις.
- Πολύγλωσση λειτουργία - ομαλή μετάβαση μεταξύ ελληνικών, κυπριακών και αγγλικών μέσα στην ίδια συνομιλία.
5. Συνεχής Εξέλιξη
Το παρόν πρωτότυπο αποτελεί ένα πρώιμο αλλά καθοριστικό ορόσημο στον χάρτη πορείας της Aseto Voice AI. Οι τρέχουσες ερευνητικές κατευθύνσεις περιλαμβάνουν:
- Επέκταση των κυπριακών και ελληνικών datasets μέσω ημι-επιβλεπόμενης μάθησης.
- Ενίσχυση της ανθεκτικότητας του μοντέλου σε θόρυβο, προφορές και τηλεφωνική ποιότητα ήχου.
- Βελτίωση αποκατάστασης στίξης και αναγνώρισης ομιλητών.
- Ενσωμάτωση στην πλατφόρμα φωνητικών βοηθών της Aseto για πλήρη επικοινωνία μέσω ΤΝ.
6. Συμπέρασμα
Η παρούσα έρευνα αποδεικνύει ότι, με στοχευμένη προσαρμογή και εξειδικευμένη γνώση, είναι εφικτό να επιτευχθούν ουσιαστικά κέρδη απόδοσης σε γλώσσες με περιορισμένους πόρους, χωρίς απώλεια της πολύγλωσσης σταθερότητας.
Το μοντέλο Speech-to-Text της Aseto.ai αποτελεί ένα σημαντικό βήμα προς μια συμπεριληπτική, τοπικά εύγλωττη τεχνητή νοημοσύνη φωνής — μια τεχνολογία που κατανοεί φυσικά τους Έλληνες και Κυπρίους ομιλητές, μέσα στο δικό τους γλωσσικό και πολιτισμικό πλαίσιο.
Λύνοντας το βασικό πρόβλημα της απομαγνητοφώνησης, η Aseto θέτει τα θεμέλια για μια νέα γενιά έξυπνων φωνητικών συστημάτων που υπηρετούν, αντί να αποκλείουν, τις γλώσσες της Ανατολικής Μεσογείου.
Βιβλιογραφία
- OpenAI Whisper Large V3 - https://huggingface.co/openai/whisper-large-v3
- NVIDIA Canary-1B-V2 - https://huggingface.co/nvidia/canary-1b-v2
- Mozilla Common Voice Datasets - https://commonvoice.mozilla.org/
- Understanding Word Error Rate (WER) - https://www.rev.com/