Το GPT-5.4 ξεπερνά τους ανθρώπους στις δοκιμασίες γραφείου και η OpenAI δηλώνει: «Δεν βλέπουμε τοίχο»
Η OpenAI χρειαζόταν μια μεγάλη νίκη μετά από μια δύσκολη εβδομάδα στο μέτωπο της δημόσιας εικόνας. Και το GPT-5.4 μοιάζει ακριβώς με αυτό. Το νέο κορυφαίο μοντέλο της εταιρείας ξεπερνά τους ανθρώπους σε εργασίες desktop, κερδίζει επαγγελματίες στο 83% των αξιολογήσεων ανά ειδικότητα και σημειώνει νέα ρεκόρ σε μαθηματικά, επιστήμη, κώδικα και συλλογιστική.
Μόλις δύο μέρες μετά την κυκλοφορία του GPT-5.3 Instant ως προεπιλεγμένου μοντέλου chat, η εταιρεία έριξε στη μάχη το 5.4, με τον αντιπρόεδρο επιστημών Kevin Weil να το χαρακτηρίζει «το καλύτερο μοντέλο που φτιάξαμε ποτέ». Ας δούμε τι ακριβώς φέρνει στο τραπέζι και γιατί αφορά άμεσα κάθε επιχείρηση που σκέφτεται σοβαρά το AI.
Τι δείχνουν τα νούμερα
Το πιο εντυπωσιακό στατιστικό αφορά το OSWorld-V, ένα benchmark που δοκιμάζει πραγματική πλοήγηση σε desktop περιβάλλον. Σκεφτείτε το σαν εξέταση στο πόσο καλά μπορεί ένα AI να χρησιμοποιήσει έναν υπολογιστή όπως εσείς: να ανοίξει εφαρμογές, να πλοηγηθεί σε μενού, να εκτελέσει σύνθετες εργασίες. Το GPT-5.4 πέτυχε 75%, τρεις μονάδες πάνω από το ανθρώπινο baseline (72.4%) και διπλάσιο σκορ σε σχέση με το GPT-5.2.

Στο GDPval, ένα benchmark που αξιολογεί γνωστικές εργασίες σε 44 διαφορετικά επαγγέλματα, το μοντέλο κέρδισε ή ισοφάρισε τους επαγγελματίες στο 83% των περιπτώσεων. Για σύγκριση, το GPT-5.2 έφτανε στο 71%. Η βελτίωση 12 ποσοστιαίων μονάδων μέσα σε λίγες εβδομάδες δεν είναι απλά εξέλιξη, είναι άλμα.
Τεχνικά χαρακτηριστικά που κάνουν τη διαφορά
Πέρα από τα benchmarks, το GPT-5.4 φέρνει δύο πρακτικές αναβαθμίσεις. Πρώτον, υποστηρίζει context window (παράθυρο πληροφοριών) μέχρι 1 εκατομμύριο tokens. Αυτό σημαίνει ότι μπορείτε να του δώσετε ολόκληρα έγγραφα, αναφορές εκατοντάδων σελίδων ή μεγάλα code repositories και να λάβετε ουσιαστικές απαντήσεις χωρίς να χάνει το νήμα.
Δεύτερον, εισάγει μια νέα ρύθμιση reasoning effort σε επίπεδο "x-high". Στην πράξη, αυτό επιτρέπει στο μοντέλο να σχεδιάζει και να εκτελεί πολύωρες εργασίες με μεγαλύτερη αυτονομία. Για παράδειγμα, ένας AI agent (αυτόνομος ψηφιακός βοηθός) μπορεί πλέον να αναλάβει μια σύνθετη ερευνητική εργασία, να τη σπάσει σε βήματα και να τα ολοκληρώσει μόνος του.
Το μοντέλο είναι ήδη διαθέσιμο ως "GPT-5.4 Thinking" για τους συνδρομητές Plus, Team και Pro.

«Δεν βλέπουμε τοίχο»: τι εννοεί η OpenAI
Η φράση που ξεχώρισε ήρθε από τον ερευνητή Noam Brown: «We see no wall» (Δεν βλέπουμε τοίχο). Η δήλωση απαντά σε μια συζήτηση που μαίνεται εδώ και μήνες στον κλάδο. Πολλοί αναλυτές υποστήριζαν ότι τα μεγάλα γλωσσικά μοντέλα πλησιάζουν σε πλατό απόδοσης, ότι κάθε νέα γενιά θα φέρνει ολοένα μικρότερες βελτιώσεις.
Τα νούμερα του GPT-5.4 δείχνουν το αντίθετο. Η πρόοδος από το 5.2 στο 5.4 είναι εμφανής και μετρήσιμη. Αν αυτός ο ρυθμός βελτίωσης συνεχιστεί, μέσα στους επόμενους μήνες θα βλέπουμε AI agents που μπορούν να αντικαταστήσουν ολόκληρες ροές εργασίας σε γραφεία.
Η Anthropic προειδοποιεί: οι νέοι εργαζόμενοι ήδη πλήττονται
Την ίδια στιγμή, η Anthropic (η εταιρεία πίσω από το Claude) δημοσίευσε μελέτη που λειτουργεί σαν σύστημα έγκαιρης προειδοποίησης. Η μελέτη διασταυρώνει ποιες εργασίες μπορεί να αυτοματοποιήσει το AI με το τι ήδη αυτοματοποιεί στην πράξη.

Τα ευρήματα είναι αποκαλυπτικά. Οι προγραμματιστές βρίσκονται στην κορυφή της λίστας με 75% κάλυψη εργασιών. Ακολουθούν οι εκπρόσωποι εξυπηρέτησης πελατών και οι υπάλληλοι εισαγωγής δεδομένων με 67%. Αντίθετα, περίπου το ένα τρίτο του αμερικανικού εργατικού δυναμικού έχει μηδενική έκθεση στο AI, κυρίως σε χειρωνακτικά επαγγέλματα (μάγειρες, μπάρμαν, ναυαγοσώστες).
Το πιο ανησυχητικό εύρημα: δεν υπάρχει ακόμα κύμα μαζικών απολύσεων από το 2022, αλλά οι προσλήψεις νέων ηλικίας 22 με 25 ετών σε εκτεθειμένους κλάδους μειώθηκαν κατά 14%. Με άλλα λόγια, οι εταιρείες δεν απολύουν, απλά σταματούν να προσλαμβάνουν juniors. Αυτό είναι μια σιωπηλή αλλαγή που θα γίνει πολύ πιο θορυβώδης τα επόμενα χρόνια.
Τι σημαίνει αυτό για τις ελληνικές επιχειρήσεις
Για μια ελληνική μικρομεσαία επιχείρηση, αυτές οι εξελίξεις δεν είναι απλά τεχνολογικά νέα από τη Silicon Valley. Είναι σήμα ότι ο χρόνος προσαρμογής μικραίνει. Ένα μοντέλο που ξεπερνά τους ανθρώπους σε desktop εργασίες σημαίνει ότι πολλές ρουτίνες γραφείου (αναφορές, data entry, email management, έρευνα αγοράς) μπορούν πλέον να αυτοματοποιηθούν αξιόπιστα.

Η πρακτική συμβουλή είναι απλή: ξεκινήστε να καταγράφετε ποιες επαναλαμβανόμενες εργασίες τρώνε χρόνο στην ομάδα σας. Η εξυπηρέτηση πελατών μέσω email, η σύνταξη αναφορών, η ανάλυση δεδομένων πωλήσεων, η δημιουργία παρουσιάσεων. Αυτές είναι ακριβώς οι εργασίες που τα νέα μοντέλα εκτελούν πλέον καλύτερα από τον μέσο εργαζόμενο.
Δεν χρειάζεται να γίνετε τεχνικοί. Χρειάζεται να αναγνωρίσετε ότι η τεχνολογία αυτή δεν είναι πια πειραματική. Είναι λειτουργική, προσβάσιμη και βελτιώνεται με ρυθμό που λίγοι περίμεναν.
Η μεγάλη εικόνα
Το GPT-5.4 δεν είναι απλά ένα ακόμα update. Είναι η πρώτη φορά που ένα AI μοντέλο ξεπερνά σταθερά τον μέσο άνθρωπο σε ρεαλιστικές εργασίες γραφείου, όχι σε τεχνητά τεστ αλλά σε δοκιμασίες που μοιάζουν με πραγματική δουλειά. Σε συνδυασμό με τα στοιχεία της Anthropic για τη σιωπηλή συρρίκνωση θέσεων εργασίας, το μήνυμα είναι ξεκάθαρο: η αυτοματοποίηση δεν έρχεται κάποτε στο μέλλον. Συμβαίνει τώρα, και οι επιχειρήσεις που θα προσαρμοστούν νωρίτερα θα έχουν σαφές πλεονέκτημα.

