Ce nouveau modèle d'IA générative peut "raisonner" en temps réel via l'audio, la vision et le texte. Ces nouvelles capacités vont être progressivement ajoutées à ChatGPT, en commençant par le texte et l'image.
L’assistant d’IA d’OpenAI, que les utilisateurs peuvent facilement interrompre, est capable de lire les émotions sur leurs visages via la caméra de leur smartphone, de les guider pour faire des exercices de respiration, de leur raconter une histoire ou encore de les aider à résoudre un problème mathématique. ChatGPT propose également un mode "vision", capable de commenter un flux vidéo en temps réel. L'IA commente ainsi ce qu'elle voit en temps réel. Le tout en faisant des blagues avec une spontanéité très naturelle. Autre nouveauté, la start-up californienne a annoncé l'arrivée d'une application desktop de ChatGPT sur Mac.
Mira Murati, directrice technologique : « Vous avez la transcription, l’intelligence et la capacité à parler, réunies ensemble pour vous apporter le mode vocal »
L’entreprise a présenté GPT-4o dans son communiqué comme un autre LLM que GPT-4, ou du moins une évolution, se voulant plus complète. La responsable de la technologie d’OpenAI Mira Murati a donné quelques indications sur ce qu’est ce LLM : il est décrit comme plus rapide, plus performant et avec de meilleures capacités en interprétation de texte, d’image et d’audio. Par ailleurs, GPT-4o est meilleur en analyse de données, et ce, dans une cinquantaine de langues différentes. Dans les prochaines semaines, GPT-4o remplacera GPT-3.5 (gratuit) et GPT-4 (payant). C’est la première fois qu’un nouveau modèle de langage OpenAI est disponible pour tous les utilisateurs de ChatGPT, ce qui peut laisser supposer que GPT-5 ne tardera plus à être annoncé. Les abonnés ChatGPT Plus seront les premiers servis (dès aujourd’hui pour les plus chanceux), avant un déploiement plus global. La fonction Voice/Vision, elle, arrivera plus tard pour les abonnés Plus d’abord.
Depuis le lancement de ChatGPT fin 2022 - son modèle de langage capable de générer du texte sur simple requête en langage courant - Microsoft, principal investisseur d’OpenAI, Google et toute la Silicon Valley sont lancés dans une course aux outils et assistants d’IA. Google doit présenter ses dernières innovations mardi, tandis que Microsoft a un événement pour la presse et les développeurs la semaine prochaine.