شركة OpenAI تكشف عن نموذج GPT-Realtime

ثورة في التفاعل الصوتي

في خطوة هامة نحو تعزيز التفاعل الصوتي الفوري، كشفت شركة OpenAI عن أحدث ابتكاراتها في هذا المجال: نموذج “GPT-Realtime”. يُعد هذا النموذج الأكثر تقدمًا للتحويل من الكلام إلى كلام، ويقدم تحسينات جوهرية مقارنةً بنموذج أكتوبر 2024 السابق، ليفتح آفاقًا جديدة للمطورين في بناء تطبيقات صوتية متطورة.

يتميز “GPT-Realtime” بأداء فائق في فهم التعليمات المعقدة واستخدام الأدوات مع أخطاء أقل، مما ينتج عنه كلامًا أكثر طبيعية وتعبيرًا. وقد أظهر النموذج مكاسب كبيرة في مختلف الاختبارات المعيارية، حيث سجل تحسنًا ملحوظًا في الأداء على عدة مقاييس مثل Big Bench Audio وMultiChallenge وComplexFuncBench.

لم تكتفِ OpenAI بتحسين الأداء فقط، بل قدمت أيضًا صوتين جديدين: “Marin” و”Cedar”، كما قامت بتحديث الأصوات الستة الموجودة لجعلها تبدو أكثر طبيعية وواقعية. وما يزيد من جاذبية هذا النموذج هو السعر المخفض لواجهة برمجة التطبيقات (API) بنسبة 20% مقارنةً بسعر نموذج “gpt-4o-realtime-preview”، مما يجعله خيارًا قويًا وفعالًا من حيث التكلفة للمطورين الراغبين في إنشاء تطبيقات تعتمد على الصوت بشكل أساسي.

ربما يهمك: تطبيق واتساب يطلق ميزة “مساعد الكتابة”

تدعم الميزة الجديدة أيضًا إدخالات الصور وإجراء المكالمات الهاتفية عبر SIP، مما يوسع من نطاق استخدامها بشكل كبير. ومع هذه التحسينات الهائلة والأسعار التنافسية، يمثل “GPT-Realtime” خطوة عملاقة نحو جعل التفاعل الصوتي بالذكاء الاصطناعي أكثر سلاسة، وذكاء، ومتاحًا على نطاق واسع.

ما الذي يميز “GPT-Realtime” من شركة OpenAI

أداء فائق: فهم أفضل للتعليمات المعقدة واستخدام الأدوات بكفاءة.
كلام طبيعي: توليد كلام أكثر تعبيرًا وواقعية.
تكلفة أقل: تخفيض سعر واجهة برمجة التطبيقات (API) بنسبة 20%.
أصوات جديدة: تقديم صوتين جديدين وتحديث الأصوات الحالية.
ميزات متقدمة: دعم إدخالات الصور وإمكانية إجراء مكالمات هاتفية.

لا يسمح بنقل هذا المحتوى من سوالف دون الاشارة برابط مباشر