قوقل تُطلق نموذج وضع الكتابة التوضيحية للصور المفتوح المصدر باستخدام TensorFlow

أطلقت قوقل خطوة كبيرة إلى الأمام في مجال فهم صور الذكاء الاصطناعي من خلال إطلاق نموذج وضع الكتابة التوضيحية للصور “Show and Tell” المُبني على TensorFlow. حقق هذا النموذج دقة مُذهلة بلغت ۹۳٫۹%, متفوقًا على الإصدارات السابقة ويمثل تقدمًا مُهمًا في هذا المجال.

نموذج “Show and Tell”, الذي طوره الباحثون في فريق “Brain Team” من قوقل, يستفيد من مجموعة من أطر الرؤية واللغة, المُدرب على الكتابات التوضيحية التي أنشأها البشر. يضمن هذا النهج فهم النظام للأشياء داخل الصورة فحسب, بل يفهم علاقاتها وسياقها أيضًا. يمكن للنموذج إنشاء جمل توصيفية, فوق مجرد قائمة الأشياء, ويتعرف على التفاعلات بينها.

مدل توصیف تصویر "Show and Tell" گوگل در تنسورفلو.

تسلط قوقل الضوء على قدرة النموذج على دمج أنماط من صور مُختلفة, مما يُمكّنه من إنشاء كتابات أصلية لصور غير مرئية له من قبل. تُعد التطورات في كفاءة النموذج مُلحوظة, مع إكمال خطوات التدريب الآن في جزء صغير من الوقت مقارنةً بالإصدارات السابقة.

يفتح هذا الإصدار أبوابًا جديدة للمطورين والمُحققين, مُمكنًا لهم من الاستفادة من هذه التكنولوجيا القوية لمجموعة واسعة من التطبيقات, بما في ذلك التعرف على المشهد, إنشاء كتابات لصور, والمزيد. تُشجع طبيعة النموذج المفتوحة المصدر مزيدًا من التطوير والابتكار داخل مجتمع الذكاء الاصطناعي.

مرجع