گوگل مدل توصیف تصویر خود را با استفاده از تنسورفلو به صورت متن باز منتشر کرد
گوگل با انتشار مدل توصیف تصویر خود، “Show and Tell” که با استفاده از تنسورفلو ساخته شده است، گامی مهم در زمینه درک تصویر هوش مصنوعی برداشته است. این مدل که به دقت ۹۳٫۹ درصدی رسیده است، از نسخههای قبلی خود پیشی گرفته است و نشان دهنده پیشرفت قابل توجهی در این زمینه است.
مدل “Show and Tell” که توسط محققان تیم مغز گوگل توسعه داده شده است، از ترکیب چارچوبهای بینایی و زبان استفاده میکند که با استفاده از توضیحات ایجاد شده توسط انسان آموزش داده شدهاند. این رویکرد تضمین میکند که سیستم نه تنها اشیاء موجود در یک تصویر را درک میکند، بلکه روابط و زمینه آنها را نیز درک میکند. این مدل میتواند جملات توصیفی را ایجاد کند، فراتر از صرفاً لیست کردن اشیاء، و تعاملات بین آنها را تشخیص دهد.
گوگل بر توانایی مدل در سنتز الگوها از تصاویر مختلف تأکید میکند، به این معنی که میتواند توضیحات اصلی برای تصاویر دیده نشده ایجاد کند. پیشرفتهای در کارآیی مدل قابل توجه است، به طوری که مراحل آموزش اکنون در کسری از زمان در مقایسه با نسخههای قبلی انجام میشود.
این انتشار، درهای جدیدی را برای توسعهدهندگان و محققان باز میکند و به آنها امکان میدهد تا از این فناوری قدرتمند برای برنامههای مختلف، از جمله تشخیص صحنه، تولید توضیحات تصویر و موارد دیگر استفاده کنند. ماهیت متن باز این مدل، توسعه و نوآوری بیشتر را در جامعه هوش مصنوعی تشویق میکند.
- نویسنده : حامد غلامی
- منبع خبر : TechCrunch