پروژه DALL · E
پروژه DALL · E در شرکت OpenAI یک مدل ایجاد شده توسط شبکه عصبی است. که از زیرنویس های متنی برای طیف وسیعی از مفاهیم قابل بیان با زبان طبیعی، تصاویر ایجاد می کند.
DALL · E یک نسخه 12 میلیارد پارامتری از GPT-3 است. که برای تولید تصاویر از توصیف متن، با استفاده از یک مجموعه داده از جفت های متن و تصویر آموزش دیده است.
کارشناسان OpenAI معتقدند که DALL · E از مجموعه قابلیت های متنوعی همچون:
- ایجاد نسخه های انسانی از حیوانات و اشیاء
- ترکیب مفاهیم غیر مرتبط به روش های قابل قبول
- ارائه متن و اعمال تغییر شکل در تصاویر موجود
برخوردار است.
GPT-3 نشان داد که می توان از مدل زبانی برای آموزش یک شبکه عصبی بزرگ برای انجام کارهای مختلف تولید متن استفاده کرد. Image GPT همچنین می توان از همان نوع شبکه عصبی نیز برای تولید تصاویر با اطمینان بالا استفاده کرد. OpenAI در نظر دارد از طریق این یافته ها نشان دهد دستکاری مفاهیم بصری از طریق مدل های زبانی اکنون امکان پذیر است.
مانند GPT-3، پروژه DALL · E یک مدل زبان ترانسفورمر است. این مدل زبانی، متن و تصویر را به صورت یک جریان داده ای حاوی حداکثر 1280 نشانه دریافت می کند. و با استفاده از حداکثر احتمال برای تولید همه نشانه ها یکی پس از دیگری آموزش می دهد.
در واقع DALL · E قادر به ایجاد تصاویر محتمل برای انواع متنابهی از جملات در دسترس می باشد . همچنین تصاویری که DALL.E تولید میکند انواع متفاوتی را شامل میشود.
پیشازاین، بسیاری از کارشناسان در مورد احتمال سوءاستفاده از GPT-3، مدل تولید متن OpenAI، هشدار داده بودند. و معتقد بودند که میتوان از این مدل در تولید اخبار جعلی و نادرست استفاده کرد. این نگرانیها در مورد جدیدترین محصول این شرکت یعنی DALL.E هم وجود دارد.
در انتها مطالعه مطالب زیر را نیز توصیه می کنیم:
Image GPT شرکت OpenAI جهت تولید تصویر با AI
ربات GPT-3 چیست و چطور آینده هوش مصنوعی را دگرگون میکند؟