پروژه DALL · E شرکت OpenAI برای تولید تصویر از متن

پروژه  DALL · E

پروژه DALL · E در شرکت OpenAI یک مدل ایجاد شده توسط شبکه عصبی است. که از زیرنویس های متنی برای طیف وسیعی از مفاهیم قابل بیان با زبان طبیعی، تصاویر ایجاد می کند.

DALL · E یک نسخه 12 میلیارد پارامتری از GPT-3 است. که برای تولید تصاویر از توصیف متن، با استفاده از یک مجموعه داده از جفت های متن و تصویر آموزش دیده است.

کارشناسان OpenAI معتقدند که DALL · E از مجموعه قابلیت های متنوعی همچون:

  • ایجاد نسخه های انسانی از حیوانات و اشیاء
  • ترکیب مفاهیم غیر مرتبط به روش های قابل قبول
  • ارائه متن و اعمال تغییر شکل در تصاویر موجود

برخوردار است.

GPT-3 نشان داد که می توان از مدل زبانی برای آموزش یک شبکه عصبی بزرگ برای انجام کارهای مختلف تولید متن استفاده کرد. Image GPT همچنین می توان از همان نوع شبکه عصبی نیز برای تولید تصاویر با اطمینان بالا استفاده کرد. OpenAI در نظر دارد از طریق این یافته ها نشان دهد دستکاری مفاهیم بصری از طریق مدل های زبانی اکنون امکان پذیر است.

مانند GPT-3، پروژه DALL · E یک مدل زبان ترانسفورمر است. این مدل زبانی، متن و تصویر را به صورت یک جریان داده ای حاوی حداکثر 1280 نشانه دریافت می کند. و با استفاده از حداکثر احتمال برای تولید همه نشانه ها یکی پس از دیگری آموزش می دهد.

در واقع DALL · E قادر به ایجاد تصاویر محتمل برای انواع متنابهی از جملات در دسترس می باشد . همچنین تصاویری که DALL.E  تولید می‌کند انواع متفاوتی را شامل می‌شود.

پیش‌ازاین، بسیاری از کارشناسان در مورد احتمال سوءاستفاده از GPT-3، مدل تولید متن  OpenAI، هشدار داده بودند. و معتقد بودند که می‌توان از این مدل در تولید اخبار جعلی و نادرست استفاده کرد. این نگرانی‌ها در مورد جدیدترین محصول این شرکت یعنی DALL.E هم وجود دارد.

در انتها مطالعه مطالب زیر را نیز توصیه می کنیم:
Image GPT شرکت OpenAI جهت تولید تصویر با AI 
ربات GPT-3 چیست و چطور آینده هوش مصنوعی را دگرگون می‌کند؟ 

GPT-3 روزانه ۴٫۵ میلیارد کلمه تولید می‌کند

© کپی رایت - هوشمندی کسب و کار، انبار داده، دریاچه داده، پلتفرم داده، تحلیل کلان داده، رهیافت های داده محور، علم داده، هوش مصنوعی | Power by kte.ir