Ce este DALL·E 2?

DALL·E 2 este un program de inteligență artificială care creează imagini din descrieri textuale, dezvăluite joi de OpenAI, o companie de cercetare.

Folosește o versiune de antrenament de 12 miliarde de parametri a modelului de transformator GPT-3 pentru a interpreta intrările în limbaj natural și pentru a genera imagini corespunzătoare. De exemplu, atunci când este prevăzută cu propoziția „o fotografie alb-negru a unui câine mic”, a produs o imagine alb-negru redată corect a unui Chihuahua.

Sistemul nu este perfect - uneori produce imagini greu de interpretat sau complet nerespectate. De exemplu, când i s-a cerut să genereze o imagine a „o persoană călare pe un monociclu pe o frânghie peste un vulcan”, a produs o imagine (frumoasă, după părerea mea), dar complet fără legătură cu un apus de soare peste apă, cu o siluetă mică în prim plan. .

Totuși, rezultatele sunt impresionante și OpenAI spune că DALL·E 2 „este primul model AI care generează imagini din descrieri textuale care pot rivaliza cu calitatea artiștilor umani profesioniști”.

Sistemul a fost antrenat pe un set de date de perechi text-imagine, constând din aproximativ 1,3 milioane de imagini și subtitrări de pe Internet care au fost răzuite și îngrijite de OpenAI. Datele de antrenament au fost apoi folosite pentru a regla fin modelul GPT-3, astfel încât să poată genera imagini din descrierile textuale.

OpenAI spune că sistemul poate genera imagini „de înaltă calitate” dintr-o gamă largă de descrieri textuale, inclusiv cele abstracte, concrete sau chiar poetice.

Pe lângă exemplul Chihuahua, alte exemple de imagini produse de DALL·E 2 includ un portret redat corect al lui Adolf Hitler, o imagine a unui dragon făcut din legume și o imagine a Mona Lisa făcută din pâine prăjită.

Sistemul este, de asemenea, capabil să genereze imagini cu lucruri care nu există, cum ar fi un „floof” (un animal inventat) sau o „tulpa” (o formă-gând).

În general, rezultatele sunt impresionante, iar OpenAI spune că sistemul „deschide noi posibilități pentru generarea de imagini din descrierile textuale”.

DE LA E 2 Acest Sistemul CLIP convertește informațiile text în informații vizuale. Aceasta este o paradigmă codificator-decodor, ceea ce înseamnă că atunci când este furnizat textul de intrare, acesta este mai întâi convertit la intrarea mașinii, apoi procesat de sistem și, în cele din urmă, trecut la decodor, care convertește datele codificate într-o imagine.

Ce este DALL E 2

Ce este DALL·E 2?

Aceasta este cea mai recentă generație de DALL·E, un model de limbaj generativ care utilizează fraze pentru a crea efecte vizuale complet noi. DALL E 2 este un model uriaș de 3,5 V, deși nu la fel de masiv ca GPT-3. Interesant este că este și mai ușor decât predecesorul său (12B). În ceea ce privește alinierea descrierii și fotorealismul, DALL·E 2 este cu 70% mai bun decât DALL·E 2, în ciuda dimensiunii sale mai mari.

DALL.E 2- explicatie pentru incepatori cu exemple

Mai exact, DALL·E 2 este un model de sinteză a imaginilor text ierarhic condiționat, care combină învățarea profundă pentru procesarea limbajului natural cu viziunea computerizată pentru generarea de imagini. Scopul său este să antreneze două modele, iar setul de antrenament este format din imagini și descrieri pereche. Primul este a priori care, având în vedere un titlu scris, poate fi antrenat pentru a genera o imagine CLIP încorporată. Avem apoi un decodor care, atunci când încorporează o imagine CLIP (și legenda, dacă este prezentă), poate genera o imagine antrenată.

DALLE 2 este antrenat folosind sute de milioane de fotografii cu subtitrări de pe internet, iar unele dintre acele imagini sunt eliminate și remaniere pentru a schimba ceea ce învață modelul. Acesta preia mai multe opțiuni de imagine atașamente CLIP și apoi folosește-l decodor trece prin fiecare dintre ele. Apoi creează o combinație interesantă a tuturor acestor informații, având în vedere contribuția utilizatorului.

Exemplu DALL ESTE 2

Hai să jucăm un mic joc pentru a înțelege DALL·E. Să o împărțim în următorii trei pași.

Imaginați-vă curcubee, nori și unicorni zburând pe cerul albastru. Imaginează-ți cum ar putea fi o imagine în imaginația ta. Oamenii sunt cel mai apropiat lucru pe care îl avem de analogul perfect al unei imagini încorporate, iar imaginea care tocmai ți-a apărut în cap este un exemplu perfect în acest sens. Puteți doar ghici despre produsul final, dar aveți o idee bună despre ce ar trebui inclus. Modelul a priori duce cititorul de la cuvintele dintr-o frază la o scenă din imaginația sa.
Acum poți începe să desenezi. Ceea ce face unCLIP este să vă transforme imaginea mentală într-o schiță reală. Acum poți recrea cu precizie un alt personaj din aceeași descriere, cu aceleași statistici de bază, dar cu un stil vizual complet nou. DALL·E 2 poate genera, de asemenea, imagini unice dintr-o imagine existentă încorporată în acest mod.
Fii atent la schița pe care ai făcut-o. Acesta este ceea ce se întâmplă când schițați descrierea „un unicorn în mijlocul norilor și un curcubeu se ridică pe cer”. Acum examinați imaginea și textul pentru a determina ce ilustrează cel mai bine pe celălalt (soare, casă, copac etc.) și ceea ce ilustrează cel mai bine subiectul, stilul, culorile etc. Ce face CLIP este să codifice caracteristicile. text și imagini.

Acum că știm ce este DALL-E, să trecem la următoarea secțiune și să îi înțelegem caracteristicile.

Bacsis: Cum să creați imagini realiste cu serviciul DALL-E-2 AI

Caracteristici DALL E 2

Mai jos sunt specificațiile DALL·E 2.

Variante
Colorare
Diferențele de text

Să vorbim despre ele în detaliu.

ssd vs hibrid

1] Variante

DALL·E 2 depășește simpla traducere a unei propoziții într-o imagine. OpenAI poate experimenta cu procesul generativ, producând rezultate diferite pentru o anumită semnătură datorită înglobărilor CLIP robuste. Ceea ce „vede” CLIP în „mintea” sa este ceea ce consideră important din intrare (rămâne același pentru toate imaginile) și ceea ce poate fi înlocuit (care se schimbă pentru diferite imagini). Ori de câte ori este posibil, DALL·E 2 va păstra atât „informații semnificative... cât și aspectele estetice”.

2] Colorare

DALL·E 2 poate modifica fotografiile existente cu umplere automată. În exemplul următor, imaginea din stânga este imaginea originală, iar fotografiile din centru și din dreapta au elementul desenat în locuri diferite. DALL·E 2 se potrivește cu un element suplimentar stilului de imagine. De asemenea, actualizează texturile și reflexiile pentru a reflecta noul element.

Citit : Ce poți face cu ChatGPT

3] Diferențele de text

DALL·E 2 convertește imaginile folosind diferențele de text. DALL·E 2 are, de asemenea, capabilități avansate de interpolare care vă permit să modificați obiecte. Un utilizator de Twitter a putut să-și „demodeze” iPhone-ul. twitter.com să-l verifici.

Dacă vă plac aceste funcții, tot ce trebuie să faceți este să accesați openai.com si apoi inregistreaza-te. Puteți crea un cont nou sau puteți utiliza conturile Microsoft sau Google existente pentru a vă înscrie. Odată ce faci asta, vei primi niște credite gratuite, dacă vrei mai multe, trebuie să plătești pentru asta.

Acestea sunt câteva dintre caracteristicile DALL·E 2, are multe cazuri de utilizare grozave, totuși este întotdeauna recomandat să nu vă bazați prea mult pe instrumentele AI. La urma urmei, nu sunt altceva decât instrumente folosite pentru a face treaba, nu pot înlocui niciodată inteligența emoțională a unei persoane.

Citește și: Cele mai bune aplicații, software și site-uri web Deepfake.