Stable Diffusion: nemokamas AI vaizdų generatorius jūsų kompiuteryje

Stable Diffusion yra atvirojo kodo vaizdų generavimo modelis, kurį galite paleisti savo kompiuteryje be jokių prenumeratų ar apribojimų.

Stable Diffusion yra atvirojo kodo dirbtinio intelekto modelis, skirtas vaizdų generavimui iš tekstinių aprašymų. Jo didžiausias pranašumas, palyginti su Midjourney ar DALL-E, yra tai, kad jis yra visiškai nemokamas ir gali veikti tiesiai jūsų kompiuteryje. Tai reiškia, kad jūsų duomenys niekur nesiunčiami, generavimų skaičius neribojamas, ir jūs turite visišką kontrolę virš viso proceso.

Modelį sukūrė Stability AI kompanija bendradarbiaudama su akademine bendruomene. Pirmoji versija pasirodė 2022 metais, o nuo to laiko buvo išleistos kelios reikšmingos versijos: Stable Diffusion 1.5, 2.0, 2.1, XL ir naujausias SDXL Turbo. Kiekviena versija atnešė kokybės ir greičio patobulinimų.

Techniniai reikalavimai ir įdiegimas

Pagrindinis Stable Diffusion reikalavimas yra vaizdo plokštė (GPU) su pakankamu atminties kiekiu. Rekomenduojama turėti NVIDIA vaizdo plokštę su mažiausiai 8 GB VRAM. Populiariausios tinkamos plokštės yra NVIDIA RTX 3060 (12GB), RTX 3070, RTX 4060 ir aukštesnės. AMD vaizdo plokštės taip pat palaikomos, bet su tam tikrais apribojimais.

Paprasčiausias būdas pradėti naudoti Stable Diffusion yra per AUTOMATIC1111 arba ComfyUI sąsajas. AUTOMATIC1111 (dar žinomas kaip Stable Diffusion WebUI) yra interneto naršyklėje veikianti grafinė sąsaja, kuri supaprastina visą procesą. Įdiegimas reikalauja šiek tiek techninių žinių, bet internete yra gausu vadovų žingsnis po žingsnio.

Tiems, kurie nenori diegti nieko savo kompiuteryje, yra debesijos alternatyvos. Google Colab leidžia paleisti Stable Diffusion per naršyklę naudojant Google serverius. Tai yra nemokamas (su ribojimais) būdas išbandyti technologiją be jokių investicijų į aparatinę įrangą.

Alternatyva be diegimo

Jei nenorite diegti Stable Diffusion savo kompiuteryje, galite naudoti tokias platformas kaip DreamStudio (Stability AI oficialus produktas), Leonardo.ai ar Civitai.com, kurios leidžia naudoti Stable Diffusion modelius per naršyklę.

Stable Diffusion ekosistema ir modeliai

Vienas didžiausių Stable Diffusion pranašumų yra plati ekosistema. Kadangi modelis yra atvirojo kodo, bendruomenė sukūrė tūkstančius specializuotų modelių (vadinamų "checkpoints"), kurie yra optimizuoti konkretiems stiliams ar temoms. Pavyzdžiui, yra modelių, kurie specializuojasi anime stiliumi, fotorealistiniais portretais, landšafto fotografija, architektūrine vizualizacija ir daugeliu kitų sričių.

LoRA (Low-Rank Adaptation) yra mažesni papildomi modeliai, kurie leidžia pridėti specifinių stilių ar konceptų prie bazinio modelio. Pavyzdžiui, galite naudoti bazinį modelį kartu su LoRA, kuris prideda konkretaus dailininko stilių ar konkrečios asmenybės bruožus. Tai suteikia neribotą lankstumą.

ControlNet yra dar viena galingą technologija Stable Diffusion ekosistemoje. Ji leidžia kontroliuoti generuojamo vaizdo kompoziciją naudojant referencinius vaizdus, pozų diagramas, gylio žemėlapius ar kraštų aptikimą. Tai reiškia, kad galite nurodyti ne tik ką vaizde turėtų būti, bet ir kaip tiksliai elementai turėtų būti išdėstyti.

Prompt rašymas Stable Diffusion

Stable Diffusion prompt rašymas skiriasi nuo Midjourney ar DALL-E. Čia prompt paprastai yra ilgesnis ir labiau techninis. Vietoj natūralios kalbos sakinių, dažnai naudojami raktažodžiai, atskirti kableliais: "beautiful landscape, golden hour lighting, professional photography, 8k, detailed, sharp focus, masterpiece".

Neigiamas prompt (negative prompt) yra ypač svarbus Stable Diffusion kontekste. Tai sąrašas dalykų, kurių nenorite matyti vaizde: "blurry, bad quality, deformed hands, extra fingers, watermark, text, low resolution". Geras neigiamas prompt gali reikšmingai pagerinti rezultatų kokybę.

Be prompt, Stable Diffusion turi daugybę techninių parametrų: sampler tipas (Euler, DPM, DDIM ir kt.), žingsnių skaičius (steps), CFG scale (kaip griežtai modelis seka prompt), vaizdo dydis ir seed numeris (kuris leidžia atkurti tiksliai tą patį rezultatą).

Stable Diffusion technologijos veikimo principai

SDXL ir naujausios versijos

SDXL (Stable Diffusion XL) yra reikšmingas žingsnis į priekį. Jis generuoja didesnius ir detallesnius vaizdus (1024x1024 pagal nutylėjimą, vietoj 512x512), geriau supranta sudėtingesnius prompt ir natūraliau atvaizduoja žmonių veidus bei rankas.

SDXL naudoja dviejų etapų architektūrą: bazinis modelis generuoja vaizdą, o tobulinimo modelis (refiner) padidina jo kokybę ir detalumą. Tai reikalauja daugiau kompiuterio resursų, tačiau rezultatas yra akivaizdžiai geresnis.

SDXL Turbo ir naujesnės optimizuotos versijos leidžia generuoti vaizdus per vos vieną ar kelis žingsnius, kas drastiškai sumažina generavimo laiką. Kokybė su mažiau žingsnių yra truputį prastesnė, tačiau daugeliui naudojimo atvejų ji yra pakankamai gera.

Stable Diffusion prieš komercinius įrankius

Pagrindinis Stable Diffusion pranašumas yra kontrolė ir laisvė. Jokių prenumeratų, jokių apribojimų, pilnas privatumas ir galimybė modifikuoti viską pagal savo poreikius. Tačiau tai ateina su tam tikra kaina: reikia investuoti laiką mokymuisi ir, galbūt, pinigus į galingesnę aparatinę įrangą.

Midjourney ir DALL-E yra patogesni, nes veikia per naršyklę ir nereikalauja jokio techninio pasiruošimo. Jie taip pat reguliariai atnaujinami automatiškai, tuo tarpu Stable Diffusion atnaujinimus turite diegti patys.

Stable Diffusion yra geriausias pasirinkimas tiems, kurie nori maksimalios kontrolės, generuoja daug vaizdų (nes kiekvienas generavimas yra nemokamas), dirba su jautriais duomenimis (nes viskas lieka lokaliame kompiuteryje) arba nori eksperimentuoti su pažangiomis technikomis kaip ControlNet ir LoRA.

Midjourney: komercinė alternatyva su stipria estetika AI nuotraukų redagavimas: kaip tobulinti vaizdus