본문 바로가기

Ai+특강

2024 언리얼 엔진 실무 기반 교육 과정 4일차

  • 미드저니
  • 달-E
  • 스테이블 디퓨전
  • SD모델 구조
  • AI 사용 방식, 모델 종류, 팁
  • 기타 AI 종류

Diffusion models - 확산 모델

* AI는 이미지에 노이즈를 추가하여 재분석하며 그려내는 방식을 사용하고 있다.

 

<미드저니 (Midjourney)>  midlibrary.io

- 어마어마한 학습량을 가져 퀄리티 좋은 작업물을 뽑아낼 수 있다.

- 디스코드서버 챗봇이 추가되어 디스코드에서도 이미지를 뽑아낼 수 있도록 했다.

- 맥락을 이해하는 문장형 prompt 사용 가능.

- 이미지 두개, 여러 화풍을 섞는 방식도 가능

 

MJ Model

- 다양한 스타일이 가능한 범용적인 ai

 

NiJi Model

- 일본 Ai회사를 인수하여 anime형태가 특화 ai


 

<달-E (Dall - E)> - 언어모델과 이미지 서비스를 제공


 

<스테이블 디퓨전(Stable diffusion)> - 오픈소스

- SD 1.5 부터 큰 발전을 이뤘다.

- SD 2.0, XL등의 이후 버전이 나왔지만 가장 많이 쓰이는 버전은 1.5

    >다양한 플러그인이 1.5 기반이고 2.0때 성장의 기반이었던 성인물을 막았다. XL은 무거움

- AI계산 돌릴때 가장 많이 쓰는건 GPU, 전기를 많이 쓰기때문에 이를 감당할 수 있는 장비를 만드는것이 관점


<SD 모델 구조>

-Check Point 위에 정보를 쌓아가는 방식

Check Point control net
LORA

 

Check Point(엄마모델)

- 5기가에서 10기가

- 다양한 이미지를 학습, 베이스가 되어주는 모델

 

Control net

- T2I와 I2I와 연동하여쓰는 서브모델

- T2I, I2I에 틀을 추가하여 틀에 맞게 이미지를 생성할 수 있도록 한다.

 

LORA (Htper Network)

- 특정 목적성을 가진 서브 모델

- 스타일/캐릭터/포즈/표정/상황/디테일

-check point와 결합했을때 LORA의 주장이 더 강하다.

 

Kohya : Lora 학습기

- 원하는 이미지들을 학습시켜 원하는 스타일의 Lora를 만들 수 있다.

 

Textual Inversion

- 특정 목적성을 가지는 프롬포트 묶음

 

Textual Inversion

- check point와 연결되는 모델

Check point Text 2 Image Control Net, LORA, Textual Inversion
Image 2 Image
Extra

 

<Text 2 Image (T2I)>

- 텍스트를 이미지로 뽑아내는 방식

prompt

ex) best quality, masterpiece, girl, dark hair, dark eyes, home, sun shining, shiny skin, sun flare

- 자세하게 묘사하는것보다 단어 형태의 느슨한 요구가 퀄리티가 더 좋게 나옴

샘플링 방법과 스텝수

    - 샘플링 방법 = 추론 계산의 종류 > 같은 단어여도 샘플링 방법에 따라 완전히 다른 결과가 나온다.

    - 스텝 수가 높을수록 기반 모델의 영향을 많이 받는다.

- 배치 수 배치 크기 > 같은 기준으로 여러개를 뽑을때 사용

CFG스케일

- prompt의 요구 강도

- 너무 높게 설정시 이상한 결과물이 출력될 수 있음. 보통 5~15정도 사용

시드

- 각각의 그림엔 시드값이 있음

- 같은 설정에 같은 시드값을 넣으면 같은 그림이 나온다.

 

<Image 2 Image(I2I)>

- 이미지를 가지고 또 다른 이미지를 뽑아내는 방식

Prompt + Image = New Image

디노이즈 강도

- 수치값이 낮을수록 노이즈를 적게 준다. 변화가 별로 없음. 다만 너무 높을시 다른 그림이 될 수 있음. (3~3.5정도 사용)

 

<Extra>

- 포인트에 영향을 받지 않는 기계적인 스케일 업

- 가급적이면 잘 사용하지 않는다. I2I에 부가 스케일 업을 사용하는게 더 퀄리티가 좋음.

- 픽셀라이즈 가능


<AI 사용 방식>

1. 사이트에 도입

2. 로컬 형식의 다운로드 방식

3. 기존 툴 안에 AI도입

 

Automatic 1111 web UI

- 사람들이 가장 많이쓰는 AI

 

<AI 모델 종류>

  • 1. 실사형모델
  • 2. 아니메모델
  • 3. 특정 화풍 성향이 강한 모델
  • 4. 배경 제작에 좋은 모델
  • - CounterFeit, Anything, 

<AI 사용 팁>

- T2I가 check point의 장점을 극대화

- T2I+control net으로 1차 이미지 출력

- control net 사용시 정확한 가로 세로 비율

- 큰개념 > 작은개념

    - 큰 개념의 틀을 잡고 작은 개념들을 잡아가야 원하는 결과 출력 가능

- 작은 이미지 > 큰 이미지

    - 작은 이미지에서 큰 틀을 잡고 작은 개념들을 잡아가면서 서서히 크기를 늘려가는 것이 좋다.

- 작은 이미지/ 큰 개념 단계에서 직접 수정

- 다양한 스타일의 Lora 병합 실험

- SD upscale vs 부가기능 up scale


<기타 AI 서비스>

Vectorizer - 백터로 변환해주는 ai

https://ko.vectorizer.ai/

krea - 그림을 그리면 실시간으로 반영해서 이미지를 뽑아주는 ai

https://www.krea.ai/home

meshy - 텍스처 만들어주는 ai (OBJ+prompt 기반)

https://www.meshy.ai/

topaz labs - 업스케일링 ai, 영상 가능. 프레임 보관 가능.

https://www.topazlabs.com/

ebsynth - 앞뒤의 이미지 하나씩 채택하여 그 사이를 같은 이미지로 출력 (격한 움직임X)

https://ebsynth.com/

Deepmotion - 영상을 3D에 적용시켜 애니메이션을 넣어주는 ai

https://www.deepmotion.com/

cascadeur - 키와 키 사이에 자동으로 움직임을 넣어주는 ai

https://cascadeur.com/

EMO - 아직 출시 X, 목소리에 맞춰 이미지가 입을 움직이도록 하는 ai (딥페이크)

https://humanaigc.github.io/emote-portrait-alive/

domoai - 실사를 넣으면 원하는 화풍으로 생성해주는 ai

https://domoai.app/

wonder dynamics - 동영상에 있는 인물에 모델링을 넣어 생성해주는 ai

https://wonderdynamics.com/

Gen - 2 - 유명한 영상 ai

https://research.runwayml.com/gen2

suno - 노래 만들어주는 ai, (prompt로 가사를 작성)

https://www.suno.ai/

claude - 아직까진 기계적이지 않은 답변 가능, 일상적인 언어 학습에 리밋X, prompt작성 부탁 가능

https://claude.ai/login?returnTo=%2F