이미지는 한 단어의 가치가 있습니다: 텍스트 반전을 사용한 텍스트-이미지 생성 개인화

이미지는 한 단어의 가치가 있습니다: 텍스트 반전을 사용한 텍스트-이미지 생성 개인화(종이 읽기)

Rinon Gal, Tel-Aviv University, 이스라엘, arXiv2022, 인용:182, 논문 , 코드

1. 소개

텍스트-이미지 모델은 자연어를 통해 저작을 안내할 수 있는 전례 없는 자유를 제공합니다. 그러나 이러한 자유도를 활용하여 특정 고유한 개념의 이미지를 생성하거나 모양을 수정하거나 새로운 캐릭터와 새로운 시나리오로 결합할 수 있는지는 명확하지 않습니다. 즉, 언어 안내 모델을 사용하여 고양이를 그림으로 바꾸거나 좋아하는 장난감을 기반으로 한 신제품을 상상하는 방법은 무엇입니까? 여기에서 우리는 이러한 창조적 자유를 가능하게 하는 간단한 방법을 제안합니다. 객체 또는 스타일과 같은 사용자 제공 개념의 3-5개 이미지만 사용하여 고정된 텍스트-이미지 모델의 임베딩 공간에서 새로운 "단어"를 통해 이를 표현하는 방법을 배웁니다. 이러한 "단어"는 자연어 문장으로 결합되어 직관적인 방식으로 개인화된 생성을 안내할 수 있습니다. 놀랍게도 우리는 단일 단어 임베딩이 독특하고 다양한 개념을 포착하기에 충분하다는 것을 발견했습니다. 우리는 방법을 다양한 기준선과 비교하고 다양한 응용 프로그램 및 작업에서 이러한 개념을 보다 충실하게 묘사함을 보여줍니다.

2. 전체론적 사고

Dreambooth 와 유사하게 텍스트 프롬프트의 특정 단어에 특정 테마를 통합합니다. 모델이 이 특정 단어를 이해할 수 있도록 모델을 훈련합니다.

3. 방법

영화 "타이타닉"의 유명한 장면에서 로즈는 잭에게 "...나를 당신의 프랑스 소녀처럼 그려주세요"라고 요청합니다. 단순함에도 불구하고 이 요청에는 풍부한 정보가 포함되어 있습니다. 이것은 Jack이 그림을 그려야 함을 나타냅니다. 스타일과 구성이 Jack의 이전 작업의 일부 하위 집합과 일치해야 함을 의미합니다. 고유 테마: Ross 자신. 요청을 할 때 Rose는 Jack에게 의존하여 광범위하고 구체적인 이러한 개념에 대해 추론하고 이를 새로운 창작물에 통합합니다.

사전 훈련된 텍스트-이미지 모델의 텍스트 임베딩 공간에서 새로운 단어를 찾을 것을 제안합니다 . 텍스트 인코딩 프로세스의 첫 번째 단계를 고려합니다(그림 2). 여기서 입력 문자열은 먼저 토큰 세트로 변환됩니다. 그런 다음 각 토큰은 자체 포함 벡터로 대체되고 이러한 벡터는 다운스트림 모델에 공급됩니다. 우리의 목표는 새롭고 구체적인 개념을 나타내는 새로운 임베딩 벡터를 찾는 것 입니다 .

여기에 이미지 설명 삽입
우리는 새로운 임베딩 벡터를 나타내기 위해 새로운 의사 단어(pseudo-word)를 사용합니다. S ∗ S_∗에스표현하다. 그런 다음 이 의사 단어는 다른 단어처럼 취급되며 생성 모델에 대한 새로운 텍스트 쿼리를 작성하는 데 사용할 수 있습니다. 따라서 " S ∗ S_∗에스해변 사진", " S ∗ S_∗에스벽에 걸린 유화' 또는 'with S ∗ 1 S^1_∗에스1작화 스타일 S ∗ 2 S^2_∗에스2". 중요한 것은 이 프로세스가 생성 모델을 변경하지 않는다는 것입니다. 그렇게 함으로써 우리는 비전 및 언어 모델을 새로운 작업으로 미세 조정할 때 종종 손실되는 풍부한 텍스트 이해 및 일반화 기능을 보존합니다. 이러한 유사어를 찾기 위해 우리는 우리는 고정되고 미리 훈련된 텍스트-이미지 모델과 개념을 포함하는 작은(3-5) 이미지 세트를 가지고 있습니다. 우리의 목표는 단어 임베딩 벡터를 찾는 것입니다. S 조각 ∗ S_∗에스"나의 사진"이라는 문장은 우리의 작은 이미지 세트에서 이미지를 재구성할 수 있었습니다 . 이 임베딩 벡터는 "텍스트 반전"이라고 하는 최적화 프로세스를 통해 발견되었습니다.

텍스트 임베딩 : BERT와 같은 일반적인 텍스트 인코딩 모델은 텍스트 처리 단계로 시작합니다(그림 2, 왼쪽). 먼저 입력 문자열의 각 단어 또는 하위 단어가 미리 정의된 사전에 대한 색인인 토큰으로 변환됩니다. 그런 다음 각 토큰은 인덱스 기반 조회를 통해 검색할 수 있는 고유한 임베딩 벡터와 연결됩니다. 이러한 임베딩 벡터는 일반적으로 텍스트 인코더 c θ c_θ 로 사용됩니다.학습의 일부. 우리 작업에서는 이 임베딩 공간을 반전 대상으로 선택합니다. 특히 자리 표시자 문자열 S ∗ S_∗ 를 지정합니다.에스우리가 배우고자 하는 새로운 개념을 나타냅니다. 새로 학습된 임베딩 벡터 v∗v_∗ 로 임베딩 프로세스에 개입합니다.V토큰화된 문자열과 관련된 벡터를 대체하면 본질적으로 해당 개념을 어휘에 "주입"합니다. 이렇게 함으로써 우리는 다른 단어와 마찬가지로 개념을 포함하는 새로운 문장을 만들 수 있습니다.

텍스트 반전 : 이러한 새로운 임베딩 벡터를 찾기 위해 다양한 배경이나 자세와 같은 여러 가지 컨텍스트에서 대상 개념을 포함하는 작은 이미지 모음(일반적으로 3-5개)을 사용합니다. 직접 최적화를 통해 v ∗ v_∗를 찾습니다.V즉, 작은 이미지 세트에서 샘플링된 이미지의 LDM 손실로 최소화됩니다. 생성 조건을 지정하기 위해 CLIP ImageNet 템플릿에서 파생된 중립적인 문맥 텍스트를 무작위로 샘플링합니다. 이 템플릿에는 "A photo of S*", "A rendition of S*" 등의 형식 프롬프트가 포함되어 있습니다.

구현 세부 정보 : 달리 명시되지 않는 한 LDM의 원래 하이퍼 매개 변수 선택을 유지합니다. 단어 임베딩 벡터는 객체에 대한 단어의 대략적인 설명자의 임베딩으로 초기화됩니다(예: 그림 1의 두 개념에 대한 대략적인 설명자는 "sculpture" 및 "cat"임). 실험에서는 배치 크기가 4인 2개의 V100 GPU를 사용합니다. 기본 학습률은 0.005로 설정됩니다. LDM 후 GPU 수와 배치 크기에 따라 기본 학습 속도를 추가로 조정하여 효과적인 학습 속도를 0.04로 만듭니다. 모든 결과는 5,000개의 최적화 단계를 거친 후에 얻습니다. 우리는 이러한 매개변수가 대부분의 경우에 효과적이라는 것을 발견했습니다. 그러나 일부 개념의 경우 단계 수를 줄이거나 학습률을 높이면 더 나은 결과를 얻을 수 있음을 확인했습니다.

4. 실험

우리는 먼저 단일 유사어를 사용하여 객체의 다양한 변형을 캡처하고 재생성하는 방법을 보여줍니다. 그림 3에서는 우리의 방법을 사람의 캡션에 의해 안내되는 LDM과 사람의 캡션 또는 이미지 큐에 의해 안내되는 DALLE-2의 두 가지 기본 방법과 비교합니다. Mechanical Turk를 사용하여 타이틀을 수집했습니다. 참가자들은 4개의 컨셉 이미지를 제공받았고 아티스트가 이를 재현할 수 있는 방식으로 설명하도록 요청받았습니다. 짧은(≤ 12단어) 제목과 긴(≤ 30단어) 제목을 요청합니다. 각 컨셉별로 총 10개의 제목을 모았는데, 그 중 5개는 짧고 5개는 길었습니다. 그림 3은 무작위로 선택된 제목이 있는 각 설정에 대한 여러 결과를 나타냅니다.

결과에서 알 수 있듯이 우리의 방법은 개념의 고유한 세부 사항을 더 잘 캡처합니다. 사람의 캡션은 종종 개체의 가장 두드러진 특징을 캡처할 수 있지만 주전자의 색상 패턴과 같은 미묘한 특징을 재구성하기에는 세부 정보를 제공하지 않습니다. 경우에 따라(두개 컵과 같은) 자연 언어를 통해 개체 자체를 설명하는 것이 매우 어려울 수 있습니다. 이미지가 제공되었을 때 DALLE-2는 특히 디테일이 제한된 잘 알려진 물체(예: 알라딘의 요술 램프)에 대해 더 매력적인 샘플을 재현할 수 있었습니다. 그러나 이미지 인코더(CLIP)(예: 머그, 찻주전자)에서 볼 수 없는 고유한 개인화된 개체의 세부 정보로 여전히 어려움을 겪고 있습니다. 대조적으로 우리의 방법은 이러한 미세한 세부 사항을 성공적으로 캡처하고 단일 단어 임베딩만 사용합니다. 그러나 우리가 만든 것이 소스 개체에 더 가깝지만 여전히 소스 개체와 다를 수 있는 변형이라는 점에 유의하는 것이 중요합니다.
여기에 이미지 설명 삽입
그림 1과 3에서는 학습된 의사 단어를 새로운 조건부 텍스트에 통합하여 새로운 시나리오를 구성하는 능력을 보여줍니다. 각 개념에 대해 생성된 이미지 및 조건부 텍스트와 함께 훈련 세트의 예를 보여줍니다. 우리의 결과가 보여주듯이 고정된 텍스트-이미지 모델은 새로운 개념과 방대한 사전 지식에 대해 동시에 추론하여 새로운 생성에 결합할 수 있습니다. 중요한 것은 우리의 학습 목표가 생성적이지만 의사 단어에는 여전히 모델이 활용할 수 있는 의미론적 개념이 포함되어 있다는 것입니다.

Supongo que te gusta

Origin blog.csdn.net/qq_43800752/article/details/131090033
Recomendado
Clasificación