DEV Community

NeNoVen
NeNoVen

Posted on

LLM > LMM (GPT-4V) 대형멀티모달

GPT-4V(ision) 다중 모드 모델

입력(텍스트 및 이미지)의 다양한 "양식"을 수용하고 해당 입력을 기반으로 결과를 반환할 수 있음을 의미

GPT-4V는 9월 24일부터 출시 OpenAI ChatGPT iOS 앱과 웹 인터페이스 모두에서 사용가능

도구를 사용하려면 GPT-4 구독

테스트

  1. 시각적 질문 답변
  2. 광학 문자 인식(OCR)
  3. 수학 OCR
  4. 객체 감지
  5. 보안 문자

제한및안전

이미지에 텍스트나 문자가 누락되었습니다.
누락된 수학 기호
공간적 위치와 색상을 인식하지 못함

비전

GPT-4V는 기계 학습 및 자연어 처리 분야에서 주목할만한 움직임입니다. GPT-4V를 사용하면 자연어로 이미지에 대해 질문하고 후속 질문을 할 수 있으며 모델은 질문을 시도합니다.

GPT-4V는 다양한 일반 이미지 질문에서 좋은 성적을 거두었으며 테스트한 일부 이미지에서 상황에 대한 인식을 보여주었습니다. 예를 들어, GPT-4V는 영화가 무엇인지 텍스트로 알려주지 않고도 이미지에 등장하는 영화에 대한 질문에 성공적으로 답할 수 있었습니다.

일반적인 질문 답변의 경우 GPT-4V가 매우 흥미롭습니다. 과거에는 이러한 목적을 위해 모델이 존재했지만 답변이 유창하지 못한 경우가 많았습니다. GPT-4V는 이미지에 대한 질문에 답변하고 후속 질문을 심층적으로 수행할 수 있습니다.

GPT-4V를 사용하면 2단계 프로세스를 만들지 않고도 이미지에 대해 질문할 수 있습니다(즉, 분류한 다음 그 결과를 사용하여 GPT와 같은 언어 모델에 질문하는 것). GPT-4V가 이해할 수 있는 것에는 제한이 있을 수 있으므로 모델의 성능을 이해하기 위해 사용 사례를 테스트하는 것이 중요합니다.

하지만 GPT-4V에는 한계가 있습니다. 모델이 "환각"을 하여 부정확한 정보를 반환했습니다. 이는 질문에 답하기 위해 언어 모델을 사용할 때 위험합니다. 게다가 모델은 객체 감지를 위한 경계 상자를 정확하게 반환할 수 없었으며 이는 현재 이 사용 사례에 적합하지 않음을 나타냅니다.

우리는 또한 GPT-4V가 사람에 관한 질문에 대답할 수 없다는 사실도 관찰했습니다. 테일러 스위프트의 사진을 제시하고 사진 속 인물이 누구인지 묻자 모델은 답변을 거부했다. OpenAI는 이를 게시된 시스템 카드에서 예상되는 동작으로 정의합니다.

Top comments (0)