DEV Community

정상록
정상록

Posted on

AI 에이전트가 GIMP, Blender를 CLI로 조작한다? CLI-Anything 오픈소스 둘러보기

TL;DR

홍콩대 HKUDS 연구팀이 공개한 CLI-Anything은 소프트웨어 소스코드를 입력하면 AI 에이전트용 CLI를 자동 생성하는 오픈소스 도구입니다. MCP 서버 대비 토큰 33% 절감, Computer Use 대비 속도 10배 이상 빠르고, 1,436개 테스트 100% 통과했습니다.


문제: AI 에이전트가 소프트웨어를 쓰기 힘들다

AI 에이전트가 GIMP로 이미지를 편집하거나 Blender로 3D 모델을 만들려면, 에이전트에게 "소프트웨어를 쓸 수 있는 손"을 줘야 합니다. 지금까지 세 가지 방법이 있었어요.

방법 1: Computer Use (GUI 에이전트)

에이전트 → 스크린샷 캡처 → 화면 인식 → 마우스 좌표 계산 → 클릭 시뮬레이션
Enter fullscreen mode Exit fullscreen mode

문제:

  • 느림 (하나의 동작에 여러 스크린샷 필요)
  • 불안정 (UI 변경되면 동작 안 함)
  • 토큰 소비 많음 (스크린샷 인코딩)

방법 2: MCP 서버

소프트웨어별 전용 프로토콜 설계 → 서버 구현 → 스키마 주입 → 호출
Enter fullscreen mode Exit fullscreen mode

문제:

  • 소프트웨어마다 별도 개발 필요
  • 토큰 300개 소비 (스키마)
  • 확장성 낮음

방법 3: API 래퍼

수동으로 API 스펙 분석 → 래퍼 코드 작성 → 테스트
Enter fullscreen mode Exit fullscreen mode

문제:

  • 확장성 거의 없음
  • 라이브러리 업데이트되면 유지보수 필요

해결: CLI-Anything

비유: GUI 에이전트가 "로봇이 마우스 잡고 화면 보면서 클릭"이라면, CLI-Anything은 "로봇 전용 리모컨을 만들어주는 것"입니다.

# 소스코드 입력
input: GIMP 소스코드 (Python + C)

# 7단계 자동 파이프라인
분석  설계  구현  테스트 계획  테스트 작성  문서화  배포

# 출력: AI 에이전트용 CLI
output: cli-anything-gimp
  - 구조화된 명령어
  - JSON 출력
  - REPL 모드
  - 완전한 테스트 스위트
Enter fullscreen mode Exit fullscreen mode

왜 CLI가 AI 에이전트에게 최적일까?

1. 토큰 효율 (33% 절감)

도구 토큰 사용
Computer Use ~1,000+ (스크린샷)
MCP 서버 ~300 (스키마 주입)
CLI-Anything ~200

2. 결정론성

# 같은 명령 → 항상 같은 결과
cli-anything-gimp project new --width 1920 --height 1080

# GUI 에이전트처럼 "이번엔 UI가 변경됨"이 없음
Enter fullscreen mode Exit fullscreen mode

3. 자동 도구 발견

# CLI 한 줄로 사용 가능한 모든 명령 확인
cli-anything-gimp --help
Enter fullscreen mode Exit fullscreen mode

4. 속도

구조화된 텍스트 입출력 vs 화면 인식 비교 불가. 엄청 빠릅니다.


검증: 1,436개 테스트 100% 통과

CLI-Anything은 실제 소프트웨어 백엔드를 직접 호출합니다. 대체 구현이 아니라, 진짜 GIMP, Blender 기능 100%.

GIMP (107개) + Blender (208개) + Inkscape (202개) + Audacity (161개)
+ LibreOffice (158개) + OBS Studio (153개) + Kdenlive (155개)
+ Shotcut (154개) + Draw.io (138개)
= 1,436개 테스트, 100% 통과
Enter fullscreen mode Exit fullscreen mode

이미지 편집부터 3D 모델링, 오디오 제작, 비디오 편집, 문서 처리까지 다양한 도메인을 커버합니다.


설치 & 사용 방법

Step 1: 설치

# GitHub 클론
git clone https://github.com/HKUDS/CLI-Anything.git
cd CLI-Anything

# 플러그인 설치
cp -r cli-anything-plugin ~/.claude/plugins/cli-anything
/reload-plugins
Enter fullscreen mode Exit fullscreen mode

또는 Claude Code 마켓플레이스:

/plugin install HKUDS/CLI-Anything
Enter fullscreen mode Exit fullscreen mode

Step 2: CLI 생성

# GIMP 소스코드 분석해서 CLI 자동 생성
/cli-anything ./gimp
Enter fullscreen mode Exit fullscreen mode

Step 3: 사용

# 새 프로젝트 생성
cli-anything-gimp project new --width 1920 --height 1080 -o poster.json

# JSON 출력 (에이전트가 파싱 쉬움)
cli-anything-gimp --json layer add -n "Background" --type solid --color "#1a1a2e"

# REPL 모드 (대화형)
cli-anything-gimp
> project new --width 1920 --height 1080
> layer add -n "Background"
> save output.xcf
Enter fullscreen mode Exit fullscreen mode

Step 4: 에이전트 통합

# Claude Code에서
/research "이미지 3장을 2560x1440으로 리사이징"

# 내부적으로
import subprocess
subprocess.run([
  'cli-anything-gimp',
  'image',
  'resize',
  '--width', '2560',
  '--height', '1440',
  '--file', 'input.jpg'
])
Enter fullscreen mode Exit fullscreen mode

CLI-Anything vs MCP vs Computer Use

비교 항목 CLI-Anything MCP 서버 Computer Use
설정 소스코드 → 자동 생성 소프트웨어별 개발 설정 불필요
속도 빠름 보통 느림 (10배+)
안정성 높음 (결정론적) 높음 낮음 (UI 취약)
범용성 소스코드 있는 소프트웨어 커버 안 된 소프트웨어 많음 화면 있으면 모두 가능
토큰 효율 ~200 ~300 ~1,000+
확장성 높음 (자동화) 낮음 (수동) 높음 (범용)

개발팀: HKUDS (홍콩대학교)

  • Chao Huang 교수: Google Scholar 인용 11,000+, h-index 55
  • 연구실: GitHub Stars 77,000+ (글로벌 Top-200)
  • 대표 프로젝트:
    • LightRAG (29,000+ Stars)
    • RAG-Anything
    • DeepCode
    • AutoAgent

"논문만 쓰는 연구실"이 아니라, 실무에 바로 적용 가능한 오픈소스를 지속적으로 내놓는 팀입니다.


배운 점

  1. CLI의 부활 — "2026년 초부터 CLI vs MCP 논쟁이 뜨겁다"는 건 사실이었어요. 그리고 CLI-Anything이 그 논쟁의 구체적 답변입니다.

  2. Authentic Software Integration — 대체 구현이 아니라 실제 백엔드 호출. 이게 신뢰성을 확보하는 핵심입니다.

  3. 자동화의 강력함 — 소프트웨어 9개, 1,436개 테스트를 사람이 일일이 작성했을 리 없습니다. 7단계 자동 파이프라인이 있어야 가능합니다.


마무리

AI 에이전트를 활용한 자동화를 고려하고 있다면, CLI-Anything은 검토해볼 가치가 있는 도구입니다.

공식 링크:

혹시 이미 이 도구를 사용해보셨거나, AI 에이전트의 소프트웨어 통합에 다른 접근을 해보셨다면 댓글로 공유해주세요!

Top comments (0)