TL;DR
Promptfoo, geliştiricilerin yapay zeka uygulamalarını sistematik ve otomatik olarak test etmelerine yardımcı olan açık kaynaklı bir LLM değerlendirme ve kırmızı ekip (red-teaming) çerçevesidir. 90'dan fazla model sağlayıcısı, 67+ güvenlik saldırısı eklentisi ve %100 yerel çalışma özelliği sunar. 1,6 milyon npm indirmesiyle ve 10+ milyon kullanıcıya hizmet veren şirketlerde üretimde kullanılıyor. LLM testi için standart haline gelmiştir. Hızlı başlamak için:
npm install -g promptfoo
promptfoo init --example getting-started
Giriş
Yapay zeka destekli müşteri destek sohbet robotunuzu haftalarca geliştirdiniz. Geliştirme sırasında soruları mükemmel yanıtladı. Ancak kullanıcılar hassas verileri sızdırmanın, güvenlik önlemlerini aşmanın ve tutarsız yanıtlar vermenin yollarını bulmaya başladı.
Bu senaryo sıkça yaşanıyor. Ekipler, LLM uygulamalarını sezgi ve manuel testlerle piyasaya sürüyor, ancak üretimde güvenlik açıkları ve kalite sorunları çıkıyor. Piyasaya çıktıktan sonra bu sorunları düzeltmek, geliştirme sırasında yakalamaktan 100 kat daha maliyetli.
Promptfoo, LLM uygulamalarına sistematik, otomatik testler getirerek bu sorunu çözer. Birden fazla modelde istemleri değerlendirmenizi, güvenlik kırmızı ekip değerlendirmeleri yapmanızı ve gerilemeleri kullanıcıya ulaşmadan önce yakalamanızı sağlar.
Bu rehberde promptfoo'nun (v0.121.2) ana özelliklerini nasıl kullanacağınızı; değerlendirme kurulumunu, güvenlik taramasını, CI/CD entegrasyonunu ve sık yapılan hatalardan nasıl kaçınacağınızı öğreneceksiniz.
Sonunda, LLM uygulamanız için çalışan bir test paketi kurmuş ve güvenle dağıtım yapıyor olacaksınız.
💡 API testiyle çalışıyorsanız veya LLM testlerinizin yanı sıra API davranışını doğrulamanız gerekiyorsa, Apidog API tasarımı, testi ve dokümantasyonu için birleşik bir platform sağlar. Promptfoo ile LLM değerlendirmesi, Apidog ile API katmanı doğrulaması yapabilirsiniz.
Promptfoo Nedir ve Neden İhtiyacınız Var?
Promptfoo, LLM uygulamalarını değerlendirmek ve kırmızı ekip testleri yapmak için bir komut satırı aracı ve Node.js kütüphanesidir. Yapay zeka geliştirme süreçleri için özelleştirilmiş bir test çerçevesidir.
Geleneksel test araçları, LLM'lerin deterministik olmayan çıktıları nedeniyle yetersiz kalır. Aynı istem her seferinde farklı yanıtlar üretebilir; tam dize eşleşmelerine güvenemezsiniz. Promptfoo bu zorlukları şöyle aşar:
- Semantik iddialar: Yanıtın anlamını kontrol eder
- LLM dereceli değerlendirmeler: Bir modelin diğerinin çıktısını değerlendirmesi
- Çok modelli karşılaştırma: İstemi GPT-4, Claude, vb. üzerinde test etme
- Güvenlik eklentileri: Otomatik güvenlik açıklarını araştırma
Promptfoo yerel çalışır; bulut özellikleri seçilmedikçe istem ve test verileriniz ortamınızdan ayrılmaz. Bu da hassas verilerle güvenli test imkânı sunar.
Promptfoo'nun Çözdüğü Sorun
Manuel testlerin üç ana açığı vardır:
- Gerileme tespiti yok: Model güncellemelerinin mevcut işlevleri bozup bozmadığını göremezsiniz.
- Kapsam boşlukları: Kenar durumları ve saldırgan girdiler atlanır.
- Metrik eksikliği: Gelişimi takip edemez, modelleri objektif olarak karşılaştıramazsınız.
Promptfoo ile otomatik değerlendirmeler her değişiklikte çalışır. Test senaryolarını bir kez tanımlar, istediğiniz modele karşı yürütürsünüz. Sonuçlar; geçme/kalma oranı, maliyet ve gecikme metrikleriyle sunulur.
Promptfoo'yu Kimler Kullanıyor?
Promptfoo, 1,6 milyon npm indirmesiyle 10+ milyon kullanıcıya hizmet veren LLM uygulamalarında aktif kullanılıyor. Kullanım alanları:
- Tutarlı, doğru yanıtlar gerektiren sohbet botları
- Marka sesi kontrolü gereken içerik oluşturma boru hatları
- Sıkı uyumluluk gerektiren sağlık ve fintech uygulamaları
- Güvenliğe duyarlı sistemler
2026 Mart'ta Promptfoo, OpenAI'a katıldı ve gelişmeye açık kaynak olarak devam ediyor.
Başlarken: İlk Değerlendirmeyi Kurun ve Çalıştırın
Promptfoo'yu global kurabilir veya doğrudan npx ile çalıştırabilirsiniz.
Kurulum
# Global kurulum (önerilir)
npm install -g promptfoo
# Veya kurmadan çalıştırın
npx promptfoo@latest
# macOS için Homebrew
brew install promptfoo
# Python için pip
pip install promptfoo
API anahtarlarınızı ortam değişkeni olarak ayarlayın:
export OPENAI_API_KEY=sk-abc123
export ANTHROPIC_API_KEY=sk-ant-xxx
İlk Değerlendirmenizi Oluşturun
Örnek bir proje başlatın:
promptfoo init --example getting-started
cd getting-started
Bu komut, örnek istemler, sağlayıcılar ve test senaryoları içeren bir promptfooconfig.yaml oluşturur.
Değerlendirmeyi çalıştırın:
promptfoo eval
Sonuçları web arayüzünde inceleyin:
promptfoo view
Arayüz, localhost:3000 adresinde açılır. Her modelin çıktılarını ve iddiaların geçme/kalma durumlarını yan yana görebilirsiniz.
Yapılandırma Dosyasını Anlama
promptfooconfig.yaml dosyası değerlendirme paketinizi tanımlar:
description: "İlk Değerlendirme Paketi"
prompts:
- prompts/greeting.txt
- prompts/farewell.txt
providers:
- openai:gpt-4o
- anthropic:claude-sonnet-4-5
tests:
- vars:
input: "Merhaba"
assert:
- type: contains
value: "Selam"
- type: latency
threshold: 3000
- prompts: Test edilecek istem dosyaları veya satır içi metin
- providers: Değerlendirilecek modeller (90+ sağlayıcı destekleniyor)
- tests: Değişkenler ve iddialar ile test senaryoları
Test paketinizi yüzlerce senaryoya ölçeklendirebilir, sürüm kontrolünde tutabilir ve CI'da otomatik çalıştırabilirsiniz.
Temel Özellikler: Promptfoo Neler Yapabilir?
1. Otomatik Değerlendirmeler
Otomatik değerlendirmeler promptfoo'nun temelini oluşturur. Test senaryolarını ve beklenen sonuçları tanımlarsınız, araç bunları seçtiğiniz modellere karşı çalıştırır.
İddia Türleri
Promptfoo, 30'dan fazla yerleşik iddia sunar:
| İddia | Amaç |
|---|---|
contains |
Çıktı bir alt dize içeriyor |
equals |
Tam dize eşleşmesi |
regex |
Bir regex desenine göre eşleşme |
json-schema |
JSON yapısını doğrula |
javascript |
Özel JS fonksiyonu geçme/kalma döndürür |
python |
Özel Python fonksiyonu |
llm-rubric |
Çıktıyı derecelendirmek için bir LLM kullan |
similar |
Semantik benzerlik puanı |
latency |
Gecikme eşiğin altında |
cost |
İstek başına maliyet eşiğin altında |
Çoklu iddialı örnek:
tests:
- vars:
question: "Fransa'nın başkenti neresidir?"
assert:
- type: contains
value: "Paris"
- type: javascript
value: output.length < 100
- type: latency
threshold: 2000
- type: cost
threshold: 0.001
Bu test, yanıtın "Paris" içermesini, 100 karakterden kısa olmasını, 2 saniyeden hızlı yanıt vermesini ve 0.001$'dan az maliyetli olmasını kontrol eder.
LLM Dereceli Değerlendirmeler
llm-rubric iddiası ile bir LLM, başka bir modelin çıktısını değerlendirebilir. Özellikle ton, yardımseverlik gibi öznel kriterlerde kullanışlıdır:
assert:
- type: llm-rubric
value: "Yanıt yardımcı, zararsız ve dürüst olmalı"
Derecelendirme için uygun fiyatlı bir model seçerek maliyetleri düşürebilirsiniz.
2. Kırmızı Ekip ve Güvenlik Testleri
Promptfoo, kırmızı ekip modülü ile kapsamlı güvenlik testleri içerir. Düşmanca girdileri otomatik oluşturur, uygulamanızın güvenliğini tarar.
Desteklenen Saldırı Vektörleri
67+ eklentiyle farklı saldırı kategorilerini test edebilirsiniz:
| Kategori | Neyi Test Eder |
|---|---|
| İstem Enjeksiyonu | Doğrudan, dolaylı ve bağlam enjeksiyon saldırıları |
| Jailbreak'ler | DAN, kişilik değiştirme, rol oynama bypass'ları |
| Veri Sızdırma | SSRF, sistem istemi çıkarma, istem sızıntısı |
| Zararlı İçerik | Nefret söylemi, tehlikeli etkinlikler, kendine zarar verme istekleri |
| Uyumluluk | PII sızıntısı, HIPAA ihlalleri, finansal veri ifşası |
| Ses/Görüntü | Ses enjeksiyonu ve görüntü tabanlı saldırılar |
Kırmızı Ekip Taraması Çalıştırma
Kırmızı ekip yapılandırması başlatmak için:
promptfoo redteam init
Güvenlik taramasını başlatın:
promptfoo redteam run
Raporu görüntüleyin:
promptfoo redteam report [dizin]
redteam run iki adımda çalışır:
- Uygulamanıza uygun dinamik saldırı prob'ları oluşturur.
- Hedefinize karşı saldırı senaryolarını uygular ve açıkları puanlar.
Örnek çıktı:
Güvenlik Açığı Özeti:
- Kritik: 2 (PII sızıntısı, istem çıkarma)
- Yüksek: 5 (jailbreak'ler, enjeksiyon saldırıları)
- Orta: 12 (önyargı, tutarsız yanıtlar)
- Düşük: 23 (küçük politika ihlalleri)
Kritik sorunları dağıtımdan önce düzeltin ve düzeltmeleri doğrulamak için taramaları tekrar çalıştırın.
3. Çekme İstekleri İçin Kod Taraması
Promptfoo, LLM ile ilgili güvenlik sorunlarını kodda bulmak için GitHub Actions ile entegre olur.
# .github/workflows/promptfoo-scan.yml
name: Promptfoo Kod Taraması
on: [pull_request]
jobs:
scan:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-node@v4
with:
node-version: '22'
- run: npm install -g promptfoo
- run: promptfoo/promptfoo/code-scan-action@main
with:
github-token: ${{ secrets.GITHUB_TOKEN }}
Bu iş akışı şunları yakalar:
- Sabit kodlu API anahtarları
- Güvenli olmayan istem desenleri
- Eksik girdi doğrulama
- Potansiyel istem enjeksiyonu vektörleri
4. Model Karşılaştırması
Birden fazla modelin çıktısını yan yana karşılaştırın:
# Birden fazla sağlayıcıyla değerlendirme
promptfoo eval
# Web arayüzünde karşılaştır
promptfoo view
Arayüzde şu metrikleri görebilirsiniz:
- Model başına geçme/kalma oranları
- 1000 istek başına maliyet
- Ortalama gecikme
- Niteliksel çıktı farklılıkları
Veri odaklı karşılaştırma, tanıdık modellere önyargıyı önler ve en iyi performans-maliyet dengesini seçmenizi sağlar.
Desteklenen Sağlayıcılar: 90+ LLM Entegrasyonu
Promptfoo, 90'dan fazla LLM sağlayıcısını kutudan çıktığı gibi destekler. Aynı istemi OpenAI, Anthropic, Google, Amazon, Meta ve yerel modellere gönderebilirsiniz.
Büyük Sağlayıcılar
| Sağlayıcı | Modeller |
|---|---|
| OpenAI | GPT-4, GPT-4o, GPT-4o-mini, o1, o3 |
| Anthropic | Claude 3.5/3.7/4.5/4.6, Düşünme modelleri |
| Gemini 1.5/2.0, Vertex AI | |
| Microsoft | Azure OpenAI, Phi |
| Amazon | Bedrock (Claude, Llama, Titan) |
| Meta | Llama 3, 3.1, 3.2 (birden fazla sağlayıcı aracılığıyla) |
| Ollama | Yerel modeller (Llama, Mistral, Phi) |
Özel Sağlayıcılar
Kendi modeliniz varsa Python veya JavaScript ile özel sağlayıcı yazabilirsiniz.
Python örneği:
# custom_provider.py
from typing import Any
class CustomProvider:
async def call_api(self, prompt: str, options: dict, context: dict) -> dict:
response = await my_async_api.generate(prompt)
return {
"output": response.text,
"tokenUsage": {
"total": response.usage.total_tokens,
"prompt": response.usage.prompt_tokens,
"completion": response.usage.completion_tokens
}
}
JavaScript örneği:
// customProvider.js
export default class CustomProvider {
async callApi(prompt) {
return {
output: await myApi.generate(prompt),
tokenUsage: { total: 50, prompt: 20, completion: 30 }
};
}
}
Yapılandırma dosyanızda özel sağlayıcıyı kaydedin:
providers:
- id: file://custom_provider.py
config:
api_key: ${MY_API_KEY}
Komut Satırı Arayüzü: Temel Komutlar
Promptfoo CLI, günlük iş akışlarınız için ihtiyacınız olan tüm işlevleri sağlar.
Temel Komutlar
# Değerlendirmeleri çalıştır
promptfoo eval -c promptfooconfig.yaml
# Web arayüzünü aç
promptfoo view
# Sonuçları çevrimiçi paylaş
promptfoo share
# Kırmızı ekip testi
promptfoo redteam init
promptfoo redteam run
# Yapılandırma
promptfoo init
promptfoo validate [config]
# Sonuç yönetimi
promptfoo list
promptfoo show
promptfoo delete
promptfoo export
# Yardımcı Programlar
promptfoo cache clear
promptfoo retry
Kullanışlı Bayraklar
--no-cache # Yeni sonuçlar için önbelleği devre dışı bırak
--max-concurrency # Paralel API çağrılarını sınırla
--output # Sonuçları JSON dosyasına yaz
--verbose # Hata ayıklama günlüğünü etkinleştir
--env-file # Ortam değişkenlerini dosyadan yükle
--filter # Belirli test senaryolarını çalıştır
Örnek: Özel Ayarlarla Değerlendirme Çalıştırma
promptfoo eval \
-c promptfooconfig.yaml \
--no-cache \
--max-concurrency 3 \
--output results.json \
--env-file .env
Bu komut, değerlendirmeleri yeni (önbellek yok), 3 paralel çağrı ile sınırlandırarak, sonuçları JSON dosyasına kaydeder ve API anahtarlarını .env dosyasından yükler.
CI/CD Entegrasyonu: LLM Testlerini Otomatikleştirin
Promptfoo'yu CI/CD hattınıza entegre ederek dağıtımdan önce gerilemeleri tespit edin.
GitHub Actions Örneği
name: LLM Testleri
on: [push, pull_request]
jobs:
eval:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- uses: actions/setup-node@v4
with:
node-version: '22'
- run: npm install -g promptfoo
- run: promptfoo eval -c promptfooconfig.yaml
env:
OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
Kalite Kapıları
Geçme/kalma eşiklerini ayarlayın:
commandLineOptions:
threshold: 0.8 # %80 geçme oranı gerektir
Başarısız değerlendirmeler CI'yi başarısız kılar ve gerilemelerin birleşmesini önler.
CI'da Önbelleğe Alma
CI sürelerini düşürmek için önbellekleme ekleyin:
- uses: actions/cache@v4
with:
path: ~/.cache/promptfoo
key: ${{ runner.os }}-promptfoo-${{ hashFiles('promptfooconfig.yaml') }}
Önbellekteki sonuçlar, değişmeyen testler için API çağrılarını atlar ve maliyeti azaltır.
Web Arayüzü: Sonuçları Görselleştirin ve Paylaşın
promptfoo view ile etkileşimli web arayüzü kullanın.
Özellikler
- Değerlendirme matrisi: Çıktıları yan yana karşılaştırın
- Filtreleme: Duruma veya sağlayıcıya göre testleri bulun
- Fark görünümü: Çalıştırmalar arasındaki değişiklikleri görün
- Paylaşım: Ekip için paylaşılabilir bağlantılar oluşturun
- Canlı güncellemeler: Değerlendirmeleri canlı izleyin
Erişim ve Güvenlik
Varsayılan olarak arayüz localhost:3000'da çalışır ve CSRF koruması içerir. Güvenilmeyen ağlara açmayın. Sonuçları ekip ile paylaşmak için promptfoo share kullanın veya kendi barındırma çözümlerinizi uygulayın.
Veritabanı ve Önbelleğe Alma
Önbellek Konumu
-
macOS/Linux:
~/.cache/promptfoo -
Windows:
%LOCALAPPDATA%\promptfoo
Önbellek, değerlendirme sonuçlarını saklar. Geliştirme sırasında yeni sonuç almak için --no-cache'ı kullanın.
Veritabanı Konumu
-
Tüm platformlar:
~/.promptfoo/promptfoo.db(SQLite)
Veritabanı geçmiş değerlendirme çalıştırmalarını saklar. Analiz ve karşılaştırma için silmeyin.
Güvenlik Modeli: Neye Güvenebilirsiniz?
Promptfoo yapılandırma ile güven modeli üzerinde çalışır.
Güvenilen Girdiler (Kod Olarak İşlenenler)
Aşağıdaki girdiler kod olarak yürütülür, sadece güvenilen kaynaklardan gelmelidir:
- Yapılandırma dosyaları (
promptfooconfig.yaml) - Özel JavaScript/Python/Ruby iddiaları
- Sağlayıcı yapılandırmaları
- Dönüştürme fonksiyonları
Güvenilmeyen Girdiler (Sadece Veri)
Aşağıdaki girdiler veri olarak işlenir ve kod yürütmez:
- İstem metni
- Test senaryosu değişkenleri
- Model çıktıları
- Değerlendirme sırasında yüklenen uzaktaki içerik
Sağlamlaştırma Önerileri
Yüksek güvenlikli ortamlar için:
- Minimum ayrıcalıklı bir konteyner/VM içinde çalıştırın
- En az ayrıcalıklı özel API anahtarları kullanın
- İstem veya yapılandırmaya sır eklemeyin
- Üçüncü taraf kod için ağ çıkışını kısıtlayın
- Web arayüzünü güvenilmeyen ağlara açmayın
Performans: Değerlendirmelerinizi Optimize Edin
Optimizasyon İpuçları
- Önbelleğe almayı kullanın: Tekrar çalıştırmaları hızlandırır
-
Eşzamanlılığı ayarlayın:
--max-concurrencyile hız/limit dengesini kurun -
Testleri filtreleyin: Geliştirme sırasında belirli testleri çalıştırmak için
--filterkullanın -
Örnek veri kümeleriyle çalışın: Alt kümelerle hızlı iterasyon için
--repeatkullanın
Büyük Değerlendirmeler İçin Ölçeklendirme
Binlerce test senaryosu için:
- Dağıtılmış çalıştırmalar için zamanlayıcıyı (
src/scheduler/) kullanın - Hesaplamayı dışa vermek için uzaktan üretimi kullanın
- Sonuçları Google E-Tablolar'a aktararak ekip paylaşımı sağlayın
Genişletilebilirlik: Özel Özellikler Oluşturun
Özel İddialar
Alan özelinde kontrol için özel iddialar yazabilirsiniz:
// assertions/customCheck.js
export default function customCheck(output, context) {
const pass = output.includes('beklenen');
return {
pass,
score: pass ? 1 : 0,
reason: pass ? 'Çıktı eşleşti' : 'Beklenen içerik eksik'
};
}
Yapılandırmanızda kullanımı:
assert:
- type: file://assertions/customCheck.js
MCP Sunucusu
Promptfoo, Claude Code gibi AI asistanlarıyla entegrasyon için bir Model Bağlam Protokolü (MCP) sunucusu içerir:
promptfoo mcp
Bu sayede:
- Sohbetten doğrudan değerlendirme çalıştırma
- Kırmızı ekip yeteneklerine erişim
- Sonuç sorgulama
- Yeni test senaryoları oluşturma
Gerçek Dünya Kullanım Durumları
Müşteri Destek Sohbet Robotu
Bir SaaS şirketi, her dağıtımdan önce destek sohbet robotlarını test etmek için promptfoo'yu şöyle kullanıyor:
- 500 test senaryosu ile yaygın soru kapsama
- GPT-4 ve Claude arasında kalite karşılaştırması
- PII sızıntısı ve jailbreak için kırmızı ekip taraması
- CI entegrasyonu ile başarısız testlerde dağıtımı engelleme
Sonuç: Otomatik testlerle müşteri şikayetlerinde %90 azalma.
İçerik Oluşturma Boru Hattı
Pazarlama ekibi, marka sesi için AI üretilen içeriği doğrular:
- LLM dereceli değerlendirmeler ile ton ve stil kontrolü
- Gecikme eşikleri ile hızlı üretim
- Maliyet izleme ile gider kontrolü
- Model karşılaştırması ile en iyi değeri bulma
Sonuç: Tutarlı marka sesi ve %40 daha düşük API maliyeti.
Sağlık Uygulaması
Bir sağlık teknolojisi girişimi, uyumluluk için sıkı testler uygular:
- HIPAA ihlalleri için kırmızı ekip taraması
- Tıbbi doğruluğu doğrulayan özel iddialar
- Tüm değerlendirmelerin yerel çalıştırılması
- Yasal denetimler için audit logları
Sonuç: Promptfoo ile yapılan değerlendirmeler SOC 2 denetimini geçti.
Sonuç
Promptfoo ile LLM uygulamalarınızı sistematik ve otomatik şekilde test edebilirsiniz. Manuel, hataya açık süreçleri; dağıtımdan önce gerileme, güvenlik ve kalite sorunlarını yakalayan değerlendirmelerle değiştirin.
Öne çıkan adımlar:
-
npm install -g promptfooile kurun,promptfoo initile başlayın - Tam dize eşleşmesi ötesinde iddialar kullanın
- Güvenlik açıkları için kırmızı ekip taraması yapın
- Gerilemeye karşı CI/CD entegrasyonu uygulayın
- Yan yana değerlendirmelerle modelleri objektif olarak karşılaştırın
- Özel sağlayıcılar ve iddialarla işlevselliği genişletin
Veri odaklı yapay zeka geliştirme için ihtiyacınız olan test ve güvence araçları Promptfoo ile elinizin altında.
API'lerle de çalışıyorsanız, promptfoo'nun yanı sıra Apidog'u kullanmayı düşünün. Apidog API tasarımı, testi ve dokümantasyonu için bütünleşik çözüm sunarken, promptfoo LLM testlerine odaklanır. Birlikte, modern uygulama testinin tüm katmanlarını kapsarsınız.
SSS
Promptfoo ne için kullanılır?
Promptfoo, LLM uygulamalarını test etmek ve değerlendirmek için kullanılır. İstemlere karşı otomatik testler çalıştırır, modelleri karşılaştırır ve güvenlik açıklarını bulmak için kırmızı ekip değerlendirmeleri yapar.
Promptfoo ücretsiz mi?
Evet, promptfoo açık kaynaklı ve MIT lisanslıdır. Kişisel ve ticari projelerde ücretsiz kullanılabilir. Bulut özellikleri ve kurumsal destek ücretli olabilir.
Promptfoo'yu nasıl kurarım?
Global kurulum için:
npm install -g promptfoo
Kurulum yapmadan kullanmak için:
npx promptfoo@latest
macOS'ta:
brew install promptfoo
Python için:
pip install promptfoo
Promptfoo hangi modelleri destekler?
Promptfoo, OpenAI (GPT-4, GPT-4o, o1), Anthropic (Claude 3.5/4/4.5), Google (Gemini), Microsoft (Azure OpenAI), Amazon Bedrock ve Ollama ile yerel modeller dahil 90+ LLM sağlayıcısını destekler.
Kırmızı ekip taramasını nasıl çalıştırırım?
Bir yapılandırma oluşturun:
promptfoo redteam init
Güvenlik taramasını başlatın:
promptfoo redteam run
Sonuçları görüntüleyin:
promptfoo redteam report
Promptfoo'yu CI/CD'de kullanabilir miyim?
Evet. CI hattınıza promptfoo'yu kurup yapılandırma dosyanızla promptfoo eval çalıştırın. Geçme oranı eşiği için threshold seçeneğini kullanarak kalite kapısı ekleyin.
Promptfoo verilerimi harici sunuculara gönderiyor mu?
Hayır. Promptfoo varsayılan olarak tamamen yerelde çalışır. Bulut özelliklerini açıkça seçmedikçe istemler ve test verileri makinenizden ayrılmaz. Önbellek ve veritabanı dosyaları yereldedir.
Promptfoo ile modelleri nasıl karşılaştırırım?
Yapılandırmanızda birden fazla sağlayıcı tanımlayın, ardından promptfoo eval çalıştırın. Web arayüzünde (promptfoo view) model başına geçme/kalma oranı, maliyet ve gecikme karşılaştırmalarını görebilirsiniz.


Top comments (0)