Jenil Sheth

Posted on Feb 24

Understanding Vision Transforemer With Storytelling in Hindi

#tutorial #ai #programming #deeplearning

Vision Transformers as Civilization

भाग 1: दृष्टि-संस्कृति का उदय

प्रस्तावना: जब देखने ने सोचना सीखा

कहते हैं, सभ्यताएँ तब जन्म लेती हैं जब मनुष्य केवल देखना नहीं, समझना सीख जाता है।
पर एक ऐसी भी सभ्यता थी—जहाँ देखने की कला को ही विचार का दर्जा दे दिया गया।
उस सभ्यता का नाम था — दृष्टि-संस्कृति।

यह कथा उसी की है।

अध्याय 1: अखंड दृश्य का संकट

सम्राट अद्वैत के साम्राज्य में सब कुछ था—पर्वत, नदियाँ, नगर, वन, मरुस्थल।
पर एक समस्या थी।

कोई भी चित्रकार जब इस साम्राज्य का मानचित्र बनाता, तो या तो वह बारीकियों में खो जाता, या समग्रता में।

किसी को संपूर्णता समझ नहीं आती थी।

सभा में एक युवा चिंतक आया—विहान।

उसने कहा:

“महाराज, समस्या दृष्टि की सीमा में नहीं, पद्धति की जड़ता में है।
हम सम्पूर्ण को एक साथ पकड़ना चाहते हैं,
जबकि समझ टुकड़ों के संवाद से जन्म लेती है।”

सभा मौन हो गई।

अध्याय 2: विभाजन का विधान

विहान ने विशाल कैनवास भूमि पर फैलाया।

उसने उसे एक साथ चित्रित नहीं किया।

उसने उसे बाँट दिया।

समान आकार के वर्गों में।

हर वर्ग—एक संसार।
हर टुकड़ा—एक कथा।

विहान ने घोषणा की:

“अब कोई भी इस साम्राज्य को एक साथ नहीं देखेगा।
हर कोई एक छोटे से भाग को समझेगा।
और फिर हम उन समझों को मिलाएँगे।”

इस विभाजन में विनाश नहीं था।
यह बोध का अनुशासन था।

अध्याय 3: रूपांतरण का संस्कार

पर विहान जानता था—ये टुकड़े अभी कच्चे हैं।

उन्होंने रंग तो देखे हैं, पर भाषा नहीं सीखी।

इसलिए हर टुकड़े को राजसभा की प्रयोगशाला में ले जाया गया।
वहाँ उन्हें एक नई भाषा में बदला गया।

उनके रंग, उनकी रेखाएँ, उनकी गहराई—
सबको संक्षिप्त सूत्रों में परिवर्तित किया गया।

अब हर टुकड़ा एक वाक्य था।

चित्र अब विचार बन चुका था।

अध्याय 4: स्थान की स्मृति

पर समस्या अभी शेष थी।

यदि इन वाक्यों का क्रम बदल जाए,
तो अर्थ बदल जाएगा।

विहान ने प्रत्येक टुकड़े के पीछे एक अदृश्य अंकन कर दिया।
यह अंकन बताता था—

“तुम उत्तर के हो।”
“तुम नदी के किनारे से आए हो।”
“तुम पहाड़ की ढलान का अंश हो।”

यह स्थान की स्मृति थी।

बिना स्मृति, ज्ञान दिशाहीन हो जाता है।

अध्याय 5: संवाद-संस्कृति का आरंभ

अब वह क्षण आया जिसने दृष्टि-संस्कृति को जन्म दिया।

एक विशाल गोलाकार सभा बनाई गई।

सभी टुकड़े—अब विचारों के रूप में—वहाँ रखे गए।

विहान ने नियम घोषित किया:

“कोई भी अकेला सत्य नहीं है।
हर टुकड़ा हर दूसरे से पूछेगा—
तुम मेरे लिए कितने महत्वपूर्ण हो?”

सभा में हलचल हुई।

एक नीला टुकड़ा बोला:

“क्या कोई तट है जो मुझे अर्थ देता है?”

एक भूरे रंग का टुकड़ा उत्तर देता है:

“मैं हूँ—मैं तुम्हारी सीमा हूँ।”

एक हरा टुकड़ा कहता है:

“मेरे बिना वर्षा का अर्थ नहीं।”

और इस प्रकार—

संबंधों के धागे खिंचने लगे।

कुछ धागे सुनहरे थे—गहरे संबंध।
कुछ धुंधले—सतही जुड़ाव।

सभा अब एक जाल थी।
एक जीवित तंत्र।

यह था—संवाद का विज्ञान।

अध्याय 6: बहु-दृष्टि परिषद

विहान ने देखा—एक दृष्टि पर्याप्त नहीं।

उसने परिषद बनाई।

एक समूह रंगों के संबंध देखता था।
एक समूह आकृतियों के।
एक दूरी के पैमाने पर सोचता था।
एक भावनात्मक संतुलन देखता था।

एक ही दृश्य—अनेक व्याख्याएँ।

सत्य अब बहुवचन में था।

अध्याय 7: शोधन की भट्टी

संवाद के पश्चात, हर टुकड़े के पास अपार जानकारी थी।

पर जानकारी ज्ञान नहीं होती।

उन्हें एक-एक कर शोधन-भट्टी में भेजा गया।

भट्टी में उनका विस्तार होता—
वे अपने भीतर के अर्थों को फैलाते।

फिर उन्हें दबाया जाता—
सार निकाला जाता।

कच्चा अनुभव → परिष्कृत समझ।

यह प्रक्रिया बार-बार दोहराई गई।

संवाद।
शोधन।
संवाद।
शोधन।

परत-दर-परत।

सभ्यता गहरी होती गई।

अध्याय 8: अभ्यास का युग (प्रशिक्षण)

पर सम्राट ने पूछा—

“क्या यह प्रणाली हर साम्राज्य को समझ सकती है?”

विहान मुस्कुराया।

“नहीं महाराज। इसे सीखना होगा।”

तब शुरू हुआ अभ्यास का युग।

हजारों मानचित्र लाए गए।

हर मानचित्र के साथ एक सत्य जुड़ा था:

“यह वन-प्रधान है।”
“यह जल-समृद्ध है।”
“यह मरुस्थलीय है।”

दृष्टि-संस्कृति ने अनुमान लगाए।

पहले वह भूल करती थी।

तब राजगुरु उसे सुधारते थे।

गलत उत्तर → दंड नहीं, संशोधन।

प्रत्येक त्रुटि के बाद—
सभ्यता अपने संबंधों को थोड़ा बदलती।

कुछ धागे मोटे होते।
कुछ कट जाते।

धीरे-धीरे—

वह अनुमान से अधिक सटीक होने लगी।

यह था—अनुभव से संशोधन का युग।

अध्याय 9: स्थिरता का विधान

जब अभ्यास पूर्ण हुआ,
सभ्यता स्थिर हो गई।

अब संबंध स्थायी थे।

अब नए मानचित्र आते।

सभा होती।
संवाद होता।
शोधन होता।
और अंतिम दूत निर्णय सुनाता।

पर अब कोई संशोधन नहीं होता।

यह था—निर्णय का काल।

अध्याय 10: अंतिम दूत

सभा के मध्य एक अद्भुत तत्व था।

एक ऐसा टुकड़ा जिसका अपना कोई चित्र नहीं था।

वह केवल सुनता था।

सबसे संवाद करता।
सबकी रिपोर्ट लेता।

अंत में वही सम्राट के सामने खड़ा होता।

वह कहता:

“यह दृश्य जल-प्रधान है।”
“यह पर्वतीय है।”
“यह समृद्ध है।”

सम्राट चकित होते।

उन्हें नहीं दिखता था जो उस दूत को दिखता था।

उपसंहार: दृष्टि का दर्शन

वर्षों बाद,

जब विहान वृद्ध हो चुका था,
उससे पूछा गया—

“तुमने यह सब कैसे रचा?”

वह बोला:

“मैंने कुछ नया नहीं बनाया।
मैंने केवल हर हिस्से को
हर दूसरे हिस्से से बात करने दिया।
सत्य स्वयं प्रकट हो गया।”

और यही दृष्टि-संस्कृति की विरासत बनी।

जहाँ देखना केवल पिक्सेल नहीं रहा,
बल्कि संबंधों की चेतना बन गया।

Vision Transformers as Civilization — डिकोडिंग

कहानी से कोड तक: पूरी Training + Inference Pipeline

अब हम पूरी सभ्यता को तकनीकी रूप में पुनर्निर्मित करेंगे।

हम हर अध्याय को कोड में बदलेंगे।

🏛 अध्याय → Architecture Mapping

कहानी	ViT Component
टुकड़ों में विभाजन	Patch Embedding
भाषा में रूपांतरण	Linear Projection
स्थान की स्मृति	Positional Embedding
बहु-दृष्टि परिषद	Multi-Head Self Attention
शोधन भट्टी	MLP Block
संवाद + शोधन की परतें	Transformer Encoder Layers
अंतिम दूत	CLS Token
अभ्यास का युग	Training Loop
स्थिर निर्णय	Inference

🧱 STEP 1: विभाजन का विधान (Patch Embedding)

कहानी में:

साम्राज्य को समान वर्गों में बाँटा गया।

तकनीकी रूप:

Image: (B, C, H, W)
Patch size: P x P

import torch
import torch.nn as nn

class PatchEmbedding(nn.Module):
    def __init__(self, img_size=224, patch_size=16, in_channels=3, embed_dim=768):
        super().__init__()

        self.patch_size = patch_size
        self.num_patches = (img_size // patch_size) ** 2

        # Linear Projection using Conv
        self.proj = nn.Conv2d(
            in_channels,
            embed_dim,
            kernel_size=patch_size,
            stride=patch_size
        )

    def forward(self, x):
        x = self.proj(x)              # (B, embed_dim, H/P, W/P)
        x = x.flatten(2)              # (B, embed_dim, N)
        x = x.transpose(1, 2)         # (B, N, embed_dim)
        return x

🧠 क्या हुआ?

Conv2d यहाँ flatten + linear दोनों कर रहा है।
हर patch → 768 dimension vector।
अब हर टुकड़ा “विचार” बन गया।

🏷 STEP 2: स्थान की स्मृति (Positional Embedding)

कहानी में:

हर टुकड़े के पीछे अंकन।

class PositionalEmbedding(nn.Module):
    def __init__(self, num_patches, embed_dim):
        super().__init__()
        self.pos_embedding = nn.Parameter(
            torch.randn(1, num_patches + 1, embed_dim)
        )

    def forward(self, x):
        return x + self.pos_embedding

+1 क्यों?

👉 क्योंकि हमें CLS token भी जोड़ना है।

👑 STEP 3: अंतिम दूत (CLS Token)

class CLSToken(nn.Module):
    def __init__(self, embed_dim):
        super().__init__()
        self.cls_token = nn.Parameter(torch.randn(1, 1, embed_dim))

    def forward(self, x):
        B = x.size(0)
        cls_tokens = self.cls_token.expand(B, -1, -1)
        return torch.cat((cls_tokens, x), dim=1)

अब sequence shape:

(B, N+1, embed_dim)

CLS = सभा का केंद्रीय दूत

🧠 STEP 4: बहु-दृष्टि परिषद (Multi-Head Self Attention)

कहानी में:

हर टुकड़ा पूछता है — तुम मेरे लिए कितने महत्वपूर्ण हो?

Mathematically:

[
Attention(Q,K,V) = softmax(QK^T / \sqrt{d}) V
]

PyTorch:

class MultiHeadSelfAttention(nn.Module):
    def __init__(self, embed_dim=768, num_heads=12):
        super().__init__()

        self.attn = nn.MultiheadAttention(
            embed_dim,
            num_heads,
            batch_first=True
        )

    def forward(self, x):
        attn_output, _ = self.attn(x, x, x)
        return attn_output

यहाँ:

Q = K = V = x
इसलिए इसे Self-Attention कहते हैं।

यहाँ धागे बन रहे हैं।

🔥 STEP 5: शोधन भट्टी (MLP Block)

class MLP(nn.Module):
    def __init__(self, embed_dim=768, mlp_ratio=4):
        super().__init__()

        self.fc1 = nn.Linear(embed_dim, embed_dim * mlp_ratio)
        self.act = nn.GELU()
        self.fc2 = nn.Linear(embed_dim * mlp_ratio, embed_dim)

    def forward(self, x):
        x = self.fc1(x)
        x = self.act(x)
        x = self.fc2(x)
        return x

Expansion → Compression
ज्ञान का निचोड़।

🏗 STEP 6: एक Transformer Layer

class TransformerEncoderLayer(nn.Module):
    def __init__(self, embed_dim=768, num_heads=12):
        super().__init__()

        self.norm1 = nn.LayerNorm(embed_dim)
        self.attn = MultiHeadSelfAttention(embed_dim, num_heads)

        self.norm2 = nn.LayerNorm(embed_dim)
        self.mlp = MLP(embed_dim)

    def forward(self, x):
        x = x + self.attn(self.norm1(x))   # Residual
        x = x + self.mlp(self.norm2(x))    # Residual
        return x

Residual =
सभ्यता भूलती नहीं, जोड़ती है।

🏛 STEP 7: पूरी Vision Transformer Model

class VisionTransformer(nn.Module):
    def __init__(
        self,
        img_size=224,
        patch_size=16,
        in_channels=3,
        embed_dim=768,
        depth=12,
        num_heads=12,
        num_classes=1000
    ):
        super().__init__()

        self.patch_embed = PatchEmbedding(
            img_size, patch_size, in_channels, embed_dim
        )

        num_patches = self.patch_embed.num_patches

        self.cls_token = CLSToken(embed_dim)
        self.pos_embed = PositionalEmbedding(num_patches, embed_dim)

        self.encoder = nn.Sequential(
            *[TransformerEncoderLayer(embed_dim, num_heads)
              for _ in range(depth)]
        )

        self.norm = nn.LayerNorm(embed_dim)
        self.head = nn.Linear(embed_dim, num_classes)

    def forward(self, x):
        x = self.patch_embed(x)
        x = self.cls_token(x)
        x = self.pos_embed(x)
        x = self.encoder(x)

        cls_output = x[:, 0]        # Only CLS token
        cls_output = self.norm(cls_output)
        logits = self.head(cls_output)

        return logits

यह पूरी सभ्यता है।

🎓 STEP 8: अभ्यास का युग (Training)

model = VisionTransformer()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=3e-4)

for images, labels in train_loader:

    outputs = model(images)
    loss = criterion(outputs, labels)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

यहाँ क्या हुआ?

अनुमान लगाया
गलती निकाली (loss)
संबंध बदले (backpropagation)

यही सभ्यता का अभ्यास था।

🏁 STEP 9: निर्णय का काल (Inference)

model.eval()

with torch.no_grad():
    outputs = model(test_images)
    predictions = torch.argmax(outputs, dim=1)

अब संबंध स्थिर हैं।
कोई संशोधन नहीं।
सिर्फ निर्णय।

🧩 पूरी Pipeline Flow

Image
 ↓
Patch Split
 ↓
Linear Projection
 ↓
Add CLS Token
 ↓
Add Positional Encoding
 ↓
Transformer Layers (Attention + MLP × L)
 ↓
CLS Token Extract
 ↓
Linear Head
 ↓
Prediction

🧘‍♂️ अंतिम दर्शन

CNN क्या करता है?

Local receptive field

ViT क्या करता है?

Global relational reasoning

ViT = सभ्यता
CNN = कारीगर

DEV Community

Understanding Vision Transforemer With Storytelling in Hindi

Vision Transformers as Civilization

भाग 1: दृष्टि-संस्कृति का उदय

प्रस्तावना: जब देखने ने सोचना सीखा

अध्याय 1: अखंड दृश्य का संकट

अध्याय 2: विभाजन का विधान

अध्याय 3: रूपांतरण का संस्कार

अध्याय 4: स्थान की स्मृति

अध्याय 5: संवाद-संस्कृति का आरंभ

अध्याय 6: बहु-दृष्टि परिषद

अध्याय 7: शोधन की भट्टी

अध्याय 8: अभ्यास का युग (प्रशिक्षण)

अध्याय 9: स्थिरता का विधान

अध्याय 10: अंतिम दूत

उपसंहार: दृष्टि का दर्शन

Vision Transformers as Civilization — डिकोडिंग

कहानी से कोड तक: पूरी Training + Inference Pipeline

🏛 अध्याय → Architecture Mapping

🧱 STEP 1: विभाजन का विधान (Patch Embedding)

कहानी में:

तकनीकी रूप:

🏷 STEP 2: स्थान की स्मृति (Positional Embedding)

कहानी में:

👑 STEP 3: अंतिम दूत (CLS Token)

🧠 STEP 4: बहु-दृष्टि परिषद (Multi-Head Self Attention)

कहानी में:

🔥 STEP 5: शोधन भट्टी (MLP Block)

🏗 STEP 6: एक Transformer Layer

🏛 STEP 7: पूरी Vision Transformer Model

🎓 STEP 8: अभ्यास का युग (Training)

🏁 STEP 9: निर्णय का काल (Inference)

🧩 पूरी Pipeline Flow

🧘‍♂️ अंतिम दर्शन

Top comments (0)