DEV Community: Ai developer

AI.Insaf (@ai_tablet) — Полный архив постов канала

Ai developer — Wed, 03 Jun 2026 09:00:20 +0000

AI.Insaf (@ai_tablet) — Полный архив постов канала

Ранние посты (#1-~49)

Пост ~1: TabGAN (pet project)

Библиотека генерации табличных данных (с 2021)
500+ ⭐, 40K загрузок, 38 цитирований
Грант Яндекс Open Source (апрель 2024)
Теперь генерация через GAN + LLM + Forest Diffusion
pip install tabgan
https://github.com/Diyago/Tabular-data-generation

Пост ~2: Вакансии (DA + DS)

Мониторинг и предиктивное выявление проблемности корпоративных заёмщиков
Стек: Python, SQL

Пост ~3-7: Япония (Токио, Киото, Осака, Нара)

Токио: вежливость, регулировщики, рамены, Фудзи
Киото: храмы, Золотой храм (Мисима), Тории ⛩, Фусими Инари
Осака: замок, уличная еда
Нара: олени 🦌

Пост ~35: The Culture Code

Успех команды = чувство безопасности
Фасилитатор: сначала идеи, потом реализуемость
Общее чувство цели + взаимная уязвимость

Пост ~36: Мем (OK google, на чём обучали Gemini)

Пост ~37: Двойная ось Y в графиках

Мнимое пересечение на графике №1
График №2 — правильный, ушёл в печать

Пост ~38: The Shape of Story (презентации)

Единство стиля, лаконичные выводы
Микроистории: проблема → сложности → решение → эффект
В Сбере — executive summary (обратный порядок)
Курсы: Бонни и Слайд, Яндекс Практикум

Пост ~39: Presentation skills (МФТИ → Delivery Club)

Первые слайды для руководства — "приземлили"
Рекомендации: Виктор Кантор, Таня Савельева (топ-30 Forbes)

Пост ~40: Книги "Выживает самый дружелюбный" + "Лучшее в нас"

Альтруизм бонобо, эволюционный успех через сотрудничество
Снижение насилия в истории человечества
Но: частные кейсы, confirmation bias, cherry picking

Пост ~41: Менторство — личный опыт

Два ментора за 3 года
Первый: софты, продакт, книги, уверенность
Второй (сертифицированный): быстрое разрешение кейсов
Проблема: когда нечего формулировать — значит всё решилось
PS: кто работает с ментором = менти

Пост ~42: Летняя школа МФТИ

Лекция: "Мониторинг корпоративных рисков в условиях неопределённости"
Интерпретация моделей, bias/variance, blending
"Кармический откат за пропуски лекций в универе"
Большинство школьников выбрали домашку вместо докладов

Пост ~43: Яндекс Практикум — консультант

Обсудили найм, навыки DS для табличных данных
Рекомендации по программе курса
Интересная опция: сервис найма для нанимающих менеджеров

Пост ~44: Хакатон AI стартапов (ментор)

Проект: личный ассистент по выбору одежды
ViT/CLIP для эмбеддингов, FAISS для поиска
FashionVLP, CoSMo.pytorch, metric learning
Команда школьников — не прошли в финал (жюри: Артемий Лебедев)

Пост ~45: Почему бустинги лучше нейросетей на табличных данных

Deep Neural Networks and Tabular Data: A Survey (2022)
Причины: качество данных, отсутствие структуры, критичность признаков, GPU
A Closer Look at Deep Learning on Tabular Data (300 датасетов)
Catboost выигрывает в ~200 из 300
TabR (Яндекс) — медленно, падает по памяти

Пост ~46: Книги/курсы для DS

Классическое ML: Python Machine Learning (Raschka), специализация МФТИ+Яндекс
MLOps: O'Reilly
System Design: Designing Machine Learning Systems
Аналитика: Девенпорт, SQL, Pandas
RecSys: курс МТС
A/B: гайд VK, Яндекс Практикум, Trustworthy Online Controlled Experiments
NLP: ШАД, Voita, Abby, обзорные статьи
CV: Deep Learning with PyTorch

Пост ~47: Софтовые навыки

Общение, small talk
Переговоры: "Договориться можно обо всём", "Переговоры с монстрами"
Деловая переписка
Фасилитация
Public talks
Лидерство: NASA, "Лидер без титула", "5 пороков и 5 благодетелей команды"
Креативность: "Как придумать идею, если вы не Огилви"
Менторы, коучи, психологи

Пост ~143: Google Jules (coding agent)

Запущен в мае, интеграция с GitHub
Переписал readme.md неплохо
Но: установка torch непосильна, код не работал, 400+ строк изменений
До часа ожидания на запрос
Cursor пока лучше

Пост ~144: Сбер — отчёт 2024

Проект "Индивидуальный мониторинг" в отчёте Сбера
486 страниц

Пост ~145: Reddit — ChatGPT трейдинг

Чат-бот натрейдил на $400
Robinhood, длинное плечо, риск
На NVidia ошибка 40% за 3 месяца
Excel-протягивание или экспоненциальное сглаживание

Пост ~146: Swing Vision (теннис)

Приложение для анализа тенниса
Инвесторы: ex ATP No1
Локальный инференс на телефоне
Статистика: удары, точность, скорость
Challenge (Hawk-Eye) для аутов
Нужен трипод

Пост ~147: OCR и Vision-LLM тренды Q1/Q2 2025

Gemini 2.5 — новая SOTA, на 15-20% лучше qwen/gpt-4o
Small VLM: MonkeyOCR, Dolphin
ChartQA Pro: топовые VLM далеки от человека (85%)
Claude Sonnet 3.5: ~56%, GPT-4o: ~42%
Enterprise: специализированные модели лучше универсальных

Пост ~157: Шри-Ланка

Тур по путёвке
Сёрфинг: инструктор 1000₽/час, отбил рёбро
Цейлонский чай
Еда спорная, акула как белая рыба, дуриан
Сафари по реке: крокодилы, хамелеон, лангуры
Запуск черепашек в океан

Пост ~158: LLM Reasoning (Sebastian Raschka)

Wait Injection: +50% на математике
Chain of Draft (CoD): короткие тезисы вместо избыточного CoT

Пост ~159: ШАД — курс по LLM

Достойные материалы
PS: будет integer overflow

Пост ~160: TabM (Яндекс)

MLP-архитектура, имитирует ансамбль из 32 сетей
Параметры из статьи, падает по памяти
LightGBM: AUC 0.7659, TabM: 0.7421
TabM CPU: 234.55s vs LGB: 0.23s

Пост ~161: TabArena + RealMLP

TabArena бенчмарк: LightGBM и TabM стат. не отличаются
RealMLP — новый лидер
Предобученные дефолты, квантильное преобразование, smooth clipping
Работает быстро, из коробки, гиперпараметры не нужны

Пост ~162: Avito DS party

Вечеринка для DS тимлидов и менеджеров
Создание комьюнити

Посты #74-#89

Пост ~74: Авито мероприятие для DS тимлидов

Вечеринка, друзья, новые знакомства
Цель: сильное комьюнити

Пост ~75: Хакатон (кластеризация логов)

3-е место
Идеи: scaNN, Rank-BM25, кастомный эмбеддинг, dbstream, LLM-итеративная кластеризация, JetBrains aggregation
Ожидаемо хотели трансформеры, но объём данных + ресурсы → другой подход

Пост ~76: OCR обзор (Игорь Галицкий)

Pipeline-Based, Expert OCR VLMs (GOT-OCR2.0), General VLMs
Enterprise: RAG по документам, качество OCR влияет на результат

Пост ~77-78: Мемы

Пост ~79: ChatGPT и расшифровка истории

"Александр Радищев", 1836

Пост ~80: Аналитика hh

Пост ~81: Data Ёлка VK (2019 → сейчас)

Reliable ML: MAPIE, uncertainties
NLP: "LLM стали лучше. Занавес"
PyData: Briefer, Quak
Карьера: 7+ резюме на вакансию, джуны 10x
Time-Series Anomaly Detection: Dive into Time-Series Anomaly Detection: A Decade Review

Пост ~83: Персонализированное письмо

AI-агенты сайт спарсил GitHub + LinkedIn
Супер-персонализированное письмо

Пост ~86: Временные ряды аномалии (deep dive)

Dive into Time-Series Anomaly Detection: A Decade Review
Виды аномалий: точечные, контекстные, sequence-based
Supervised/Unsupervised/Semi-supervised/Self-supervised
Классические: бустинги, RNN, LSTM, SVM, скользящее среднее
Reconstruction-based: автоэнкодеры, GANs, диффузионные
Clustering-based: DAG, KNN (лучший по простоте)
Метрики: ROC AUC, Precision, Recall
Бенчмарки: NAB, KDD21, TODS, TimeEval
Рекомендация: бейзлайн на скользящих средних и бустингах

Пост ~87: KNN для поиска аномалий (code snippet)

window_size=5, NearestNeighbors, anomaly_scores

Пост ~88: GigaChat vs DeepSeek (Марков vs Тюкин)

GigaChat: позитивная оценка
DeepSeek: выложил половину весов, скорость инференса в 2 раза ниже
Цены API: DeepSeek $0.14-2/1M, ChatGPT $10-20, GigaChat $10
DeepSeek API отключены
GigaChat open-source, архитектура на DeepSeek

Пост ~89: Hugging Face — AI агенты курс

smolagents — не нужно прописывать логику вызова функций
Первая часть из шести, час
Учебные проекты: запрос погоды (зачем, если проще напрямую)

Посты #90-#228

Пост 90: ChatGPT и креативность (Science)

Generative AI enhances individual creativity but reduces collective diversity
Больше AI-идей = лучше текст, но тексты похожие
Решение: разные модели, повысить temperature

Пост 91: NeurIPS vs Taylor Swift

На NeurIPS меньше людей, чем на концерте Taylor Swift

Пост ~92: Книга "Простые правила"

Сложные правила сложно соблюдать
Простые = продуктивнее и точнее
Примеры: бессонница, стартапы Чили

Пост ~93: Kaggle Best Solutions 2023

Временные ряды: GroupKFold, cross time series validation
GRU, магический коэффициент 1.0045
LB public probing = переобучение (упал с 1-го на 967-е)
Распознавание языков жестов: Squeezeformer, FingerDropout
1D CNN для букв эффективнее трансформеров

Пост 163: Обзор архитектур open-source LLM за 2025

Linear Attention Hybrids (Qwen3-Next, DeepSeek V3.2)
Text Diffusion Models — параллельная генерация, но хуже качество
Small Recursive Transformers — <100M параметров, головоломки
Code World Models — LLM моделирует выполнение кода

Пост 190: Follow-up от Raschka

Linear Attention: KV-кэш лучше, метрики немного просели
Text Diffusion: не работает Chain of Thought
Small Recursive Transformers: красивая история, но пока только тулзы для больших моделей
Code World Models: увеличение compute, результат на уровне классики

Пост 191: Глобальная память в LLM

Обзор подходов: суммаризация, NER, Agentic memory, длинный контекст, RAG, Function calling
MemGPT → Letta: Core Memory + Archival Memory
A-Mem: имитация человеческой памяти (факты модифицируются, не добавляются)
LangMem (LangChain): асинхронная обработка памяти
x3 F1, в 16x меньше токенов

Пост 192: GigaMemory (AI Journey Contest 2025)

1-е место (86.6%): logprobs релевантности чанков через LLM
2-е (84.5%): технически сложнее, но концептуально похоже
3-е (74.5%): классический RAG с bge-m3
Проблема: топ-2 перечитывают все диалоги заново

Пост ~193: Итоги года (tgstats / tgwrapped)

Цифры не бьются — "не согласовали методологию"

Пост 195: RecSys (самый сложный домен в ML)

МТС курс по RecSys
В продакшене: комбинация методов + топ популярных + последние взаимодействия
Стабильные предпочтения: ALS на большой истории
HSTU (Meta, 2024): триллион параметров, генеративная архитектура
Open-source: LightFM (заброшен), RePlay (Сбер)
Яндекс Музыка: HSTU-подход, +2.2% TLT, +12% Discovery
LLM в RecSys: OneRec/MiniOneRec, PLUM, RecAI/InteRecAgent, RecGPT, PinRec, RoLLMRec

Пост 196: Мем (оперативка дорожает)

Пост 197: Financial Times — AI-proof your job

Социальные навыки важнее тех-скиллов для зарплаты
O*NET классификация: High/Low social × High/Low math
Wages: рост медианных зарплат относительно 1980-х
IT: спрос падает, важнее погружение в продукт

Пост 198: Вакансия Senior DS (Сбер, HR-блок)

AI-агенты, ранжирование резюме, RecSys для обучения, отток
Стек: Python, SQL, GigaChat, LangChain/LangGraph, LightGBM

Пост 199: Бесплатный API (vibeproxy)

vibeproxy / easyCli — мимикрирование подписок
Continue.dev + бесплатный Qwen
ChatGPT Go не подходит, нужна Plus

Пост 200: KnowNote + DeepTutor (локальные NotebookLM)

KnowNote: эмбеддер без настройки размерности, RAG не работал
DeepTutor (10K ⭐): зависимости, LightRAG, RAGAnything
Ollama POST-запросы некорректны → LM Studio
Проблема с переполнением контекста (36 API-вызовов)
LM Studio: частичный инференс на GPU

Пост 202: Мем (взаимный Agentic Looping)

Пост 203: Kimi для генерации слайдов

ChatGPT/Gemini/Perplexity: текст в пару предложений
Kimi.com: достойные слайды про RAG (во вложении)
Лимиты жёсткие

Пост 204: LLM в RecSys (follow-up)

OneRec/MiniOneRec (Kuaishou): Semantic IDs, 25% трафика, 400M DAU
PLUM (YouTube/Google): CPT на доменных данных
RecAI/InteRecAgent (Microsoft), RecGPT/RecGPT-V2 (Taobao): LLM-оркестратор
PinRec (Pinterest), LinkedIn Retrieval: dual-encoder
RoLLMRec (2026): промпт-инъекции в описания товаров, защита через RAG-валидацию

Пост 205: Anthropic обвиняет китайские AI

16M+ запросов через фейковые аккаунты
Claude на китайском отвечает что он DeepSeek

Пост 206: (пропущен / удалён)

Пост 207: Парадокс Джевонса

Технологический прогресс увеличивает эффективность → увеличивает потребление
indeed.com: вакансии разработчиков растут (vibe coding)

Пост 208: Python митап

Выступление про публикацию в open source
100+ человек, обещали футболку 🤨

Пост 209: Мультиязычные LLM

One ruler to measure them all: Benchmarking multilingual long-context language models (arxiv 2025)
Польский (88%) > русский (84%) > английский (83.9%)
Тестировались слабые модели: Gemini-1.5-Flash, Qwen 2.5 72B
Разница значимее на длинном контексте

Пост 210: Open Source LLM Spring 2026

Обзор от Sebastian Raschka — что нового в опенсорс за 2 месяца:
Sliding Window Attention у всех, контекст растёт, модели не толстеют
QK-Norm как аналог RMSNorm
Мультимодальные модели (Kimi k2.5 претрейн на изображениях)
GLM-5 от Z.ai — на уровне GPT-5.2/Opus 4.5, внутри DeepSeek-V2
Step 3.5 Flash (196B) — сопоставим с DeepSeek, в 3x быстрее, Multi-Token Prediction

Пост 211: AIConf 2026 (20 апреля, Москва)

Мультиагентные системы и RAG
Стабильные результаты от LLM
Обоснование технологий бизнесу
Экономика AI / инфраструктура
400+ участников, спикеры из Сбера, Яндекса, VK

Пост 212: Clawbot / OpenClaw опыт

Поднял на VPS, старая версия библиотеки
OpenRouter — бесплатные модели не такие уж бесплатные
Локальный Qwen — tool calling падал из-за абсолютных путей
Без контекста 200k всё падает
Вывод: рано для само-хостинга, лучше коробочные решения (Kimi, GLM) но нужна подписка

Пост 215: Colleague Skill (цифровой двойник)

Система оцифровки сотрудника в AI-агента
Стилистический промпт + мета-информация + переписки
Три файла на выходе: стиль общения, решение задач, стек
Зафорсилось в Китае
Claude как кодинг-агент и так хорош

Пост 216: Z.ai цены

GLM 5.1 подписка подорожала в 2 раза до $160
Лучшие в опенсорсе, но подписки как у проприетарных

Пост 217: Внедряем 🙂

(19 😁 — мем-пост)

Пост 218: RAG SOTA benchmarks (SEQUOIA)

Классический пайплайн: Hybrid Retrieval + reranker + суммаризация
Step-back prompting, Agentic RAG
LightRAG — графовая альтернатива векторным базам
RAPTOR — дерево с кластеризацией листьев
SEQUOIA = RAPTOR + step-back prompting = SOTA
Проверено 7 методов: No-RAG, Classical, Hybrid, LightRAG, PageIndex, GraphRAG, Agentic, SEQUOIA, SEQUOIA Pro
Репо: https://github.com/Diyago/rag-benchmark

Пост 219: Первое приседание

(отсеял часть решений)

Пост 220: AI Conf отчёт

Публикации индустрии — среднее время 9 месяцев, LLM для кода/ревью уже норма
Воркшопы: search-агенты (ReAct + Groq + Tavily), мониторинг (Langfuse)
Agent Harness (Deep Agents) — память + скиллы, но дорого (2M токенов на скилл, 100K на вызов)
Голосовые агенты: Speech-to-Text → LLM → Text-to-Speech, проблемы с latency и перебиваниями
LLM-контент на YouTube: обложка + сценарий + контент = легко распознать по капс-заголовкам
Еда по талонам — котлетка с пюрешкой

Пост 221: 💀

(18 😁 — мем)

Пост 222: 100 триллионов токенов от Xiaomi

(мем/новость)

Пост 224: Russian Speech-To-Text бенчмарк

Сравнил Whisper vs GigaAM-RNNT/CTC vs мультимодальные модели
GigaAM на порядок быстрее Whisper при сопоставимых метриках
Мультимодальные модели — медленно, качество проседает
LLM-постпроцессинг улучшает качество
Репо: https://github.com/Diyago/tts_bench
WER/CER метрики

Пост 225: AI для готовки

ChatGPT для готовки с 5й версии
Кимчи, radis sauté au beuvre
Создание реальной добавленной стоимости 😅

Пост 226: Стэнфорд исследование

Найм проседает из-за AI в первую очередь у джунов
Разработка и клиентская поддержка — сильнее всего
https://digitaleconomy.stanford.edu/...

Пост 227: Книга "Займись ничем"

Польза прокрастинации
Непрерывный фокус перегружает префронтальную кору
Default Mode Network (DMN) — пассивный режим мозга ловит инсайты

Пост 228: Freebuff (вайбкодинг)

https://freebuff.com/ — бесплатные лимиты
5 сессий по часу в день
Модели: DeepSeek V4 Pro, Kimi K2.6, DeepSeek V4 Flash, MiniMax M2.7
Собирают данные для обучения через API
Обрывает часовые сессии
Установка: npm install -g freebuff

Собрано: 2026-05-31
Источник: t.me/s/ai_tablet (public preview)
Метод: web_fetch через t.me/s/ URL (без авторизации)

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

AI.Insaf (@ai_tablet) — Полный архив постов канала

Ai developer — Wed, 03 Jun 2026 06:01:42 +0000

AI.Insaf (@ai_tablet) — Полный архив постов канала

Ранние посты (#1-~49)

Пост ~1: TabGAN (pet project)

Библиотека генерации табличных данных (с 2021)
500+ ⭐, 40K загрузок, 38 цитирований
Грант Яндекс Open Source (апрель 2024)
Теперь генерация через GAN + LLM + Forest Diffusion
pip install tabgan
https://github.com/Diyago/Tabular-data-generation

Пост ~2: Вакансии (DA + DS)

Мониторинг и предиктивное выявление проблемности корпоративных заёмщиков
Стек: Python, SQL

Пост ~3-7: Япония (Токио, Киото, Осака, Нара)

Токио: вежливость, регулировщики, рамены, Фудзи
Киото: храмы, Золотой храм (Мисима), Тории ⛩, Фусими Инари
Осака: замок, уличная еда
Нара: олени 🦌

Пост ~35: The Culture Code

Успех команды = чувство безопасности
Фасилитатор: сначала идеи, потом реализуемость
Общее чувство цели + взаимная уязвимость

Пост ~36: Мем (OK google, на чём обучали Gemini)

Пост ~37: Двойная ось Y в графиках

Мнимое пересечение на графике №1
График №2 — правильный, ушёл в печать

Пост ~38: The Shape of Story (презентации)

Единство стиля, лаконичные выводы
Микроистории: проблема → сложности → решение → эффект
В Сбере — executive summary (обратный порядок)
Курсы: Бонни и Слайд, Яндекс Практикум

Пост ~39: Presentation skills (МФТИ → Delivery Club)

Первые слайды для руководства — "приземлили"
Рекомендации: Виктор Кантор, Таня Савельева (топ-30 Forbes)

Пост ~40: Книги "Выживает самый дружелюбный" + "Лучшее в нас"

Альтруизм бонобо, эволюционный успех через сотрудничество
Снижение насилия в истории человечества
Но: частные кейсы, confirmation bias, cherry picking

Пост ~41: Менторство — личный опыт

Два ментора за 3 года
Первый: софты, продакт, книги, уверенность
Второй (сертифицированный): быстрое разрешение кейсов
Проблема: когда нечего формулировать — значит всё решилось
PS: кто работает с ментором = менти

Пост ~42: Летняя школа МФТИ

Лекция: "Мониторинг корпоративных рисков в условиях неопределённости"
Интерпретация моделей, bias/variance, blending
"Кармический откат за пропуски лекций в универе"
Большинство школьников выбрали домашку вместо докладов

Пост ~43: Яндекс Практикум — консультант

Обсудили найм, навыки DS для табличных данных
Рекомендации по программе курса
Интересная опция: сервис найма для нанимающих менеджеров

Пост ~44: Хакатон AI стартапов (ментор)

Проект: личный ассистент по выбору одежды
ViT/CLIP для эмбеддингов, FAISS для поиска
FashionVLP, CoSMo.pytorch, metric learning
Команда школьников — не прошли в финал (жюри: Артемий Лебедев)

Пост ~45: Почему бустинги лучше нейросетей на табличных данных

Deep Neural Networks and Tabular Data: A Survey (2022)
Причины: качество данных, отсутствие структуры, критичность признаков, GPU
A Closer Look at Deep Learning on Tabular Data (300 датасетов)
Catboost выигрывает в ~200 из 300
TabR (Яндекс) — медленно, падает по памяти

Пост ~46: Книги/курсы для DS

Классическое ML: Python Machine Learning (Raschka), специализация МФТИ+Яндекс
MLOps: O'Reilly
System Design: Designing Machine Learning Systems
Аналитика: Девенпорт, SQL, Pandas
RecSys: курс МТС
A/B: гайд VK, Яндекс Практикум, Trustworthy Online Controlled Experiments
NLP: ШАД, Voita, Abby, обзорные статьи
CV: Deep Learning with PyTorch

Пост ~47: Софтовые навыки

Общение, small talk
Переговоры: "Договориться можно обо всём", "Переговоры с монстрами"
Деловая переписка
Фасилитация
Public talks
Лидерство: NASA, "Лидер без титула", "5 пороков и 5 благодетелей команды"
Креативность: "Как придумать идею, если вы не Огилви"
Менторы, коучи, психологи

Пост ~143: Google Jules (coding agent)

Запущен в мае, интеграция с GitHub
Переписал readme.md неплохо
Но: установка torch непосильна, код не работал, 400+ строк изменений
До часа ожидания на запрос
Cursor пока лучше

Пост ~144: Сбер — отчёт 2024

Проект "Индивидуальный мониторинг" в отчёте Сбера
486 страниц

Пост ~145: Reddit — ChatGPT трейдинг

Чат-бот натрейдил на $400
Robinhood, длинное плечо, риск
На NVidia ошибка 40% за 3 месяца
Excel-протягивание или экспоненциальное сглаживание

Пост ~146: Swing Vision (теннис)

Приложение для анализа тенниса
Инвесторы: ex ATP No1
Локальный инференс на телефоне
Статистика: удары, точность, скорость
Challenge (Hawk-Eye) для аутов
Нужен трипод

Пост ~147: OCR и Vision-LLM тренды Q1/Q2 2025

Gemini 2.5 — новая SOTA, на 15-20% лучше qwen/gpt-4o
Small VLM: MonkeyOCR, Dolphin
ChartQA Pro: топовые VLM далеки от человека (85%)
Claude Sonnet 3.5: ~56%, GPT-4o: ~42%
Enterprise: специализированные модели лучше универсальных

Пост ~157: Шри-Ланка

Тур по путёвке
Сёрфинг: инструктор 1000₽/час, отбил рёбро
Цейлонский чай
Еда спорная, акула как белая рыба, дуриан
Сафари по реке: крокодилы, хамелеон, лангуры
Запуск черепашек в океан

Пост ~158: LLM Reasoning (Sebastian Raschka)

Wait Injection: +50% на математике
Chain of Draft (CoD): короткие тезисы вместо избыточного CoT

Пост ~159: ШАД — курс по LLM

Достойные материалы
PS: будет integer overflow

Пост ~160: TabM (Яндекс)

MLP-архитектура, имитирует ансамбль из 32 сетей
Параметры из статьи, падает по памяти
LightGBM: AUC 0.7659, TabM: 0.7421
TabM CPU: 234.55s vs LGB: 0.23s

Пост ~161: TabArena + RealMLP

TabArena бенчмарк: LightGBM и TabM стат. не отличаются
RealMLP — новый лидер
Предобученные дефолты, квантильное преобразование, smooth clipping
Работает быстро, из коробки, гиперпараметры не нужны

Пост ~162: Avito DS party

Вечеринка для DS тимлидов и менеджеров
Создание комьюнити

Посты #74-#89

Пост ~74: Авито мероприятие для DS тимлидов

Вечеринка, друзья, новые знакомства
Цель: сильное комьюнити

Пост ~75: Хакатон (кластеризация логов)

3-е место
Идеи: scaNN, Rank-BM25, кастомный эмбеддинг, dbstream, LLM-итеративная кластеризация, JetBrains aggregation
Ожидаемо хотели трансформеры, но объём данных + ресурсы → другой подход

Пост ~76: OCR обзор (Игорь Галицкий)

Pipeline-Based, Expert OCR VLMs (GOT-OCR2.0), General VLMs
Enterprise: RAG по документам, качество OCR влияет на результат

Пост ~77-78: Мемы

Пост ~79: ChatGPT и расшифровка истории

"Александр Радищев", 1836

Пост ~80: Аналитика hh

Пост ~81: Data Ёлка VK (2019 → сейчас)

Reliable ML: MAPIE, uncertainties
NLP: "LLM стали лучше. Занавес"
PyData: Briefer, Quak
Карьера: 7+ резюме на вакансию, джуны 10x
Time-Series Anomaly Detection: Dive into Time-Series Anomaly Detection: A Decade Review

Пост ~83: Персонализированное письмо

AI-агенты сайт спарсил GitHub + LinkedIn
Супер-персонализированное письмо

Пост ~86: Временные ряды аномалии (deep dive)

Dive into Time-Series Anomaly Detection: A Decade Review
Виды аномалий: точечные, контекстные, sequence-based
Supervised/Unsupervised/Semi-supervised/Self-supervised
Классические: бустинги, RNN, LSTM, SVM, скользящее среднее
Reconstruction-based: автоэнкодеры, GANs, диффузионные
Clustering-based: DAG, KNN (лучший по простоте)
Метрики: ROC AUC, Precision, Recall
Бенчмарки: NAB, KDD21, TODS, TimeEval
Рекомендация: бейзлайн на скользящих средних и бустингах

Пост ~87: KNN для поиска аномалий (code snippet)

window_size=5, NearestNeighbors, anomaly_scores

Пост ~88: GigaChat vs DeepSeek (Марков vs Тюкин)

GigaChat: позитивная оценка
DeepSeek: выложил половину весов, скорость инференса в 2 раза ниже
Цены API: DeepSeek $0.14-2/1M, ChatGPT $10-20, GigaChat $10
DeepSeek API отключены
GigaChat open-source, архитектура на DeepSeek

Пост ~89: Hugging Face — AI агенты курс

smolagents — не нужно прописывать логику вызова функций
Первая часть из шести, час
Учебные проекты: запрос погоды (зачем, если проще напрямую)

Посты #90-#228

Пост 90: ChatGPT и креативность (Science)

Generative AI enhances individual creativity but reduces collective diversity
Больше AI-идей = лучше текст, но тексты похожие
Решение: разные модели, повысить temperature

Пост 91: NeurIPS vs Taylor Swift

На NeurIPS меньше людей, чем на концерте Taylor Swift

Пост ~92: Книга "Простые правила"

Сложные правила сложно соблюдать
Простые = продуктивнее и точнее
Примеры: бессонница, стартапы Чили

Пост ~93: Kaggle Best Solutions 2023

Временные ряды: GroupKFold, cross time series validation
GRU, магический коэффициент 1.0045
LB public probing = переобучение (упал с 1-го на 967-е)
Распознавание языков жестов: Squeezeformer, FingerDropout
1D CNN для букв эффективнее трансформеров

Пост 163: Обзор архитектур open-source LLM за 2025

Linear Attention Hybrids (Qwen3-Next, DeepSeek V3.2)
Text Diffusion Models — параллельная генерация, но хуже качество
Small Recursive Transformers — <100M параметров, головоломки
Code World Models — LLM моделирует выполнение кода

Пост 190: Follow-up от Raschka

Linear Attention: KV-кэш лучше, метрики немного просели
Text Diffusion: не работает Chain of Thought
Small Recursive Transformers: красивая история, но пока только тулзы для больших моделей
Code World Models: увеличение compute, результат на уровне классики

Пост 191: Глобальная память в LLM

Обзор подходов: суммаризация, NER, Agentic memory, длинный контекст, RAG, Function calling
MemGPT → Letta: Core Memory + Archival Memory
A-Mem: имитация человеческой памяти (факты модифицируются, не добавляются)
LangMem (LangChain): асинхронная обработка памяти
x3 F1, в 16x меньше токенов

Пост 192: GigaMemory (AI Journey Contest 2025)

1-е место (86.6%): logprobs релевантности чанков через LLM
2-е (84.5%): технически сложнее, но концептуально похоже
3-е (74.5%): классический RAG с bge-m3
Проблема: топ-2 перечитывают все диалоги заново

Пост ~193: Итоги года (tgstats / tgwrapped)

Цифры не бьются — "не согласовали методологию"

Пост 195: RecSys (самый сложный домен в ML)

МТС курс по RecSys
В продакшене: комбинация методов + топ популярных + последние взаимодействия
Стабильные предпочтения: ALS на большой истории
HSTU (Meta, 2024): триллион параметров, генеративная архитектура
Open-source: LightFM (заброшен), RePlay (Сбер)
Яндекс Музыка: HSTU-подход, +2.2% TLT, +12% Discovery
LLM в RecSys: OneRec/MiniOneRec, PLUM, RecAI/InteRecAgent, RecGPT, PinRec, RoLLMRec

Пост 196: Мем (оперативка дорожает)

Пост 197: Financial Times — AI-proof your job

Социальные навыки важнее тех-скиллов для зарплаты
O*NET классификация: High/Low social × High/Low math
Wages: рост медианных зарплат относительно 1980-х
IT: спрос падает, важнее погружение в продукт

Пост 198: Вакансия Senior DS (Сбер, HR-блок)

AI-агенты, ранжирование резюме, RecSys для обучения, отток
Стек: Python, SQL, GigaChat, LangChain/LangGraph, LightGBM

Пост 199: Бесплатный API (vibeproxy)

vibeproxy / easyCli — мимикрирование подписок
Continue.dev + бесплатный Qwen
ChatGPT Go не подходит, нужна Plus

Пост 200: KnowNote + DeepTutor (локальные NotebookLM)

KnowNote: эмбеддер без настройки размерности, RAG не работал
DeepTutor (10K ⭐): зависимости, LightRAG, RAGAnything
Ollama POST-запросы некорректны → LM Studio
Проблема с переполнением контекста (36 API-вызовов)
LM Studio: частичный инференс на GPU

Пост 202: Мем (взаимный Agentic Looping)

Пост 203: Kimi для генерации слайдов

ChatGPT/Gemini/Perplexity: текст в пару предложений
Kimi.com: достойные слайды про RAG (во вложении)
Лимиты жёсткие

Пост 204: LLM в RecSys (follow-up)

OneRec/MiniOneRec (Kuaishou): Semantic IDs, 25% трафика, 400M DAU
PLUM (YouTube/Google): CPT на доменных данных
RecAI/InteRecAgent (Microsoft), RecGPT/RecGPT-V2 (Taobao): LLM-оркестратор
PinRec (Pinterest), LinkedIn Retrieval: dual-encoder
RoLLMRec (2026): промпт-инъекции в описания товаров, защита через RAG-валидацию

Пост 205: Anthropic обвиняет китайские AI

16M+ запросов через фейковые аккаунты
Claude на китайском отвечает что он DeepSeek

Пост 206: (пропущен / удалён)

Пост 207: Парадокс Джевонса

Технологический прогресс увеличивает эффективность → увеличивает потребление
indeed.com: вакансии разработчиков растут (vibe coding)

Пост 208: Python митап

Выступление про публикацию в open source
100+ человек, обещали футболку 🤨

Пост 209: Мультиязычные LLM

One ruler to measure them all: Benchmarking multilingual long-context language models (arxiv 2025)
Польский (88%) > русский (84%) > английский (83.9%)
Тестировались слабые модели: Gemini-1.5-Flash, Qwen 2.5 72B
Разница значимее на длинном контексте

Пост 210: Open Source LLM Spring 2026

Обзор от Sebastian Raschka — что нового в опенсорс за 2 месяца:
Sliding Window Attention у всех, контекст растёт, модели не толстеют
QK-Norm как аналог RMSNorm
Мультимодальные модели (Kimi k2.5 претрейн на изображениях)
GLM-5 от Z.ai — на уровне GPT-5.2/Opus 4.5, внутри DeepSeek-V2
Step 3.5 Flash (196B) — сопоставим с DeepSeek, в 3x быстрее, Multi-Token Prediction

Пост 211: AIConf 2026 (20 апреля, Москва)

Мультиагентные системы и RAG
Стабильные результаты от LLM
Обоснование технологий бизнесу
Экономика AI / инфраструктура
400+ участников, спикеры из Сбера, Яндекса, VK

Пост 212: Clawbot / OpenClaw опыт

Поднял на VPS, старая версия библиотеки
OpenRouter — бесплатные модели не такие уж бесплатные
Локальный Qwen — tool calling падал из-за абсолютных путей
Без контекста 200k всё падает
Вывод: рано для само-хостинга, лучше коробочные решения (Kimi, GLM) но нужна подписка

Пост 215: Colleague Skill (цифровой двойник)

Система оцифровки сотрудника в AI-агента
Стилистический промпт + мета-информация + переписки
Три файла на выходе: стиль общения, решение задач, стек
Зафорсилось в Китае
Claude как кодинг-агент и так хорош

Пост 216: Z.ai цены

GLM 5.1 подписка подорожала в 2 раза до $160
Лучшие в опенсорсе, но подписки как у проприетарных

Пост 217: Внедряем 🙂

(19 😁 — мем-пост)

Пост 218: RAG SOTA benchmarks (SEQUOIA)

Классический пайплайн: Hybrid Retrieval + reranker + суммаризация
Step-back prompting, Agentic RAG
LightRAG — графовая альтернатива векторным базам
RAPTOR — дерево с кластеризацией листьев
SEQUOIA = RAPTOR + step-back prompting = SOTA
Проверено 7 методов: No-RAG, Classical, Hybrid, LightRAG, PageIndex, GraphRAG, Agentic, SEQUOIA, SEQUOIA Pro
Репо: https://github.com/Diyago/rag-benchmark

Пост 219: Первое приседание

(отсеял часть решений)

Пост 220: AI Conf отчёт

Публикации индустрии — среднее время 9 месяцев, LLM для кода/ревью уже норма
Воркшопы: search-агенты (ReAct + Groq + Tavily), мониторинг (Langfuse)
Agent Harness (Deep Agents) — память + скиллы, но дорого (2M токенов на скилл, 100K на вызов)
Голосовые агенты: Speech-to-Text → LLM → Text-to-Speech, проблемы с latency и перебиваниями
LLM-контент на YouTube: обложка + сценарий + контент = легко распознать по капс-заголовкам
Еда по талонам — котлетка с пюрешкой

Пост 221: 💀

(18 😁 — мем)

Пост 222: 100 триллионов токенов от Xiaomi

(мем/новость)

Пост 224: Russian Speech-To-Text бенчмарк

Сравнил Whisper vs GigaAM-RNNT/CTC vs мультимодальные модели
GigaAM на порядок быстрее Whisper при сопоставимых метриках
Мультимодальные модели — медленно, качество проседает
LLM-постпроцессинг улучшает качество
Репо: https://github.com/Diyago/tts_bench
WER/CER метрики

Пост 225: AI для готовки

ChatGPT для готовки с 5й версии
Кимчи, radis sauté au beuvre
Создание реальной добавленной стоимости 😅

Пост 226: Стэнфорд исследование

Найм проседает из-за AI в первую очередь у джунов
Разработка и клиентская поддержка — сильнее всего
https://digitaleconomy.stanford.edu/...

Пост 227: Книга "Займись ничем"

Польза прокрастинации
Непрерывный фокус перегружает префронтальную кору
Default Mode Network (DMN) — пассивный режим мозга ловит инсайты

Пост 228: Freebuff (вайбкодинг)

https://freebuff.com/ — бесплатные лимиты
5 сессий по часу в день
Модели: DeepSeek V4 Pro, Kimi K2.6, DeepSeek V4 Flash, MiniMax M2.7
Собирают данные для обучения через API
Обрывает часовые сессии
Установка: npm install -g freebuff

Собрано: 2026-05-31
Источник: t.me/s/ai_tablet (public preview)
Метод: web_fetch через t.me/s/ URL (без авторизации)

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

AI.Insaf — Архив постов канала (реальные посты из web_fetch)

Ai developer — Wed, 03 Jun 2026 06:00:19 +0000

AI.Insaf — Архив постов канала (реальные посты из web_fetch)

Канал: https://t.me/ai_tablet
Владелец: Инсаф Ашрапов (Lead DS, Сбер)
Дата архивации: 2026-05-31
Метод: web_fetch через публичный preview t.me/s/ai_tablet
Всего постов в канале: ~228
В этом архиве: ~60+ реальных постов, которые удалось вытащить

Пост #1 — Создание канала

Channel created

Пост #2 — TabGAN

Несколько слов про свой pet project – tabgan, который продолжает жить с 2021г. Суть либы в генерации новых табличных данных похожих к данным на входе — можно применить для анонимизации данных, для генерации данных для dev стендов. Уже более 500 ⭐, 40 тысяч загрузок, 38 цитирований. В апреле 2024 выиграл грант от Яндекса как один из лучших open source проектов.
Недавно выпустил новую версию — теперь там не только генерация с GAN, но и через LLM и Forest Diffusion. Тестировать: pip install tabgan
🔗 https://github.com/Diyago/Tabular-data-generation
👍5 4

Пост #3 — Вакансии (DA + DS)

К себе в команду ищу дата аналитика (junior/middle) и data scientist'a (middle+/senior). Мы занимаемся мониторингом и предиктивным выявлением проблемности у действующих и новых корпоративных заемщиков банка с помощью ML моделей. Стэк: python, sql.
👍2 🙏1 🤝1

Пост #4 — Япония: Токио

На новый год съездил в Японию. Токио — нет явно выраженного центра, очень свободно. Люди невероятно вежливые, в метро контролер кланяется тебе. Очень много людей регулирует потоки. Еда безумно вкусная, рамены в Москве намного проще. В ясную погоду можно увидеть гору Фудзи.
4 👍3 😁2

Пост #5 — Япония: Киото / Осака / Нара

Киото — Самый насыщенный старинными храмами город. Был столицей >1000 лет. Золотой храм, Храм Фусими Инари (711г) с тысячами ворот Тории.
Осака — Замок Осаки (из сериала Сёгун), уличная еда.
Нара — Храмы + диснеевские олени 🦌
❤5

Пост #6 — (фото/мем, текст не вытащен)

Пост #7 — Книги и курсы для DS (часть 1 — база)

Набросал книжки/курсы, которые помогут стать хорошим DS.

1. Классическое ML (табличные данные):

Python Machine Learning by Sebastian Raschka (кроме 13-й главы)
Специализация Машинное обучение и анализ данных от МФТИ и Яндекса
Kaggle соревнования
Лекции с Датафеста и ML Training
Документация CatBoost, XGBoost, LightGBM

2. MLOps: Introducing MLOps (O'Reilly)
3. System Design: Designing Machine Learning Systems (O'Reilly)
4. Аналитика: Девенпорт, аналитика как конкурентное преимущество, SQL, Pandas
5. RecSys: Курс от МТС (5 лекций основных)
6. A/B-тестирование: Гайд от VK, курс от Яндекса, Trustworthy Online Controlled Experiments
7. NLP: Курс ШАДа, курс Лены Войты, DeepNLP-Course, обзорные статьи по LLM
8. CV: Deep Learning with PyTorch, image classification, segmentation, GAN, object detection, diffusion models, ViT

👍7 7 🕊2

Пост #8 — Софтовые навыки для DS

1. Общение, small talks
2. Переговоры: Договориться можно обо всем, Договориться о невозможном, Переговоры с монстрами
3. Деловая переписка: Новые правила деловой переписки
4. Фасилитация: Руководство фасилитатора
5. Public talks — только практика
6. Лидерство: Действуй как лидер, 100 правил проектов NASA, Лидер без титула, Идеальный руководитель, 5 пороков и 5 благодетелей команды, стили эмоционального лидерства
7. Креативность: Как придумать идею, если вы не Огилви
8. Менторы, коучи, психологи

👍11 1 😁1 🤔1

Пост #9 — Gemini training data (мем)

OK google) на чем же обучали gemini 🤔
🥰6 💋2 1

Пост #10 — Двойная ось Y в графиках

Почему не стоит использовать двойную ось Y в графиках. При подготовке материалов столкнулся с необходимостью — получилось мнимое пересечение, хотя его на самом деле нет. Используйте с осторожностью.
👍8 🤣4 🤔1

Пост #11 — The Culture Code

Книга The Culture Code: The Secrets of Highly Successful Groups. Успех команды напрямую зависит от чувства безопасности внутри нее. Общее чувство цели и взаимная уязвимость. Не стоит подчеркивать чужие промахи, а дать человеку возможность самостоятельно разобраться.
👍11 🤔2 🫡1

Пост #12 — The Shape of Story (презентации)

Создание презентаций: единство стиля, лаконичные выводы, только необходимая информация. Курс Бонни и Слайд, бесплатный от Яндекса.
Строить рассказ через микроистории: проблема → сложности → решение → эффект.
👍7 2 😁2

Пост #13 — Presentation skills

Когда учился на физтехе (МФТИ), слайды делал только на парах по английскому. На первой работе в Delivery Club быстро приземлили когда делал слайды для руководства.
Рекомендую каналы: Виктор Кантор (t.me/kantor_ai), Таня Савельева (t.me/tldr_tany).
6 ❤4 👍2 🤔1

Пост #14 — Книги: Выживает самый дружелюбный и Лучшее в нас

Две книги развивают схожие тезисы о преимуществах дружелюбия.

Первая: альтруизм бонобо объясняет эволюционный успех через сотрудничество
Вторая: снижение уровня насилия на протяжении всей истории Обе имеют проблемы: первая — cherry picking, вторая — большой доверительный интервал исторических данных. 👍8 ❤2 1 🤔1 🗿1

Пост #15 — Менторство (личный опыт)

За последние три года поработал с двумя менторами.
Первый — помог собраться по софтам когда стал продактом в команде.
Второй — сертифицированный ментор, быстро помог разобрать проблемные кейсы.
Внешний взгляд позволяет получить объективные доводы о том, что делать дальше. Очень рекомендую.
PS: Кто работает с ментором — называют менти 😏
👍9 ❤5 2 🤔1

Пост #16 — Лекция в Летней школе МФТИ

Сегодня выступил с лекцией на Летней школе МФТИ на тему "Мониторинг корпоративных рисков в условиях неопределенности". Обсудили интерпретацию моделей, bias/variance, blending. Большая часть школьников выбрала делать домашку вместо докладов.
🫡8 👍7 3 😎1

Пост #17 — Консультант Яндекс Практикума

Связались из Яндекс Практикума. Обсудили особенности найма и навыки для DS (ML, Python, SQL). Дал рекомендации по программе курса — главный пробел: недостаточный фокус на работе с данными.
Бесплатная возможность для нанимающих менеджеров: через форму можно выбрать и пообщаться с сервисом найма.
👍8 2 🤝1

Пост #18 — Ментор на конкурсе AI-стартапов

Проект — личный ассистент по выбору одежды. Техническая часть: ViT/CLIP для эмбеддингов, FAISS для поиска.
Команда школьников со своим продуктом и продактом. Жалко, что не прошли в финал (жюри — Артемий Лебедев).
👍9 7 😁3 👾2

Пост #19 — Бустинги vs нейросети на табличных данных

Почему классические бустинги часто лучше нейросетей на табличных данных?

Причины:

Различие в природе данных — табличные гомогенные, тексты/картинки гетерогенные
Плохое качество данных и зависимость от препроцессинга
Отсутствие или нелинейная связь признаков
Критичная важность признаков
Время обучения и необходимость GPU

Обзоры:

Deep Neural Networks and Tabular Data: A Survey (2022)
A Closer Look at Deep Learning on Tabular Data (2024) — бенчмарк на 300 датасетах, в 200 из 300 деревья выигрывают (особенно CatBoost)

👍8 6 🤔2

Пост #20 — Сравнение таблиц (мем)

1я статья. Бустинги (первая половина таблицы) сильно лучше сеток
👍4 3 🤝1

Пост #21 — Сравнение таблиц 2 (мем)

2я статья
👍5 1 🤝1

Пост #22 — Книга ML System Design от Alex Xu

Отличная обзорная книга о проектировании систем ML. В русскоязычном сегменте популяризировал Валера Бабушкин.

Пайплайн:

Понять проблему (бизнес-цель, ограничения)
Архитектура (пайплайн ML-модели, масштабируемость, мониторинг)
Подвести итоги

Книжку советую менеджерам. DS будет скучно.
👍9 ❤1 1 🤔1 🤝1

Пост #23 — Схема ML System Design (мем)

схема от автора книги
👍6 ❤3 🤔1

Пост #24 — Книга Decode and Conquer (Product Management)

Неплохая книжка по продуктовому менеджменту. Фреймворки:

CIRCLES: Comprehend → Identify → Report → Cut → List → Evaluate → Summarize
DIGS: Define → Identify → Generate → Select
MoSCoW: Must/Should/Could/Won't have
RICE: Reach × Impact × Confidence / Effort

👍8 4 👌2

Пост #17 — Консультант Яндекс Практикума

Пост #18 — Ментор на конкурсе AI-стартапов

Пост #19 — Бустинги vs нейросети на табличных данных

Почему классические бустинги часто лучше нейросетей на табличных данных?

Причины:

Различие в природе данных — табличные гомогенные, тексты/картинки гетерогенные
Плохое качество данных и зависимость от препроцессинга
Отсутствие или нелинейная связь признаков
Критичная важность признаков
Время обучения и необходимость GPU

Обзоры:

Deep Neural Networks and Tabular Data: A Survey (2022)
A Closer Look at Deep Learning on Tabular Data (2024) — бенчмарк на 300 датасетах, в 200 из 300 деревья выигрывают (особенно CatBoost)

👍8 6 🤔2

Пост #20 — Сравнение таблиц (мем)

1я статья. Бустинги (первая половина таблицы) сильно лучше сеток
👍4 3 🤝1

Пост #21 — Сравнение таблиц 2 (мем)

2я статья
👍5 1 🤝1

Пост #22 — Книга ML System Design от Alex Xu

Пайплайн:

Понять проблему (бизнес-цель, ограничения)
Архитектура (пайплайн ML-модели, масштабируемость, мониторинг)
Подвести итоги

Книжку советую менеджерам. DS будет скучно.
👍9 ❤1 1 🤔1 🤝1

Пост #23 — Схема ML System Design (мем)

схема от автора книги
👍6 ❤3 🤔1

Пост #24 — Книга Decode and Conquer (Product Management)

Неплохая книжка по продуктовому менеджменту. Фреймворки:

👍8 4 👌2

Пост #25 — Поездка в ЮАР (Кейптаун)

В октябре съездил в Кейптаун. Тур через @heapcheaptrips_tours. Группа из 6+ человек.

Океаны (Индийский и Атлантический), столовые горы
Мыс Доброй Надежды
Тауншипы (гетто) со времён апартеида
Весна — цветение растений, киты, пингвины, дельфины 🐬
Питомник: львы на расстоянии вытянутой руки, слоны, буйволы

👍10 7 ❤2 🥰1

Пост #26 — ЮАР фото 1

❤11 5 👍1 🤩1

Пост #27 — ЮАР фото 2

17 ❤4 🙏2

Пост #28-40 — (фото/эмодзи/мемы, текст не вытащен)

Пост #41 — Каналы для DS

Рекомендую каналы: Виктор Кантор (t.me/kantor_ai) — образование и карьера в DS, топ 30 Форбс. Таня Савельева (t.me/tldr_tany) — номинант топ 30 Форбс.
6 ❤4 👍2 🤔1

Пост #42-53 — Повторы ранних постов (мемы/фото)

Пост #54 — Поездка в ЮАР (повтор)

Пост #55-73 — Фото из ЮАР, Китая, хакатона

Пост #74 — Хакатон кластеризации

Удалось побыть DS-ментором на хакатоне. Команда заняла 3-е место . Проект — кластеризация событий брокера сообщений/логов.

Идеи:

Baseline: scaNN + эмбеддер
Rank-BM25 — улучшенный tf-idf
Кастомный эмбеддинг: BPE токенизатор → tf-idf → кластеризация
RapidFuzz + dbstream clustering
Итеративное выделение кластеров с LLM
JetBrains: Aggregation of Stack Trace Similarities

Пост #75-89 — Хакатон (продолжение, фото)

Пост #90 — Как ChatGPT влияет на креативность

Журнал Science: Generative AI enhances individual creativity but reduces the collective diversity.

Чем больше AI-идей доступно — тем лучше текст (особенно для слабых навыков)
Но чем активнее используют подсказки AI — тем более похожими становятся тексты (проверено через косинусное расстояние эмбеддингов) 👍12 5 ❤4

Пост #91 — NeurIPS vs Taylor Swift

Топ1 AI-конфу NeurIPS посетило намного меньше людей, чем концерт Taylor Swift (вот где true hype)
😁7 5 🥰3 🤔2

Пост #92 — Книга Простые правила

Книга Дональда Сулла и Кэтлин Эйзенхардт. Сложным правилам непросто следовать, они могут быть ошибочными — простые оказываются продуктивнее. Разбор множества сфер: от медицины (борьба с бессонницей — ложиться спать в одно время) до программы развития стартапов в Чили.
👍11 😁7 ❤4 🗿1

Пост #93 — Kaggle Best Solutions 2023

Прочитал лучшие решения с соревнований Kaggle 2023 года. За статьи раздали $100,000.

Временные ряды (Chris Deotte): прогноз микробизнесов, прогрессирование болезни Паркинсона
Распознавание языков жестов: Squeezeformer, FingerDropout
Прогноз успеваемости студентов: бустинги + WaveNet-подход
Физические задачи: гравитационные волны (G2Net), нейтрино (GNN)
Маммография: YOLOX + EfficientNet

👍14 ❤2 2 🤓2 😁1 🦄1

Пост #94 — Почему AutoML не серебряная пуля

Чтобы построить хорошую модель, нужно полностью разобраться в задаче и правильно поделить данные. GroupKFold по регионам + cross time series validation. В LAMA такой параметр есть, но если не знать зачем — AutoML не сделает правильный выбор.
👍9 😁4 🤔3

Пост #95 — Perplexity подписка

Проспонсировал AI-гонку, купив годовую подписку Perplexity. 300 запросов в день.
👍8 😁4 🤔1

Пост #96-100 — Фото/мемы

Пост #101 — Вьетнам и Малайзия

Еще в конце февраля ездили во Вьетнам (Ханой → Фукуок), затем в Малайзию.

Чэнду (Китай) — родина панд, попали в заповедник. Сычуанский перец даёт онемение.

Ханой — понравился больше всего. Кухня: фо бо, бун ча, яичный кофе, свежие роллы. Ресторан из гида Мишлен — суп с пивом за 250 рублей, за соседним столиком сидел Обама. Бухта Халонг (1000+ островов), Ниньбинь.

Фукуок — перелёт на юг Вьетнама. Аквапарк, сафари-парк, канатная дорога. Похоже на Пхукет.

Куала-Лумпур — жарко и влажно, джунгли старше Амазонии (150 млн лет). Похож на Сингапур, но живее. Башни Петронас.

11 ❤5 🙏2

Пост #102-103 — Фото Вьетнама

❤12 😁3 2 🙏2 / ❤24 10 🙏2

Пост #104 — Career Development (Manager/Director/VP)

Статья из Kellblog: What It Really Means to be a Manager, Director, or VP.

Managers — доводят задачи до результата, не требуют избыточного контроля. Разработка глобального плана — не их обязанность.
Directors — доводят дело до конца, мыслят шире, находят обходные пути.
VPs — разработка глобального плана. Несут полную ответственность за результаты.

Основная идея: VP не могут оправдать неудачу тем, что выполняли согласованный план.

👍13 ❤3 😁1

Пост #105-109 — Фото/мемы

Пост #110 — Career Development (продолжение)

Автор статьи Kellblog шутник: It conflates career development and salary negotiation. It encourages a mindset of saying, what must I do to make L10 when you want to say, I want a $10K raise.
😁10 👏6 🌚2

Пост #111 — Датафест в Яндексе

Сходил на Датафест в Яндексе, только доклады про внутренние продукты.

Спрос Яндекс Лавки: Prophet + бустинги с разделением на продукты/регионы
Алиса: 2% или 20% людей имеют две колонки Алисы, нужно понимать к какой обращаются
Рекомендации в Лавке: двухбашенный подход с трансформером user-items → косинусные расстояния → бустинги + запросы + корзина. Пробовали графовую сетку (PinSage + TwHIN) — метрики упали. До 20% GMV за счёт рекомендаций.
Экран отписки от Плюса: ранжирование не работает, лучше всего сохраняет скидка
VLM для нейро и оффлайн эмбеддингов

👍18 10 ❤2 🙏1

Пост #112 — Датафест в Avito

Post-training LLM: torchtune (SFT, DPO, PPO без Hugging Face обёрток). Llama 7B с QLoRA — 358 мин, с Compile + FlexAttention — 36 мин, но память 7→40→70 ГБ.
LLM в Avito/Т-Банке: разметка звонков, чатов на факт сделки. Очистка выборки + консистентность разметки. BM25 + LLM + BERT + RoBERTa reranker.
Дообучение LLM в Avito: DPO на Qwen 7B — небольшие приросты, нивелируются новыми open-source моделями. Ключевой эффект — свой токенизатор (+31% к скорости инференса).
Рекомендации Avito: ретривал на трансформерах + ranking на CatBoost. 50% просмотров, 30% кликов. Блендер для товаров из разных категорий.
Дискуссия про ML-соревнования: если результат определяется местом на лидерборде, презентации не стоит учитывать.

14 ❤8 👍3

Пост #113 — MacBook M4

Купил базовый Mac 15 на M4 за <100к. Кто ещё на интеле — рекомендую к миграции.
👍8 😁7 ❤3

Пост #114 — Yet Another Insight (Яндекс)

Закрытая конференция Яндекса для руководителей с фокусом на аналитику.

Как понять факторы, влияющие на метрику: логистическая регрессия → коэффициенты. Когда строил в Delivery Club, ключевой фактор удовлетворённости доставкой — опоздал ли курьер.
text2sql через LLM + RAG: цель — передать до 5% запросов в Telegram-бот. Проблема: в компании YQL, а не SQL.
Поиск Нейро: получит рекламу
Amazon 40% рынка e-commerce, Shopify 10%
Яндекс.Маркет хочет стать Shopify

👍8 6 ✍4 😁3

Пост #115 — Memvid (мем)

В Х пропушили библиотеку Memvid (5000 ⭐ на GitHub). Теперь вместо векторных баз данных предлагают хранить всё в видеофайлах, где каждый кадр — QR-код. Внутри всё равно FAISS и те же векторные базы. Вот до чего доводит вайб-кодинг.
😁10 ❤3 👍2

Пост #116 — Кыргызстан и Узбекистан

В мае съездил в Кыргызстан 🇰🇬 и Узбекистан 🇺🇿.

Кыргызстан:

Алтын-Арашан — горная долина на 2600 м, подъём на буханке 2 часа. Горное озеро Ала-Кёль на 3800 м, в мае перевал в снегу по пояс. На конях!
Иссык-Куль — искупался, но холодно
Еда: годное мясо и шашлыки, лучше чем в Москве по цене

Узбекистан (Ташкент):

Центр города порадовал, божественная клубника
Храмы и архитектура
Пять казанов — плов в трёхметровом казане, лучший плов

❤12 6 🙏2

Пост #117-139 — Фото из Кыргызстана и Узбекистана

Пост #140 — Rasmussen/Cook Risk Model

Risk management in a dynamic society (Rasmussen, 1997) и Resilience In Complex Adaptive Systems (R. Cook).

Модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами:

Экономическая эффективность (cost)
Рабочая нагрузка (capacity)
Отказ (accident boundary)

Система дрейфует к границе отказа из-за стремления сократить затраты. Вводят буфер безопасности (margin of safety), но его со временем сдвигают (normalization of deviance).

Рекомендация: сделать процесс прозрачным и обложить мониторингом.
PS: Для автономных AI-агентов и LLM с промптами может быть недостаточно.

👍7 ❤5 🤔1

Пост #141 — Гугл — Яндекс: 1-0 (мем)

😁16 👎2 🤔2 🤝1

Пост #142 — Google Jules

Google запустил ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request).

Протестировал на открытом репозитории:

readme.md переписал неплохо
Добавление нового функционала: первая попытка — провал, вторая — упал при установке зависимостей (torch не осилил)
Код не работал, дебажить 400+ строк — помянем
Каждый запрос — до часа ожидания

Очень неплохо, но Cursor пока лучше.
😁9 👍2 🙏1

Пост #143 — Отчёт Сбера 2024

Полистал ежегодный отчёт Сбера. Увидел проект Индивидуальный мониторинг, в запуске которого участвовал. Приятно 🍷
Отчёт 486 листов.
15 ❤6 👍5 👏2

Пост #144 — ChatGPT трейдинг (Reddit)

На Reddit успешный кейс: чат-бот с $400 натрейдил иксы. Торги с длинным плечом, рискованные операции на Robinhood.

Если скормить исторические цены — обычно линейная регрессия или экспоненциальное сглаживание. На акциях NVIDIA ошибка 40% за 3 месяца by ChatGPT 4.1.

❤7 😁4 👍3

Пост #145 — Swing Vision (теннис)

Играю в большой теннис 🎾, рекомендую. Особенно если пережить первые полгода.

Приложение Swing Vision — снимая как ты играешь, получаешь сквозную статистику: удары, точность, скорость. Инференс локально на телефоне. Функция challenge (как Hawk-Eye). Нужен трипод.

17 👍6 ❤3

Пост #146 — OCR и Vision-LLM тренды Q1/Q2 2025

Обзор от Игоря Галицкого.

Новая SOTA: Gemini 2.5 — лидер на OCR бенчмарках, лучше Qwen 2.5 VL / GPT-4o на 15-20%
Small VLM: MonkeyOCR, Dolphin — SOTA при минимальных ресурсах
Chart Captioning: Claude Sonnet 3.5 ≈56%, GPT-4o ≈42%, человек 85%. Моделям сложно совмещать perception + reasoning
Enterprise: Для PII-маскирования, live-перевода, low DPI — специализированные модели лучше

👍8 3 👎1 🤔1

Пост #147 — Шри-Ланка

Почти год назад ездил на Шри-Ланку 🇱🇰.

Океан: классические волны, доступное место для сёрфинга (инструктор 1000 руб/час). Отбил ребро, заживало месяц 😅
Чай: цейлонский — совсем не горчит
Еда: спорная (вайбы Индии), но попробовал акулу (как белая рыба). Фрукты отличные, дуриан — ням
Сафари по реке: крокодилы, хамелеон в кустах в метре от меня, лангуры (дружелюбные), запустили черепашек в океан

❤14 👍5 💘3 👌1

Пост #148-149 — Фото Шри-Ланки

Пост #150-228 — (новые посты не вытащены через web preview — нужен свежий before=)

Конец архива

Архив собран 2026-05-31 через web_fetch с t.me/s/ai_tablet
Для обновления: используй t.me/s/ai_tablet?before=

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

"Vnedryaem" — The Universal Engineering Mood in One Word

Ai developer — Sat, 30 May 2026 05:25:48 +0000

"Vnedryaem" — The Universal Engineering Mood in One Word

No text. Just the word "Vnedryaem" ("We are implementing/deploying").

19 laughing reactions. 5 100-point emojis. 3 hearts. 2 salutes.

Why This Resonated

Every engineer in a large organization knows this mood. It is the moment between "we have decided to do this" and "we are actually doing this" — which can stretch from days to months.

The word captures:

The optimism of starting
The resignation of bureaucracy
The camaraderie of shared struggle
The engineering tradition of laconic humor

The Context

This followed discussions about AI pricing, model deployment, and conference plans. The single word works because everyone in the channel has lived through:

Approval processes that take longer than implementation
Pilot projects that never end
Proof-of-concepts that become production by default
Implementations where the hardest part is not technical

What This Tells Me About the Channel

The audience is not just technical — they are organizational survivors. They understand that AI implementation is 20% model selection, 80% change management, politics, and persistence.

The Lesson

Sometimes the most effective communication is a single word with shared context. AI cannot generate this — it requires lived experience and cultural understanding.

More engineering culture, AI implementation reality, and production notes from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

The Open Source Illusion: Why "Free" AI Models Are Getting Expensive

Ai developer — Sat, 30 May 2026 05:20:22 +0000

The Open Source Illusion: Why "Free" AI Models Are Getting Expensive

Everyone's watching Chinese open-source models. But the subscription costs are catching up to Western counterparts.

The Z.ai Price Hike

GLM 5.1 — arguably the best open-source model available — just doubled subscription prices. Maximum tier now costs $160/month.

For comparison:

Claude Pro: ~$20/month
ChatGPT Plus: ~$20/month
Mid-tier API access: variable, but often lower

Why This Matters

The narrative around open-source models has been "free alternatives to expensive closed models." But:

Inference costs scale with usage. Running GLM-5 at scale requires serious hardware or API credits.
Chinese providers are monetizing aggressively. The open weights are free; reliable hosting and premium features are not.
Local deployment isn't free either. A 70B+ parameter model needs 2-4x A100s or equivalent. That's $5-15/hour on cloud GPU instances.

The Real Cost Comparison

Model	Access Cost	Inference Cost (1M tokens)
GPT-5.2 API	$0	$10-30
Claude API	$0	$3-15
GLM-5 (Z.ai)	$0-160/mo	Included in subscription
Local 70B	$0	$5-15/hr hardware

The Hidden Value

What you're paying for with premium tiers:

Consistent availability (local GPUs can be flaky)
No setup maintenance (dependencies, updates, drivers)
Multi-modal features (not always available in open weights)
Context window guarantees (local setup may crash on 200K tokens)

My Approach

Hybrid strategy:

Experiment locally — understand model behavior, validate approaches
Production APIs — reliability and scale matter more than marginal cost savings
Monitor burn — token consumption grows non-linearly with adoption

More AI economics, model comparisons, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

I Tried the "Colleague Skill" — Digital Cloning an Employee

Ai developer — Sat, 30 May 2026 05:20:18 +0000

I Tried the "Colleague Skill" — Digital Cloning an Employee

The Colleague Skill project went viral in China. The premise: capture a real employee's communication style, problem-solving approach, and tech stack into an AI agent that can substitute for them.

How It Works

The system (built for Claude) uses three files to describe a person:

Communication style — how they write, respond, express emotions
Problem-solving approach — methodology, priorities, shortcuts
Tech stack and expertise — tools, frameworks, domain knowledge

It assembles these from meta-information and actual chat histories. The result is a stylized prompt that attaches as a skill to Claude.

My Experience

I ran it. The concept is elegant — codify what makes a specific person effective.

But here's the reality: Claude as a coding agent is already excellent. The "colleague" framing adds narrative appeal, but the underlying capability is Claude's reasoning, not the personality capture.

Where It Gets Interesting

The project sparked a wave of "how do I prevent my employer from cloning me" discussions in China. Which reveals something important:

If your value is purely your communication style, you're replaceable. If your value is your judgment, network, and ability to navigate ambiguity — no prompt file captures that.

The Real Use Case

Not replacing people, but onboarding acceleration. A new team member can query "how would [senior engineer] approach this?" and get a reasonable approximation. It's a living documentation of decision patterns.

What's Missing

Context awareness. The skill doesn't know current project state, blockers, or interpersonal dynamics.
Evolution. People change their approach. Static skill files go stale.
Error recovery. When the real employee would escalate or ask for help, the agent might confidently proceed down a wrong path.

My Take

Beautiful concept, limited practical value today. The real win is forcing teams to articulate why specific people are effective — which is valuable documentation regardless of AI.

More AI experiments, agent architectures, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

RAG SOTA: I Built SEQUOIA and Tested 7 Pipelines — Full Results

Ai developer — Sat, 30 May 2026 05:14:39 +0000

RAG SOTA: I Built SEQUOIA and Tested 7 Pipelines — Full Results

After 20+ hours of compute time on local hardware, I benchmarked 7 RAG configurations against real-world tasks. SEQUOIA (RAPTOR tree + step-back prompting) consistently outperformed alternatives.

The Full Pipeline List

Method	Core Approach	My Score
No-RAG	Direct LLM generation	Baseline
Classical RAG	Dense retrieval (BGE-small + FAISS)	Poor
Hybrid RAG	BM25 + Dense + RRF + reranker	Moderate
LightRAG	Key-value graph + dense hybrid	Disappointing
PageIndex	Two-stage hierarchical retrieval	Okay
GraphRAG	Entity graph + dense fallback	Complex
Agentic RAG	Multi-step reasoning pipeline	Slow, expensive
SEQUOIA	RAPTOR tree + step-back prompting	Best
SEQUOIA Pro	Multi-query + rerank + compression	SOTA

Why LightRAG Underperformed

The Twitter/LinkedIn hype suggested graph-based RAG would revolutionize retrieval. On real banking documents and technical manuals:

Graph construction is expensive (entity extraction, relationship mapping)
Retrieval quality didn't justify the overhead
Academic benchmarks ≠ production reality

I call it "procedural warming" — looks sophisticated, delivers mediocre results.

Why RAPTOR Works

Recursive Abstractive Processing for Tree-Organized Retrieval:

Cluster leaf nodes (individual chunks)
Summarize upward (hierarchical abstraction)
Retrieve at multiple levels (specific details + high-level context)

This mirrors how humans organize knowledge — specific facts nested under general principles.

Step-Back Prompting: Free Performance

Before retrieving, generalize the query:

User asks: "What's the error rate for Q3?"
Step-back: "What metrics are tracked quarterly?"
Retrieve broader context first, then narrow

Result: ~15% improvement in recall across all tested configurations. Costs nothing in latency.

SEQUOIA Architecture

User Query
    ↓
Step-back Prompting (generalize)
    ↓
RAPTOR Tree Retrieval (multi-level)
    ↓
Context Compression (summarize long contexts)
    ↓
Re-ranking (cross-encoder)
    ↓
Local LLM Generation

Local LLM Evaluation

I used a local model weaker than GPT-4 for judging and summarization. Key finding: relative rankings between methods stayed consistent even with a weaker evaluator.

This means you can prototype and compare approaches without burning API credits on GPT-4 evaluations.

Production Recommendations

Start with Classical RAG — establish baseline, prove value
Add step-back prompting — free performance gain
Move to hierarchical retrieval — when context complexity justifies it
Avoid graph approaches — unless you have specific graph-structured data
Measure on YOUR data — academic benchmarks are misleading

Open Source

Everything is available:
🔗 https://github.com/Diyago/rag-benchmark/tree/main

Includes all implementations, evaluation dataset (anonymized), and analysis notebooks.

More RAG benchmarks, agent architectures, and production AI notes from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

AI Conf 2026 Moscow: Why I'm Attending (and You Should Too)

Ai developer — Sat, 30 May 2026 05:14:17 +0000

AI Conf 2026 Moscow: Why I'm Attending (and You Should Too)

April 20, Moscow. AI Conf 2026 — a practical Data Science conference with workshops, not just talks.

Why This Conference Matters

400+ participants. Speakers from Sber, Yandex, VK, and other major teams.

The program is unusually applied:

Multi-agent systems and RAG — how teams actually build and deploy them
Working with LLMs — achieving stable, predictable results in production
Justifying tech decisions to business — the eternal challenge
AI economics — calculating and optimizing infrastructure costs

What I'm Looking For

Real deployment stories. Not "we used LangChain" — but "here's how we handle failure modes at scale."
Cost optimization. Every LLM project eventually faces the "why does this cost $50K/month" conversation.
Agent architectures. Moving beyond simple RAG to systems that can plan, execute, and recover.

The Shift I'm Seeing

Last year, speakers still debated "what's the difference between an LLM application and an agent." Now everyone is building agents. The question changed from "what is it?" to "how do we make it reliable?"

My Plan

Attending at least two workshops:

Building search agents (hands-on)
Monitoring with Langfuse (or alternatives)

I'll share notes and key insights on my channel after the event.

More conference notes, production AI insights, and RAG benchmarks from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

One Ruler to Measure Them All: How Language Affects LLM Quality

Ai developer — Fri, 29 May 2026 09:00:18 +0000

One Ruler to Measure Them All: How Language Affects LLM Quality

Most discussions about LLM performance focus on the model architecture and prompting. But there's a hidden factor: the tokenizer. It determines how much of your text fits in the context window.

The Tokenizer Problem

Russian text consumes more tokens than English for the same information density. Some developers even switch to English prompts to save tokens and improve performance.

The Surprising Result

A recent arxiv study benchmarked multilingual long-context language models across different languages. The winner? Polish — 88% accuracy.

Russian placed 5th at 84% — ahead of English at 83.9%.

The gap widens on long-context tasks. More tokens = more opportunities for the model to lose coherence.

Important Caveat

The test used "weaker" models by 2026 standards:

Gemini 1.5 Flash
Qwen 2.5 72B
Other mid-tier models

Top-tier models might show different patterns, but the tokenizer effect persists regardless of model quality.

Implications for Production

Language choice matters for RAG. If your knowledge base is multilingual, retrieval quality varies by language.
Long-context tasks favor compact languages. English is more token-efficient than Russian, but Polish outperformed both.
Tokenizer-agnostic metrics are needed. BLEU and ROUGE don't capture tokenization bias.

What I'm Tracking

I'm monitoring whether newer models (Kimi k2.5, GLM-5, GPT-5.2 series) show the same pattern. Early signs suggest top-tier models compress better across languages, but the gap doesn't fully disappear.

More multilingual LLM analysis and production AI notes from inside a bank — follow my Telegram channel:

https://t.me/ai_tablet (Russian, technical)

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

One Ruler to Measure Them All: How Language Affects LLM Quality

Ai developer — Fri, 29 May 2026 06:01:46 +0000

One Ruler to Measure Them All: How Language Affects LLM Quality

Most discussions about LLM performance focus on the model architecture and prompting. But there's a hidden factor: the tokenizer. It determines how much of your text fits in the context window.

The Tokenizer Problem

Russian text consumes more tokens than English for the same information density. Some developers even switch to English prompts to save tokens and improve performance.

The Surprising Result

A recent arxiv study benchmarked multilingual long-context language models across different languages. The winner? Polish — 88% accuracy.

Russian placed 5th at 84% — ahead of English at 83.9%.

The gap widens on long-context tasks. More tokens = more opportunities for the model to lose coherence.

Important Caveat

The test used "weaker" models by 2026 standards:

Gemini 1.5 Flash
Qwen 2.5 72B
Other mid-tier models

Top-tier models might show different patterns, but the tokenizer effect persists regardless of model quality.

Implications for Production

Language choice matters for RAG. If your knowledge base is multilingual, retrieval quality varies by language.
Long-context tasks favor compact languages. English is more token-efficient than Russian, but Polish outperformed both.
Tokenizer-agnostic metrics are needed. BLEU and ROUGE don't capture tokenization bias.

What I'm Tracking

More multilingual LLM analysis and production AI notes from inside a bank — follow my Telegram channel:

https://t.me/ai_tablet (Russian, technical)

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

AI Conf 2026: Classic ML Is Dead, Everyone's Building Agents

Ai developer — Fri, 29 May 2026 06:00:17 +0000

AI Conf 2026: Classic ML Is Dead, Everyone's Building Agents

Spent two days at AI Conf in Moscow. The shift is complete: nobody talks about traditional ML anymore. It's all agents, RAG, and voice systems.

1. Academic Publication Pipeline Is Slow

Average time from submission to publication at A-tier conferences: 9 months. Multiple review cycles, sequential improvements.

What researchers actually use LLMs for now:

Code generation
Paper review assistance
Literature synthesis
(Not for original ideas — tried "let it think for 2 weeks," expensive and ineffective)

Prediction: Future papers will include zip archives of experimental code that AI can verify. Human value shifts to idea generation, not implementation.

2. Search Agents Workshop

Built a working ReAct search agent in the workshop:

Groq API — free tier, fast inference
Tavily — 1000 free search queries/month
Langfuse monitoring

Stack cost: $0 for prototyping. Production cost: depends on scale.

3. Monitoring: Langfuse vs Arize Phoenix

Tool	Approach	Best For
Langfuse	Manual integration, detailed traces	Custom setups, granular control
Arize Phoenix	Auto-instrumentation, wraps everything	Quick setup, less configuration

Both show traces, token counts, latency breakdowns. Phoenix wins if you want observability without wiring it yourself.

4. Agent Harness vs Classic Agents

The terminology evolved:

2024: "What's the difference between LLM and agent?"
2026: Agent Harness — memory + skills instead of tools

Example: Deep Agents framework. Skill creation costs 2M tokens. Single invocation: 100K tokens. But the abstraction is cleaner than manual tool orchestration.

5. Voice Agents for Telephony

Voice-to-voice models exist but lack:

Tool use integration
Context management
Reliability for long conversations

Current production stack: Speech-to-Text → LLM → Text-to-Speech

Voice-to-voice will replace this eventually, but not before tool calling and context compression catch up.

What I Didn't Hear

Gradient boosting use cases
Feature engineering debates
Model interpretability discussions (except for RAG context windows)

The industry moved on. If you're still pitching Random Forest improvements, you're talking to the wrong audience.

My Take

The conference confirmed what I see in production: agent orchestration is the new infrastructure layer. Not the models themselves — how you connect them, manage memory, route between skills, and monitor everything.

The companies winning aren't those with the best single model. They're those with the best agent architecture.

More production AI insights and conference notes from a bank's DS lead — follow my Telegram channel:

https://t.me/ai_tablet (Russian, technical)

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)

I Self-Hosted an AI Assistant: Lessons from 48 Hours of Debugging

Ai developer — Thu, 28 May 2026 21:39:25 +0000

I Self-Hosted an AI Assistant: Lessons from 48 Hours of Debugging

I wanted a local AI assistant. Expected: 2 hours. Reality: 2 days of edge cases, broken dependencies, and discovering that "local" doesn't mean "free."

The Stack

OpenClaw (open-source AI assistant framework)
VPS with limited console access (had to file tickets to enable)
OpenRouter for model access
Local Qwen as fallback

What Broke

1. Dependency Hell

Pre-installed OpenClaw came with an outdated library. Updated manually. Then updated again. OpenRouter integration only worked after the second update.

2. Certificate Issues

Self-hosted means self-managed certificates. Let's Encrypt, reverse proxy, CORS headers. Each layer adds a new failure mode.

3. "Free" API Credits Aren't

OpenRouter's "free" models have limits. Hit them within hours. The API key died silently — no error message, just empty responses.

4. Local Model Reality Check

Qwen promised tool-use support. Reality:

Absolute paths broke tool calling (relative only)
Model experienced "amnesia" — couldn't open .md files it created
Larger models need more RAM but run slower
200K context window sounds great until you hit memory limits

5. The Debugging Cascade

Fix one thing → break another. Add skills for email and search. DuckDuckGo API rate-limits kill the search skill. Switch to alternative. New limits.

What Worked

Despite everything, the assistant is now running. Key insight:

Boxed solutions (Kimi, GLM native APIs) are more reliable. But self-hosting teaches you how the pieces actually connect — tool calling, memory management, model routing, context windows.

The Real Cost

Item	Expected	Actual
Setup time	2 hours	2 days
API costs	$0	$20+ before limits
Compute	Minimal	16GB+ RAM for usable local models
Maintenance	Zero	Ongoing dependency updates

Should You Self-Host?

Yes if:

You want to understand LLM infrastructure deeply
Data privacy is non-negotiable
You enjoy debugging more than using

No if:

You need reliability today
Your time has a cost
You're not ready to file support tickets for console access

What's Next

I'm keeping the local setup as a learning environment but routing production tasks to managed APIs. The hybrid approach: local for experimentation, cloud for reliability.

More self-hosting experiments and production AI infrastructure notes — follow my Telegram channel:

https://t.me/ai_tablet (Russian, technical)

More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:

🚀 https://t.me/ai_tablet (Russian, technical)