AI.Insaf — Архив постов канала (реальные посты из web_fetch)
Канал: https://t.me/ai_tablet
Владелец: Инсаф Ашрапов (Lead DS, Сбер)
Дата архивации: 2026-05-31
Метод: web_fetch через публичный preview t.me/s/ai_tablet
Всего постов в канале: ~228
В этом архиве: ~60+ реальных постов, которые удалось вытащить
Пост #1 — Создание канала
Channel created
Пост #2 — TabGAN
Несколько слов про свой pet project – tabgan, который продолжает жить с 2021г. Суть либы в генерации новых табличных данных похожих к данным на входе — можно применить для анонимизации данных, для генерации данных для dev стендов. Уже более 500 ⭐, 40 тысяч загрузок, 38 цитирований. В апреле 2024 выиграл грант от Яндекса как один из лучших open source проектов.
Недавно выпустил новую версию — теперь там не только генерация с GAN, но и через LLM и Forest Diffusion. Тестировать: pip install tabgan
🔗 https://github.com/Diyago/Tabular-data-generation
👍5 4
Пост #3 — Вакансии (DA + DS)
К себе в команду ищу дата аналитика (junior/middle) и data scientist'a (middle+/senior). Мы занимаемся мониторингом и предиктивным выявлением проблемности у действующих и новых корпоративных заемщиков банка с помощью ML моделей. Стэк: python, sql.
👍2 🙏1 🤝1
Пост #4 — Япония: Токио
На новый год съездил в Японию. Токио — нет явно выраженного центра, очень свободно. Люди невероятно вежливые, в метро контролер кланяется тебе. Очень много людей регулирует потоки. Еда безумно вкусная, рамены в Москве намного проще. В ясную погоду можно увидеть гору Фудзи.
4 👍3 😁2
Пост #5 — Япония: Киото / Осака / Нара
Киото — Самый насыщенный старинными храмами город. Был столицей >1000 лет. Золотой храм, Храм Фусими Инари (711г) с тысячами ворот Тории.
Осака — Замок Осаки (из сериала Сёгун), уличная еда.
Нара — Храмы + диснеевские олени 🦌
❤5
Пост #6 — (фото/мем, текст не вытащен)
Пост #7 — Книги и курсы для DS (часть 1 — база)
Набросал книжки/курсы, которые помогут стать хорошим DS.
1. Классическое ML (табличные данные):
- Python Machine Learning by Sebastian Raschka (кроме 13-й главы)
- Специализация Машинное обучение и анализ данных от МФТИ и Яндекса
- Kaggle соревнования
- Лекции с Датафеста и ML Training
- Документация CatBoost, XGBoost, LightGBM
2. MLOps: Introducing MLOps (O'Reilly)
3. System Design: Designing Machine Learning Systems (O'Reilly)
4. Аналитика: Девенпорт, аналитика как конкурентное преимущество, SQL, Pandas
5. RecSys: Курс от МТС (5 лекций основных)
6. A/B-тестирование: Гайд от VK, курс от Яндекса, Trustworthy Online Controlled Experiments
7. NLP: Курс ШАДа, курс Лены Войты, DeepNLP-Course, обзорные статьи по LLM
8. CV: Deep Learning with PyTorch, image classification, segmentation, GAN, object detection, diffusion models, ViT
👍7 7 🕊2
Пост #8 — Софтовые навыки для DS
1. Общение, small talks
2. Переговоры: Договориться можно обо всем, Договориться о невозможном, Переговоры с монстрами
3. Деловая переписка: Новые правила деловой переписки
4. Фасилитация: Руководство фасилитатора
5. Public talks — только практика
6. Лидерство: Действуй как лидер, 100 правил проектов NASA, Лидер без титула, Идеальный руководитель, 5 пороков и 5 благодетелей команды, стили эмоционального лидерства
7. Креативность: Как придумать идею, если вы не Огилви
8. Менторы, коучи, психологи
👍11 1 😁1 🤔1
Пост #9 — Gemini training data (мем)
OK google) на чем же обучали gemini 🤔
🥰6 💋2 1
Пост #10 — Двойная ось Y в графиках
Почему не стоит использовать двойную ось Y в графиках. При подготовке материалов столкнулся с необходимостью — получилось мнимое пересечение, хотя его на самом деле нет. Используйте с осторожностью.
👍8 🤣4 🤔1
Пост #11 — The Culture Code
Книга The Culture Code: The Secrets of Highly Successful Groups. Успех команды напрямую зависит от чувства безопасности внутри нее. Общее чувство цели и взаимная уязвимость. Не стоит подчеркивать чужие промахи, а дать человеку возможность самостоятельно разобраться.
👍11 🤔2 🫡1
Пост #12 — The Shape of Story (презентации)
Создание презентаций: единство стиля, лаконичные выводы, только необходимая информация. Курс Бонни и Слайд, бесплатный от Яндекса.
Строить рассказ через микроистории: проблема → сложности → решение → эффект.
👍7 2 😁2
Пост #13 — Presentation skills
Когда учился на физтехе (МФТИ), слайды делал только на парах по английскому. На первой работе в Delivery Club быстро приземлили когда делал слайды для руководства.
Рекомендую каналы: Виктор Кантор (t.me/kantor_ai), Таня Савельева (t.me/tldr_tany).
6 ❤4 👍2 🤔1
Пост #14 — Книги: Выживает самый дружелюбный и Лучшее в нас
Две книги развивают схожие тезисы о преимуществах дружелюбия.
- Первая: альтруизм бонобо объясняет эволюционный успех через сотрудничество
- Вторая: снижение уровня насилия на протяжении всей истории Обе имеют проблемы: первая — cherry picking, вторая — большой доверительный интервал исторических данных. 👍8 ❤2 1 🤔1 🗿1
Пост #15 — Менторство (личный опыт)
За последние три года поработал с двумя менторами.
Первый — помог собраться по софтам когда стал продактом в команде.
Второй — сертифицированный ментор, быстро помог разобрать проблемные кейсы.
Внешний взгляд позволяет получить объективные доводы о том, что делать дальше. Очень рекомендую.
PS: Кто работает с ментором — называют менти 😏
👍9 ❤5 2 🤔1
Пост #16 — Лекция в Летней школе МФТИ
Сегодня выступил с лекцией на Летней школе МФТИ на тему "Мониторинг корпоративных рисков в условиях неопределенности". Обсудили интерпретацию моделей, bias/variance, blending. Большая часть школьников выбрала делать домашку вместо докладов.
🫡8 👍7 3 😎1
Пост #17 — Консультант Яндекс Практикума
Связались из Яндекс Практикума. Обсудили особенности найма и навыки для DS (ML, Python, SQL). Дал рекомендации по программе курса — главный пробел: недостаточный фокус на работе с данными.
Бесплатная возможность для нанимающих менеджеров: через форму можно выбрать и пообщаться с сервисом найма.
👍8 2 🤝1
Пост #18 — Ментор на конкурсе AI-стартапов
Проект — личный ассистент по выбору одежды. Техническая часть: ViT/CLIP для эмбеддингов, FAISS для поиска.
Команда школьников со своим продуктом и продактом. Жалко, что не прошли в финал (жюри — Артемий Лебедев).
👍9 7 😁3 👾2
Пост #19 — Бустинги vs нейросети на табличных данных
Почему классические бустинги часто лучше нейросетей на табличных данных?
Причины:
- Различие в природе данных — табличные гомогенные, тексты/картинки гетерогенные
- Плохое качество данных и зависимость от препроцессинга
- Отсутствие или нелинейная связь признаков
- Критичная важность признаков
- Время обучения и необходимость GPU
Обзоры:
- Deep Neural Networks and Tabular Data: A Survey (2022)
- A Closer Look at Deep Learning on Tabular Data (2024) — бенчмарк на 300 датасетах, в 200 из 300 деревья выигрывают (особенно CatBoost)
👍8 6 🤔2
Пост #20 — Сравнение таблиц (мем)
1я статья. Бустинги (первая половина таблицы) сильно лучше сеток
👍4 3 🤝1
Пост #21 — Сравнение таблиц 2 (мем)
2я статья
👍5 1 🤝1
Пост #22 — Книга ML System Design от Alex Xu
Отличная обзорная книга о проектировании систем ML. В русскоязычном сегменте популяризировал Валера Бабушкин.
Пайплайн:
- Понять проблему (бизнес-цель, ограничения)
- Архитектура (пайплайн ML-модели, масштабируемость, мониторинг)
- Подвести итоги
Книжку советую менеджерам. DS будет скучно.
👍9 ❤1 1 🤔1 🤝1
Пост #23 — Схема ML System Design (мем)
схема от автора книги
👍6 ❤3 🤔1
Пост #24 — Книга Decode and Conquer (Product Management)
Неплохая книжка по продуктовому менеджменту. Фреймворки:
CIRCLES: Comprehend → Identify → Report → Cut → List → Evaluate → Summarize
DIGS: Define → Identify → Generate → Select
MoSCoW: Must/Should/Could/Won't have
RICE: Reach × Impact × Confidence / Effort
👍8 4 👌2
Пост #17 — Консультант Яндекс Практикума
Связались из Яндекс Практикума. Обсудили особенности найма и навыки для DS (ML, Python, SQL). Дал рекомендации по программе курса — главный пробел: недостаточный фокус на работе с данными.
Бесплатная возможность для нанимающих менеджеров: через форму можно выбрать и пообщаться с сервисом найма.
👍8 2 🤝1
Пост #18 — Ментор на конкурсе AI-стартапов
Проект — личный ассистент по выбору одежды. Техническая часть: ViT/CLIP для эмбеддингов, FAISS для поиска.
Команда школьников со своим продуктом и продактом. Жалко, что не прошли в финал (жюри — Артемий Лебедев).
👍9 7 😁3 👾2
Пост #19 — Бустинги vs нейросети на табличных данных
Почему классические бустинги часто лучше нейросетей на табличных данных?
Причины:
- Различие в природе данных — табличные гомогенные, тексты/картинки гетерогенные
- Плохое качество данных и зависимость от препроцессинга
- Отсутствие или нелинейная связь признаков
- Критичная важность признаков
- Время обучения и необходимость GPU
Обзоры:
- Deep Neural Networks and Tabular Data: A Survey (2022)
- A Closer Look at Deep Learning on Tabular Data (2024) — бенчмарк на 300 датасетах, в 200 из 300 деревья выигрывают (особенно CatBoost)
👍8 6 🤔2
Пост #20 — Сравнение таблиц (мем)
1я статья. Бустинги (первая половина таблицы) сильно лучше сеток
👍4 3 🤝1
Пост #21 — Сравнение таблиц 2 (мем)
2я статья
👍5 1 🤝1
Пост #22 — Книга ML System Design от Alex Xu
Отличная обзорная книга о проектировании систем ML. В русскоязычном сегменте популяризировал Валера Бабушкин.
Пайплайн:
- Понять проблему (бизнес-цель, ограничения)
- Архитектура (пайплайн ML-модели, масштабируемость, мониторинг)
- Подвести итоги
Книжку советую менеджерам. DS будет скучно.
👍9 ❤1 1 🤔1 🤝1
Пост #23 — Схема ML System Design (мем)
схема от автора книги
👍6 ❤3 🤔1
Пост #24 — Книга Decode and Conquer (Product Management)
Неплохая книжка по продуктовому менеджменту. Фреймворки:
CIRCLES: Comprehend → Identify → Report → Cut → List → Evaluate → Summarize
DIGS: Define → Identify → Generate → Select
MoSCoW: Must/Should/Could/Won't have
RICE: Reach × Impact × Confidence / Effort
👍8 4 👌2
Пост #25 — Поездка в ЮАР (Кейптаун)
В октябре съездил в Кейптаун. Тур через @heapcheaptrips_tours. Группа из 6+ человек.
- Океаны (Индийский и Атлантический), столовые горы
- Мыс Доброй Надежды
- Тауншипы (гетто) со времён апартеида
- Весна — цветение растений, киты, пингвины, дельфины 🐬
- Питомник: львы на расстоянии вытянутой руки, слоны, буйволы
👍10 7 ❤2 🥰1
Пост #26 — ЮАР фото 1
❤11 5 👍1 🤩1
Пост #27 — ЮАР фото 2
17 ❤4 🙏2
Пост #28-40 — (фото/эмодзи/мемы, текст не вытащен)
Пост #41 — Каналы для DS
Рекомендую каналы: Виктор Кантор (t.me/kantor_ai) — образование и карьера в DS, топ 30 Форбс. Таня Савельева (t.me/tldr_tany) — номинант топ 30 Форбс.
6 ❤4 👍2 🤔1
Пост #42-53 — Повторы ранних постов (мемы/фото)
Пост #54 — Поездка в ЮАР (повтор)
Пост #55-73 — Фото из ЮАР, Китая, хакатона
Пост #74 — Хакатон кластеризации
Удалось побыть DS-ментором на хакатоне. Команда заняла 3-е место . Проект — кластеризация событий брокера сообщений/логов.
Идеи:
- Baseline: scaNN + эмбеддер
- Rank-BM25 — улучшенный tf-idf
- Кастомный эмбеддинг: BPE токенизатор → tf-idf → кластеризация
- RapidFuzz + dbstream clustering
- Итеративное выделение кластеров с LLM
- JetBrains: Aggregation of Stack Trace Similarities
Пост #75-89 — Хакатон (продолжение, фото)
Пост #90 — Как ChatGPT влияет на креативность
Журнал Science: Generative AI enhances individual creativity but reduces the collective diversity.
- Чем больше AI-идей доступно — тем лучше текст (особенно для слабых навыков)
- Но чем активнее используют подсказки AI — тем более похожими становятся тексты (проверено через косинусное расстояние эмбеддингов) 👍12 5 ❤4
Пост #91 — NeurIPS vs Taylor Swift
Топ1 AI-конфу NeurIPS посетило намного меньше людей, чем концерт Taylor Swift (вот где true hype)
😁7 5 🥰3 🤔2
Пост #92 — Книга Простые правила
Книга Дональда Сулла и Кэтлин Эйзенхардт. Сложным правилам непросто следовать, они могут быть ошибочными — простые оказываются продуктивнее. Разбор множества сфер: от медицины (борьба с бессонницей — ложиться спать в одно время) до программы развития стартапов в Чили.
👍11 😁7 ❤4 🗿1
Пост #93 — Kaggle Best Solutions 2023
Прочитал лучшие решения с соревнований Kaggle 2023 года. За статьи раздали $100,000.
- Временные ряды (Chris Deotte): прогноз микробизнесов, прогрессирование болезни Паркинсона
- Распознавание языков жестов: Squeezeformer, FingerDropout
- Прогноз успеваемости студентов: бустинги + WaveNet-подход
- Физические задачи: гравитационные волны (G2Net), нейтрино (GNN)
- Маммография: YOLOX + EfficientNet
👍14 ❤2 2 🤓2 😁1 🦄1
Пост #94 — Почему AutoML не серебряная пуля
Чтобы построить хорошую модель, нужно полностью разобраться в задаче и правильно поделить данные. GroupKFold по регионам + cross time series validation. В LAMA такой параметр есть, но если не знать зачем — AutoML не сделает правильный выбор.
👍9 😁4 🤔3
Пост #95 — Perplexity подписка
Проспонсировал AI-гонку, купив годовую подписку Perplexity. 300 запросов в день.
👍8 😁4 🤔1
Пост #96-100 — Фото/мемы
Пост #101 — Вьетнам и Малайзия
Еще в конце февраля ездили во Вьетнам (Ханой → Фукуок), затем в Малайзию.
Чэнду (Китай) — родина панд, попали в заповедник. Сычуанский перец даёт онемение.
Ханой — понравился больше всего. Кухня: фо бо, бун ча, яичный кофе, свежие роллы. Ресторан из гида Мишлен — суп с пивом за 250 рублей, за соседним столиком сидел Обама. Бухта Халонг (1000+ островов), Ниньбинь.
Фукуок — перелёт на юг Вьетнама. Аквапарк, сафари-парк, канатная дорога. Похоже на Пхукет.
Куала-Лумпур — жарко и влажно, джунгли старше Амазонии (150 млн лет). Похож на Сингапур, но живее. Башни Петронас.
11 ❤5 🙏2
Пост #102-103 — Фото Вьетнама
❤12 😁3 2 🙏2 / ❤24 10 🙏2
Пост #104 — Career Development (Manager/Director/VP)
Статья из Kellblog: What It Really Means to be a Manager, Director, or VP.
- Managers — доводят задачи до результата, не требуют избыточного контроля. Разработка глобального плана — не их обязанность.
- Directors — доводят дело до конца, мыслят шире, находят обходные пути.
- VPs — разработка глобального плана. Несут полную ответственность за результаты.
Основная идея: VP не могут оправдать неудачу тем, что выполняли согласованный план.
👍13 ❤3 😁1
Пост #105-109 — Фото/мемы
Пост #110 — Career Development (продолжение)
Автор статьи Kellblog шутник: It conflates career development and salary negotiation. It encourages a mindset of saying, what must I do to make L10 when you want to say, I want a $10K raise.
😁10 👏6 🌚2
Пост #111 — Датафест в Яндексе
Сходил на Датафест в Яндексе, только доклады про внутренние продукты.
- Спрос Яндекс Лавки: Prophet + бустинги с разделением на продукты/регионы
- Алиса: 2% или 20% людей имеют две колонки Алисы, нужно понимать к какой обращаются
- Рекомендации в Лавке: двухбашенный подход с трансформером user-items → косинусные расстояния → бустинги + запросы + корзина. Пробовали графовую сетку (PinSage + TwHIN) — метрики упали. До 20% GMV за счёт рекомендаций.
- Экран отписки от Плюса: ранжирование не работает, лучше всего сохраняет скидка
- VLM для нейро и оффлайн эмбеддингов
👍18 10 ❤2 🙏1
Пост #112 — Датафест в Avito
- Post-training LLM: torchtune (SFT, DPO, PPO без Hugging Face обёрток). Llama 7B с QLoRA — 358 мин, с Compile + FlexAttention — 36 мин, но память 7→40→70 ГБ.
- LLM в Avito/Т-Банке: разметка звонков, чатов на факт сделки. Очистка выборки + консистентность разметки. BM25 + LLM + BERT + RoBERTa reranker.
- Дообучение LLM в Avito: DPO на Qwen 7B — небольшие приросты, нивелируются новыми open-source моделями. Ключевой эффект — свой токенизатор (+31% к скорости инференса).
- Рекомендации Avito: ретривал на трансформерах + ranking на CatBoost. 50% просмотров, 30% кликов. Блендер для товаров из разных категорий.
- Дискуссия про ML-соревнования: если результат определяется местом на лидерборде, презентации не стоит учитывать.
14 ❤8 👍3
Пост #113 — MacBook M4
Купил базовый Mac 15 на M4 за <100к. Кто ещё на интеле — рекомендую к миграции.
👍8 😁7 ❤3
Пост #114 — Yet Another Insight (Яндекс)
Закрытая конференция Яндекса для руководителей с фокусом на аналитику.
- Как понять факторы, влияющие на метрику: логистическая регрессия → коэффициенты. Когда строил в Delivery Club, ключевой фактор удовлетворённости доставкой — опоздал ли курьер.
- text2sql через LLM + RAG: цель — передать до 5% запросов в Telegram-бот. Проблема: в компании YQL, а не SQL.
- Поиск Нейро: получит рекламу
- Amazon 40% рынка e-commerce, Shopify 10%
- Яндекс.Маркет хочет стать Shopify
👍8 6 ✍4 😁3
Пост #115 — Memvid (мем)
В Х пропушили библиотеку Memvid (5000 ⭐ на GitHub). Теперь вместо векторных баз данных предлагают хранить всё в видеофайлах, где каждый кадр — QR-код. Внутри всё равно FAISS и те же векторные базы. Вот до чего доводит вайб-кодинг.
😁10 ❤3 👍2
Пост #116 — Кыргызстан и Узбекистан
В мае съездил в Кыргызстан 🇰🇬 и Узбекистан 🇺🇿.
Кыргызстан:
- Алтын-Арашан — горная долина на 2600 м, подъём на буханке 2 часа. Горное озеро Ала-Кёль на 3800 м, в мае перевал в снегу по пояс. На конях!
- Иссык-Куль — искупался, но холодно
- Еда: годное мясо и шашлыки, лучше чем в Москве по цене
Узбекистан (Ташкент):
- Центр города порадовал, божественная клубника
- Храмы и архитектура
- Пять казанов — плов в трёхметровом казане, лучший плов
❤12 6 🙏2
Пост #117-139 — Фото из Кыргызстана и Узбекистана
Пост #140 — Rasmussen/Cook Risk Model
Risk management in a dynamic society (Rasmussen, 1997) и Resilience In Complex Adaptive Systems (R. Cook).
Модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами:
- Экономическая эффективность (cost)
- Рабочая нагрузка (capacity)
- Отказ (accident boundary)
Система дрейфует к границе отказа из-за стремления сократить затраты. Вводят буфер безопасности (margin of safety), но его со временем сдвигают (normalization of deviance).
Рекомендация: сделать процесс прозрачным и обложить мониторингом.
PS: Для автономных AI-агентов и LLM с промптами может быть недостаточно.
👍7 ❤5 🤔1
Пост #141 — Гугл — Яндекс: 1-0 (мем)
😁16 👎2 🤔2 🤝1
Пост #142 — Google Jules
Google запустил ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request).
Протестировал на открытом репозитории:
- readme.md переписал неплохо
- Добавление нового функционала: первая попытка — провал, вторая — упал при установке зависимостей (torch не осилил)
- Код не работал, дебажить 400+ строк — помянем
- Каждый запрос — до часа ожидания
Очень неплохо, но Cursor пока лучше.
😁9 👍2 🙏1
Пост #143 — Отчёт Сбера 2024
Полистал ежегодный отчёт Сбера. Увидел проект Индивидуальный мониторинг, в запуске которого участвовал. Приятно 🍷
Отчёт 486 листов.
15 ❤6 👍5 👏2
Пост #144 — ChatGPT трейдинг (Reddit)
На Reddit успешный кейс: чат-бот с $400 натрейдил иксы. Торги с длинным плечом, рискованные операции на Robinhood.
Если скормить исторические цены — обычно линейная регрессия или экспоненциальное сглаживание. На акциях NVIDIA ошибка 40% за 3 месяца by ChatGPT 4.1.
❤7 😁4 👍3
Пост #145 — Swing Vision (теннис)
Играю в большой теннис 🎾, рекомендую. Особенно если пережить первые полгода.
Приложение Swing Vision — снимая как ты играешь, получаешь сквозную статистику: удары, точность, скорость. Инференс локально на телефоне. Функция challenge (как Hawk-Eye). Нужен трипод.
17 👍6 ❤3
Пост #146 — OCR и Vision-LLM тренды Q1/Q2 2025
Обзор от Игоря Галицкого.
- Новая SOTA: Gemini 2.5 — лидер на OCR бенчмарках, лучше Qwen 2.5 VL / GPT-4o на 15-20%
- Small VLM: MonkeyOCR, Dolphin — SOTA при минимальных ресурсах
- Chart Captioning: Claude Sonnet 3.5 ≈56%, GPT-4o ≈42%, человек 85%. Моделям сложно совмещать perception + reasoning
- Enterprise: Для PII-маскирования, live-перевода, low DPI — специализированные модели лучше
👍8 3 👎1 🤔1
Пост #147 — Шри-Ланка
Почти год назад ездил на Шри-Ланку 🇱🇰.
- Океан: классические волны, доступное место для сёрфинга (инструктор 1000 руб/час). Отбил ребро, заживало месяц 😅
- Чай: цейлонский — совсем не горчит
- Еда: спорная (вайбы Индии), но попробовал акулу (как белая рыба). Фрукты отличные, дуриан — ням
- Сафари по реке: крокодилы, хамелеон в кустах в метре от меня, лангуры (дружелюбные), запустили черепашек в океан
❤14 👍5 💘3 👌1
Пост #148-149 — Фото Шри-Ланки
Пост #150-228 — (новые посты не вытащены через web preview — нужен свежий before=)
Конец архива
Архив собран 2026-05-31 через web_fetch с t.me/s/ai_tablet
Для обновления: используй t.me/s/ai_tablet?before=
More AI engineering notes, RAG benchmarks, and production insights from inside a bank — follow my Telegram channel:
🚀 https://t.me/ai_tablet (Russian, technical)
Top comments (0)