Ai developer

Posted on Jun 3

AI.Insaf — Архив постов канала (реальные посты из web_fetch)

#ai #rag #llm #machinelearning

AI.Insaf — Архив постов канала (реальные посты из web_fetch)

Канал: https://t.me/ai_tablet
Владелец: Инсаф Ашрапов (Lead DS, Сбер)
Дата архивации: 2026-05-31
Метод: web_fetch через публичный preview t.me/s/ai_tablet
Всего постов в канале: ~228
В этом архиве: ~60+ реальных постов, которые удалось вытащить

Пост #1 — Создание канала

Channel created

Пост #2 — TabGAN

Несколько слов про свой pet project – tabgan, который продолжает жить с 2021г. Суть либы в генерации новых табличных данных похожих к данным на входе — можно применить для анонимизации данных, для генерации данных для dev стендов. Уже более 500 ⭐, 40 тысяч загрузок, 38 цитирований. В апреле 2024 выиграл грант от Яндекса как один из лучших open source проектов.
Недавно выпустил новую версию — теперь там не только генерация с GAN, но и через LLM и Forest Diffusion. Тестировать: pip install tabgan
🔗 https://github.com/Diyago/Tabular-data-generation
👍5 4

Пост #3 — Вакансии (DA + DS)

К себе в команду ищу дата аналитика (junior/middle) и data scientist'a (middle+/senior). Мы занимаемся мониторингом и предиктивным выявлением проблемности у действующих и новых корпоративных заемщиков банка с помощью ML моделей. Стэк: python, sql.
👍2 🙏1 🤝1

Пост #4 — Япония: Токио

На новый год съездил в Японию. Токио — нет явно выраженного центра, очень свободно. Люди невероятно вежливые, в метро контролер кланяется тебе. Очень много людей регулирует потоки. Еда безумно вкусная, рамены в Москве намного проще. В ясную погоду можно увидеть гору Фудзи.
4 👍3 😁2

Пост #5 — Япония: Киото / Осака / Нара

Киото — Самый насыщенный старинными храмами город. Был столицей >1000 лет. Золотой храм, Храм Фусими Инари (711г) с тысячами ворот Тории.
Осака — Замок Осаки (из сериала Сёгун), уличная еда.
Нара — Храмы + диснеевские олени 🦌
❤5

Пост #6 — (фото/мем, текст не вытащен)

Пост #7 — Книги и курсы для DS (часть 1 — база)

Набросал книжки/курсы, которые помогут стать хорошим DS.

1. Классическое ML (табличные данные):

Python Machine Learning by Sebastian Raschka (кроме 13-й главы)
Специализация Машинное обучение и анализ данных от МФТИ и Яндекса
Kaggle соревнования
Лекции с Датафеста и ML Training
Документация CatBoost, XGBoost, LightGBM

2. MLOps: Introducing MLOps (O'Reilly)
3. System Design: Designing Machine Learning Systems (O'Reilly)
4. Аналитика: Девенпорт, аналитика как конкурентное преимущество, SQL, Pandas
5. RecSys: Курс от МТС (5 лекций основных)
6. A/B-тестирование: Гайд от VK, курс от Яндекса, Trustworthy Online Controlled Experiments
7. NLP: Курс ШАДа, курс Лены Войты, DeepNLP-Course, обзорные статьи по LLM
8. CV: Deep Learning with PyTorch, image classification, segmentation, GAN, object detection, diffusion models, ViT

👍7 7 🕊2

Пост #8 — Софтовые навыки для DS

1. Общение, small talks
2. Переговоры: Договориться можно обо всем, Договориться о невозможном, Переговоры с монстрами
3. Деловая переписка: Новые правила деловой переписки
4. Фасилитация: Руководство фасилитатора
5. Public talks — только практика
6. Лидерство: Действуй как лидер, 100 правил проектов NASA, Лидер без титула, Идеальный руководитель, 5 пороков и 5 благодетелей команды, стили эмоционального лидерства
7. Креативность: Как придумать идею, если вы не Огилви
8. Менторы, коучи, психологи

👍11 1 😁1 🤔1

Пост #9 — Gemini training data (мем)

OK google) на чем же обучали gemini 🤔
🥰6 💋2 1

Пост #10 — Двойная ось Y в графиках

Почему не стоит использовать двойную ось Y в графиках. При подготовке материалов столкнулся с необходимостью — получилось мнимое пересечение, хотя его на самом деле нет. Используйте с осторожностью.
👍8 🤣4 🤔1

Пост #11 — The Culture Code

Книга The Culture Code: The Secrets of Highly Successful Groups. Успех команды напрямую зависит от чувства безопасности внутри нее. Общее чувство цели и взаимная уязвимость. Не стоит подчеркивать чужие промахи, а дать человеку возможность самостоятельно разобраться.
👍11 🤔2 🫡1

Пост #12 — The Shape of Story (презентации)

Создание презентаций: единство стиля, лаконичные выводы, только необходимая информация. Курс Бонни и Слайд, бесплатный от Яндекса.
Строить рассказ через микроистории: проблема → сложности → решение → эффект.
👍7 2 😁2

Пост #13 — Presentation skills

Когда учился на физтехе (МФТИ), слайды делал только на парах по английскому. На первой работе в Delivery Club быстро приземлили когда делал слайды для руководства.
Рекомендую каналы: Виктор Кантор (t.me/kantor_ai), Таня Савельева (t.me/tldr_tany).
6 ❤4 👍2 🤔1

Пост #14 — Книги: Выживает самый дружелюбный и Лучшее в нас

Две книги развивают схожие тезисы о преимуществах дружелюбия.

Первая: альтруизм бонобо объясняет эволюционный успех через сотрудничество
Вторая: снижение уровня насилия на протяжении всей истории Обе имеют проблемы: первая — cherry picking, вторая — большой доверительный интервал исторических данных. 👍8 ❤2 1 🤔1 🗿1

Пост #15 — Менторство (личный опыт)

За последние три года поработал с двумя менторами.
Первый — помог собраться по софтам когда стал продактом в команде.
Второй — сертифицированный ментор, быстро помог разобрать проблемные кейсы.
Внешний взгляд позволяет получить объективные доводы о том, что делать дальше. Очень рекомендую.
PS: Кто работает с ментором — называют менти 😏
👍9 ❤5 2 🤔1

Пост #16 — Лекция в Летней школе МФТИ

Сегодня выступил с лекцией на Летней школе МФТИ на тему "Мониторинг корпоративных рисков в условиях неопределенности". Обсудили интерпретацию моделей, bias/variance, blending. Большая часть школьников выбрала делать домашку вместо докладов.
🫡8 👍7 3 😎1

Пост #17 — Консультант Яндекс Практикума

Связались из Яндекс Практикума. Обсудили особенности найма и навыки для DS (ML, Python, SQL). Дал рекомендации по программе курса — главный пробел: недостаточный фокус на работе с данными.
Бесплатная возможность для нанимающих менеджеров: через форму можно выбрать и пообщаться с сервисом найма.
👍8 2 🤝1

Пост #18 — Ментор на конкурсе AI-стартапов

Проект — личный ассистент по выбору одежды. Техническая часть: ViT/CLIP для эмбеддингов, FAISS для поиска.
Команда школьников со своим продуктом и продактом. Жалко, что не прошли в финал (жюри — Артемий Лебедев).
👍9 7 😁3 👾2

Пост #19 — Бустинги vs нейросети на табличных данных

Почему классические бустинги часто лучше нейросетей на табличных данных?

Причины:

Различие в природе данных — табличные гомогенные, тексты/картинки гетерогенные
Плохое качество данных и зависимость от препроцессинга
Отсутствие или нелинейная связь признаков
Критичная важность признаков
Время обучения и необходимость GPU

Обзоры:

Deep Neural Networks and Tabular Data: A Survey (2022)
A Closer Look at Deep Learning on Tabular Data (2024) — бенчмарк на 300 датасетах, в 200 из 300 деревья выигрывают (особенно CatBoost)

👍8 6 🤔2

Пост #20 — Сравнение таблиц (мем)

1я статья. Бустинги (первая половина таблицы) сильно лучше сеток
👍4 3 🤝1

Пост #21 — Сравнение таблиц 2 (мем)

2я статья
👍5 1 🤝1

Пост #22 — Книга ML System Design от Alex Xu

Отличная обзорная книга о проектировании систем ML. В русскоязычном сегменте популяризировал Валера Бабушкин.

Пайплайн:

Понять проблему (бизнес-цель, ограничения)
Архитектура (пайплайн ML-модели, масштабируемость, мониторинг)
Подвести итоги

Книжку советую менеджерам. DS будет скучно.
👍9 ❤1 1 🤔1 🤝1

Пост #23 — Схема ML System Design (мем)

схема от автора книги
👍6 ❤3 🤔1

Пост #24 — Книга Decode and Conquer (Product Management)

Неплохая книжка по продуктовому менеджменту. Фреймворки:

CIRCLES: Comprehend → Identify → Report → Cut → List → Evaluate → Summarize
DIGS: Define → Identify → Generate → Select
MoSCoW: Must/Should/Could/Won't have
RICE: Reach × Impact × Confidence / Effort

👍8 4 👌2

Пост #17 — Консультант Яндекс Практикума

Пост #18 — Ментор на конкурсе AI-стартапов

Пост #19 — Бустинги vs нейросети на табличных данных

Почему классические бустинги часто лучше нейросетей на табличных данных?

Причины:

Различие в природе данных — табличные гомогенные, тексты/картинки гетерогенные
Плохое качество данных и зависимость от препроцессинга
Отсутствие или нелинейная связь признаков
Критичная важность признаков
Время обучения и необходимость GPU

Обзоры:

Deep Neural Networks and Tabular Data: A Survey (2022)
A Closer Look at Deep Learning on Tabular Data (2024) — бенчмарк на 300 датасетах, в 200 из 300 деревья выигрывают (особенно CatBoost)

👍8 6 🤔2

Пост #20 — Сравнение таблиц (мем)

1я статья. Бустинги (первая половина таблицы) сильно лучше сеток
👍4 3 🤝1

Пост #21 — Сравнение таблиц 2 (мем)

2я статья
👍5 1 🤝1

Пост #22 — Книга ML System Design от Alex Xu

Пайплайн:

Понять проблему (бизнес-цель, ограничения)
Архитектура (пайплайн ML-модели, масштабируемость, мониторинг)
Подвести итоги

Книжку советую менеджерам. DS будет скучно.
👍9 ❤1 1 🤔1 🤝1

Пост #23 — Схема ML System Design (мем)

схема от автора книги
👍6 ❤3 🤔1

Пост #24 — Книга Decode and Conquer (Product Management)

Неплохая книжка по продуктовому менеджменту. Фреймворки:

👍8 4 👌2

Пост #25 — Поездка в ЮАР (Кейптаун)

В октябре съездил в Кейптаун. Тур через @heapcheaptrips_tours. Группа из 6+ человек.

Океаны (Индийский и Атлантический), столовые горы
Мыс Доброй Надежды
Тауншипы (гетто) со времён апартеида
Весна — цветение растений, киты, пингвины, дельфины 🐬
Питомник: львы на расстоянии вытянутой руки, слоны, буйволы

👍10 7 ❤2 🥰1

Пост #26 — ЮАР фото 1

❤11 5 👍1 🤩1

Пост #27 — ЮАР фото 2

17 ❤4 🙏2

Пост #28-40 — (фото/эмодзи/мемы, текст не вытащен)

Пост #41 — Каналы для DS

Рекомендую каналы: Виктор Кантор (t.me/kantor_ai) — образование и карьера в DS, топ 30 Форбс. Таня Савельева (t.me/tldr_tany) — номинант топ 30 Форбс.
6 ❤4 👍2 🤔1

Пост #42-53 — Повторы ранних постов (мемы/фото)

Пост #54 — Поездка в ЮАР (повтор)

Пост #55-73 — Фото из ЮАР, Китая, хакатона

Пост #74 — Хакатон кластеризации

Удалось побыть DS-ментором на хакатоне. Команда заняла 3-е место . Проект — кластеризация событий брокера сообщений/логов.

Идеи:

Baseline: scaNN + эмбеддер
Rank-BM25 — улучшенный tf-idf
Кастомный эмбеддинг: BPE токенизатор → tf-idf → кластеризация
RapidFuzz + dbstream clustering
Итеративное выделение кластеров с LLM
JetBrains: Aggregation of Stack Trace Similarities

Пост #75-89 — Хакатон (продолжение, фото)

Пост #90 — Как ChatGPT влияет на креативность

Журнал Science: Generative AI enhances individual creativity but reduces the collective diversity.

Чем больше AI-идей доступно — тем лучше текст (особенно для слабых навыков)
Но чем активнее используют подсказки AI — тем более похожими становятся тексты (проверено через косинусное расстояние эмбеддингов) 👍12 5 ❤4

Пост #91 — NeurIPS vs Taylor Swift

Топ1 AI-конфу NeurIPS посетило намного меньше людей, чем концерт Taylor Swift (вот где true hype)
😁7 5 🥰3 🤔2

Пост #92 — Книга Простые правила

Книга Дональда Сулла и Кэтлин Эйзенхардт. Сложным правилам непросто следовать, они могут быть ошибочными — простые оказываются продуктивнее. Разбор множества сфер: от медицины (борьба с бессонницей — ложиться спать в одно время) до программы развития стартапов в Чили.
👍11 😁7 ❤4 🗿1

Пост #93 — Kaggle Best Solutions 2023

Прочитал лучшие решения с соревнований Kaggle 2023 года. За статьи раздали $100,000.

Временные ряды (Chris Deotte): прогноз микробизнесов, прогрессирование болезни Паркинсона
Распознавание языков жестов: Squeezeformer, FingerDropout
Прогноз успеваемости студентов: бустинги + WaveNet-подход
Физические задачи: гравитационные волны (G2Net), нейтрино (GNN)
Маммография: YOLOX + EfficientNet

👍14 ❤2 2 🤓2 😁1 🦄1

Пост #94 — Почему AutoML не серебряная пуля

Чтобы построить хорошую модель, нужно полностью разобраться в задаче и правильно поделить данные. GroupKFold по регионам + cross time series validation. В LAMA такой параметр есть, но если не знать зачем — AutoML не сделает правильный выбор.
👍9 😁4 🤔3

Пост #95 — Perplexity подписка

Проспонсировал AI-гонку, купив годовую подписку Perplexity. 300 запросов в день.
👍8 😁4 🤔1

Пост #96-100 — Фото/мемы

Пост #101 — Вьетнам и Малайзия

Еще в конце февраля ездили во Вьетнам (Ханой → Фукуок), затем в Малайзию.

Чэнду (Китай) — родина панд, попали в заповедник. Сычуанский перец даёт онемение.

Ханой — понравился больше всего. Кухня: фо бо, бун ча, яичный кофе, свежие роллы. Ресторан из гида Мишлен — суп с пивом за 250 рублей, за соседним столиком сидел Обама. Бухта Халонг (1000+ островов), Ниньбинь.

Фукуок — перелёт на юг Вьетнама. Аквапарк, сафари-парк, канатная дорога. Похоже на Пхукет.

Куала-Лумпур — жарко и влажно, джунгли старше Амазонии (150 млн лет). Похож на Сингапур, но живее. Башни Петронас.

11 ❤5 🙏2

Пост #102-103 — Фото Вьетнама

❤12 😁3 2 🙏2 / ❤24 10 🙏2

Пост #104 — Career Development (Manager/Director/VP)

Статья из Kellblog: What It Really Means to be a Manager, Director, or VP.

Managers — доводят задачи до результата, не требуют избыточного контроля. Разработка глобального плана — не их обязанность.
Directors — доводят дело до конца, мыслят шире, находят обходные пути.
VPs — разработка глобального плана. Несут полную ответственность за результаты.

Основная идея: VP не могут оправдать неудачу тем, что выполняли согласованный план.

👍13 ❤3 😁1

Пост #105-109 — Фото/мемы

Пост #110 — Career Development (продолжение)

Автор статьи Kellblog шутник: It conflates career development and salary negotiation. It encourages a mindset of saying, what must I do to make L10 when you want to say, I want a $10K raise.
😁10 👏6 🌚2

Пост #111 — Датафест в Яндексе

Сходил на Датафест в Яндексе, только доклады про внутренние продукты.

Спрос Яндекс Лавки: Prophet + бустинги с разделением на продукты/регионы
Алиса: 2% или 20% людей имеют две колонки Алисы, нужно понимать к какой обращаются
Рекомендации в Лавке: двухбашенный подход с трансформером user-items → косинусные расстояния → бустинги + запросы + корзина. Пробовали графовую сетку (PinSage + TwHIN) — метрики упали. До 20% GMV за счёт рекомендаций.
Экран отписки от Плюса: ранжирование не работает, лучше всего сохраняет скидка
VLM для нейро и оффлайн эмбеддингов

👍18 10 ❤2 🙏1

Пост #112 — Датафест в Avito

Post-training LLM: torchtune (SFT, DPO, PPO без Hugging Face обёрток). Llama 7B с QLoRA — 358 мин, с Compile + FlexAttention — 36 мин, но память 7→40→70 ГБ.
LLM в Avito/Т-Банке: разметка звонков, чатов на факт сделки. Очистка выборки + консистентность разметки. BM25 + LLM + BERT + RoBERTa reranker.
Дообучение LLM в Avito: DPO на Qwen 7B — небольшие приросты, нивелируются новыми open-source моделями. Ключевой эффект — свой токенизатор (+31% к скорости инференса).
Рекомендации Avito: ретривал на трансформерах + ranking на CatBoost. 50% просмотров, 30% кликов. Блендер для товаров из разных категорий.
Дискуссия про ML-соревнования: если результат определяется местом на лидерборде, презентации не стоит учитывать.

14 ❤8 👍3

Пост #113 — MacBook M4

Купил базовый Mac 15 на M4 за <100к. Кто ещё на интеле — рекомендую к миграции.
👍8 😁7 ❤3

Пост #114 — Yet Another Insight (Яндекс)

Закрытая конференция Яндекса для руководителей с фокусом на аналитику.

Как понять факторы, влияющие на метрику: логистическая регрессия → коэффициенты. Когда строил в Delivery Club, ключевой фактор удовлетворённости доставкой — опоздал ли курьер.
text2sql через LLM + RAG: цель — передать до 5% запросов в Telegram-бот. Проблема: в компании YQL, а не SQL.
Поиск Нейро: получит рекламу
Amazon 40% рынка e-commerce, Shopify 10%
Яндекс.Маркет хочет стать Shopify

👍8 6 ✍4 😁3

Пост #115 — Memvid (мем)

В Х пропушили библиотеку Memvid (5000 ⭐ на GitHub). Теперь вместо векторных баз данных предлагают хранить всё в видеофайлах, где каждый кадр — QR-код. Внутри всё равно FAISS и те же векторные базы. Вот до чего доводит вайб-кодинг.
😁10 ❤3 👍2

Пост #116 — Кыргызстан и Узбекистан

В мае съездил в Кыргызстан 🇰🇬 и Узбекистан 🇺🇿.

Кыргызстан:

Алтын-Арашан — горная долина на 2600 м, подъём на буханке 2 часа. Горное озеро Ала-Кёль на 3800 м, в мае перевал в снегу по пояс. На конях!
Иссык-Куль — искупался, но холодно
Еда: годное мясо и шашлыки, лучше чем в Москве по цене

Узбекистан (Ташкент):

Центр города порадовал, божественная клубника
Храмы и архитектура
Пять казанов — плов в трёхметровом казане, лучший плов

❤12 6 🙏2

Пост #117-139 — Фото из Кыргызстана и Узбекистана

Пост #140 — Rasmussen/Cook Risk Model

Risk management in a dynamic society (Rasmussen, 1997) и Resilience In Complex Adaptive Systems (R. Cook).

Модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами:

Экономическая эффективность (cost)
Рабочая нагрузка (capacity)
Отказ (accident boundary)

Система дрейфует к границе отказа из-за стремления сократить затраты. Вводят буфер безопасности (margin of safety), но его со временем сдвигают (normalization of deviance).

Рекомендация: сделать процесс прозрачным и обложить мониторингом.
PS: Для автономных AI-агентов и LLM с промптами может быть недостаточно.

👍7 ❤5 🤔1

Пост #141 — Гугл — Яндекс: 1-0 (мем)

😁16 👎2 🤔2 🤝1

Пост #142 — Google Jules

Google запустил ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request).

Протестировал на открытом репозитории:

readme.md переписал неплохо
Добавление нового функционала: первая попытка — провал, вторая — упал при установке зависимостей (torch не осилил)
Код не работал, дебажить 400+ строк — помянем
Каждый запрос — до часа ожидания

Очень неплохо, но Cursor пока лучше.
😁9 👍2 🙏1

Пост #143 — Отчёт Сбера 2024

Полистал ежегодный отчёт Сбера. Увидел проект Индивидуальный мониторинг, в запуске которого участвовал. Приятно 🍷
Отчёт 486 листов.
15 ❤6 👍5 👏2

Пост #144 — ChatGPT трейдинг (Reddit)

На Reddit успешный кейс: чат-бот с $400 натрейдил иксы. Торги с длинным плечом, рискованные операции на Robinhood.

Если скормить исторические цены — обычно линейная регрессия или экспоненциальное сглаживание. На акциях NVIDIA ошибка 40% за 3 месяца by ChatGPT 4.1.

❤7 😁4 👍3

Пост #145 — Swing Vision (теннис)

Играю в большой теннис 🎾, рекомендую. Особенно если пережить первые полгода.

Приложение Swing Vision — снимая как ты играешь, получаешь сквозную статистику: удары, точность, скорость. Инференс локально на телефоне. Функция challenge (как Hawk-Eye). Нужен трипод.

17 👍6 ❤3

Пост #146 — OCR и Vision-LLM тренды Q1/Q2 2025

Обзор от Игоря Галицкого.

Новая SOTA: Gemini 2.5 — лидер на OCR бенчмарках, лучше Qwen 2.5 VL / GPT-4o на 15-20%
Small VLM: MonkeyOCR, Dolphin — SOTA при минимальных ресурсах
Chart Captioning: Claude Sonnet 3.5 ≈56%, GPT-4o ≈42%, человек 85%. Моделям сложно совмещать perception + reasoning
Enterprise: Для PII-маскирования, live-перевода, low DPI — специализированные модели лучше

👍8 3 👎1 🤔1

Пост #147 — Шри-Ланка

Почти год назад ездил на Шри-Ланку 🇱🇰.

Океан: классические волны, доступное место для сёрфинга (инструктор 1000 руб/час). Отбил ребро, заживало месяц 😅
Чай: цейлонский — совсем не горчит
Еда: спорная (вайбы Индии), но попробовал акулу (как белая рыба). Фрукты отличные, дуриан — ням
Сафари по реке: крокодилы, хамелеон в кустах в метре от меня, лангуры (дружелюбные), запустили черепашек в океан

❤14 👍5 💘3 👌1