AI-промты для feature engineering пайплайна
Опишите датасет и модель — получите промт для сборки признаков
- Пайплайн с защитой от data leakage из коробки
- Признаки под конкретный стек: sklearn, Spark, Feast
- Чек-лист валидации и мониторинга feature drift
Конструктор промтов для feature engineering
Выберите тип задачи и стек — получите промт для пайплайна признаков под вашу модель
Ваш промт появится здесь
Выберите параметры слева — промт обновится автоматически
Сборка feature engineering пайплайна для Data Scientist превращается в многочасовой марафон: генерация новых признаков, отбор переменных и обработка пропусков съедают день, а код всё равно приходится переписывать под новый источник данных. Готовые промты для ChatGPT и Claude снимают эту рутину — нейросеть возвращает черновик пайплайна с кодированием категорий, сборкой end-to-end пайплайна и защитой от утечек данных под ваш стек. Укажите роль AI (например, Senior Feature Engineer), источник (табличный CSV или временные ряды) и целевую модель (CatBoost, LightGBM или PyTorch) — получите промт, заточённый под приоритет воспроизводимости или роста метрики. Бесплатный генератор промтов экономит большую часть времени на постановке задачи ИИ и даёт шаблоны, которые одинаково работают в ChatGPT, Claude, YandexGPT и GigaChat. Заполните форму и получите промт, оптимизированный под вашу задачу.
Промты для feature engineering: инструкция
Выберите тип задачи и стек
Укажите Роль AI, Тип задачи и Стек. Это задаст направление промта под ваш feature engineering пайплайн.
Настройте тон и формат вывода
Выберите экспертный тон и формат 'пошаговый код на Python с pandas' — получите готовый скелет пайплайна.
Опишите датасет и ограничения
Впишите Датасет (1.2 млн транзакций, таргет churn) и Ограничения по латентности — промт учтёт специфику данных.
Скопируйте промт и запустите
Скопируйте готовый промт и вставьте в ChatGPT или Claude — получите код feature engineering пайплайна.
Для кого промты по feature engineering
Генератор помогает ML-инженерам, дата-сайентистам и MLOps строить пайплайны признаков с AI
Junior Data Scientist на табличках
Не знаю, какие признаки генерировать из CSV — делаю наугад по 3 дня
Получайте список идей признаков под ваш датасет за 10 минут
Middle ML-инженер по кликстриму
На агрегатах по логам ловлю утечку таргета и переобучение каждый раз
Создавайте честный пайплайн с корректной временной валидацией
Senior Feature Engineer по бустингу
Ручной отбор 500+ признаков под CatBoost занимает у меня неделю
Сокращайте отбор признаков до одной сессии с готовым кодом
Lead MLOps-архитектор на PySpark
Переписываю pandas-фичи на Spark вручную — теряю воспроизводимость версий
Генерируйте переносимый пайплайн с версионированием и тестами
Ещё промты для feature engineering
Промты дополняют генератор смежными задачами по feature engineering. Скопируйте, замените данные в [скобках] и вставьте в ChatGPT или Claude.
Аудит существующего feature store на утечки и дубли признаков
Аудит фичейРоль: Ты Senior Feature Engineer с 7 годами опыта в проектировании feature store и ревью ML-пайплайнов. Экспертиза: Feast, dbt, pandas-profiling, обнаружение target leakage. Контекст: Я Data Scientist в [тип компании, напр. финтех]. Мы поддерживаем feature store на [стек, напр. Feast + BigQuery] с [количество фичей, напр. 420] признаками для модели [целевая задача, напр. credit scoring]. Артефакты: [ссылка на registry], [метрика качества baseline], [окно валидации]. Задача: Провести аудит признаков и найти риски утечки таргета, дубли, устаревшие фичи и неверную гранулярность времени. Format вывода: (1) таблица 'feature_name | risk_type | severity 1-5 | evidence | рекомендация'. (2) топ-10 признаков-кандидатов на удаление с обоснованием. (3) чек-лист из 8 пунктов для регулярного ревью store. Детали: опирайся на принцип point-in-time correctness, проверяй join-ключи и временные окна [train cutoff], [prediction horizon]. Избегай общих советов — только конкретика по присланным фичам.
Документация feature engineering пайплайна по шаблону Model Card
ДокументацияРоль: Ты Lead MLOps-архитектор с 8 годами опыта в продакшн ML и технической документации. Экспертиза: Model Card, Data Sheet for Datasets, MLflow, feature lineage. Контекст: Я ML-инженер в [тип компании]. Завершил разработку пайплайна на [стек, напр. PySpark + MLlib] для задачи [тип задачи, напр. прогноз оттока]. Входы: [источник данных, напр. витрина SQL], [объём строк], [частота обновления]. Выходы: [количество фичей], [целевая модель]. Задача: Подготовить документацию пайплайна в формате, совместимом с Model Card и требованиями аудита. Формат вывода: (1) раздел 'Назначение и ограничения' (200 слов). (2) таблица 'признак | источник | трансформация | тип | owner'. (3) раздел 'Валидация и мониторинг' с метриками drift и схемой алертов. (4) секция 'Известные риски и edge-cases'. Детали: используй терминологию Google Model Card Toolkit. Язык — сухой, без маркетинга. Укажи [версия пайплайна] и [дата ревью] в шапке.
Сравнение стратегий feature engineering для tabular соревнования
БенчмаркРоль: Ты Kaggle Grandmaster с 10 годами опыта в tabular-соревнованиях и победами в [количество] конкурсах. Экспертиза: target encoding, признаки взаимодействия, Featuretools, CatBoost. Контекст: Я Data Scientist готовлюсь к соревнованию [тип задачи, напр. бинарная классификация] на данных [описание датасета], метрика — [метрика, напр. ROC-AUC]. Baseline LightGBM даёт [текущий score]. Ограничение по времени: [бюджет на инференс]. Задача: Сравнить 5 стратегий feature engineering и выбрать оптимальный порядок их применения для роста метрики. Формат вывода: (1) таблица 'стратегия | ожидаемый прирост | риск переобучения | трудозатраты'. (2) приоритизированный план на 5 итераций с гипотезами. (3) код-скелет для каждой стратегии на pandas + scikit-learn. (4) чек-лист защиты от leakage при CV. Детали: учитывай [схема валидации, напр. StratifiedKFold 5], размер [train/test split]. Избегай стратегий, требующих внешних датасетов, если правила их запрещают.
План обучения junior-команды основам feature engineering
ОбучениеРоль: Ты тимлид ML-команды с 9 годами опыта менторинга и построения learning-треков. Экспертиза: scikit-learn, Polars, практикоориентированное обучение, code review. Контекст: Я руковожу командой из [количество джунов] Junior Data Scientists в [тип компании]. Текущий уровень: [описание навыков, напр. умеют pandas, не знают leakage]. Доступное время: [часов в неделю], горизонт — [срок, напр. 8 недель]. Целевая модель в проде: [тип модели, напр. CatBoost]. Задача: Составить программу обучения feature engineering с практикой на реальных данных и критериями аттестации. Формат вывода: (1) понедельный план на 8 недель с темами и литературой. (2) таблица 'навык | уровень до | уровень после | способ проверки'. (3) 5 практических заданий с датасетами и критериями приёмки. (4) рубрика code review по 10 пунктам. Детали: включи темы утечек данных, кодирования категорий, работы с временными рядами. Опирайся на книгу Feature Engineering for Machine Learning (Zheng, Casari) и блог Kaggle.
6 правил промтов для feature engineering
Используйте эти правила, чтобы получать рабочие пайплайны признаков в ChatGPT и Claude
Задайте роль ML-инженера
Вместо 'Ты дата-сайентист' укажите: 'Ты ML-инженер с опытом построения feature pipelines на sklearn Pipeline и Feature-engine для табличных задач'. ИИ подключит нужные трансформеры.
Указывайте схему и типы данных
Дайте в промте dtypes, % пропусков, кардинальность категорий и target leakage-риски. Пример: '12 num, 8 cat (до 50 уникальных), 3% NaN в income, таргет — бинарный churn'.
Запрашивайте sklearn Pipeline
Просите код в формате ColumnTransformer + Pipeline с fit/transform и сохранением через joblib. Так признаки не протекут из train в test и пайплайн переедет в прод без правок.
Фиксируйте целевую модель
Для CatBoost не нужен OneHotEncoder, для линейных — нужен StandardScaler и WoE. Шаблон: 'Модель = LightGBM, метрика ROC-AUC, CV = StratifiedKFold 5, таргет-энкодинг через KFold'.
Итерируйте по утечкам и CV
После первого ответа уточните: 'Проверь на target leakage, перенеси target encoding внутрь CV-фолда через category_encoders.TargetEncoder и добавь feature_importance через SHAP'.
Избегайте абстрактных задач
До: 'Сделай фичи для churn'. После: 'Сгенерируй RFM-признаки и lag-фичи 7/30 дней из events.csv, заверни в sklearn Pipeline, цель — LightGBM, CV = GroupKFold по user_id'.
FAQ: промты для feature engineering
Промты для feature engineering пайплайна — это структурированные инструкции, которые заставляют нейросеть сгенерировать код на pandas или Polars для создания, отбора и кодирования признаков. В промт закладывают роль (например, Senior Feature Engineer), источник данных (CSV или SQL-витрина), целевую модель (CatBoost, LightGBM) и приоритет — интерпретируемость или защита от утечек. ChatGPT по такому шаблону выдаёт готовый класс с fit_transform, target encoding и валидацией через KFold. Бесплатный генератор GUSAROV собирает промт за 30 секунд под ваш стек: pandas + scikit-learn, PySpark + MLlib или Featuretools. Скопируйте результат и вставьте в ChatGPT или Claude.
Опишите в ChatGPT роль Middle ML-инженера, источник — временные ряды, задачу — обработка пропусков, стек pandas + scikit-learn и целевую модель Gradient Boosting. Попросите реализовать класс-трансформер с методами forward fill, интерполяцией по сплайну и заполнением сезонной медианой, обёрнутый в ColumnTransformer. Добавьте требование защиты от утечек: статистики считаются только на train-фолде через Pipeline и TimeSeriesSplit. ChatGPT вернёт код с логированием доли NaN до и после, проверкой стационарности и юнит-тестом на pytest. Такой промт экономит 2-3 часа ручной отладки. Скопируйте его из генератора GUSAROV и вставьте в ChatGPT для мгновенного результата.
Data Scientist получает воспроизводимый код за минуты вместо часов ручного написания трансформеров и борьбы с утечками целевой переменной. Генератор GUSAROV учитывает уровень (Junior, Middle, Senior, Lead MLOps), стек — Polars, PySpark, Featuretools — и целевую модель: для линейных моделей добавит StandardScaler и WoE-кодирование, для CatBoost — нативную обработку категорий. Нейросеть по готовому промту выдаёт код с KFold target encoding, mean target leakage checks и сохранением артефактов через joblib. Это критично на Kaggle-соревнованиях и в продакшене, где ошибка в пайплайне роняет ROC-AUC на 0.05. Попробуйте бесплатно и протестируйте промт в Claude или ChatGPT.
Промты для генерации создают новые колонки — агрегаты, лаги, кросс-фичи, полиномы, TF-IDF из логов кликстрима — через Featuretools или ручной pandas-код. Промты для отбора сужают пространство признаков через mutual information, Boruta, permutation importance и SHAP, отсекая коррелирующие и шумовые переменные. В первом случае вы просите Claude построить DFS с глубиной 2 на SQL-витрине, во втором — написать wrapper-метод с RFECV и порогом по LightGBM feature importance. Приоритет тоже разный: генерация тянет в сторону богатства данных, отбор — к скорости инференса и интерпретируемости. Используйте генератор GUSAROV, чтобы переключать тип задачи одним кликом и сравнивать результат в Claude.
Промты из генератора GUSAROV работают во всех популярных нейросетях: ChatGPT и Claude выдают самый качественный код с PySpark MLlib и корректной валидацией через TimeSeriesSplit. Gemini хорошо справляется с Featuretools и объяснением SHAP-значений. YandexGPT и GigaChat подходят для проектов с требованиями к локализации данных и работают с pandas + scikit-learn без потери качества на базовых задачах: target encoding, обработка пропусков, OHE категорий. Для сложных стэкинг-ансамблей и Polars-оптимизаций лучше использовать Claude Sonnet. Скопируйте один промт и протестируйте его последовательно в ChatGPT, YandexGPT и GigaChat — выберите нейросеть под ваш контур безопасности и бюджет.