11
Июн
2022

Точность модели машинного обучения

При 5-кратной кроссвалидации точность регрессии (коэффициент детерминации r^2) низкая на последнем разбиении.

Что это означает? При обучении на всем наборе данных качество обучения падает? Или это не имеет значения?

Значения: 0.29, 0.05, 0.36, 0.18, -1.31
Среднее: -0.08346647029663619 Это значения при выходном столбце верхней границы заработной платы (там данные не такие качественные, как нижняя граница, так как чаще пропущены) На нижней границе r2 около 48%, что меня вполне устраивает.

Стоит ли при таких значениях обучать для дальнейшего использования не на всем наборе данных, а на 1 и 3 части набора данных, где точность выше?

Набор данных - вакансии с hh.ru. Цель - прогнозирование заработной платы.

37 000 записей, 29 столбцов: опыт, ключевой навык, должность, работодатель, нижняя и верхняя граница заработной платы, специализация, профессиональная область (эти поля закодированы label encoding); город (Киров, Москва, СПб), график и тип занятости закодированы one hot encoding.

Данные не масштабировала, так как градиентный бустинг не чувствителен к масштабированию. Сложности модели должно быть достаточно, так как на обучающем наборе данных точность около 70-80%. Если я правильно понимаю, то модель переобучается.

Ссылка на набор данных: https://drive.google.com/file/d/1QJZAYyXIXcrMgzet8SUC31MzV5dHODcv/view?usp=sharing

Источник: https://ru.stackoverflow.com/questions/1419240/%D0%A2%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C-%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8-%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B3%D0%BE-%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F

Тебе может это понравится...

Добавить комментарий