Что такое регрессия в машинном обучении?

КОНБ — Getty Images

Методы регрессии необходимы для выявления взаимосвязей между данными и построения прогностических моделей для широкого спектра корпоративных сценариев использования: от прогнозов продаж до анализа рисков. Вот глубокое погружение в эту мощную технику машинного обучения.

Регрессия в машинном обучении — это метод, используемый для выявления взаимосвязей между независимыми и зависимыми переменными с основной целью прогнозирования результата. Он включает в себя обучение набора алгоритмов для выявления закономерностей, характеризующих распределение каждой точки данных. После выявления закономерностей модель может затем делать точные прогнозы для новых точек данных или входных значений.

Существуют разные типы регрессии. Двумя наиболее распространенными являются линейная регрессия и логистическая регрессия. В линейной регрессии цель состоит в том, чтобы разместить все точки данных на четкой линии. Логистическая регрессия фокусируется на определении того, должна ли каждая точка данных находиться ниже или выше линии. Это полезно для сортировки наблюдений по отдельным сегментам, например «мошенничество/не мошенничество», «спам/не спам» или «кошка/не-кошка».

Регрессия является фундаментальной концепцией в большинстве статистических данных. Машинное обучение поднимает ситуацию на новый уровень, используя алгоритмы для выявления этих фундаментальных взаимосвязей посредством автоматизированного процесса, сказал Харшад Хадилкар, старший научный сотрудник TCS Research и приглашенный доцент IIT Bombay.

«Регрессия — это то, что ученые и предприятия используют при ответе на количественные вопросы, особенно типа «сколько», «сколько», «когда будет» и т. д. В машинном обучении оно обнаруживает любые измерения, которые в настоящее время недоступны в данные», — пояснил Хадилкар.

Два распространенных метода, используемых в регрессии в машинном обучении, — это интерполяция и экстраполяция. Цель интерполяции — оценить значения в пределах доступных точек данных. Экстраполяция направлена на прогнозирование значений за пределами существующих данных на основе существующих регрессионных отношений.

Регрессия является важной концепцией не только для экспертов по машинному обучению, но и для всех бизнес-лидеров, поскольку она является основополагающим методом прогнозной аналитики, сказал Ник Крамер, вице-президент по прикладным решениям глобальной консалтинговой фирмы SSA & Company. Регрессия обычно используется для многих типов прогнозирования; Раскрывая природу взаимосвязи между переменными, методы регрессии дают предприятиям представление о ключевых проблемах, таких как отток клиентов, эластичность цен и многое другое.

Дэвид Стюарт, руководитель отдела обработки данных компании Legal & General, управляющей глобальными активами, отметил, что регрессионные модели используются для прогнозирования на основе уже известной нам информации, что делает их широко актуальными в различных отраслях. Например, линейная регрессия, которая прогнозирует численный результат, может использоваться для измерения роста человека на основе таких факторов, как возраст и пол. Напротив, логистическая регрессия может помочь предсказать вероятность покупки человеком нового продукта, используя в качестве индикаторов его прошлые покупки.

Линейная регрессия имеет фиксированную или постоянную чувствительность к переменным, от которых она зависит — будь то прогноз цен на акции, погода на завтра или розничный спрос. Например, двукратное изменение одной переменной приведет к определенному отклонению результата, сказал Хадилкар. Многие стандартные отраслевые алгоритмы используют линейную регрессию, например прогнозирование спроса по временным рядам.

Логистическая регрессия, напротив, фокусируется на измерении вероятности события по шкале от 0 до 1 или от 0% до 100%. Основная идея этого подхода состоит в том, чтобы создать S-образную кривую, показывающую вероятность возникновения события, при этом событие (например, сбой системы или нарушение безопасности) крайне маловероятно на одной стороне кривой и вблизи нее. уверен в другом.

Как уже отмечалось, методы линейной регрессии направлены на подгонку новых точек данных к линии. Они ценны для прогнозной аналитики.

Напротив, логистическая регрессия направлена на определение вероятности того, что новая точка данных будет принадлежать выше или ниже линии, т. е. к определенному классу. Методы логистической регрессии полезны в задачах классификации, подобных упомянутым выше, — чтобы определить, является ли транзакция мошеннической, электронное письмо — спамом, изображение — кошкой или нет.

Блог