В настоящее время существует достаточно широкий спектр инструментов интеллектуального анализа данных: от традиционных методов статистического анализа до современных алгоритмов машинного обучения (деревья решений, нейронные сети, логистическая регрессия и т. д.). Разнообразие алгоритмов извлечения знаний (Data Mining) говорит о том, что не существует одного универсального метода для решения всех задач. Кроме того, применение различных инструментов моделирования к одному и тому же набору данных может преследовать разные цели: либо построить упрощенную, прозрачную, легко интерпретируемую модель в ущерб точности; либо построить более точную, но и более сложную и менее интерпретируемую модель. Таким образом, одной из актуальных задач современного бизнес-анализа является нахождение компромисса между такими показателями, как
- точность,
- сложность и
- интерпретируемость.
Большинство исследователей предпочитают получение более точных результатов, так как для конечных пользователей понятие прозрачности субъективно. Точность результатов зависит от качества исходных данных, предметной области и используемого метода анализа данных. В последние несколько лет значительно возрос интерес к вопросу увеличения точностей моделей Data Mining, основанных на машинных методах обучения, за счет объединения усилий нескольких методов и создание ансамблей моделей, что позволяет повысить качество решения аналитических задач.
Под обучением ансамбля моделей понимается процедура обучения конечного набора базовых классификаторов, результаты прогнозирования которых затем объединяются и формируется прогноз агрегированного классификатора.
Причины повышения точности при использовании ансамблей моделей
Вероятностно - статистическое объяснение
В условиях большого количества моделей, обученных примерно на одном и том же множестве примеров происходит поиск лучшей гипотезы о следующем состоянии системы или о ее структуре (свойствах). Этот процесс включает выдвижение и оценку гипотез. Выдвижение и оценка гипотез часто зависит от случайных факторов: разброс значений в наборе данных, выбор первой гипотезы, выбор последовательности примеров для классификации и т.д. Отдельно взятый алгоритм часто находит и "доказывает" на обучающем множестве гипотезу, которая затем не показывает точности на примерах, не вошедших в выборку. Однако, если использовать достаточно большое количество моделей обученных примерно на одном и том же множестве примеров мы можем уменьшить случайность полученного результата путем комбинирования результатов (например, путем их усреднения, голосования и т.д.). В этом случае случайные факторы и нестабильность алгоритмов начинает играть на повышение точности получаемых результатов. Модели уравновешивают случайность результатов друг друга, находя на основе баланса наиболее правдоподобное выходное значение. Это способствует нахождению наилучшего результата и минимизации ошибки.
Теоретически можно показать, что усреднение по множеству моделей, построенных на основе независимых обучающих множеств, всегда уменьшает ожидаемое значение среднеквадратической ошибки.
В социальных науках это явление известно под названием эффекта гениальности толпы. Его можно пояснить на следующем примере. Как-то в 18-м веке на одной сельскохозяйственной ярмарке проходил конкурс. Фермеры оценивали вес быка и бросали бумажки со своими ответами в шапку. Тот, кто оказывался ближе всех к правильному ответу, получал приз. Фантики с надписями были собраны. Когда было посчитано среднее арифметическое, выяснилось, что вес быка отличался от усредненного мнения фермеров всего на полкилограмма. Ни один из присутствовавших экспертов по скоту не дал более точного ответа.
Другой иллюстрацией может служить стрельба по мишени. При достаточно большом количестве выстрелов мы можем воспроизвести положение центра мишени, усреднив данные о расположении отдельных точек попадания. Точность такого усреднения повышается при условии примерного равенства класса оружия, из которого производились выстрелы, расстояния до мишени, квалификации стрелков и др. факторов.
Математико-вычислительное объяснение
В основе всех инструментов вычисления оптимального решения лежит идея поиска экстремума некой регрессионной функуции (линейной, нелинейной, сложной, неявной, др.) В большинстве случаев существует несколько экстремумов выбранной функции на предложенных для модели данных. Нужно учитывать сильную "чувствительность" к наборам данных таких алгоритмов как деревья решений или нейросети, что является обратной медалью их способности находить точные решения. Это ведет к нахождению алгоритмом обучения локального экстремума.
Теретически нет всеобъемлющего решения остановки поиска решения на локальном экстремуме. Таким образом, можно ожидать, что часть моделей вместо нахождения глобального экстремума предоставит в распоряжение исследователя локально правильное решения для части примеров. В то время как для других это решение будет далеко от оптимального. При возникновении проблемы в рассматриваемой плоскости также основополагающую роль играют случайные факторы.
В решении данного вопроса также помогает использование нескольких (множества). В то время как мы может ожидать от отдельной модели остановку на локальном экстремуме, создание композиции из таких моделей подводит исследователя ближе к определению глобального экстремума и статистически "поддерживает" полученное решение.
При использовании множества моделей поиск оптимума происходит из разных точек, используются разнообразные пути поиска верной гипотезы. В случае если мы случайно комбинирует примеры и их последовательность для обучения, используем максимальное количество случайных величин для настройки моделей настройках, используем разнообразные модели, полученные результаты приближаются к нормальному распределению.
Иллюстрацией данного явления может служить поиск самой длинной осины на большом участке леса. Предположим, что лес имеет неровный рельеф, сложную геометрию, неоднородный состав пород деревьев, разный наклон деревьев и т.д. При решении этой и других задач нужно иметь в виду погрешность измерения, ограничения на поиск по времени, бюджету и т.д. В случае, если поиск осуществляет группа лесорубов с разных концов такого участка, применяет разные способы измерения и т.п., вероятность найти верное решение повышается.
Объяснение на основе фактора ограниченности гипотез
Будущее связано с настоящим, однако может включать в себя факторы которые из него не вытекают. Всё, что достоверно известно о будущем, — это то, что оно будет другим. На объяснение будущего по мнению О.С. Виханского можно посмотреть иначе, чем в исторической парадигме: не мы движемся из прошлого через настоящее в будущее, а будущее приходит к нам. Причем будущее приходит к нам не из завтра, а из послезавтра, потому что то, что будет завтра, предопределяется тем, что будет послезавтра. И вообще, у будущего нет даты. Поэтому, если пытаться спроецировать завтра, исходя только из того, что мы имели вчера и имеем сегодня, мы может потерпеть неудачу.
О.С. Виханский предлагает для иллюстрации следующую картину. Вы едете по дороге, из одного крупного города в другой. Вы отъехали от первого города, и то, что вы видите сначала, является продолжением того города, из которого вы движитесь, и того, что вы удаляетесь от этого населенного пункта. Отъехав на достаточное расстояние, вы оказываетесь в другой местности, среди полей и лесов, пересеченных реками. Но вот начинают появляться какие-то строения, дорожные указатели и некоторые другие знаки изменения придорожного пейзажа. Можно ли сказать, что видимое вами вытекает или определено теми полями и лесами, которые вы наблюдали перед этим? Конечно же, нет. Все, что будет появляться на шоссе, определено тем городом, в который вы направляетесь. Более того, новые постройки не являются продолжением того, что вы уже могли видеть, а как бы определяются тем, что вы увидите через какое-то время. Приведенный пример не имеет свойства доказательства, а служит лишь иллюстрацией к основной идее.
Ансамбль моделей обладает прогностическими свойствами, которых не имеет ни одна из моделей на основе исторических данных (данных из прошлого). Ансамбль моделей на основе комбинирования отдельно подтвержденных гипотез отражает некую новую, не исследованную частными моделями возможность - гипотезу. Эта возможность, с одной стороны, не отрывается от базовых свойств системы; с другой стороны, она находится в точке, куда не смогла попасть ни одна из гипотез "продолжающих прошлое". Можно предположить, что это скорее всего точка, куда могли бы попасть модели на основе синтеза "метазнания" друг друга. К сожалению, и это не гарантирует преодоление мистерии "черного лебедя".
При формировании ансамбля моделей необходимо решить три задачи:
- выбрать базовую модель;
- определить подход к использованию обучающего множества;
- выбрать метод комбинирования результатов.
Так как ансамбль - это составная модель, состоящая из отдельных базовых моделей, то при его формировании возможны два случая:
- ансамбль состоит из базовых моделей одного типа, например, только из деревьев решений, только из нейронных сетей и т. д.;
- ансамбль состоит из моделей различного типа - деревьев решений, нейронных сетей, регрессионных моделей и т. д.
При построении ансамбля используется обучающее множество, для использования которого существуют два подхода:
- перевыборка, т. е. из исходного обучающего множества извлекается несколько подвыборок, каждая из которых используется для обучения одной из моделей ансамбля;
- использование одного обучающего множества для обучения всех моделей ансамбля.
Для комбинирования результатов, выданных отдельными моделями, используют три способа:
- голосование - выбирается тот класс, который был выдан простым большинством моделей ансамбля;
- взвешенное голосование - для моделей ансамбля устанавливаются весы, с учетом которых выносится результат;
- усреднение (взвешенной или невзвешенное) - выход всего ансамбля определяется как простое среднее значение выходов всех моделей, при взвешенном усреднении выходы всех моделей умножаются на соответствующие веса.
Исследования ансамблей моделей в Data Mining стали проводиться относительно недавно. Тем не менее, к настоящему времени разработано множество различных методов и алгоритмов формирования ансамблей. Среди них наибольшее распространение получили такие методы, как беггинг (bagging), бустинг (boosting) и стэкинг (stacking).
Алгоритм беггинга
Главная идея бэггинга в реализации параллельного обучения на нескольких различных выборках одинакового размера, полученных путем случайного отбора примеров из исходного набора данных.
Алгоритм беггинга подразумевает следующие шаги. Сначала формируется несколько выборок путем случайного отбора из исходного множества данных. Затем на основе каждой выборки строится классификатор, и выходы всех классификаторов агрегируются с использованием голосования или простого усреднения. Очевидно, что точность предсказания построенных с помощью беггинга комбинированных классификаторов оказывается значительно выше, чем точность отдельных моделей.
Разница между бэггингом и идеальной процедурой обучения моделей на независимых выборках, заключается в способе формирования обучающих множеств. Вместо получения независимых множеств из предметной области бэггинг просто производит перевыборку исходного множества данных. Такие множества отличаются друг от друга, но не являются независимыми, поскольку все они основаны на одном и том же множестве. Тем не менее бэггинг позволяет создавать комбинированные модели, которые, как правило, работают значительно лучше, чем отдельная модель.
Алгоритм бустинга
Основная идея бустинга заключается в построении цепочки моделей, при этом каждая следующая обучается на примерах, на которых предыдущая допустила ошибку.
По сравнению с беггингом бустинг является более сложной процедурой, но во многих случаях работает эффективнее. Бустинг начинает создание ансамбля на основе единственного исходного множества, но в отличии от беггинга каждая новая модель строится на основе результатов предыдущей, т. е. модели строятся последовательно. Бустинг создает новые модели таким образом, чтобы они дополняли ранее построенные, выполняли ту работу, которую другие модели сделать не смогли на предыдущих шагах. И наконец, последнее отличие бустинга от бэггинга заключается в том, что всем построенным моделям в зависимости от их точности присваиваются веса.
Бустинг-алгоритм относится к итерационным алгоритмам. Он учится распознавать примеры на границах классов. Каждой записи данных на каждой итерации алгоритма присваивается вес. Первый классификатор обучается на всех примерах с равными весами. На каждой последующей итерации веса расставляются соответственно классифицированным примерам, т. е. веса правильно классифицированных примеров уменьшаются, а неправильно классифицированных - увеличиваются. Следовательно, приоритетными для следующего классификатора станут неправильно распознанные примеры, обучаясь на которых новый классификатор будет исправлять ошибки классификатора на прошлой итерации.
Алгоритм Стэкинг
Стэкинг - один из способов создания составных моделей. Данный метод был разработан недавно, поэтому менее известен, чем беггинг и бустинг. Отчасти это связано со сложностью теоретического анализа, а отчасти с тем, что общая концепция использования данного метода пока отсутствует - основная идея может применяться в самых разнообразных вариантах. В отличие от бэггинга и бустинга стэкинг обычно применяется к моделям, построенным с помощью различных алгоритмов, обучаемых на одинаковых данных. Стэкинг вводит концепцию метаобучения, т. е. пытается обучить каждый классификатор, используя алгоритм метаобучения, который позволяет обнаружить лучшую комбинацию выходов базовых моделей.
Что касается практической части, то в качестве примера была рассмотрена беггинг-методика применительно к эконометрическим ансамблям моделей.
А. Е. Сошенко, Н. А. Королева Уральский государственный экономический университет (Екатеринбург)
Конкурентоспособность территорий. Материалы XV Всероссийского форума молодых ученых с международным участием в рамках III Евразийского экономического форума молодежи «Диалог цивилизаций «ПУТЬ НАВСТРЕЧУ» Часть 9. Направления: 17. Математические и инструментальные методы экономики 18. Механические системы. Аналитическая химия, физика 21. Проблемы региональной и муниципальной экономики, Екатеринбург Издательство Уральского государственного экономического университета 2012
Количество показов: 9297