Главная
»
Информационные системы
»
Интеллектуальные ИС
»
Алгоритм обучения понятиям. Адаптивная дискретизация непрерывных значений атрибутов.
Алгоритм обучения понятиям. Адаптивная дискретизация непрерывных значений атрибутов.
Методы обучения понятиям можно различать по природе среды, в которой происходит обучение, по степени участия учителя и по тому порядку, в котором представляется обучающая последовательность. Различают обучение, с учителем (когда обучаемого просят охарактеризовать понятие из данного множества помеченных примеров из обучающей последовательности) и обучение без учителя, когда обучаемого просят найти понятия из данного множества неклассифицированных примеров (экземпляров). Различают параллельную задачу обучения, когда все экземпляры обучающейся последовательности предъявляются одновременно, и последовательное обучение, когда примеры обучающей последовательности подаются последовательно. Все эти варианты встречаются на практике, и каждый играет определенную роль в обучении понятиям.
Эвристика инвестиционного выигрыша адаптивного квантования непрерывных атрибутов заключается в следующем. Когда примеры в обучающем множестве принимают значения x1...,xn в убывающем порядке на непрерывном атрибуте, мы можем использовать эвристику информационного выигрыша для того, чтобы найти наиболее информативную границу, чтобы расщепить область значений непрерывного атрибута. Максимальный информационный выигрыш всегда достигается в точке разреза между значениями, принимаемыми двумя примерами из различных классов.
Эвристика информационного выигрыша, принятая в алгоритме, получившем название HCV, определяется следующим образом:
- Каждое х = (хi + xi+I)/2 (i = l,...,n-l) является возможной точкой разреза, если значения хi и xi+1 принимаются экземплярами различных классов в обучающем множестве.
- Используй эвристику информационного выигрыша, чтобы проверить каждую из возможных точек отсечки и найти наилучшую точку расщепления,
- Применяй ту же процедуру к правой и левой частям (половинкам для дальнейшего расщепления). Число полученных таким способом интервалов может быть очень большим, если атрибуты не очень информативны. Были предложены некоторые критерии, чтобы остановить рекурсивное расщепление, которое принято в HCV.
- Остановить процесс, если информационный выигрыш во всех точках одинаков.
- Остановить процесс, если число экземпляров, подлежащих расщеплению меньше, чем определенное число (например, 14).
- Ограничить число интервалов, которые могут быть порождены до некоторого числа, например, 8.
Друзья! Приглашаем вас к обсуждению. Если у вас есть своё мнение, напишите нам в комментарии.