СТАТЬИ АРБИР
 

  2018

  Октябрь   
  Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 1 2 3 4
   

  
Логин:
Пароль:
Забыли свой пароль?


Модификация метода роккио для классификации текстовой информации


МОДИФИКАЦИЯ МЕТОДА РОККИО ДЛЯ КЛАССИФИКАЦИИ ТЕКСТОВОЙ ИНФОРМАЦИИ

Аннотация

В данной работе приводится модификация метода Роккио, который используется при классификации текстовых данных. Основная идея - разбиение классов обучающей выборки на более мелкие подкатегории с помощью алгоритмов кластеризации данных.

Ключевые слова

Классификация данных, кластеризация данных, метод Роккио, линейный классификатор, нелинейный классификатор.

В настоящее время остро стоит проблема поиска необходимой информации в интернете. При этом зачастую пользователи не имеют четкого представления о том, что они ищут (например, поиск публикаций, похожих на некоторую статью). Решить данную проблему помогают методы автоматической классификации текстовой информации. В настоящее время, существует множество подобных методов, самым простым и быстрым, но наименее точным, является алгоритм Роккио, который зачастую используется в качестве базового метода для сравнения точности других алгоритмов [1]

При классификации методом Роккио для каждого класса документов из обучающей выборки находится типичный представитель:

Q = ^llldeDid (1),

Cj - центроид i-того класса

Di - i-тый класс документов

Классифицируемый текст относят к тому классу, к которому принадлежит ближайший к нему центроид.

Метод Роккио имеет недостатки линейных классификаторов - делит пространство документов линейно [2]. На Рисунке 1 представлены вектор-образы двух классов документов, которые нельзя разделить с помощью прямой. Данная ситуация наблюдается в случаях, когда тексты в рамках даже одного класса существенно различаются (например, новостные статьи на схожую тему, написанные разными авторами). При этом метод Роккио показывает низкую точность, обусловленную тем, что типичный представитель одного класса документов может располагаться совсем близко от центроида другого класса.

Рисунок 1. Нелинейная выборка двух классов документов.

Автор данной работы предлагает перед вычислением типичных представителей производить автоматическую кластеризацию в рамках каждого класса документов. В процессе кластеризации происходит разбиение множества документов на классы, при котором элементы, объединяемые в один класс, имеют большее сходство, нежели элементы, принадлежащие разным классам [3]. При этом векторное пространство делится на подгруппы, отделяемые друг от друга прямыми (при n=2, n - размерность векторного пространства) или плоскостями (n 2), т.е. метод Роккио из линейного превратится в нелинейный (Рисунок 2).

Рисунок 2. Кластеризированные классы документов из обучающей выборки

Таким образом, процесс обучения и классификации модифицированного метода представляется следующими шагами:

Каждый класс документов обучающего множества разбивается на подкатегории с помощью известных методов кластеризации (нейронные сети, метод k-средних, жадный алгоритм, FRiS-алгоритм и т.д.)

Находятся типичные представители каждого полученного кластера с помощью формулы (1).

Новый текстовый объект относят к тому классу, к которому принадлежит ближайший к нему центроид.

Необходимо заметить, что классический метод отличается от модифицированного дополнительным шагом обучения алгоритма (шаг №1), т.е. скорость обучения понижается. В настоящее время проводится сравнительный анализ эффективности полученного метода относительно других методов классификации.

Список литературы

Гудов А.М. Автоматическая классификация слабоструктурированных документов, участвующих в научно-образовательном процессе организации./ А.М. Гудов, С.Ю. Завозкин, В.А. Шевнин // Вестник КемГУ, выпуск № 4 (60), Т.3, 2014. - С. 43-47

Пескова О.В. Методы автоматической классификации текстовых электронных документов [Текст]/ О.В. Пескова // НТИ. Серия 2: Информационные процессы и системы. - 2006. - № 3. - С. 13-20.

Шокин Ю.И. Проблемы поиска информации / Ю. И. Шокин,. А. М. Федотов, В. Б. Барахнин. Новосибирск: Наука, 2010. — 220 с. КУЛЬТУРА И ИСКУССТВО


Шевнин В.А. - магистрант ФГБОУ ВПО «Кемеровский государственный университет», Россия, г. Кемерово





МОЙ АРБИТР. ПОДАЧА ДОКУМЕНТОВ В АРБИТРАЖНЫЕ СУДЫ
КАРТОТЕКА АРБИТРАЖНЫХ ДЕЛ
БАНК РЕШЕНИЙ АРБИТРАЖНЫХ СУДОВ
КАЛЕНДАРЬ СУДЕБНЫХ ЗАСЕДАНИЙ

ПОИСК ПО САЙТУ