СТАТЬИ АРБИР
 

  2016

  Декабрь   
  Пн Вт Ср Чт Пт Сб Вс
28 29 30 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
   

  
Логин:
Пароль:
Регистрация
Забыли свой пароль?


Обнаружение воровства в сфере коммунального хозяйства методами data mining


Аннотация:

Ущерб от мошенничества с приборами учета (разновидность нетехнических потерь) наносят ущерб мировой экономике, измеряемый в миллиарды долларов ежегодно.

Нетехнические потери определяют как любую потребленную коммунальную услугу (энергия, вода, тепло и т.д.) которая не была оплачена в следствии сбоя в работе прибора учета или в следствии нелегальных операций с приборами учета, приведших к искажению показаний.

В данной работе предложен подход, позволяющий выявлять мошенничество с приборами учета с помощью методов интеллектуального анализа данных

УДК 3306.58.055

Комоцкий Евгений Игоревич,

заместитель директора по инновационной работе, департамент бизнес-информатики и математического моделирования

Высшая школа экономики и менеджмента,

ФГАОУ ВПО «УрФУ имени первого Президента России Б.Н.Ельцина» e-mail: komockye AT mail.ru г.Екатеринбург, Россия

Ключевые слова:

Интеллектуальный анализ данных, машинное обучение, мошенничество, нетехнические потери.

В литературе описывают следующие виды нетехнических потерь:

[1],[2],[5]:

  1. Ошибки в расчете технических потерь.
  2. Самостоятельное несанкционированное подключение.
  3. Искажение показаний приборов учета.
  4. Подключения минующие приборы учета.
  5. Простое игнорирование неоплаченных счетов.
  6. Неисправные приборы учета.
  7. Ошибки и задержка в работе приборов учета.
  8. Несвоевременные платежи.

Для целей анализа была сформирована выборка, основывающаяся на следующих характеристиках:

  • Дискретность значений - месяц. Так как в биллинговых системах платежные документы имеют месячную дискретизацию, то была выбрана именно эта периодичность.
  • Г еографическая локализация - г. Екатеринбург, Чкаловский район.
  • Диапазон потребления - для целей анализа, крайне важно, чтобы объекты подлежащие сравнению обладали схожими характеристиками.

В данном случае исследуемы объекты являлись квартирами в многоквартирных домах, и дополнительное разбиение выборки не потребовалось, однако для применения к промышленным объектам, следует учитывать этот момент.

Временной диапазон исследования - 12 месяцев

Данные подлежат очистке от:

  • Объектов, имеющих биллинг менее чем за 6 месяцев.
  • Объектов, имеющих отрицательные значения биллинга.
  • Временные ряды потребления были подвергнуты процедуре нормализации с помощью Z-показателя (1)

X - U

Z= (1)

О

где д - среднее выборки (временного ряда).

с - стандартное отклонение выборки (временного ряда).

После получения нормализованного временного ряда, он был подвергнут преобразованию в нечеткую (fuzzy) форму.

Для решения этой задачи мы воспользовались модификацией метода Сонга [6] и отличающейся использованием приращением значений временного ряда вместо реальных числовых значений.

Процесс преобразования временного ряда к нечеткой форме заключается в следующих шагах:

Шаг 1: Задание области определения (универсального множества U) проблемы, исходя из вычисленных значений приращений.

Так как мы подвергли временной ряд нормализации, очевидно, что универсальное множество может быть представлено в диапазоне [-1, 1].

Шаг 2: Разбиение универсального множества U на интервалы равной длинны.

В данной работе, область определения делится на 5 равных интервалов

Ui =1,5 U1=[-1, -0,6], U2=[-0,6, -0,2]...U5=[0,6, 1]

Шаг 3. Определение нечетких множеств.

Лингвистическая переменная «изменение показаний счетчика» характеризуется терм-множеством, образуемым следующими значениями: A (резкое снижение), B (снижение), C (без изменений/незначительное изменение), D (рост), E (резкий рост).

Для построенных выше интервалов U, факт принадлежности каждого конкретного интервала определенному множеству выражается действительным числом из единичного интервала [-1,1].

Шаг 4. Фаззификация приращений

Например, приращение показаний в марте месяце за ГВС составило -

4, это значение попадает в интервал [-0,6, -0,2] и соответствует термину “снижение” (B).

Шаг 5. Кластеризация

Для кластеризации мы используем самый обычны алгоритм иерархической кластеризации, метрика - расстояние Хэмминга, т.к. в результате фаззификации мы от формы временного ряда перешли к форме символьной строки из 12 символов.

Cluster Dendrogram

СО —1 1

CD

£ ^

О

D

X

as.dist(sd) hclust (*, "complete")

Рисунок 1 - Пример кластеризации

Шаг 6. Проверка на автокорреляцию

Следующим важным шагом является проверка полученных кластеров на автокорреляцию.

На рисунке ниже приведены типичный профиль потребления мошенника и обычного потребителя.

(b)

Рисунок 2 - Нормализованный профиль потребления двух потребителей-мошенников за период в два года [3]

Рисунок 3 - Нормализованный профиль потребления двух обычных потребителей за период в два года [3]

Как мы можем видеть, невооруженным взглядом заметна автокорреляция в те месяцы, в которые потребитель начал мошенничать со счетчиками.

Рассмотрим пример автокорреляции нормального потребителя услуг (Рисунок 4)

Л*т« с'«а •

Рисунок 4 - Пример графика обычного потребителя услуг

Рисунок 5 - Пример графика автокорреляции обычного потребителя услуг

Предложенный подход позволяет выявлять подозрительных потребителей в ситуациях, когда использование других методов классификации затруднено ввиду отсутствия обучающей выборки.

Эксперимент проведённый на 194-квартирном доме показал точность классификации подозрительных потребителей в 75%.

Список использованных источников

  1. Siva Sankari E., Rajesh. R, Detection of Non-Technical Loss in Power Utilities using Data Mining Techniques, International Journal for Innovative Research in Science Technology/Volume 1/Issue 9, India, 2015, pp 97-100;
  2. Monedero I., Biscarri F.,Leon C., Guerrero J., Biscarri J., Millan R, Using Regression Analysis to Identify Patterns of Non-Technical Losses on Power Utilities, KES 2010, Part I, LNAI 6276, Spain, 2010, pp 410-419;
  3. Nagi J., Siah Yap K., Kiong Tiong S., Khaleel S.A., Mohamad M., Non technical Loss Detection for Metered Customers in Power Utility Using Support Vector Machines,IEEE 2010, Malaysia, vol. 3, pp 185-193, 2010.
  4. Nagi J., An Intelligent System For Detection Of Non-Technical Losses In Tenaga Nasional Berhad (TNB) Malaysia Low Voltage Distribution Network, A Thesis Submitted In Fulfilment Of The Requirements For The Degree Of Masters Of Electrical Engineering, Malaysia, pp 104, 2009.
  5. Humaid E. H. S A Data Mining Based Fraud Detection Model For Water Consumption Billing System In MOG, Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Science In Information Technology, MOG, pp II, 2012.
  6. Pinto J.O.P., Martins E.M., Pinto A.M.A.C., Fraud Detection in High Voltage Electricity Consumers Using Data Mining Transmission and Distribution Conference and Exposition (IEEE), Spain, 2008, pp 1-5.

Evgeny Komotsky,

Deputy Director at the innovative,

department of Business Informatics and Mathematical Modelling Ural Federal University named after the first President of Russia Boris Yeltsin e-mail: komockye AT mail.ru Ekaterinburg, Russia

FRAUD DETECTION IN THE SPHERE OF PUBLIC SECTOR BY USING DATA MINING METHODS

Abstract:

Losses from fraud metered (a type of non-technical losses) are detrimental to the global economy, measured in billions of dollars annually.

Non-technical losses is defined as any consumption of utilities (energy, water, heat, etc.) that has not been paid as a consequence of failure of the metering device, or as a consequence of illegal operations with metering devices, leading to a distortion of evidence.

In this paper we propose an approach to detect fraud with meters using data mining techniques.

Key words:

Data mining, machine learning, fraud, non-technical losses.








МОЙ АРБИТР. ПОДАЧА ДОКУМЕНТОВ В АРБИТРАЖНЫЕ СУДЫ
КАРТОТЕКА АРБИТРАЖНЫХ ДЕЛ
БАНК РЕШЕНИЙ АРБИТРАЖНЫХ СУДОВ
КАЛЕНДАРЬ СУДЕБНЫХ ЗАСЕДАНИЙ

ПОИСК ПО САЙТУ