Что такое Data mining?

By in ,
81
Что такое Data mining?

Добрый день дорогие Друзья и Коллеги!

Сегодня я хочу поделиться с вами своими записями о Data mining.

Это будет краткий пост, в котором я собрал основную информацию по теме, со ссылками на интересные статьи. По своей сути этот пост – моя памятка для работы по предметной теме.

И так…

Data mining — интеллектуальная обработка данных («добыча данных») с использованием методов машинного обучения, математической статистики и теории баз данных, которая включает изучение наборов данных для обнаружения и выявления закономерностей на основе этих данных.

Термин «data mining» появился в 1990-х годах, но как таковая обработка данных возникла в 18 веке, основываясь на теореме Байеса, чуть позже на регрессионном анализе.

Как читателю, возможно известно, согласно ГОСТ 59277-2020 «Системы искусственного интеллекта. Классификация систем искусственного интеллекта», есть системы ИИ (классифицируемые по методам обработки данных) использующие метод Байеса, кластеризацию, регрессию и т.д.

По мере того как количество данных росло, изобретались новые технологии в области информатики (нейронные сети, генетические алгоритмы, метод деревьев решений и т.д.), появлялась возможность хранения большого количества данных и увеличение скорости обработки информации компьютерами, интерес к data science и data mining стремительно рос и вскоре обработка данных стала считаться отдельной дисциплиной. Сейчас data mining включает в себя обработку не только текстовых данных (text data mining), но и графических и мультимедийных(web mining).

Data science — междисциплинарная область, которая объединяет научные методы, системы и процессы из статистики и информатики, чтобы обеспечить понимание явления или извлечения «ценности» из данных на основе структурированных или неструктурированных данных.

В настоящее время data science и data mining является частью большего понятия – Big data, которое помимо обработки данных включает в себя их сбор и хранение.

Фундаментально data mining основывается на 3-х понятиях:

  • Математическая статистика (Math statistics) – является основой большинства технологий, используемых для data science и data mining, например, кластерный анализ, регрессионный анализ, дискриминирующий анализ и д.р.;
  • Искусственный интеллект (Artificial Intelligence) – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе, в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений;
  • Машинное обучение (Machine Learning) – это способность машин автоматизировать процесс обучения. Входными данными этого процесса обучения являются данные, а выходными данными — модель. Благодаря машинному обучению система может выполнять функцию обучения с данными, которые она принимает, и, таким образом, она становится все лучше в указанной функции.

В data mining используются следующие основные классы задач:·   

  • обнаружение отклонений – выявление данных, отличающихся по каким-либо параметрам из общей массы;
  • обучение ассоциациям – поиск взаимосвязей между событиями;
  • кластеризация – группирование наборов данных, без заранее известных шаблонов;
  • классификация – обобщение известного шаблона для применения к новым данным;
  • регрессия – поиск функции, отображающей набор данных с наименьшим отклонением;
  • подведение итогов – отображение в сжатом виде исходной информации, включая предоставление отчетов и визуализацию.

Несомненно, каждая из перечисленных задач важна, но наибольший прикладной характер, по-моему мнению, носит задача Кластеризации.

Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Применение кластерного анализа в общем виде сводится к следующим этапам:

  1. Отбор выборки объектов для кластеризации.
  2. Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости – нормализация значений переменных.
  3. Вычисление значений меры сходства между объектами.
  4. Применение метода кластерного анализа для создания групп сходных объектов (кластеров).
  5. Представление результатов анализа.

Классификация алгоритмов:

  1. Иерархические и плоские.
    Иерархические алгоритмы (также называемые алгоритмами таксономии) строят не одно разбиение выборки на непересекающиеся кластеры, а систему вложенных разбиений. Т.о. на выходе мы получаем дерево кластеров, корнем которого является вся выборка, а листьями — наиболее мелкие кластера.
    Плоские алгоритмы строят одно разбиение объектов на кластеры.
  2. Четкие и нечеткие.
    Четкие (или непересекающиеся) алгоритмы каждому объекту выборки ставят в соответствие номер кластера, т.е. каждый объект принадлежит только одному кластеру. Нечеткие (или пересекающиеся) алгоритмы каждому объекту ставят в соответствие набор вещественных значений, показывающих степень отношения объекта к кластерам. Т.е. каждый объект относится к каждому кластеру с некоторой вероятностью.

Перечень применяемых алгоритмов:

  1. Алгоритмы иерархической кластеризации.
  2. Алгоритмы квадратичной ошибки.
  3. Нечеткие алгоритмы.
  4. Алгоритмы, основанные на теории графов.
  5. Алгоритм выделения связных компонент.
  6. Алгоритм минимального покрывающего дерева.
  7. Послойная кластеризация.
  8. Генетический алгоритм.

Применение на практике:

  1. Разработка программного комплекса для интеллектуального анализа социальных медиа.
  2. Методика и алгоритм кластеризации объектов экономической аналитики.
  3. и другие прикладные задачи для различных отраслей экономики РФ.

Ссылки:

  1. Технология Data mining, её применение и характеристики | iot.ru Новости Интернета вещей
  2. Кластеризация: алгоритмы k-means и c-means / Хабр (habr.com)
  3. Обзор алгоритмов кластеризации данных / Хабр (habr.com)
  4. Статьи Ректора УлГТУ Ярушкиной Надежды Глебовны (npomars.com)
  5. GitHub – ranalytics/data-mining: Материалы к книге “Классификация, регрессия, и другие алгоритмы Data Mining с использованием R”