Добрый день дорогие Друзья и Коллеги!
Сегодня я хочу поделиться с вами своими записями о Data mining.
Это будет краткий пост, в котором я собрал основную информацию по теме, со ссылками на интересные статьи. По своей сути этот пост – моя памятка для работы по предметной теме.
И так…
Data mining — интеллектуальная обработка данных («добыча данных») с использованием методов машинного обучения, математической статистики и теории баз данных, которая включает изучение наборов данных для обнаружения и выявления закономерностей на основе этих данных.
Термин «data mining» появился в 1990-х годах, но как таковая обработка данных возникла в 18 веке, основываясь на теореме Байеса, чуть позже на регрессионном анализе.
Как читателю, возможно известно, согласно ГОСТ 59277-2020 «Системы искусственного интеллекта. Классификация систем искусственного интеллекта», есть системы ИИ (классифицируемые по методам обработки данных) использующие метод Байеса, кластеризацию, регрессию и т.д.
По мере того как количество данных росло, изобретались новые технологии в области информатики (нейронные сети, генетические алгоритмы, метод деревьев решений и т.д.), появлялась возможность хранения большого количества данных и увеличение скорости обработки информации компьютерами, интерес к data science и data mining стремительно рос и вскоре обработка данных стала считаться отдельной дисциплиной. Сейчас data mining включает в себя обработку не только текстовых данных (text data mining), но и графических и мультимедийных(web mining).
Data science — междисциплинарная область, которая объединяет научные методы, системы и процессы из статистики и информатики, чтобы обеспечить понимание явления или извлечения «ценности» из данных на основе структурированных или неструктурированных данных.
В настоящее время data science и data mining является частью большего понятия – Big data, которое помимо обработки данных включает в себя их сбор и хранение.
Фундаментально data mining основывается на 3-х понятиях:
- Математическая статистика (Math statistics) – является основой большинства технологий, используемых для data science и data mining, например, кластерный анализ, регрессионный анализ, дискриминирующий анализ и д.р.;
- Искусственный интеллект (Artificial Intelligence) – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе, в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений;
- Машинное обучение (Machine Learning) – это способность машин автоматизировать процесс обучения. Входными данными этого процесса обучения являются данные, а выходными данными — модель. Благодаря машинному обучению система может выполнять функцию обучения с данными, которые она принимает, и, таким образом, она становится все лучше в указанной функции.
В data mining используются следующие основные классы задач:·
- обнаружение отклонений – выявление данных, отличающихся по каким-либо параметрам из общей массы;
- обучение ассоциациям – поиск взаимосвязей между событиями;
- кластеризация – группирование наборов данных, без заранее известных шаблонов;
- классификация – обобщение известного шаблона для применения к новым данным;
- регрессия – поиск функции, отображающей набор данных с наименьшим отклонением;
- подведение итогов – отображение в сжатом виде исходной информации, включая предоставление отчетов и визуализацию.
Несомненно, каждая из перечисленных задач важна, но наибольший прикладной характер, по-моему мнению, носит задача Кластеризации.
Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.
Применение кластерного анализа в общем виде сводится к следующим этапам:
- Отбор выборки объектов для кластеризации.
- Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости – нормализация значений переменных.
- Вычисление значений меры сходства между объектами.
- Применение метода кластерного анализа для создания групп сходных объектов (кластеров).
- Представление результатов анализа.
Классификация алгоритмов:
- Иерархические и плоские.
Иерархические алгоритмы (также называемые алгоритмами таксономии) строят не одно разбиение выборки на непересекающиеся кластеры, а систему вложенных разбиений. Т.о. на выходе мы получаем дерево кластеров, корнем которого является вся выборка, а листьями — наиболее мелкие кластера.
Плоские алгоритмы строят одно разбиение объектов на кластеры. - Четкие и нечеткие.
Четкие (или непересекающиеся) алгоритмы каждому объекту выборки ставят в соответствие номер кластера, т.е. каждый объект принадлежит только одному кластеру. Нечеткие (или пересекающиеся) алгоритмы каждому объекту ставят в соответствие набор вещественных значений, показывающих степень отношения объекта к кластерам. Т.е. каждый объект относится к каждому кластеру с некоторой вероятностью.
Перечень применяемых алгоритмов:
- Алгоритмы иерархической кластеризации.
- Алгоритмы квадратичной ошибки.
- Нечеткие алгоритмы.
- Алгоритмы, основанные на теории графов.
- Алгоритм выделения связных компонент.
- Алгоритм минимального покрывающего дерева.
- Послойная кластеризация.
- Генетический алгоритм.
Применение на практике:
- Разработка программного комплекса для интеллектуального анализа социальных медиа.
- Методика и алгоритм кластеризации объектов экономической аналитики.
- и другие прикладные задачи для различных отраслей экономики РФ.
Ссылки:
- Технология Data mining, её применение и характеристики | iot.ru Новости Интернета вещей
- Кластеризация: алгоритмы k-means и c-means / Хабр (habr.com)
- Обзор алгоритмов кластеризации данных / Хабр (habr.com)
- Статьи Ректора УлГТУ Ярушкиной Надежды Глебовны (npomars.com)
- GitHub – ranalytics/data-mining: Материалы к книге “Классификация, регрессия, и другие алгоритмы Data Mining с использованием R”