Что такое Data mining? –

Добрый день дорогие Друзья и Коллеги!

Сегодня я хочу поделиться с вами своими записями о Data mining.

Это будет краткий пост, в котором я собрал основную информацию по теме, со ссылками на интересные статьи. По своей сути этот пост – моя памятка для работы по предметной теме.

И так…

Data mining — интеллектуальная обработка данных («добыча данных») с использованием методов машинного обучения, математической статистики и теории баз данных, которая включает изучение наборов данных для обнаружения и выявления закономерностей на основе этих данных.

Термин «data mining» появился в 1990-х годах, но как таковая обработка данных возникла в 18 веке, основываясь на теореме Байеса, чуть позже на регрессионном анализе.

Как читателю, возможно известно, согласно ГОСТ 59277-2020 «Системы искусственного интеллекта. Классификация систем искусственного интеллекта», есть системы ИИ (классифицируемые по методам обработки данных) использующие метод Байеса, кластеризацию, регрессию и т.д.

По мере того как количество данных росло, изобретались новые технологии в области информатики (нейронные сети, генетические алгоритмы, метод деревьев решений и т.д.), появлялась возможность хранения большого количества данных и увеличение скорости обработки информации компьютерами, интерес к data science и data mining стремительно рос и вскоре обработка данных стала считаться отдельной дисциплиной. Сейчас data mining включает в себя обработку не только текстовых данных (text data mining), но и графических и мультимедийных(web mining).

Data science — междисциплинарная область, которая объединяет научные методы, системы и процессы из статистики и информатики, чтобы обеспечить понимание явления или извлечения «ценности» из данных на основе структурированных или неструктурированных данных.

В настоящее время data science и data mining является частью большего понятия – Big data, которое помимо обработки данных включает в себя их сбор и хранение.

Фундаментально data mining основывается на 3-х понятиях:

Математическая статистика (Math statistics) – является основой большинства технологий, используемых для data science и data mining, например, кластерный анализ, регрессионный анализ, дискриминирующий анализ и д.р.;
Искусственный интеллект (Artificial Intelligence) – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе, в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений;

Машинное обучение (Machine Learning) – это способность машин автоматизировать процесс обучения. Входными данными этого процесса обучения являются данные, а выходными данными — модель. Благодаря машинному обучению система может выполнять функцию обучения с данными, которые она принимает, и, таким образом, она становится все лучше в указанной функции.

В data mining используются следующие основные классы задач:·

обнаружение отклонений – выявление данных, отличающихся по каким-либо параметрам из общей массы;
обучение ассоциациям – поиск взаимосвязей между событиями;
кластеризация – группирование наборов данных, без заранее известных шаблонов;
классификация – обобщение известного шаблона для применения к новым данным;
регрессия – поиск функции, отображающей набор данных с наименьшим отклонением;
подведение итогов – отображение в сжатом виде исходной информации, включая предоставление отчетов и визуализацию.

Несомненно, каждая из перечисленных задач важна, но наибольший прикладной характер, по-моему мнению, носит задача Кластеризации.

Кластеризация (или кластерный анализ) — это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны. Главное отличие кластеризации от классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Применение кластерного анализа в общем виде сводится к следующим этапам:

Отбор выборки объектов для кластеризации.
Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости – нормализация значений переменных.
Вычисление значений меры сходства между объектами.
Применение метода кластерного анализа для создания групп сходных объектов (кластеров).
Представление результатов анализа.

Классификация алгоритмов:

Иерархические и плоские.
Иерархические алгоритмы (также называемые алгоритмами таксономии) строят не одно разбиение выборки на непересекающиеся кластеры, а систему вложенных разбиений. Т.о. на выходе мы получаем дерево кластеров, корнем которого является вся выборка, а листьями — наиболее мелкие кластера.
Плоские алгоритмы строят одно разбиение объектов на кластеры.
Четкие и нечеткие.
Четкие (или непересекающиеся) алгоритмы каждому объекту выборки ставят в соответствие номер кластера, т.е. каждый объект принадлежит только одному кластеру. Нечеткие (или пересекающиеся) алгоритмы каждому объекту ставят в соответствие набор вещественных значений, показывающих степень отношения объекта к кластерам. Т.е. каждый объект относится к каждому кластеру с некоторой вероятностью.

Перечень применяемых алгоритмов:

Алгоритмы иерархической кластеризации.
Алгоритмы квадратичной ошибки.
Нечеткие алгоритмы.
Алгоритмы, основанные на теории графов.
Алгоритм выделения связных компонент.
Алгоритм минимального покрывающего дерева.
Послойная кластеризация.
Генетический алгоритм.

Применение на практике:

Разработка программного комплекса для интеллектуального анализа социальных медиа.
Методика и алгоритм кластеризации объектов экономической аналитики.
и другие прикладные задачи для различных отраслей экономики РФ.

Ссылки:

Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

About the author

Latest posts

Sign up

Login