Добыча данных – это путь к поиску конструкций в огромных информационных индексах, включая стратегии по конвергенции ИИ, инсайтов и систем баз данных. Информационный поиск – это междисциплинарная подотрасль программной инженерии и измерений, общая цель которой – удалить данные (с помощью разумных методов) из информационной подборки и преобразовать их в понятную структуру для дальнейшего использования. Информационный поиск – это экзаменационное мероприятие по процедуре “раскрытия информации в базах данных”, или KDD.[5] Помимо этапа грубого исследования, он также включает в себя анализ баз данных и информации, предварительную обработку информации, моделирование и предполагаемые размышления, интригующие измерения качества, многогранные размышления о природе, пост-обучение найденных структур, восприятие и онлайн-обновление.

Выражение “добыча информации” является неправильным обозначением в свете того, что целью является извлечение примеров и информации из множества информации, а не извлечение (добыча) самой информации. Кроме того, оно является модным словом и большую часть времени применяется к любому типу подготовки огромной информации или данных (накопление, извлечение, складирование, изучение и понимание), как и к любому использованию компьютерной сети, поддерживающей эмоции, в том числе к искусственному рассуждению (например, AI) и деловым знаниям. Книга “Добыча информации”: Прагматичные аппараты и системы ИИ с Java (который охватывает, по большей части, материал ИИ) изначально должны были называться просто Down to earth AI, а термин “копание данных” был включен по рекламным соображениям.[9] Регулярно более широкие термины (огромный масштаб) исследование и изучение информации – или, когда упоминается о реальных техниках, искусственные мозги и ИИ – постепенно подходят.

Подлинное задание по добыче информации – это самозагрузка или запрограммированная проверка огромных объемов информации для предварительного извлечения непонятных, увлекательных примеров, например, сбор информационных записей (групповое расследование), неординарных записей (выявление несоответствий) и условий (правила принадлежности к горнодобывающей компании, последовательные примеры добычи полезных ископаемых). Обычно это включает использование систем баз данных, например пространственных списков. В этом случае эти примеры можно было бы рассматривать как своего рода сводку данных, и их можно было бы использовать в ходе дальнейшего расследования или, например, в ходе ИО и прогностического обследования. Например, этап добычи информации может отличать многочисленные сборы информации, которые затем можно было бы использовать для постепенного получения точных результатов прогнозирования с помощью выбора эмоционально поддерживающей сети. Ни накопление информации, ни расположение информации, ни выяснение и детализация результатов не являются частью шага по добыче информации, но имеют место в общем процессе KDD в качестве дополнительных шагов.

Различие между изучением информации и ее добычей заключается в том, что исследование информации используется для тестирования моделей и теорий в наборе данных, например, для анализа жизнеспособности рекламного усилия, не обращая внимания на измерение информации; наоборот, в информационной добыче используются ИИ и фактические модели для выявления скрытых или замаскированных конструкций в огромных объемах данных.

Связанные с этим термины “поиск информации”, “поиск информации” и “слежка за информацией” указывают на использование методов добычи информации для проверки тех частей более крупного информационного индекса населения, которые являются (или могут быть) слишком малыми для того, чтобы можно было сделать достоверные фактические выводы о законности любых найденных примеров. Тем не менее, эти методы могут быть использованы для создания новых спекуляций, чтобы проверить их на большом информационном массиве населения.

Процесс:

Процесс обнаружения знаний в базах данных (KDD) обычно определяется этапами:

Выбор

Предварительная обработка

Преобразование

Изыскание данных

Интерпретация / оценка.

Однако она существует во многих вариациях на эту тему, например, в Межотраслевом стандартном процессе добычи данных (CRISP-DM), который определяет шесть этапов:

Понимание бизнеса

Понимание данных

Подготовка данных

Моделирование

Оценка

Развертывание

или упрощенный процесс, такой как предварительная обработка, добыча данных и проверка результатов.

Предварительная подготовка

Прежде чем использовать расчеты по добыче информации, необходимо накопить объективный информационный индекс. Так как при добыче информации могут быть выявлены только конструкции, действительно присутствующие в информации, то объективный информационный индекс должен быть достаточно большим, чтобы содержать эти примеры и в то же время достаточно лаконичным, чтобы быть добытым в приемлемые сроки. Типичной точкой доступа к информации является информационный магазин или информационный склад. Предварительная подготовка имеет фундаментальное значение для препарирования многомерных информационных коллекций перед добычей информации. После этого поставленная цель очищается. Очистка информации исключает восприятие, содержащее шум, и восприятие, содержащее недостающую информацию.

глубинный анализ данных

Добыча данных включает в себя шесть регулярных классов задач:[5].

Распознавание нечетностей (аномалия/изменение/отклонение) – отличительное доказательство редких записей данных, которые могут быть увлекательными, или промахов в данных, которые требуют дальнейшего изучения.

Изучение правил примирения (демонстрация зависимости) – Сканирование на наличие связей между факторами. Например, в продуктовом магазине могут накапливаться данные о склонности клиента к покупкам. Используя изучение правил аффилированности, магазин может выяснить, какие товары покупаются как можно чаще вместе, и использовать эти данные в рекламных целях. Время от времени это упоминается как исследование рыночных ящиков.

Группировка – это задание по нахождению коллекций и структур в данных, которые так или иначе являются “сопоставимыми”, без использования известных структур в информации.

Порядок – это задание суммирования реализованной структуры для применения к новым данным. Например, почтовая программа может попытаться заказать электронное письмо как “подлинное” или как “спам”.

Relapse – попытка обнаружить способность моделировать информацию с наименьшими промахами, т.е. для оценки связей между информацией или наборами данных.

Набросок – постепенное уменьшение изображения собранной информации, включая представление и возраст отчета.

Утверждение результатов

Случай с данными, созданными путем прослушивания информации через бот, над которым работал аналитик Тайлер Виген, наглядно демонстрирующий близкую связь между лучшим словом, выигравшим в борьбе за правописание медоносной пчелы, и количеством особей в США, забитых ядовитыми арахнидами. Очевидно, что сходство в узорах – это случайное событие.

Добыча данных может быть случайно использована, и тогда можно будет создать результаты, которые будут иметь все признаки того, что они заслуживают внимания; но которые на самом деле не предвосхищают будущее поведение и не могут быть повторены на другом примере информации и не приносят практически никакой пользы. Зачастую такой результат является результатом изучения чрезмерного числа теорий и непроведения соответствующей проверки фактической теории. Прямой вариант этого вопроса в ИИ известен как дублирование, однако, аналогичный вопрос может возникать на различных этапах процедуры, и в соответствии с этим, разделение поезда/теста – когда это уместно любым способом – может оказаться недостаточным для того, чтобы это не произошло.