L’exploration de données est le moyen de trouver des modèles dans d’énormes index d’information, y compris des stratégies à la convergence de l’IA, de la connaissance et des systèmes de base de données. L’exploration de l’information est un sous-domaine interdisciplinaire du génie logiciel et des mesures, dont l’objectif général est de retirer des données (à l’aide de techniques judicieuses) d’une collection d’informations et de les transformer en une structure intelligible pour une utilisation ultérieure. L’exploration de l’information est l’entreprise d’examen de la procédure de “divulgation d’apprentissage dans les bases de données” ou KDD[5]. Outre l’étape d’investigation brute, elle comprend également la base de données et l’information : les angles du tableau, le prétraitement de l’information, les contemplations de modèles et de suppositions, les mesures de qualité intrigantes, les contemplations de nature multidimensionnelle, la post-préparation des structures trouvées, la perception et la mise à jour en ligne.

L’expression “extraction d’informations” est une appellation erronée, compte tenu du fait que l’objectif est l’extraction d’exemples et d’informations à partir d’un grand nombre d’informations, et non l’extraction (le “mining”) d’informations en soi. En outre, c’est un mot à la mode et il est souvent appliqué à tout type d’information ou de préparation de données à grande échelle (accumulation, extraction, stockage, examen et aperçu) tout comme toute utilisation de réseau de soutien émotionnel de choix de PC, y compris le raisonnement artificiel (par exemple, l’IA) et les connaissances commerciales. Le livre Information mining : Les appareils et systèmes IA pragmatiques avec Java (qui couvre, pour la plupart, le matériel IA) devaient initialement être nommés simplement IA terre à terre, et le terme de fouille de données a été inclus pour des raisons de promotion[9]. Régulièrement, les termes plus larges (échelle énorme) d’investigation et d’examen de l’information – ou, lorsqu’ils font allusion à des techniques réelles, à la matière grise artificielle et à l’IA – sont progressivement adaptés.

La véritable course à l’extraction d’informations est l’examen programmé ou automatique d’énormes quantités d’informations pour en extraire des exemples obscurs et fascinants, par exemple des rassemblements de dossiers d’information (enquête de groupe), des dossiers inhabituels (identification d’incohérences) et des conditions (extraction de règles d’affiliation, extraction d’exemples consécutifs). Cela inclut normalement l’utilisation de systèmes de bases de données, par exemple, des listes spatiales. Ces exemples peuvent alors être considérés comme une sorte de récapitulatif des données et peuvent être utilisés dans le cadre d’une enquête plus approfondie ou, par exemple, dans le cadre de l’IA et de l’examen prescient. Par exemple, l’étape d’exploration de l’information peut distinguer de nombreux rassemblements dans l’information, qui pourraient ensuite être utilisés pour obtenir progressivement des résultats de prévision précis par un réseau de soutien émotionnel de choix. Ni l’accumulation d’informations, ni l’agencement des informations, ni l’élucidation et le détail des résultats ne font partie de l’étape de l’exploration des informations, mais ils ont leur place dans le processus général de KDD en tant qu’étapes supplémentaires.

La distinction entre l’examen de l’information et l’exploration de l’information est que l’investigation de l’information est utilisée pour tester des modèles et des théories sur l’ensemble des données, par exemple, disséquer la viabilité d’un effort publicitaire, en faisant peu de cas de la mesure de l’information ; inversement, l’exploration de l’information utilise l’IA et des modèles factuels pour révéler des conceptions subreptices ou enveloppées dans un énorme volume de données.

Les termes connexes de recherche d’informations, de pêche à l’information et d’espionnage de l’information font allusion à l’utilisation de techniques d’exploration de l’information pour tester des parties d’un index informationnel plus vaste de la population qui sont (ou pourraient être) trop peu nombreuses pour que l’on puisse faire des déductions factuelles fiables sur la légitimité des exemples trouvés. Ces techniques peuvent, néanmoins, être utilisées pour faire de nouvelles spéculations afin de les comparer à celles des populations plus importantes.

Processus :

Le processus de découverte de connaissances dans les bases de données (KDD) est communément défini avec les étapes :

Sélection

Prétraitement

Transformation

Extraction de données

Interprétation / évaluation.

Il existe cependant de nombreuses variantes sur ce thème, comme le processus standard intersectoriel pour l’exploration de données (CRISP-DM) qui définit six phases :

Compréhension du monde des affaires

Compréhension des données

Préparation des données

Modélisation

Évaluation

Déploiement

ou un processus simplifié tel que le prétraitement, l’exploration de données et la validation des résultats.

Préparatifs

Avant de pouvoir utiliser les calculs d’extraction d’informations, un indice informationnel objectif doit être accumulé. Comme l’exploration de l’information ne peut que révéler des modèles réellement présents dans l’information, l’indice informationnel objectif doit être suffisamment important pour contenir ces exemples tout en restant suffisamment succinct pour être exploité dans un délai satisfaisant. Un point chaud typique pour l’information est un magasin d’information ou une réserve d’information. La préparation est fondamentale pour disséquer les collections d’informations multivariées avant l’extraction de l’information. L’objectif fixé est ensuite nettoyé. Le nettoyage de l’information permet d’expulser les perceptions qui contiennent de l’agitation et celles où il manque des informations.

l’exploration des données

L’exploration de données comprend six classes de tâches régulières :[5]

Reconnaissance d’anomalies (localisation d’anomalies/changements/déviations) – Preuve distinctive d’enregistrements de données peu courants, qui peuvent être fascinants ou de gaffes de données qui nécessitent un examen plus approfondi.

Apprentissage de la règle d’affiliation (démonstration de la confiance) – Recherche de liens entre les facteurs. Par exemple, une épicerie peut accumuler des données sur les propensions d’achat des clients. Grâce à l’apprentissage des règles d’affiliation, le magasin peut déterminer quels articles sont le plus souvent achetés ensemble et utiliser ces données à des fins publicitaires. Il est de temps en temps fait allusion à ce type d’enquête sur les caisses du marché.

Regroupement – c’est la course pour trouver des regroupements et des structures dans les données qui sont d’une manière ou d’une autre “comparables”, sans utiliser les structures connues dans l’information.

Ordre – c’est la tâche de résumer la structure réalisée pour l’appliquer aux nouvelles données. Par exemple, un programme de courrier électronique peut s’efforcer de commander un courrier électronique comme étant “authentique” ou “spam”.

La rechute – s’efforce de découvrir une capacité qui modélise l’information avec le moins d’erreurs possible, c’est-à-dire d’évaluer les liens entre les informations ou les ensembles de données.

Schéma – donnant une image progressivement réduite de la collection d’informations, y compris la représentation et l’âge du rapport.

Approbation des résultats

Un cas de données créées par la fouille d’informations par un robot travaillé par l’analyste Tyler Vigen, démontrant de toute évidence un lien étroit entre le meilleur mot gagnant une rivalité d’abeille à miel orthographique et le nombre d’individus aux États-Unis abattus par des arachnides venimeuses. La similitude des modèles est clairement un événement fortuit.

L’exploration de données peut être accidentellement abusée et pourrait alors produire des résultats qui ont toutes les caractéristiques d’être remarquables, mais qui n’anticipent pas vraiment la conduite future et ne peuvent pas être répétés sur un autre exemple d’information et sont peu utiles. Souvent, ce résultat résulte de la recherche d’un nombre excessif de théories et de l’absence de tests théoriques factuels appropriés. Une variante simple de ce problème dans l’IA est connue sous le nom de suréquipement, cependant, un problème similaire peut apparaître à différents moments de la procédure et, dans ce sens, une séparation train/essai – lorsqu’elle est pertinente par quelque moyen que ce soit – peut ne pas être adéquate pour éviter que cela ne se produise.