Data mining is de weg naar het vinden van ontwerpen in enorme informatieve indexen, inclusief strategieën bij de convergentie van AI, inzichten en databasesystemen. Information mining is een interdisciplinair subgebied van software engineering en metingen met een algemeen doel om gegevens (met wijze technieken) te verwijderen uit een informatieverzameling en de gegevens te veranderen in een begrijpelijke structuur voor verder gebruik. Information mining is het onderzoek naar de “learning disclosure in databases” procedure of KDD.[5] Naast de ruwe onderzoeksstap, omvat het ook database en informatie de bestuurshoeken, informatie pre-handling, model en vermoedelijke overpeinzingen, intrigerende kwaliteitsmetingen, veelzijdige natuuroverwegingen, post-preparing van gevonden structuren, perceptie, en online updaten.

De uitdrukking “information mining” is een verkeerde benaming, gezien het feit dat het doel de extractie van voorbeelden en informatie uit veel informatie is, niet de extractie (ontginning) van informatie zelf. Het is bovendien een buzzwoord en wordt veel van de tijd toegepast op elk type van enorme schaal informatie of gegevens voorbereiden (accumulatie, extractie, opslag, onderzoek, en inzichten), net als elk gebruik van PC-keuze emotioneel ondersteunende netwerk, met inbegrip van door de mens gemaakte redenering (bijv. AI) en zakelijke kennis. Het boek Information mining: Pragmatische AI-apparaten en -systemen met Java (dat voor het grootste deel AI-materiaal omvat) zouden aanvankelijk eenvoudigweg Down to earth AI worden genoemd, en de term data digging werd opgenomen om redenen van bevordering.[9] Regelmatig zijn de meer brede termen (enorme schaal) informatieonderzoek en -onderzoek – of, wanneer er wordt gezinspeeld op echte technieken, door de mens gecreëerde denkkracht, en AI – geleidelijk aan geschikt.

De echte information mining boodschap is het zelfloader of geprogrammeerd onderzoek van enorme hoeveelheden informatie om vooraf obscure, fascinerende voorbeelden, bijvoorbeeld, het verzamelen van informatie records (bunch onderzoek), unordinary records (inconsistency identificatie), en voorwaarden (affiliatie regel mining, consecutief voorbeeld mijnbouw) uit te halen. Dit omvat normaal gesproken het gebruik van databasesystemen, bijvoorbeeld ruimtelijke lijsten. Deze voorbeelden kunnen dan worden gezien als een soort van verloedering van de gegevens, en kunnen worden gebruikt in het verdere onderzoek of bijvoorbeeld in AI- en prehistorisch onderzoek. De informatiemijnbouwfase kan bijvoorbeeld een groot aantal verzamelingen in de informatie onderscheiden, die dan kunnen worden gebruikt om progressief nauwkeurige voorspellingsresultaten te krijgen door een keuze emotioneel ondersteunend netwerk. Noch de informatieverzameling, de informatieregeling, noch de resultaatverduidelijking en -detaillering is een onderdeel van de informatiemijnbouwfase, maar heeft toch een plaats bij het algemene KDD-proces als extra stappen.

Het onderscheid tussen informatieonderzoek en informatiemining is dat informatieonderzoek wordt gebruikt om modellen en theorieën over de dataset te testen, bijvoorbeeld het ontleden van de levensvatbaarheid van een reclame-inspanning, waarbij weinig aandacht wordt besteed aan de mate van informatie; omgekeerd gebruikt informatiemining AI en feitelijke modellen om heimelijke of verhulde ontwerpen in een enorme hoeveelheid gegevens te onthullen.

De gerelateerde termen information digging, information angling en information snooping verwijzen naar het gebruik van information mining technieken om delen van een grotere populace informationele index te testen die te weinig zijn (of zouden kunnen zijn) om betrouwbare feitelijke conclusies te kunnen trekken over de legitimiteit van gevonden voorbeelden. Deze technieken kunnen echter wel gebruikt worden om nieuwe speculaties te maken om te toetsen aan de grotere informatiepopulaties.

Proces:

De kennisvinding in databases (KDD) proces wordt algemeen gedefinieerd met de stadia:

Selectie

Voorbewerking

Transformatie

Datamining

Interpretatie / evaluatie.

Het bestaat echter in vele variaties op dit thema, zoals het Cross-industry standaard proces voor datamining (CRISP-DM) dat zes fasen definieert:

Zakelijk inzicht

Begrip van de gegevens

Voorbereiding van de gegevens

Modellering

Evaluatie

Inzetbaarheid

of een vereenvoudigd proces zoals Pre-processing, Data Mining en Results Validation.

Voorbereiding

Voordat er gebruik kan worden gemaakt van informatiemijnberekeningen, moet er een objectieve informatieve index worden verzameld. Aangezien informatiemijnbouw alleen maar ontwerpen kan onthullen die werkelijk in de informatie aanwezig zijn, moet de objectieve informatie-index groot genoeg zijn om deze voorbeelden te bevatten en tegelijkertijd beknopt genoeg zijn om binnen een bevredigende tijdslimiet te worden ontgonnen. Een typische hotspot voor informatie is een informatiewinkel of informatievoorraadruimte. Voorbereiding is fundamenteel om de multivariate informatieverzamelingen te ontleden vóór de informatiemijnbouw. Vervolgens wordt de objectiefset gereinigd. Schoonmaken van informatie verdrijft de percepties die onrust bevatten en de percepties met ontbrekende informatie.

datamining

Datamining omvat zes reguliere klassen van taken:[5].

Rariteitenherkenning (anomalie/verandering/afwijkingslocatie) – Het onderscheidende bewijs van ongewone gegevensrecords, die fascinerend kunnen zijn of gegevensblunders die nader moeten worden onderzocht.

Aansluitingsregel leren (vertrouwen demonstreren) – Scans op verbanden tussen factoren. Bijvoorbeeld, een kruidenierswinkel kan gegevens verzamelen over de koopbereidheid van klanten. Door gebruik te maken van het leren van de affiliatieregel kan de winkel uitzoeken welke artikelen zo vaak mogelijk samen worden gekocht en deze gegevens gebruiken voor reclamedoeleinden. Dit wordt af en toe aangeduid als marktonderzoek naar kratten.

Bunching – is het vinden van verzamelingen en structuren in de gegevens die op de een of andere manier “vergelijkbaar” zijn, zonder gebruik te maken van bekende structuren in de informatie.

Orde – is de boodschap van het opsommen van gerealiseerde structuur om toe te passen op nieuwe gegevens. Een e-mailprogramma kan bijvoorbeeld proberen een e-mail als “echt” of als “spam” te bestellen.

Relapse – probeert een capaciteit te ontdekken die de informatie met de minste blunder modelleert, dat wil zeggen, om de verbanden tussen informatie of datasets te evalueren.

Schets – het geven van een progressief verminderd beeld van de informatieverzameling, met inbegrip van de representatie en de rapporteringsleeftijd.

Resultaten goedkeuring

Een geval van gegevens gecreëerd door informatie-digging door middel van een bot gewerkt door analist Tyler Vigen, waaruit duidelijk een nabijgelegen verband blijkt tussen het beste woord winnen van een spellingshoning bijenrivaliteit en het aantal individuen in de VS geslacht door giftige spinachtigen. De gelijkenis in patronen is duidelijk een toevallige gebeurtenis.

Data mining kan per ongeluk worden misbruikt, en zou dan in staat zijn om resultaten te creëren die alle kenmerken hebben van opmerkelijk zijn; maar die niet echt anticiperen op toekomstig gedrag en niet kunnen worden herhaald op een ander voorbeeld van informatie en weinig nut hebben. Vaak komt dit resultaat voort uit het onderzoeken van een te groot aantal theorieën en het niet uitvoeren van de juiste feitelijke theorieën. Een eenvoudige variant van dit probleem in AI staat bekend als overfitting, maar een soortgelijk probleem kan zich voordoen op verschillende tijdstippen van de procedure en langs deze lijnen kan een trein/test-splitsing – wanneer die op enigerlei wijze relevant is – niet voldoende zijn om dit niet te laten gebeuren.