Data Mining ist der Weg zum Auffinden von Designs in riesigen Informationsindizes einschließlich Strategien zur Konvergenz von KI, Erkenntnissen und Datenbanksystemen. Information Mining ist ein interdisziplinäres Teilgebiet des Software-Engineerings und der Messungen mit dem allgemeinen Ziel, Daten (mit klugen Techniken) aus einer Informationssammlung zu entfernen und die Daten in eine verständliche Struktur für die weitere Verwendung umzuwandeln. Information Mining ist das Untersuchungsvorhaben des “Learning Disclosure in Databases”-Verfahrens oder KDD.[5] Neben dem groben Untersuchungsschritt umfasst es ebenfalls die Datenbank und die Informationen, die Tafelwinkel, die Informationsvorverarbeitung, Modell- und Vermutungsbetrachtungen, faszinierende Qualitätsmessungen, facettenreiche Naturbetrachtungen, die Nachbereitung gefundener Strukturen, die Wahrnehmung und die Online-Aktualisierung.

Der Ausdruck “Information Mining” ist eine falsche Bezeichnung, wenn man bedenkt, dass das Ziel die Extraktion von Beispielen und Informationen aus einer Menge von Informationen ist und nicht die Extraktion (das Mining) von Informationen selbst. Er ist darüber hinaus ein Schlagwort und wird häufig auf jede Art von Informationen oder Datenvorbereitung in großem Maßstab angewendet (Akkumulation, Extraktion, Lagerung, Untersuchung und Erkenntnisse), ebenso wie auf jede Art der Nutzung von PC-Choice-Emotions-Unterstützungsnetzwerken, einschließlich menschengemachter Argumentation (z.B. KI) und Geschäftswissen. Das Buch Informationsbergbau: Pragmatische KI-Apparate und -Systeme mit Java (das zum größten Teil KI-Material abdeckt) sollte ursprünglich einfach “bodenständige KI” genannt werden, und der Begriff “Data Digging” wurde aus fördernden Gründen aufgenommen.[9] Regelmäßig sind nach und nach die weiter gefassten Begriffe (enormen Ausmaßes) Informationsuntersuchung und -prüfung – oder, wenn auf reale Techniken angespielt wird, “man-made brainpower” und KI – geeignet.

Die eigentliche Aufgabe des Information Mining ist die selbstladende oder programmierte Untersuchung enormer Informationsmengen, um vorher obskure, faszinierende Beispiele herauszuholen, z.B. Sammlungen von Informationsaufzeichnungen (Bündeluntersuchung), ungewöhnliche Aufzeichnungen (Identifizierung von Inkonsistenzen) und Bedingungen (Abbau von Zugehörigkeitsregeln, Abbau von aufeinanderfolgenden Beispielen). Dazu gehört normalerweise die Verwendung von Datenbanksystemen, z.B. räumliche Listen. Diese Beispiele könnten dann als eine Art Rundown der Daten betrachtet werden und bei der weiteren Untersuchung oder z.B. bei der KI und der vorausschauenden Untersuchung verwendet werden. Zum Beispiel könnte der Schritt des Information Mining zahlreiche Sammlungen in den Informationen unterscheiden, die dann durch ein ausgewähltes, emotional unterstützendes Netzwerk genutzt werden könnten, um schrittweise präzise Prognoseergebnisse zu erhalten. Weder die Informationsakkumulation, die Anordnung der Informationen noch die Erläuterung und Detaillierung der Ergebnisse sind Teil des Information Mining-Schrittes, haben jedoch als zusätzliche Schritte ihren Platz im allgemeinen KDD-Prozess.

Der Unterschied zwischen Informationsuntersuchung und Information Mining besteht darin, dass die Informationsuntersuchung verwendet wird, um Modelle und Theorien über den Datensatz zu testen, z.B. um die Durchführbarkeit einer Werbeaktion zu sezieren, wobei dem Maß an Information wenig Beachtung geschenkt wird; im Gegensatz dazu verwendet das Information Mining KI und faktische Modelle, um in einer enormen Datenmenge heimliche oder verschleierte Entwürfe aufzudecken.

Die verwandten Begriffe “Information Digging”, “Information Angling” und “Information Snooping” spielen auf die Anwendung von Information-Mining-Techniken an, um Teile eines Informationsindex für eine größere Bevölkerung zu testen, die zu wenig sind (oder sein könnten), um verlässliche faktische Schlussfolgerungen über die Legitimität der gefundenen Beispiele ziehen zu können. Nichtsdestotrotz können diese Techniken dazu genutzt werden, neue Spekulationen anzustellen, um gegen die größere Informationspopulation zu testen.

Prozess:

Der Prozess der Wissensentdeckung in Datenbanken (Knowledge Discovery in Databases, KDD) wird gemeinsam mit den Stufen definiert:

Auswahl

Vorverarbeitung

Transformation

Datengewinnung

Interpretation/Auswertung.

Es existiert jedoch in vielen Variationen zu diesem Thema, wie z.B. der branchenübergreifende Standardprozess für Data Mining (CRISP-DM), der sechs Phasen definiert:

Geschäftsverständnis

Daten verstehen

Vorbereitung der Daten

Modellierung

Auswertung

Bereitstellung

oder einen vereinfachten Prozess wie Vorverarbeitung, Data Mining und Ergebnisvalidierung.

Vorbereitung

Bevor Berechnungen zur Informationsgewinnung genutzt werden können, muss ein objektiver Informationsindex aufgebaut werden. Da das Information Mining nur wirklich in der Information vorhandene Entwürfe aufdecken kann, muss der objektive Informationsindex groß genug sein, um diese Beispiele zu enthalten, und gleichzeitig kurz genug bleiben, um innerhalb eines zufriedenstellenden Zeitrahmens abgebaut werden zu können. Ein typischer Hotspot für Informationen ist ein Informationsshop oder ein Informationslager. Die Vorbereitung ist grundlegend, um die multivariaten Informationssammlungen vor der Informationsbeschaffung zu zerlegen. Anschließend wird das gesteckte Ziel gesäubert. Die Informationsbereinigung vertreibt die Wahrnehmungen, die Unruhe enthalten, und diejenigen mit fehlenden Informationen.

Datenschürfen

Data Mining umfasst sechs reguläre Klassen von Aufgaben:[5]

Oddity recognition (anomaly/change/deviation location) – Der unterscheidende Nachweis von ungewöhnlichen Datensätzen, die faszinierend sein können, oder von Datenfehlern, die eine weitere Untersuchung erfordern.

Lernen von Zugehörigkeitsregeln (Demonstration des Vertrauens) – Sucht nach Verbindungen zwischen Faktoren. Beispielsweise kann ein Lebensmittelgeschäft Daten über die Kaufneigung von Kunden sammeln. Mithilfe des Lernens von Zugehörigkeitsregeln kann das Geschäft herausfinden, welche Artikel so oft wie möglich zusammen gekauft werden, und diese Daten zu Werbezwecken nutzen. Dies wird hin und wieder als Marktkistenuntersuchung angedeutet.

Bündelung – ist die Aufgabe, Sammlungen und Strukturen in den Daten zu finden, die auf die eine oder andere Weise “vergleichbar” sind, ohne bekannte Strukturen in den Informationen zu verwenden.

Ordnung – ist die Aufgabe, die realisierte Struktur zusammenzufassen und auf neue Daten anzuwenden. Zum Beispiel kann ein E-Mail-Programm versuchen, eine E-Mail als “echt” oder als “Spam” zu bestellen.

Rückfall – bemüht sich, eine Fähigkeit zu entdecken, die die Informationen mit dem geringsten Schnitzer modelliert, d.h. die Verbindungen zwischen Informationen oder Datensätzen zu bewerten.

Gliederung – mit einer progressiv reduzierten Darstellung der Informationssammlung, einschließlich Darstellung und Berichtsalter.

Genehmigung der Ergebnisse

Ein Fall von Daten, die durch Informationsbeschaffung mit Hilfe eines vom Analytiker Tyler Vigen bearbeiteten Bot erstellt wurden und offensichtlich eine naheliegende Verbindung zwischen dem besten Wort, das eine Rechtschreibwettbewerb der Honigbienen gewinnt, und der Zahl der von giftigen Spinnentieren geschlachteten Individuen in den USA aufzeigen. Die Ähnlichkeit der Muster ist eindeutig ein zufälliges Ereignis.

Data Mining kann versehentlich missbraucht werden und würde dann in der Lage sein, Ergebnisse zu erzeugen, die allesamt bemerkenswert sind, die jedoch nicht wirklich zukünftiges Verhalten vorwegnehmen und nicht an einem anderen Beispiel von Informationen wiederholt werden können und wenig Nutzen bringen. Häufig resultiert dies aus der Erforschung einer übermäßigen Anzahl von Theorien und der Nichtdurchführung angemessener faktischer Theorietests. Eine geradlinige Variante dieses Problems in der KI ist als Überanpassung bekannt, jedoch kann ein ähnliches Problem zu verschiedenen Zeitpunkten des Verfahrens auftauchen, und entlang dieser Linien ist eine Zug/Test-Aufteilung – wenn sie in irgendeiner Weise relevant ist – möglicherweise nicht ausreichend, um dies zu verhindern.