La minería de datos es el camino hacia la búsqueda de diseños en enormes índices de información, incluyendo estrategias en la convergencia de la IA, conocimientos y sistemas de bases de datos. La minería de información es un subcampo interdisciplinario de la ingeniería de software y las mediciones con el objetivo general de eliminar datos (con técnicas sabias) de una colección de información y convertir los datos en una estructura inteligible para su uso posterior. La minería de información es la empresa de examen del procedimiento de “divulgación de aprendizaje en bases de datos” o KDD[5]. Además de la etapa de investigación bruta, incluye igualmente la base de datos y la información los ángulos del tablero, el pretratamiento de la información, las contemplaciones de modelos y suposiciones, las mediciones de calidad intrigantes, las contemplaciones de naturaleza multifacética, la preparación posterior de las estructuras encontradas, la percepción y la actualización en línea.

La expresión “minería de información” es un término equívoco, habida cuenta de que el objetivo es la extracción de ejemplos e información a partir de mucha información, y no la extracción (minería) de información propiamente dicha. Además, es una palabra de moda y se aplica muchas veces a cualquier tipo de información o preparación de datos en gran escala (acumulación, extracción, almacenamiento, examen y conocimientos), así como a cualquier utilización de la red de apoyo emocional de la elección del ordenador personal, incluidos el razonamiento artificial (por ejemplo, la inteligencia artificial) y los conocimientos empresariales. El libro Information mining: Aparatos y sistemas pragmáticos de IA con Java (que cubre, en su mayor parte, material de IA) debía denominarse inicialmente simplemente IA con los pies en la tierra, y se incluyó el término “excavación de datos” por razones de promoción[9]. Regularmente los términos más amplios (a enorme escala) de investigación y examen de la información – o, cuando se alude a técnicas reales, el poder mental del hombre y la IA – son progresivamente adecuados.

El verdadero mandado de la minería de información es el auto-cargamento o el examen programado de enormes cantidades de información para extraer de antemano ejemplos oscuros y fascinantes, por ejemplo, la recopilación de registros de información (investigación de racimos), registros no ordinarios (identificación de incoherencias) y condiciones (minería de reglas de afiliación, minería de ejemplos consecutivos). Esto incluye normalmente la utilización de sistemas de bases de datos, por ejemplo, listas espaciales. Estos ejemplos podrían considerarse como una especie de resumen de los datos y podrían utilizarse en la investigación ulterior o, por ejemplo, en la IA y el examen clarividente. Por ejemplo, en la etapa de extracción de información se pueden distinguir numerosas recopilaciones de información, que luego se podrían utilizar para obtener resultados de previsión progresivamente precisos mediante una red de apoyo emocional de elección. Ni la acumulación de información, ni la disposición de la información, ni la elucidación y el detalle de los resultados son una parte de la etapa de extracción de información, pero tienen cabida en el proceso general de KDD como etapas adicionales.

La distinción entre el examen y la extracción de información es que la investigación de la información se utiliza para probar modelos y teorías sobre el conjunto de datos, por ejemplo, diseccionando la viabilidad de un esfuerzo publicitario, prestando poca atención a la medida de la información; por el contrario, la extracción de información utiliza la IA y los modelos fácticos para revelar diseños subrepticios o encubiertos en un enorme volumen de datos.

Los términos conexos “búsqueda de información”, “búsqueda de información” y “husmeo de información” aluden a la utilización de técnicas de extracción de información para comprobar porciones de un índice de información de una población mayor que son (o podrían ser) demasiado pequeñas para poder hacer deducciones fácticas fiables sobre la legitimidad de los ejemplos encontrados. No obstante, estas técnicas pueden utilizarse para hacer nuevas especulaciones para probarlas con las poblaciones de información más grandes.

Proceso:

El proceso de descubrimiento de conocimientos en bases de datos (KDD) se define comúnmente con las etapas:

Selección

Preprocesamiento

Transformación

La minería de datos

Interpretación / evaluación.

Sin embargo, existen muchas variaciones sobre este tema, como el proceso estándar interindustrial para la extracción de datos (CRISP-DM) que define seis fases:

Comprensión de los negocios

Comprensión de los datos

Preparación de datos

Modelado

Evaluación

Despliegue

o un proceso simplificado como el pre-procesamiento, la minería de datos y la validación de resultados.

Preparación

Antes de poder utilizar los cálculos de la minería de información, se debe acumular un índice de información objetiva. Como la minería de la información sólo puede revelar diseños realmente presentes en la información, el índice de información objetiva debe ser lo suficientemente grande como para contener estos ejemplos y al mismo tiempo ser lo suficientemente sucinto como para ser extraído dentro de un límite de tiempo satisfactorio. Un típico punto caliente de información es una tienda de información o un almacén de información. La preparación previa es fundamental para diseccionar las colecciones informativas multivariadas antes de la extracción de la información. A continuación, se limpia el objetivo fijado. La limpieza de la información expulsa las percepciones que contienen conmoción y las que carecen de información.

la minería de datos

La minería de datos incluye seis clases regulares de tareas:[5]

Reconocimiento de rarezas (anomalía/cambio/ubicación de desviación) – La prueba distintiva de registros de datos poco comunes, que pueden ser fascinantes o errores de datos que requieren un examen más profundo.

Aprendizaje de las reglas de afiliación (demostración de confianza) – Escanea las conexiones entre los factores. Por ejemplo, una tienda de comestibles puede acumular datos sobre las propensiones de compra de los clientes. Utilizando el aprendizaje de las reglas de afiliación, la tienda puede averiguar qué artículos se compran juntos con la mayor frecuencia posible y utilizar estos datos con fines publicitarios. De vez en cuando se alude a esto como una investigación de mercado.

Bunching – es el encargo de encontrar recopilaciones y estructuras en los datos que sean de alguna manera u otra “comparables”, sin utilizar estructuras conocidas en la información.

El orden – es la tarea de resumir la estructura realizada para aplicarla a los nuevos datos. Por ejemplo, un programa de correo electrónico puede intentar ordenar un correo electrónico como “genuino” o como “spam”.

Recaída – se esfuerza por descubrir una capacidad que modela la información con el menor error, es decir, para evaluar las conexiones entre la información o los conjuntos de datos.

Esquema – dando un retrato progresivamente reducido de la colección de información, incluyendo la representación y la edad del informe.

Aprobación de resultados

Un caso de datos creados por la búsqueda de información a través de un robot trabajado por el analista Tyler Vigen, demostrando evidentemente una conexión cercana entre la mejor palabra ganadora de una rivalidad de abejas de ortografía y el número de individuos en los EE.UU. masacrados por arácnidos venenosos. La semejanza en los patrones es claramente un evento fortuito.

La extracción de datos puede ser objeto de abuso accidentalmente, y entonces sería capaz de crear resultados que tienen todas las características de ser dignos de mención; sin embargo, que no anticipan realmente la conducta futura y no pueden repetirse en otro ejemplo de información y tienen poca utilidad. Con frecuencia esto es el resultado de investigar un número excesivo de teorías y de no realizar las pruebas de teoría factual apropiadas. Una variante sencilla de esta cuestión en la IA se conoce como sobreajuste, sin embargo, puede surgir una cuestión similar en varios períodos del procedimiento y, en este sentido, una división de tren/prueba – cuando sea pertinente por cualquier medio – puede no ser adecuada para evitar que esto ocurra.