Algoritmos usados en la minería de datos para
SQL Server 2008 R2
Un algoritmo de minería de datos es un conjunto de cálculos y reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este análisis para definir los parámetros óptimos para la creación del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.
Un algoritmo de minería de datos es un conjunto de cálculos y reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este análisis para definir los parámetros óptimos para la creación del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.
El modelo de minería de datos que crea un
algoritmo a partir de los datos puede tomar diversas formas, incluyendo:
Un conjunto de clústeres que describe cómo se
relacionan los casos de un conjunto de datos.
Un árbol de decisión que predice un resultado y
que describe cómo afectan a este los distintos criterios.
Un modelo matemático que predice las ventas.
Un conjunto de reglas que describen cómo se
agrupan los productos en una transacción, y las probabilidades de que dichos
productos se adquieran juntos.
Microsoft SQL Server Analysis
Services proporciona varios algoritmos que puede usar en las soluciones de
minería de datos. Estos algoritmos son implementaciones de algunas de las
metodologías más conocidas usadas en la minería de datos. Todos los
algoritmos de minería de datos de Microsoft se pueden personalizar y son
totalmente programables, bien mediante las API proporcionadas o bien mediante
los componentes de minería de datos de SQL Server Integration Services.
También puede usar algoritmos de minería de
datos desarrollados por terceros que cumplan la especificación OLE DB para
minería de datos, o desarrollar algoritmos personalizados que se pueden
registrar como servicios para usarlos a continuación en el marco de la minería
de datos de SQL Server.
Elegir el
algoritmo correcto
La elección del mejor algoritmo para una tarea analítica específica
puede ser un desafío. Aunque puede usar diferentes algoritmos para
realizar la misma tarea, cada uno de ellos genera un resultado diferente, y
algunos pueden generar más de un tipo de resultado. Por ejemplo, puede
usar el algoritmo Árboles de decisión de Microsoft no solo para la predicción,
sino también como una forma de reducir el número de columnas de un conjunto de
datos, ya que el árbol de decisión puede identificar las columnas que no
afectan al modelo de minería de datos final.
Elegir un algoritmo por tipo
Analysis Services incluye los siguientes tipos de algoritmos:
ü Algoritmos de clasificación, que predicen una o
más variables discretas, basándose en otros atributos del conjunto de datos.
ü Algoritmos de regresión, que predicen una o más
variables continuas, como las pérdidas o los beneficios, basándose en otros
atributos del conjunto de datos.
ü Algoritmos de segmentación, que dividen los
datos en grupos, o clústeres, de elementos que tienen propiedades similares.
ü Algoritmos de asociación, que buscan
correlaciones entre diferentes atributos de un conjunto de datos. La
aplicación más común de esta clase de algoritmo es la creación de reglas de
asociación, que pueden usarse en un análisis de la cesta de compra.
ü Algoritmos de análisis de secuencias, que
resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas
web.
Sin embargo, no hay ninguna razón por la que deba limitarse a un
algoritmo en sus soluciones. Los analistas experimentados usarán a veces
un algoritmo para determinar las entradas más eficaces (es decir, variables) y
luego aplicarán un algoritmo diferente para predecir un resultado concreto
basado en esos datos. La minería de datos de SQL Server le permite generar
varios modelos en una única estructura de minería de datos, por lo que en una
solución de minería de datos puede usar un algoritmo de clústeres, un modelo de
árboles de decisión y un modelo de Bayes naïve para obtener distintas vistas de
los datos. También puede usar varios algoritmos dentro de una única
solución para realizar tareas independientes: por ejemplo, podría usar la
regresión para obtener predicciones financieras, y un algoritmo de red neuronal
para realizar un análisis de los factores que influyen en las ventas.
Elegir un algoritmo por tarea
Con el fin de ayudarle a seleccionar un algoritmo para su uso con una
tarea específica, la tabla siguiente proporciona sugerencias para los tipos de
tareas para las que se usa normalmente cada algoritmo.

No hay comentarios:
Publicar un comentario