El conjunto de datos Iris, ampliamente conocido en el ámbito de aprendizaje automático, comprende cuatro características de 150 flores iris de tres especies distintas. En este artículo, explicaremos cómo usar el algoritmo KNeighborsClassifier, de la biblioteca Scikit-Learn, para clasificar estas especies.
Paso 1: Importar las bibliotecas necesarias
Antes de comenzar, necesitamos importar las bibliotecas necesarias de Python.
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
Paso 2: Cargar y explorar los datos
Cargamos el conjunto de datos Iris y observamos las características y etiquetas.
iris = datasets.load_iris()
# características
X = iris.data
# etiquetas
y = iris.target
# imprimir las características y etiquetas para verificar
print(X[:5])
print(y[:5])
Paso 3: Preparación de los datos
Nuestro siguiente paso es dividir los datos en conjuntos de entrenamiento y prueba.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
Asegúrate de estandarizar los datos. Es importante porque el algoritmo KNeighborsClassifier se basa en la distancia euclidiana, que es sensible a la escala de las características.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
Paso 4: Entrenar el modelo
Ahora, vamos a inicializar y entrenar nuestro modelo KNeighborsClassifier.
# inicializar el clasificador con 3 vecinos
knn = KNeighborsClassifier(n_neighbors=3)
# ajustar los datos de entrenamiento
knn.fit(X_train, y_train)
Paso 5: Hacer predicciones
Una vez que el modelo está entrenado, podemos usarlo para hacer predicciones.
y_pred = knn.predict(X_test)
Paso 6: Evaluar el modelo
Finalmente, evaluamos la precisión del modelo comparando las etiquetas predichas con las etiquetas reales.
accuracy = accuracy_score(y_test, y_pred)
print('Precisión del modelo:', accuracy)
Si la precisión del modelo es alta, entonces hemos hecho un buen trabajo al clasificar las especies de flores Iris utilizando el algoritmo KNeighborsClassifier. Puedes experimentar con diferentes números de vecinos (el parámetro n_neighbors
en KNeighborsClassifier
) para ver si puedes mejorar la precisión del modelo.
Este es un ejemplo sencillo de cómo se puede utilizar el algoritmo KNeighborsClassifier para clasificar las especies de Iris en el conjunto de datos Iris de Scikit-Learn. Asegúrate de entender cada paso y no dudes en explorar más sobre cómo mejorar tu modelo.
Top comments (0)