Explora nuestros conjuntos de datos#
¡Bienvenido al mundo de la exploración de datos! Nuestro paquete chemotools proporciona conjuntos de datos útiles que te ayudan a probar el paquete y aprender. Puedes encontrar estos conjuntos de datos en el módulo chemotools.datasets y acceder a ellos usando funciones de carga simples. Esto es lo que ofrecemos:
El conjunto de datos de fermentación 🧪#
Este conjunto de datos contiene espectros recopilados durante un proceso de fermentación de levadura usando espectroscopía infrarroja por transformada de Fourier de reflectancia total atenuada (ATR-FTIR). El conjunto de datos incluye tanto un conjunto de entrenamiento como un conjunto de prueba.
Para más información sobre el conjunto de datos de fermentación, consulta estas publicaciones:
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Transformando datos en información: Un modelo híbrido paralelo para la estimación de estado en tiempo real en fermentación de etanol lignocelulósico.
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Hacia un gemelo digital: una sombra digital híbrida basada en datos y mecanicista para pronosticar la evolución de la fermentación lignocelulósica.
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Promoviendo la co-utilización de glucosa y xilosa en fermentaciones de etanol lignocelulósico usando un controlador de retroalimentación basado en datos.
El conjunto de entrenamiento#
The train set contains 21 synthetic spectra with reference glucose concentrations, measured by high-performance
liquid chromatography (HPLC). You can load the train set as a pandas.DataFrame
or as a polars.DataFrame:
Load as pandas.DataFrame:
from chemotools.datasets import load_fermentation_train
X_train, y_train = load_fermentation_train()
Load as polars.DataFrame:
from chemotools.datasets import load_fermentation_train
X_train, y_train = load_fermentation_train(set_output="polars")
Nota
Polars is supported in chemotools>=0.1.5
Nota
To learn how to build a PLS model using the Fermentation Dataset, see our Training Guide.
The Test Set#
The test set contains over 1000 spectra collected during a fermentation process. These spectra were captured every 1.25 minutes over several hours. It also includes 35 reference glucose concentrations measured hourly during the fermentation.
Load the test set using:
Load as pandas.DataFrame:
from chemotools.datasets import load_fermentation_test
X_test, y_test = load_fermentation_test()
Load as polars.DataFrame:
from chemotools.datasets import load_fermentation_test
X_test, y_test = load_fermentation_test(set_output="polars")
Nota
The wavenumbers are stored as column names in both the pandas.DataFrame and the polars.DataFrame.
In a pandas.DataFrame the column names can be of type float, but in a polars.DataFrame the column
names must be of type str.
The Coffee Dataset ☕#
The Coffee Dataset contains spectra collected from various coffee samples from different countries. These spectra were collected using attenuated total reflectance Fourier transform infrared spectroscopy (ATR-FTIR).
Load as pandas.DataFrame:
from chemotools.datasets import load_coffee
spectra, labels = load_coffee()
Load as polars.DataFrame:
from chemotools.datasets import load_coffee
spectra, labels = load_coffee(set_output="polars")
Nota
To learn how to build a PLS-DA classification model using the Coffee Dataset, see our Training Guide.
We hope you enjoy exploring these datasets! 🚀