Explora nuestros conjuntos de datos#

¡Bienvenido al mundo de la exploración de datos! Nuestro paquete chemotools proporciona conjuntos de datos útiles que te ayudan a probar el paquete y aprender. Puedes encontrar estos conjuntos de datos en el módulo chemotools.datasets y acceder a ellos usando funciones de carga simples. Esto es lo que ofrecemos:

El conjunto de datos de fermentación 🧪#

Este conjunto de datos contiene espectros recopilados durante un proceso de fermentación de levadura usando espectroscopía infrarroja por transformada de Fourier de reflectancia total atenuada (ATR-FTIR). El conjunto de datos incluye tanto un conjunto de entrenamiento como un conjunto de prueba.

Para más información sobre el conjunto de datos de fermentación, consulta estas publicaciones:

Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Transformando datos en información: Un modelo híbrido paralelo para la estimación de estado en tiempo real en fermentación de etanol lignocelulósico.
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Hacia un gemelo digital: una sombra digital híbrida basada en datos y mecanicista para pronosticar la evolución de la fermentación lignocelulósica.
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Promoviendo la co-utilización de glucosa y xilosa en fermentaciones de etanol lignocelulósico usando un controlador de retroalimentación basado en datos.

El conjunto de entrenamiento#

The train set contains 21 synthetic spectra with reference glucose concentrations, measured by high-performance liquid chromatography (HPLC). You can load the train set as a pandas.DataFrame or as a polars.DataFrame:

Load as pandas.DataFrame:

from chemotools.datasets import load_fermentation_train

X_train, y_train = load_fermentation_train()

Load as polars.DataFrame:

from chemotools.datasets import load_fermentation_train

X_train, y_train = load_fermentation_train(set_output="polars")

Nota

Polars is supported in chemotools>=0.1.5

Nota

To learn how to build a PLS model using the Fermentation Dataset, see our Training Guide.

The Test Set#

The test set contains over 1000 spectra collected during a fermentation process. These spectra were captured every 1.25 minutes over several hours. It also includes 35 reference glucose concentrations measured hourly during the fermentation.

Load the test set using:

Load as pandas.DataFrame:

from chemotools.datasets import load_fermentation_test

X_test, y_test = load_fermentation_test()

Load as polars.DataFrame:

from chemotools.datasets import load_fermentation_test

X_test, y_test = load_fermentation_test(set_output="polars")

Nota

The wavenumbers are stored as column names in both the pandas.DataFrame and the polars.DataFrame. In a pandas.DataFrame the column names can be of type float, but in a polars.DataFrame the column names must be of type str.

The Coffee Dataset ☕#

The Coffee Dataset contains spectra collected from various coffee samples from different countries. These spectra were collected using attenuated total reflectance Fourier transform infrared spectroscopy (ATR-FTIR).

Load as pandas.DataFrame:

from chemotools.datasets import load_coffee

spectra, labels = load_coffee()

Load as polars.DataFrame:

from chemotools.datasets import load_coffee

spectra, labels = load_coffee(set_output="polars")

Nota

To learn how to build a PLS-DA classification model using the Coffee Dataset, see our Training Guide.

We hope you enjoy exploring these datasets! 🚀