探索我们的数据集#
欢迎来到数据探索的世界!我们的 chemotools 包提供了有用的数据集,帮助您测试软件包和学习。您可以在 chemotools.datasets 模块中找到这些数据集,并使用简单的加载函数访问它们。以下是我们提供的内容:
发酵数据集 🧪#
该数据集包含使用衰减全反射傅里叶变换红外光谱(ATR-FTIR)在酵母发酵过程中收集的光谱。该数据集包括训练集和测试集。
有关发酵数据集的更多信息,请参阅以下出版物:
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., 等人。将数据转化为信息:用于木质纤维素乙醇发酵实时状态估计的并行混合模型。
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., 等人。迈向数字孪生:用于预测木质纤维素发酵演变的混合数据驱动和机制数字阴影。
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., 等人。使用数据驱动反馈控制器促进木质纤维素乙醇发酵中葡萄糖和木糖的共同利用。
训练集#
训练集包含 21 个合成光谱,带有通过高效液相色谱(HPLC)测量的参考葡萄糖浓度。您可以将训练集加载为 pandas.DataFrame 或 polars.DataFrame:
加载为 pandas.DataFrame:
from chemotools.datasets import load_fermentation_train
X_train, y_train = load_fermentation_train()
加载为 polars.DataFrame:
from chemotools.datasets import load_fermentation_train
X_train, y_train = load_fermentation_train(set_output="polars")
备注
Polars 在 chemotools>=0.1.5 中受支持
备注
要学习如何使用发酵数据集构建 PLS 模型,请参阅我们的 训练指南。
测试集#
测试集包含在发酵过程中收集的 1000 多个光谱。这些光谱在几个小时内每 1.25 分钟捕获一次。它还包括在发酵过程中每小时测量的 35 个参考葡萄糖浓度。
使用以下方式加载测试集:
加载为 pandas.DataFrame:
from chemotools.datasets import load_fermentation_test
X_test, y_test = load_fermentation_test()
加载为 polars.DataFrame:
from chemotools.datasets import load_fermentation_test
X_test, y_test = load_fermentation_test(set_output="polars")
备注
波数在 pandas.DataFrame 和 polars.DataFrame 中都存储为列名。在 pandas.DataFrame 中,列名可以是 float 类型,但在 polars.DataFrame 中,列名必须是 str 类型。
咖啡数据集 ☕#
咖啡数据集包含从不同国家的各种咖啡样本收集的光谱。这些光谱是使用衰减全反射傅里叶变换红外光谱(ATR-FTIR)收集的。
加载为 pandas.DataFrame:
from chemotools.datasets import load_coffee
spectra, labels = load_coffee()
加载为 polars.DataFrame:
from chemotools.datasets import load_coffee
spectra, labels = load_coffee(set_output="polars")
备注
To learn how to build a PLS-DA classification model using the Coffee Dataset, see our Training Guide.
我们希望您享受探索这些数据集的乐趣!🚀