データセットを探索#
データ探索の世界へようこそ! chemotools パッケージは、パッケージのテストと学習に役立つ便利なデータセットを提供しています。これらのデータセットは chemotools.datasets モジュールにあり、シンプルな読み込み関数を使用してアクセスできます。以下が提供内容です:
発酵データセット 🧪#
このデータセットには、減衰全反射フーリエ変換赤外分光法(ATR-FTIR)を使用して酵母発酵プロセス中に収集されたスペクトルが含まれています。データセットには訓練セットとテストセットの両方が含まれています。
発酵データセットの詳細については、以下の文献を参照してください:
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Transforming data to information: A parallel hybrid model for real-time state estimation in lignocellulosic ethanol fermentation.
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Towards a digital twin: a hybrid data-driven and mechanistic digital shadow to forecast the evolution of lignocellulosic fermentation.
Cabaneros Lopez, P., Abeykoon Udugama, I., Thomsen, S.T., et al. Promoting the co-utilisation of glucose and xylose in lignocellulosic ethanol fermentations using a data-driven feed-back controller.
訓練セット#
訓練セットには、高速液体クロマトグラフィー(HPLC)で測定された参照グルコース濃度を持つ21の合成スペクトルが含まれています。訓練セットは pandas.DataFrame または polars.DataFrame として読み込むことができます:
pandas.DataFrameとして読み込む:
from chemotools.datasets import load_fermentation_train
X_train, y_train = load_fermentation_train()
polars.DataFrameとして読み込む:
from chemotools.datasets import load_fermentation_train
X_train, y_train = load_fermentation_train(set_output="polars")
注釈
Polarsは chemotools >=0.1.5でサポートされています
注釈
発酵データセットを使用してPLSモデルを構築する方法については、トレーニングガイド を参照してください。
テストセット#
テストセットには、発酵プロセス中に収集された1000以上のスペクトルが含まれています。これらのスペクトルは、数時間にわたって1.25分ごとにキャプチャされました。また、発酵中に1時間ごとに測定された35の参照グルコース濃度も含まれています。
テストセットを読み込むには:
pandas.DataFrameとして読み込む:
from chemotools.datasets import load_fermentation_test
X_test, y_test = load_fermentation_test()
polars.DataFrameとして読み込む:
from chemotools.datasets import load_fermentation_test
X_test, y_test = load_fermentation_test(set_output="polars")
注釈
波数は pandas.DataFrame と polars.DataFrame の両方で列名として保存されます。 pandas.DataFrame では列名は float 型にできますが、 polars.DataFrame では列名は str 型である必要があります。
コーヒーデータセット ☕#
コーヒーデータセットには、さまざまな国のコーヒーサンプルから収集されたスペクトルが含まれています。これらのスペクトルは、減衰全反射フーリエ変換赤外分光法(ATR-FTIR)を使用して収集されました。
pandas.DataFrameとして読み込む:
from chemotools.datasets import load_coffee
spectra, labels = load_coffee()
polars.DataFrameとして読み込む:
from chemotools.datasets import load_coffee
spectra, labels = load_coffee(set_output="polars")
注釈
コーヒーデータセットを使用してPLS-DA分類モデルを構築する方法については、トレーニングガイド を参照してください。
これらのデータセットの探索をお楽しみください! 🚀