質問:
最適なハイパーパラメータは、より深いニューラルネットアーキテクチャに最適ですか?
PyRsquared
2019-12-04 17:07:01 UTC
view on stackexchange narkive permalink

交差検定とベイズ最適化を使用して、最適なハイパーパラメーターのセット(勾配降下法の学習率など)を見つけました。最適なハイパーパラメータを検索している間、ニューラルネットアーキテクチャは一定のままでした(同じ数のレイヤー、同じ数のノードなど)。

モデルのトレーニングと評価を高速化するために、2つの隠れ層を持つ比較的小さなアーキテクチャを選択しました。

最適なハイパーパラメータが見つかったので、非表示のレイヤとレイヤごとのノードの数を増やしても、ハイパーパラメータは最適ですか?他のすべては同じままです(同じトレーニングデータと検証データ)。

ネットワークをより深く、より広くする理由は、これが最終モデルとして機能し、可能な限り最高の精度を得るために、より多くのエポックをトレーニングできるようにするためです。今すぐ1つのモデルをトレーニングするのに数日かかるかどうかは気になりませんが、ハイパーパラメータを最適化するには、数時間以内にモデルをトレーニングする必要がありました。

1 回答:
Gijs
2019-12-04 17:22:02 UTC
view on stackexchange narkive permalink

残念ながら、そのようには機能しません。ハイパーパラメータは、予測が難しい方法で連携します。たとえば、要点を述べるには少し極端です。

隠れ層はありません。つまり、ロジスティック回帰を当てはめています。ロジスティック回帰は通常、実際には過剰適合しません。したがって、比較的大きな学習率と多くのエポックを使用すると、少なくとも、他のハイパーパラメータ構成よりも悪くはないことがわかります。次に、レイヤーの数を増やします。複雑なモデルが得られますが、これは突然過剰適合しやすくなります。その場合、以前はうまく機能していた大きな学習率と多くのエポックはもはや最適ではありません。

小さなことですが、隠れノードの数、より一般的にはニューラルネットワークのアーキテクチャ全体もハイパーパラメータの一部です。ですから、私がもっと読んだあなたの質問は、ネットワークの複雑さを増すと、同じ学習率が最適になるでしょうか。

私は同じくらい疑った。例として学習率を示しましたが、実際には、学習率に加えて他のパラメーターを調整しています。
二次導関数が小さい(つまり、対数尤度/損失関数の曲率が小さい)モデルには、学習率が大きい方が適しています。より複雑なモデルの方が単純なモデルよりも曲率が大きいと考える理由はありますか?証明できれば、それは私にとって非常に興味深い事実です。
曲率は複雑さにどのように関連していますか?


このQ&Aは英語から自動的に翻訳されました。オリジナルのコンテンツはstackexchangeで入手できます。これは、配布されているcc by-sa 4.0ライセンスに感謝します。
Loading...