Learning in Log Leaner Model

判別モデルとしての一般の対数線形モデルは,以下の形式に書ける.
\[\begin{align}
p(y|x;w) = \frac{\exp{\sum_{j=1}^{J}w_jF_j(x,y)}}{Z(x,w)} \label{eq:general-log-linear}
\end{align}\]
ここで分母は、以下のような分配関数である.
\[\begin{align}
Z(x,w) = \sum_{y’}\exp\sum_{j=1}^{J}w_jF_j(x,y’)
\end{align}\]
与えられたデータ\(x\)に対して最尤推定\(\hat{y}^{MLE}\)を求める場合は,分母は\(x\)のみに依存して共通だから,
線形重みの部分を最大にする\(y\)を求めればよい.
\[\begin{align}
\hat{y}^{MLE} = argmax_{y}p(y|x;w) = argmax_{y}\sum_{j=1}^{J}w_jF_j(x,y) \label{eq:mle_general_llm}
\end{align}\]
学習データ(\(x\)と\(y\)のセット)から,対数条件付き尤度(LCL; Log Conditional Likelihood)を最大化する\(w\)を求めることが目的.
LCLの偏微分は以下のようになる.
\[\begin{eqnarray}
\frac{\partial}{\partial w_j}\log p(y|x;w)
&=& F_j(x,y) – \frac{\partial}{\partial w_j}\log{Z(x,w)}\\
&=& F_j(x,y) – \frac{1}{Z(x,w)}\sum_{y’}\frac{\partial}{\partial w_j}Z(x,w)
\end{eqnarray}\]
分配関数\(Z(x,w)\)の部分の偏微分は以下のようになる.
\[\begin{eqnarray}
\frac{\partial}{\partial w_j}Z(x,w)
&=& \frac{\partial}{\partial w_j}\sum_{y’}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& \sum_{y’}\frac{\partial}{\partial w_j}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& \sum_{y’}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]
\frac{\partial}{\partial w_j}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& \sum_{y’}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]F_{j’}(x,y’)
\end{eqnarray}\]
したがって,結局LCLの偏微分は以下のようになる.
\[\begin{eqnarray}
\frac{\partial}{\partial w_j}\log(y|x;w)
&=& F_j(x,y) – \frac{1}{Z(x,w)}\sum_{y’}F_{j’}(x,y’)\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& F_j(x,y) – \sum_{y’}F_{j’}(x,y’)\left[\frac{\exp\sum_{j’}w_{j’}F_{j’}(x,y’)}{Z(x,w)}\right]\\
&=& F_j(x,y) – \sum_{y’} F_j(x,y’)p(y’|x;w)\\
&=& F_j(x,y) – E_{y’\sim p(y’|x;w)}\left[F_j(x,y’)\right]
\end{eqnarray}\]
%%
%%
つまり,学習データ$<x,y>$にに対する対数条件付き尤度の$j$番目の重み$w_j$による偏微分は,
特徴関数の$x$、$y$に対する値($F(x,y)$)から
特徴関数の$y’$に関する平均値を引いたものとなる.
%%
%%
学習データがデータセット$T=¥{(x,y)¥}$として与えられ,
大域的な最大値においてはGradientはゼロとなるから,
¥begin{align}
¥sum_{<x,y> ¥in T}F_j(x,y)=¥sum_{<x,> ¥in T}E_{y¥sim p(y|x;w)}[F_j(x,y)]
¥end{align}