Learning in Log Leaner Model

判別モデルとしての一般の対数線形モデルは，以下の形式に書ける．
\[\begin{align}
p(y|x;w) = \frac{\exp{\sum_{j=1}^{J}w_jF_j(x,y)}}{Z(x,w)} \label{eq:general-log-linear}
\end{align}\]
ここで分母は、以下のような分配関数である．
\[\begin{align}
Z(x,w) = \sum_{y’}\exp\sum_{j=1}^{J}w_jF_j(x,y’)
\end{align}\]
与えられたデータ$x$に対して最尤推定$\hat{y}^{MLE}$を求める場合は，分母は$x$のみに依存して共通だから，
線形重みの部分を最大にする$y$を求めればよい．
\[\begin{align}
\hat{y}^{MLE} = argmax_{y}p(y|x;w) = argmax_{y}\sum_{j=1}^{J}w_jF_j(x,y) \label{eq:mle_general_llm}
\end{align}\]
学習データ（$x$と$y$のセット）から，対数条件付き尤度（LCL; Log Conditional Likelihood）を最大化する$w$を求めることが目的．
LCLの偏微分は以下のようになる．
\[\begin{eqnarray}
\frac{\partial}{\partial w_j}\log p(y|x;w)
&=& F_j(x,y) – \frac{\partial}{\partial w_j}\log{Z(x,w)}\\
&=& F_j(x,y) – \frac{1}{Z(x,w)}\sum_{y’}\frac{\partial}{\partial w_j}Z(x,w)
\end{eqnarray}\]
分配関数$Z(x,w)$の部分の偏微分は以下のようになる．
\[\begin{eqnarray}
\frac{\partial}{\partial w_j}Z(x,w)
&=& \frac{\partial}{\partial w_j}\sum_{y’}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& \sum_{y’}\frac{\partial}{\partial w_j}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& \sum_{y’}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]
\frac{\partial}{\partial w_j}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& \sum_{y’}\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]F_{j’}(x,y’)
\end{eqnarray}\]
したがって，結局LCLの偏微分は以下のようになる．
\[\begin{eqnarray}
\frac{\partial}{\partial w_j}\log(y|x;w)
&=& F_j(x,y) – \frac{1}{Z(x,w)}\sum_{y’}F_{j’}(x,y’)\left[\exp\sum_{j’}w_{j’}F_{j’}(x,y’)\right]\\
&=& F_j(x,y) – \sum_{y’}F_{j’}(x,y’)\left[\frac{\exp\sum_{j’}w_{j’}F_{j’}(x,y’)}{Z(x,w)}\right]\\
&=& F_j(x,y) – \sum_{y’} F_j(x,y’)p(y’|x;w)\\
&=& F_j(x,y) – E_{y’\sim p(y’|x;w)}\left[F_j(x,y’)\right]
\end{eqnarray}\]
%%
%%
つまり，学習データ$<x,y>$にに対する対数条件付き尤度の$j$番目の重み$w_j$による偏微分は，
特徴関数の$x$、$y$に対する値（$F(x,y)$）から
特徴関数の$y’$に関する平均値を引いたものとなる．
%%
%%
学習データがデータセット$T=¥{(x,y)¥}$として与えられ，
大域的な最大値においてはGradientはゼロとなるから，
¥begin{align}
¥sum_{<x,y> ¥in T}F_j(x,y)=¥sum_{<x,> ¥in T}E_{y¥sim p(y|x;w)}[F_j(x,y)]
¥end{align}