W@ndre は wander で wonder な将棋を指してもらう意図で命名したプログラムです。
アピール文での予想に対し実際は学習過程で振り飛車よりも居飛車の矢倉を好む棋風になっていきました。
実際、いくつかの初期局面では飛車先を支障なく突ける状況にあるため、居飛車の過大評価を避けられなかったものと考えられます。
いくつかの初期局面毎に、居飛車党になりやすい・振り飛車になりやすそうという傾向は見えていますが、それ以上は現時点ではわかっていません。
KPPT と NNUE でも傾向が違うらしいという話もあるみたいで、引き続き実験等を続ける予定です。
行った試験
QRL で R4330 相当の評価関数 orqha を
用い、それぞれの初期局面からランダムムーブを 7 〜 17 手までに 3 回入れて教師局面を生成した。通常のランダムムーブで 5000
万局面、MultiPV 7 のランダムムーブで 5000 万局面を用意。(depth 8, eval_limit 7000,
write_minply 17)
初期局面毎の教師局面 1 億をそれぞれ 0 ベクトルの KPPT 型評価関数に学習させた。(eta 30, lambda 0.8, lambda2 0.2, lambda_limit 3000)
学習後の評価関数の指し手を目視で確認した。
ライブラリを提供していただける、やねうら王のやねうらお様、tanuki-のtanuki-製作委員会様、dlshogiの山岡様、python-shogiのグニャラくん様に感謝いたします。