逆転オセロニア評価。 【オセロニア】最強Sキャラ(S駒)ランキングTOP20【最新版】|ゲームエイト

[9/25更新]逆転オセロニア【攻略】: 神属性のガチャ限はこれで決まり! 最強キャラクター評価

逆転オセロニア評価

その際の火力は闘化オラゲルドに匹敵する。 最大ダメージを出すためには4個の罠を解除する必要があるが、この状況を狙って作ることは難しい。 現実的なところでは2個、多くて3個といったところだが、この場合はAのトリック持ちと大差ないダメージしか出せないため、扱いは難しいと言える。 コンボ解説 【囁きコンボ比較】 進化ベルゼブブ:2. 1倍(1枚1. 3倍) ノストラダムス:2倍(1枚1. 2倍) 進化ブランジェッタ:2倍(1枚1. 2倍) オルプネー:1. 8倍(1枚1. 4) コンボは最大2倍の囁きバフ。 魔駒1枚で1. 2倍のため4枚で最大倍率に届く計算となる。 性能自体は決して悪くないが、スキルを活かすには大量の罠駒を編成する必要があるため、相性がよいとは言いがたい。 ノストラダムスの総評 ノストラダムスは発動条件が緩いトリックスキルと、高倍率の囁きバフを合わせ持つ駒。 しかし、スキルとコンボ相性から両方を最大限に活かすことが難しい。 使いこなすにはかなり特殊な構築が必要となってくるだろう。

次の

【オセロニア】ジャック・オ・ランタン|評価・ステータス・スキル

逆転オセロニア評価

オセロニアにおける駒がどのような特徴を持つかなど,オセロニアで用いられる基本的な用語の意味を以下に示す. 駒(キャラクター駒) オセロニアにおいて白または黒の駒(リバーシにおけるディスクの役割を担っている)にはそれぞれキャラクターが宿り,条件を満たすことで対戦相手や自分にダメージや,特殊な効果をもたらす.リバーシのルールによってほかの色に挟まれ,一度でも色を反転させられると駒に宿るキャラクターや継続的に発生している効果は消失する.駒には属性(神・魔・竜) が存在し,属性ごとに「神は耐久値が高め」,「魔はトリッキーな戦術向き」,「竜は攻撃力が高め」という傾向が存在する. 個々の駒のスキルなど,より詳細なルールは参考サイト[], []に記載されている. 3.オセロニアにおけるゲームバランス オセロニアに限らず PvP の対戦ゲームのゲームバランスとは,プレイヤーのプレイ戦術以外の何らかの要素で勝敗に大きな偏りを産んでしまわないかが重要になる.たとえば,将棋のようなターン制ゲームで後攻が必ず勝つ戦術が容易に見つかる場合,それはゲームバランスが崩壊しているといえる .ナッシュ均衡解が容易に見つかる簡単な零和ゲーム と異なり,将棋や囲碁などのナッシュ均衡解が見つかっていない複雑なゲームでは,初期状態(先攻・後攻)のみからでは勝敗は分からない .しかしこれらのゲームとは異なり,近年の対戦ゲームではプレイヤーの対戦開始時に有している初期条件(先攻・後攻以外の要素)が互いに異なる場合が多い.オセロニアであればこの初期条件にデッキの内容が該当する. 3. 他方,囲碁は非常に取り得る状態数が多く,さまざまな戦略を相手取るため,人工知能が人間に対戦で勝利するのは困難と考えられていた.しかし近年,ゲーム木探索,深層学習,強化学習の知見の融合により人間のプロプレイヤーに勝る強さをAIプレイヤーが示し,チェスや将棋などの二人零和完全情報ゲームへ転用可能なアルゴリズムとして発表されている[]. 1 学習ゲーム課題としての逆転オセロニア 前述の通り,人工知能技術は深層学習と強化学習やゲーム木探索との融合により,従来不可能だったゲームプレイの学習を可能とした.他方,既存のゲーム課題での強化学習における行動の学習には,深層ニューラルネットワークなどによる関数近似が用いられるが,多くの場合,出力はあらかじめ固定の行動種類数で学習される. しかし現在の一般に頒布されている最新ゲームにおいては,前述の通りゲーム内容がオンラインに更新されていき,入力情報や出力行動数が増加するなど,レトロなビデオゲームにはない性質を持つ.これは入出力の増加に応じて学習ネットワークも指数的に巨大化するため,更新が継続的に続いていくと学習が困難なネットワークサイズになることを意味している.このように現代のゲームで深層強化学習を行うためには,増加していく入出力サイズを前提とし,それに対処する必要がある.たとえば,学習課題と見なしたときのオセロニアは以下の特徴を有する. (1)二人零和不完全情報ゲーム(本研究では課題の簡略化のため完全情報に変更)• (2)ターン制かつ1ターンにつき1回の行動選択• (3)可能な行動の集合が現在の手駒,場の駒配置で決定• (5)駒が盤面にとどまるため,すべての駒を離散的に定義すると,駒の種類数の増加に対して指数的に状態空間が拡張される• (6)手駒としての駒の出現順番が確率的で予測不能なため,ゲーム木探索が有効ではない• (7)デッキの組合せが数多くあるため,すべてに対応としようとする場合は膨大なパターンへのマルチタスク学習になる 5.研究目的:オセロニアにおける戦術AIを作る困難の解決 オセロニアでは入力情報でありながら行動としての出力でもある駒の種類数がゲームの更新のたびに増え続けていく.そのため人工知能のアーキテクチャはその増加を前提に設計する必要がある.クラスタリングにより膨大な数の入出力を抽象化する手法は存在するが,ゲーム進行上のそれぞれの駒の特徴や役割は複雑かつ自明ではないため,有効とは限らない. また,人手による個々の駒の特徴量のハンドエンジニアリングも頻繁にゲームが更新されるため,現実的ではない. そこで本研究では,状態・行動両方の要素である駒の特徴を状態遷移軌跡 から自動的に分散表現としてベクトルに埋め込む表現学習手法を提案する. 後述する提案手法は膨大かつ拡張されうる駒の種類数の長さを持つ one-hot ベクトルを,固定次元の実数ベクトル(表現ベクトル) に変換する( 図1).こうすることでプレイ戦術を学習する際のネットワークのサイズが駒の種類数に依存しなくなり,継続的な拡張に対処可能になる. この手法は逆転オセロニアに限らず,ゲーム要素が継続的に追加されるさまざまなゲームに有効であると考えられる. 図1 駒を表現するベクトルのサイズ(グレースケールの濃淡が値を表現) 6.プレイ戦術の学習 現在のゲーム状況に応じて適した行動を選ぶ人工知能を知能エージェントと呼ぶ(以下,断りがない場合,単にエージェントと記載する).エージェントは特定の評価関数や確率分布に基づき行動する.評価関数は人間が試行錯誤を元に数値化して設計することもできるが,ゲームが複雑になるほど良い評価関数を与えることは困難になる.その評価関数を何らかの手法で学習・自動獲得させることが深層学習の役割である.深層学習には膨大なデータが必要であるため,サービス向上のためにプレイヤーの対戦ログを収集しているオセロニアのようなオンラインゲームと相性が良い.その対戦ログから人間の選択を教師信号として教師あり学習(Supervised Learning,SL)を行うことで,人間の選択を模倣する評価関数を獲得することができる.教師あり学習で学習したエージェントも,本研究が目的とするリリース予定の新規駒のバランス調整にはある程度有効だと考えられる.しかしながら,それはバランス調整対象の駒がそれ以前の駒に類似している場合に限られ,まったく新しいスキル,ゲーム要素の追加に際してはデータのない未知の状況からの学習が必要になる.そこで重要になるのが,未知の環境から試行錯誤を通じてゼロから良い行動パターン(価値関数,行動選択確率分布=方策)を学習していく,強化学習(Reinforcement Learning,RL)という手法である.近年の研究では囲碁において深層強化学習で学習した方が対戦ログからの深層学習より高い成績を有することが示されている[].しかしここで前述の,オセロニアを始めとしたオンラインゲームが有する,ゲーム要素が追加されていく性質が深層ニューラルネットワークで行う教師あり学習,強化学習の両方にとって大きな問題になる. 6. そしてある行動選択肢の評価値の計算・学習には近似関数を使用する. また2値分類であるため,手駒中の選択されなかった駒,設置可能だが選択されなかったマスも学習データに用いる. しかし毎ターン選択可能な行動の種類数 A t の中で選択されない行動数 A t - 1 の方が圧倒的に多いため,学習時には負例(選択されなかった行動の入力ベクトル)はダウンサンプリングしている. 7. 4 ゲームシミュレータからの強化学習 本研究ではオセロニアのゲームシミュレータを用いて行動選択の強化学習も行った. またネットワークには Noisy-net [] を使用し,自律的な探索を促している.通常の Noisy-net [] を本アーキテクチャで用いると,行動がバッチ方向に展開されている都合上,すべての行動に同様のノイズがかかってしまう.そこで本研究では,最終出力のみ,バッチ方向にそれぞれ異なるノイズが発生するよう,バッチ数分のノイズサンプリングをするよう設計した. 7. 具体的には話者特徴を表現ベクトルとして埋め込むペルソナモデル[] を元に,状態行動対中の離散的な行動要素など,ある部分集合(オセロニアでは駒のことを指す)に,状態遷移の要因としての表現を表現ベクトルとして埋め込む方式を考案した. しかし良い行動の評価関数を作るため,実用上は一定のリテラシーを持ったエージェント,あるいはプレイヤーの対戦ログから得た状態遷移軌跡が望ましい. 8. しかしそれは現実的ではないため,何らかの別の特徴量を設計するのが妥当だと考えられる. 8. 3 表現ベクトル導入の効果 表現ベクトルのネットワークの入出力を固定するのみでなく,ユニット数の節約と学習時間の削減や,表現空間上での類似行動の汎化による学習の効率化が期待できる.また,ほかにもプレイ戦術の学習器に駒の表現の学習を任せなくてもよいため,プレイ戦術に特化した学習のチューニングサイクルが早くなる利点があげられる.以降の実験でその利点の検証を行う. 9.プレイ戦術の学習実験 本研究では表現ベクトルの導入しても成績が保たれているか,また学習時間の削減ができているか検証するため,それぞれ表現学習と教師あり学習(実験1),強化学習による行動評価値の学習(実験2)を組み合わせた際の実験により定量評価を試みた. 1 逆転オセロニアでのプレイ戦術学習の共有設定 実験1, 2ともに状態・行動特徴の中に存在する駒特徴には共通の表現ベクトルを用いた. また実験1の教師あり学習,実験2の強化学習には同様の中間層の構造を用いる. 各種学習器の構造やハイパーパラメータは 表1に示す通りである. また Dropout ,L2 正則化の汎化は表現学習,教師あり学習のみにしか使用しておらず,強化学習には使用していない. 表1 各種パラメータ 9. 1 入力特徴 各学習器の入力特徴は状態 s t としてターン数や選択側の色(白・黒),自分・敵の残り体力,手駒,デッキ,盤面などを,行動 a t には任意の選択可能な駒や設置可能なマス座標,スキルやコンボスキルなどの特殊効果の発動の可否を用いた. 表現ベクトルを使用しない場合は one-hot ベクトルを手駒,デッキ,盤面の駒の表現として用い,駒の表現ベクトルを使用する場合は,そのすべてを前述したベクトル長30の表現ベクトルに置き換えた. そのため両実験とも比較対象である表現ベクトルを使うか否かで第一層の入力数とパラメータの数が異なる. ターン数を対数にした値など入力の特徴量エンジニアリングも行われているが,入力特徴や表現学習時の教師信号,損失関数は実サービスのゲームを用いている都合上,詳細な言及は避ける. 異なるゲームに本研究内容を応用する場合,ゲームごとに入力特徴を設計する必要がある. 9. 2 勝率の定義 オセロニアでは非対人対戦イベントや通信が切れた際の代打ちとして,ルールベースAIが実装されている. ルールベースAIの行動はある得点表の合計値(評価関数)を参照し生成された確率分布によって選択される. 強さが固定であることと,決定論的な行動でないことから, 本研究の勝率の定義にはルールベースAIとの戦績を用いた. 勝率は各試合,各々異なるシードでデッキのシャッフルと先攻後攻を決定した1,000試合中何勝したかで評価した.勝率評価の試合時には学習された行動評価の近似関数の出力に対して greedy な行動選択を行った. 2 実験1:表現ベクトルを用いた対戦ログでの教師あり学習 実験1では表現ベクトルを用いた場合とそうでない場合での学習効率の比較を示す. ここでいう効率とは計算時間に対する勝率の向上速度や,最終的な到達勝率の高さを意味する. 勝率はさまざまなデッキの組み合わせによって測るべきだが,現実的にあらゆるデッキの組合せで評価するのは困難であるため,ここでは代表として2017年1月の時点でよく使われていたデッキバリエーションである4種を用いた.限定された駒種類数での勝率評価であるため,表現ベクトルの有無で大きな差が現れないことが予想される. そのため minibatch で学習した学習回数(step)に対する勝率以外に,同条件で学習にかかった経過時間を提示する. 9. 1 実験設定 教師あり学習でも表現学習と同じく2017年1月に集計されたプレイヤーランクが76~200同士の対戦ログを使用した. 勝率評価に4種の内訳はデッキ内の駒の属性を神(耐久値が高い傾向),魔(戦術がトリッキーな傾向) ,竜(攻撃力が高い傾向)の駒で主に構成した3種とそのバランス的な組合せを用いた. 学習と評価に使用したデッキの構築はアソシエーション分析と階層的クラスタリング手法の一種であるウォード法と k-means 法を組合せたクラスタリングにより抽出した頻出する駒の組合せから [],任意の組合せによるデッキを自動生成した. プレイ戦術の学習ネットワークの表現ベクトルを使用する場合の入力サイズは5,649になった. 前述の通り,実際にプレイヤーが選択した行動(正例)と選択しなかった行動(負例)の教師データ数の偏りが大きいため,正例と負例の割合が1:5になるようダウンサンプリングして学習を行っている(可能な行動の集合の数 A t が6より小さかった場合はのぞく).すなわち,学習データの量はすべての対戦の総ターン数に対して約6倍になる. 9. 2 結果および考察 図5に各 step での勝率と,同条件の GPU で学習させた場合の経過時間を示す. 毎 step の勝率はほぼ等しいが,50万 step 時の経過時間が約5. 6倍になった. これは約900の駒種類数を想定したものであり,学習コストは駒の増加に伴いさらに大きくなる. 本研究ではアソシエーション分析とクリスタリングにより生成されたメジャーなデッキ構成を用いたため,マイナーな駒の学習などに影響を評価できていないが,駒表現ベクトルが計算的な時間削減に寄与し,成績に影響を及ぼさない示唆が得られた. 図5 表現ベクトル+教師あり学習モデルの勝率と学習にかかった実時間の推移 9. 3 実験2:表現ベクトルを用いたマルチタスク強化学習 強化学習でも表現ベクトルの使用に対して成績に変化が表れるか実験を行った. 1 実験設定 対戦相手には初期1,000対戦はランダムで,その後1,000対戦ごとに保存される過去の近似関数を対戦毎にランダムに読み込み,対戦相手の行動選択に用いた. アーキテクチャには表現ベクトルのあり, なしをぞれぞれ学習し,勝率を比較した. 5 )により抽出された minibatch での学習を 1 step として2対戦ごとに 32 step 学習を繰り返し行った. 2 結果および考察 図6に対戦回数に対する勝率の推移を示す. 対戦回数ごとの勝率はほぼ等しく,強化学習でも表現ベクトルの使用により,成績に悪影響を及ぼさない示唆が得られた. トレーディングカードゲームなど,離散化された状態や行動の要素数がトランプの枚数とは比較にならない数で存在する意思決定課題に対処するためには,そのゲームのドメインに基づいた個別要素の特徴付けが重要になる. それにより複雑なゲームへの機械学習,強化学習の応用範囲を広めることができたといえる. また,本研究はゲームルールが明示されている際に,スクロールやクリックなどの低次な行動の学習を無視し,一足飛びで高次な意思決定の学習を行えることを意味している. そのとき,低次の行動から高次行動(スキル,プラン)の発見と汎化が前提となることが予想される. そこでは本研究のように拡張され得る特徴空間を想定し,潜在的に膨大な行動の種類数に対して意思決定していける学習設計が重要になると考えられる. そのメタ設計,メタ構造はゲームジャンルに依存せず転用可能である. 11.今後に向けて 本研究の試みにより,最大の問題の1つである,継続的に増えていくゲーム要素を考慮した戦術の学習(教師あり学習,強化学習)を行うことができた.しかしながら,未知のゲーム要素を加えた環境下での膨大なデッキの組合せすべてに対して最適な戦術を学習するというマルチタスク強化学習への対処は未だ不十分である.強化学習は対戦ログのデータがなくとも未知の要素にも対応し得る教師あり学習にはない優れた性質を有する.しかし前述のマルチタスクなど,すべての問題に対処するのは現実的でない.ゲームバランス調整のような人間の複雑な仕事を補助するためにも,現代のゲームタイトルに強化学習を用いた際の問題の分解の仕方,その成果を共有していくことが今後の業界全体に対する貢献になると思われる. 参考文献• 1)株式会社ディー・エヌ・エー:『逆転オセロニア』公式サイト.入手先()• 2)株式会社ディー・エヌ・エー:『逆転オセロニア』最速攻略wiki.入手先()• 3)Mnih, V. , Kavukcuoglu, K. , Silver, D. , Hassabis, D. , et al. : Human-level Control through Deep Reinforcement Learning, Nature, 518 7540 , pp. 529-533 2015. 4)Silver, D. , Hassabis, D. , et al. : Mastering the Fame of Go without Human Knowledge, Nature 550 7676 , pp. 354-359 2017. 5)Sutton, R. and Barto, A. : Reinforcement Learning : An Introduction, MIT Press 1998. 6)Hessel, Matteo, et al. : Rainbow : Combining Improvements in Deep Reinforcement Learning, arXiv preprintarXiv:1710. 02298 2017. 7)Schaul, T. , Quan, J. , Antonoglou, I. and Silver, D. : Prioritized Experience Replay, arXiv preprint arXiv:1511. 05952 2015. 8)Van Hasselt, H. , Guez, A. and Silver, D. : Deep Reinforcement Learning with Double Q-learning, arXiv preprintarXiv:1509. 06461 2015. 9)Le, Q. and Mikolov, T. : Distributed Representations of Sentences and Documents, ICML2014, Volume14, pp. 1188-1196 2014. 10)Li, J. , Galley, M. , Brockett, C. , Spithourakis,G. , Gao, J. and Dolan, B. : A Persona-based Neural Conversation Model, ACL2016 2016. 11)濱田晃一,藤川和樹,小林颯介,菊池悠太,海野裕也,土田正明:対話返答生成における個性の追加反映, 研究報告自然言語処理(NL), 2017-NL-232 12 , pp. 1-7, 2188-8779 2017. 12)Agrawal, R. and Srikant, R. : Fast Algorithms for Mining Association Rules in Large Databases, VLDB'94 Proceedings of The 20th International Conference on Very Large Data Bases, pp. 487-499 1994. kono dena. com 1987年生.2016年東京電機大学大学院先端科学技術研究科博士課程修了.2017年DeNAに入社.実運用中のモバイルゲームにおけるゲームAIの強化学習の研究開発に従事. 田中 一樹(非会員) 2015年慶應義塾大学理工学部卒業,2017年同大学院理工学研究科総合デザイン工学専攻修士課程修了.電力系統に関する数理計画法や機械学習の工学的応用を専攻.2017年DeNAに入社.主にデータサイエンスや機械学習のビジネス応用に興味を持っている. 岡田 健(非会員) 数論幾何を研究する身から一転,2015年にDeNAに新卒入社.ゲーム開発・運用を経て,2018年から『逆転オセロニア』のGame AI開発にてエンジニアリング全般を担当している.学習高速化,強化学習,実サービスへの応用に興味を持つ. 奥村 エルネスト 純(非会員)jun. okumura dena. com 京都大学,東京大学,米ローレンス・バークレー国立研究所にて宇宙物理学の研究に従事し,2014年DeNA入社.データアナリストとしてゲーム事業のデータ分析に携わり,2016年末よりAIエンジニアに転身.強化学習,深層学習を活用したGame AI研究開発プロジェクトをリード..

次の

【逆転オセロニア】序盤攻略と感想 評価 レビュー

逆転オセロニア評価

・を 19位に追加。 ・を 10位に追加。 ・を 1位に追加。 ・を 13位・19位に追加。 ・を 14位に追加。 汎用性の高さを評価 対人戦での様々なデッキで使えるキャラや、「」などのクエストでの汎用性の高いキャラを高く評価しています。 バフ系オーラスキル・手駒ロックは対象外 「」や「」といったバフ系のオーラスキルを所持しているキャラや、「」などが所持している手駒ロックスキルは最強の基準が異なるため、 ランキング対象外にしています。 スキルバッジ適用駒は基本的に対象外 シーズンマッチでスキルバッジが適用されている「」や「」などのキャラは、スキルバッジにより性能が下がるため、ランキングの対象外にしています。 ただし、「」など 直近でスキルバッジが付いたキャラは暫定的にランキング対象としました。 現環境も考慮 SNSなどで話題のキャラや現在トレンドのキャラを重点的に見て、現環境に適したキャラかどうか評価しています。 関連リンク 復帰ユーザー向け記事 ランキングトップ 人気ランキング記事 S駒最強.

次の