[AI]スーパーマリオブラザーズの近接ポリシー最適化（PPO）アルゴリズムのPython実装

https://www.reddit.com/r/Python/comments/hy4rc1/ai_application_python_implementation_of_proximal/

このアルゴリズムとビデオは、現代の機械学習におけるギャップの一部を示しています。アルゴリズムが状況を論理的に読み取り、ルールと戦略を開発してテストし、それらをゲームに論理的に適用していないことは明らかです。実際には、画面上の情報を処理していないすべてで。むしろ、ブルートフォースの試行錯誤を使用しています。レベル位置を進める入力シーケンス、およびレベル位置をさらに進める他のシーケンスに接続できる入力シーケンスは、成功した入力と見なされます。

これは、2つの特定の動作で確認できます。

（1）アルゴリズムは、画面に表示される前に物事に反応します。これは、4：50の世界4-3で見ることができます。高桁で実行され、2番目の高桁に長いジャンプをしますが、最初の桁の中央で2番目の桁の前でジャンプを開始します。見えます。世界5-3の5:43にもう一度見ることができます。そこでは、芝生のプラットフォームの非常に最初からその向こうの空洞へと大きく飛躍します-開始時に見えなかったフローティングプラットフォームに着陸するためだけにジャンプ。

アルゴリズムがマップを記憶し、モデル化していない場合は（それは行っていません）、アルゴリズムがそれらの場所でその入力を生成する唯一の理由は、結果（数フレーム後）がレベル位置のさらなる前進を可能にするためです。

（2）レベルの最後にマリオがブロックにスタックしているインスタンスがいくつかあります。レベル終了フラグの基部にあるブロックか、レベル終了の斧の直前の短い壁のいずれかです。レベルを完了するためにジャンプする前に、マリオは多くのフレームの間、少なくとも1秒間は1秒程度、そこでスタックします。この動作に絶対に価値はありません-たとえば、マリオが待つことによって回避する脅威はありません-そして、マリオがしなければならないことは、レベルを完了するためにジャンプすることだけです。しかし、行き詰まります。なぜ動かなくなるのですか？旗や斧に触れるためにジャンプする必要があることを知らないため、それに触れるためにジャンプする最も基本的な戦略を適用しないからです。むしろ、右に移動する（壁に入る）ことは害がなかった（マリオが殺されなかった）と成功したランの一部であり、そのセクションの動きは維持されました。アルゴリズムの選択部分では、ハザードや無意味な動きを回避するために、正しい歩行が重要な遅延戦術であるかどうかはまったくわかりません。

したがって、このMLアルゴリズムはチャットボットのようなものです。その出力は、より高いインテリジェンスと巧妙な意思決定を示唆していますが、大まかな進行の測定基準に従って十分にスコア付けされた結果を生み出すための試行の膨大な前処理に基づく幻想です。個々のパーツはロジックや戦略と一緒に織り込まれているのではなく、ミスターポテトヘッドの方法で織り込まれ、結果は非常に厳密に最高スコアの個々のパーツの合計になります。

レベル3

13ass13ass39ポイント・7時間前

この説明は、3つのレベルが未解決になったのは、論理パズルを解いてレベルを完了する必要があるためです。パズルを解かないと、時間がなくなるまでレベルがループします。画面を右に動かすと必ず成功すると信じ込んでエージェントが行き詰まる。

レベル3

Vidoardes6ポイント・5時間前

よく言った。機械学習マリオは、どのレベルでも与えることができ、それを完了する方法を理解することを暗示していました。それは、それが力学を理解しているからです。これは、この正確なレベルレイアウトを移動する方法を学習しました。これは、敵が同じ予測可能なパターンであなたに向かって来るためにのみ機能します。敵にランダム性があった場合、この方法は何度も失敗します。

レベル3

ケリー4点・5時間前

むしろ、ブルートフォースの試行錯誤を使用しています。レベル位置を進める入力シーケンス、およびレベル位置をさらに進める他のシーケンスに接続できる入力シーケンスは、成功した入力と見なされます。

この特定のプログラムが上記のように機能している場合（正直に言って、それが正解かどうかはわかりません）、それでもAIの一種と見なされますか？

レベル4

crunching_karma2点・2時間前

それは単なる流行語です。現代の機械学習では、AIと呼ぶことができるものはほとんどありません。

レベル4

ラマスト1点・3時間前

AIは非常に広義の用語であり、コンピューターが決定を下す必要があるあらゆるものをカバーします。if / elseステートメントを使用してゲームをプレイできるプログラムを作成しても、それはAIと見なされます。

あなたがおそらく行く用語は機械学習です。はい、そのため、コンピュータは、実行方法を教えることなくタスクを実行できます。それは機械学習と見なされます。

レベル3

スカラビン1点・3時間前

このようにキープレスをつなぎ合わせるだけでなく、処理して決定できるAIに取り組んでいる人はいますか？

レベル4

neuron_whisperer1点・3時間前

私の知る限りではありませんが、（a）MLの研究は膨大であり、（b）いずれにせよ、その多くは秘密になっているため、その説明は無意味なものに次ぐものです。

しかし、もしそうなら、それは珍しい種類の努力でしょう。ほとんどの場合、MLの進歩は、私たちがすでに知っていることの漸進的な拡張です。忠実度が高いか、エラー率が低い言語翻訳。それは通常、機械にまったく新しい認知能力を最初から教えているわけではありません。

レベル2

ソリタリウム

-5ポイント・11時間前子供1人

レベル1

I__am__a__BOT30点・9時間前

プロットツイスト：OPはマリオで本当に素晴らしく、これらは実行されます！

レベル2

グリゼレックス7ポイント・7時間前

これを画像化することは、逆ではなく、今日のプロットのねじれでなければなりません。

レベル2

jampk244点・5時間前

これが本当に良いと思うなら、SMB1のany％スピードランとそれに入るすべてのものが表示されるはずです。

レベル2

1991ベトナム2点・1時間前

ありがとうございました：）

レベル1

1991ベトナム21ポイント・13時間前

ソースコード：https : //github.com/uvipen/Super-mario-bros-PPO-pytorch

完全なデモ：https : //youtu.be/MpWnWWeuRVc

レベル1

オココロ14ポイント・13時間前

美しい。10分間見てきました。よくできました！

レベル2

1991ベトナム1点・1時間前

おかげで:)

レベル1

Densvedigegrisコンピュータ科学者10点・10時間前

マリオをPythonでどのように実行しましたか？

レベル2

フルシアンテデブタンテ6ポイント・5時間前

私が推測しなければならないなら、それはエミュレーターを含むでしょう

レベル3

1991ベトナム3点・1時間前

はい、ここにいますhttps://pypi.org/project/gym-super-mario-bros/

レベル3

Densvedigegrisコンピュータ科学者2点・5時間前

それも私の賭けです。私はPyBoyのコントリビューターであり、彼がそれを使用したのかどうか疑問に思っています。（スマートフォンで）コードをざっと読みましたが、エミュレータへの参照が表示されませんでした

レベル4

フルシアンテデブタンテ4点・4時間前

パイボーイ？聞いたことがありませんが、本当にうんざりしているので、確認する必要があります。

レベル2

alew32点・3時間前

dockerfileで彼はこのpip libをインストールしますhttps://pypi.org/project/gym-super-mario-bros/

レベル2

1991ベトナム1点・1時間前

はい、ここにいますhttps://pypi.org/project/gym-super-mario-bros/

レベル1

小児科の戦術5点・11時間前

この魔術について説明してください。

レベル1

TheAdvFred4点・8時間前

これはどのように作動しますか？それは実際にプレイ方法を学ぶのですか、それが得られるまで試行錯誤するだけですか？これは非常に印象的です！

レベル2

1991ベトナム3点・1時間前

元卿、

簡単な説明はこちら：https : //openai.com/blog/openai-baselines-ppo/

レベル1

mardix3点・8時間前

大好きです。私は全部を見ていて、時々心が殺到することを知っていた。私は何日も何日も遊んで過ごし、それを終えることができませんでした。でも見ていて楽しかったです。いい物

レベル2

1991ベトナム1点・1時間前

私は世界5に到達したことがありません： '（

レベル1

mpower203点・4時間前

このようなAIを適用するために私が学ぶ必要があるリソースを誰かに紹介してもらえますか？私はプロのPythonコーダーですが、AIの経験はありません

レベル2

エラー19542点・3時間前

ニューラルネットワークのしくみを知るには、線形代数と多変量計算が必要です。バックプロパゲーションを実装する方法を知っている必要はありませんが、概念的にそれらを取得することが重要です。Ian Goodfellowはディープラーニング（ニューラルネットワーク）に関する最も人気のある本の1つを持っています。SuttonとBartoは、このようなものに必要な強化学習に関する本を持っています。

レベル1

RedditsMastermind3点・12時間前

今カップヘッドを行います。

冗談はさておき、私はどのようにAIボスのフェーズを教えることができるのだろうと思っていました。たとえば、上司を傷つけるために何かを無効にする必要があるかもしれません。

レベル1

Sssneker3点・9時間前

これはスピードランナーのように見えます

レベル1

ポップコーン3点・8時間前

最初のレベルでは、パイプの側面のAIジャンプはありますか？

レベル1

ヒトデの空3点・8時間前