[AI]スーパーマリオブラザーズの近接ポリシー最適化(PPO)アルゴリズムのPython実装

https://www.reddit.com/r/Python/comments/hy4rc1/ai_application_python_implementation_of_proximal/

このアルゴリズムとビデオは、現代の機械学習におけるギャップの一部を示しています。アルゴリズムが状況を論理的に読み取り、ルールと戦略を開発してテストし、それらをゲームに論理的に適用していないことは明らかです。実際には、画面上の情報を処理していないすべてでむしろ、ブルートフォースの試行錯誤を使用しています。レベル位置を進める入力シーケンス、およびレベル位置をさらに進める他のシーケンスに接続できる入力シーケンスは、成功した入力と見なされます。

これは、2つの特定の動作で確認できます。

(1)アルゴリズムは、画面に表示される前に物事に反応します。これは、4:50の世界4-3で見ることができます。高桁で実行され、2番目の高桁に長いジャンプをしますが、最初の桁の中央で2番目の桁の前でジャンプを開始します。見えます。世界5-3の5:43にもう一度見ることができます。そこでは、芝生のプラットフォームの非常に最初からその向こうの空洞へと大きく飛躍します-開始時に見えなかったフローティングプラットフォームに着陸するためだけにジャンプ。

アルゴリズムがマップを記憶し、モデル化していない場合は(それは行っていません)、アルゴリズムがそれらの場所でその入力を生成する唯一の理由は、結果(数フレーム後)がレベル位置のさらなる前進を可能にするためです。

(2)レベルの最後にマリオがブロックにスタックしているインスタンスがいくつかあります。レベル終了フラグの基部にあるブロックか、レベル終了の斧の直前の短い壁のいずれかです。レベルを完了するためにジャンプする前に、マリオは多くのフレームの間、少なくとも1秒間は1秒程度、そこでスタックします。この動作に絶対に価値はありません-たとえば、マリオが待つことによって回避する脅威はありません-そして、マリオがしなければならないことは、レベルを完了するためにジャンプすることだけです。しかし、行き詰まります。なぜ動かなくなるのですか?旗や斧に触れるためにジャンプする必要があることを知らないため、それに触れるためにジャンプする最も基本的な戦略を適用しないからです。むしろ、右に移動する(壁に入る)ことは害がなかった(マリオが殺されなかった)成功したランの一部であり、そのセクションの動きは維持されました。アルゴリズムの選択部分では、ハザードや無意味な動きを回避するために、正しい歩行が重要な遅延戦術であるかどうかはまったくわかりません。

したがって、このMLアルゴリズムはチャットボットのようなものです。その出力は、より高いインテリジェンスと巧妙な意思決定を示唆していますが、大まかな進行の測定基準に従って十分にスコア付けされた結果を生み出すための試行の膨大な前処理に基づく幻想です。個々のパーツはロジックや戦略と一緒に織り込まれているのではなく、ミスターポテトヘッドの方法で織り込まれ、結果は非常に厳密に最高スコアの個々のパーツの合計になります。

レベル3

13ass13ass39ポイント7時間前

この説明は、3つのレベルが未解決になったのは、論理パズルを解いてレベルを完了する必要があるためです。パズルを解かないと、時間がなくなるまでレベルがループします。画面を右に動かすと必ず成功すると信じ込んでエージェントが行き詰まる。

レベル3

Vidoardes6ポイント5時間前

よく言った。機械学習マリオは、どのレベルでも与えることができ、それを完了する方法を理解することを暗示していました。それは、それが力学を理解しているからです。これは、この正確なレベルレイアウトを移動する方法を学習しました。これは、敵が同じ予測可能なパターンであなたに向かって来るためにのみ機能します。敵にランダム性があった場合、この方法は何度も失敗します。

レベル3

ケリー4点5時間前

むしろ、ブルートフォースの試行錯誤を使用しています。レベル位置を進める入力シーケンス、およびレベル位置をさらに進める他のシーケンスに接続できる入力シーケンスは、成功した入力と見なされます。

この特定のプログラムが上記のように機能している場合(正直に言って、それが正解かどうかはわかりません)、それでもAIの一種と見なされますか?

レベル4

crunching_karma2点2時間前

それは単なる流行語です。現代の機械学習では、AIと呼ぶことができるものはほとんどありません。

レベル4

ラマスト1点3時間前

AIは非常に広義の用語であり、コンピューターが決定を下す必要があるあらゆるものをカバーします。if / elseステートメントを使用してゲームをプレイできるプログラムを作成しても、それはAIと見なされます。

あなたがおそらく行く用語は機械学習です。はい、そのため、コンピュータは、実行方法を教えることなくタスクを実行できます。それは機械学習と見なされます。

レベル3

スカラビン1点3時間前

このようにキープレスをつなぎ合わせるだけでなく、処理して決定できるAIに取り組んでいる人はいますか?

レベル4

neuron_whisperer1点3時間前

私の知る限りではありませんが、(a)MLの研究は膨大であり、(b)いずれにせよ、その多くは秘密になっているため、その説明は無意味なものに次ぐものです。

しかし、もしそうなら、それは珍しい種類の努力でしょう。ほとんどの場合、MLの進歩は、私たちがすでに知っていることの漸進的な拡張です。忠実度が高いか、エラー率が低い言語翻訳。それは通常、機械にまったく新しい認知能力を最初から教えているわけではありません。

レベル2

ソリタリウム

-5ポイント11時間前子供1人

レベル1

I__am__a__BOT30点9時間前

プロットツイスト:OPはマリオで本当に素晴らしく、これらは実行されます!

レベル2

グリゼレックス7ポイント7時間前

これを画像化することは、逆ではなく、今日のプロットのねじれでなければなりません。

レベル2

jampk244点5時間前

これが本当に良いと思うなら、SMB1のany%スピードランとそれに入るすべてのものが表示されるはずです。

レベル2

1991ベトナム2点1時間前

ありがとうございました :)

レベル1

1991ベトナム21ポイント13時間前

ソースコード:https : //github.com/uvipen/Super-mario-bros-PPO-pytorch

完全なデモ:https : //youtu.be/MpWnWWeuRVc

レベル1

オココロ14ポイント13時間前

美しい。10分間見てきました。よくできました!

レベル2

1991ベトナム1点1時間前

おかげで:)

レベル1

Densvedigegrisコンピュータ科学者10点10時間前

マリオをPythonでどのように実行しましたか?

レベル2

フルシアンテデブタンテ6ポイント5時間前

私が推測しなければならないなら、それはエミュレーターを含むでしょう

レベル3

1991ベトナム3点1時間前

はい、ここにいますhttps://pypi.org/project/gym-super-mario-bros/

レベル3

Densvedigegrisコンピュータ科学者2点5時間前

それも私の賭けです。私はPyBoyのコントリビューターであり、彼がそれを使用したのかどうか疑問に思っています。(スマートフォンで)コードをざっと読みましたが、エミュレータへの参照が表示されませんでした

レベル4

フルシアンテデブタンテ4点4時間前

パイボーイ?聞いたことがありませんが、本当にうんざりしているので、確認する必要があります。

レベル2

alew32点3時間前

dockerfileで彼はこのpip libをインストールしますhttps://pypi.org/project/gym-super-mario-bros/

レベル2

1991ベトナム1点1時間前

はい、ここにいますhttps://pypi.org/project/gym-super-mario-bros/

レベル1

小児科の戦術5点11時間前

この魔術について説明してください。

レベル1

TheAdvFred4点8時間前

これはどのように作動しますか?それは実際にプレイ方法を学ぶのですか、それが得られるまで試行錯誤するだけですか?これは非常に印象的です!

レベル2

1991ベトナム3点1時間前

元卿、

簡単な説明はこちら:https : //openai.com/blog/openai-baselines-ppo/

レベル1

mardix3点8時間前

大好きです。私は全部を見ていて、時々心が殺到することを知っていた。私は何日も何日も遊んで過ごし、それを終えることができませんでした。でも見ていて楽しかったです。いい物

レベル2

1991ベトナム1点1時間前

私は世界5に到達したことがありません: '(

レベル1

mpower203点4時間前

このようなAIを適用するために私が学ぶ必要があるリソースを誰かに紹介してもらえますか?私はプロのPythonコーダーですが、AIの経験はありません

レベル2

エラー19542点3時間前

ニューラルネットワークのしくみを知るには、線形代数と多変量計算が必要です。バックプロパゲーションを実装する方法を知っている必要はありませんが、概念的にそれらを取得することが重要です。Ian Goodfellowはディープラーニング(ニューラルネットワーク)に関する最も人気のある本の1つを持っています。SuttonとBartoは、このようなものに必要な強化学習に関する本を持っています。

レベル1

RedditsMastermind3点12時間前

今カップヘッドを行います。

冗談はさておき、私はどのようにAIボスのフェーズを教えることができるのだろうと思っていました。たとえば、上司を傷つけるために何かを無効にする必要があるかもしれません。

レベル1

Sssneker3点9時間前

これはスピードランナーのように見えます

レベル1

ポップコーン3点8時間前

最初のレベルでは、パイプの側面のAIジャンプはありますか?

レベル1

ヒトデの空3点8時間前

10分のパックですべての良い思い出を!

レベル2

1991ベトナム2点1時間前

ありがとうございました :)

レベル3

ヒトデの空非表示のスコア19分前

どういたしまして

レベル1

ヨエルキ3点8時間前

すごい、フレーム完璧、セミピクセル完璧な壁ジャンプが16秒でした

レベル1

SoluriX5点12時間前

印象的です。

これを書くのにどれくらいかかりましたか(時間で概算できるとしたら)?そして、Pytorchの使い方を学ぶのにどれくらいの時間がかかりましたか?

私は現在Djangoを使用してWebサイトを開発しており、次にPytorchを試してその要点を取得することを考えました。

レベル2

スマヨルプ9ポイント12時間前

彼の記事によると、彼はアルゴリズムについて公開された研究論文を読み、その論文に基づいてそれを書きました。

理論を正しく機能させるためには、理論を十分に理解する必要があります。

あなたが機械学習に本当に手を出すことができるとは思いません。理論を理解し、実践するために十分な時間を費やす必要があります。このようなことを行うのは2年の専用の作業です(アルゴを完全に理解したい場合は、さらに多くのことになるでしょう)。

レベル2

1991ベトナム1点1時間前

正直なところ、どれくらいの時間を費やしたか覚えていませんが、この結果が出る前に、コードの記述とトレーニングの実行の両方で何度も失敗しました。Pytorchは、テンソルフローと比較して使いやすいフレームワークです:)

レベル1

OddsAreBenToOne2点7時間前

共有してくれて本当にクールな投稿ありがとう。可能な限り「人間のよう」にするための入力遅延はありますか?

レベル1

ImStillBuffering2点6時間前

ビデオ:

https://youtu.be/_bE3PCRHq-A

レベル1

someone_existing2点5時間前

今猫マリオのためにそれをします。AIを苦労させる

レベル1

wjrasmussen2点4時間前

マリオはフラッシュのように見えます。

レベル2

1991ベトナム1点1時間前

ありがとうございました :)

レベル1

DJRThree1点3時間前

ポイントではなく速度に最適化されていますか?最後に弱いポールジャンプはなぜですか?

レベル1

_ヘンリックス_1点2時間前

マリオありがとうございます、しかし私たちの王女は別の城にいます!

レベル2

1991ベトナム1点1時間前

ははは

コメントを残す

メールアドレスが公開されることはありません。

Next Post

Houdiniのやり方に徐々に洗脳されています

月 7月 27 , 2020
Houdiniのやり方に徐々に洗脳されています