https://www.reddit.com/r/Python/comments/hy4rc1/ai_application_python_implementation_of_proximal/
このアルゴリズムとビデオは、現代の機械学習におけるギャップの一部を示しています。アルゴリズムが状況を論理的に読み取り、ルールと戦略を開発してテストし、それらをゲームに論理的に適用していないことは明らかです。実際には、画面上の情報を処理していないすべてで。むしろ、ブルートフォースの試行錯誤を使用しています。レベル位置を進める入力シーケンス、およびレベル位置をさらに進める他のシーケンスに接続できる入力シーケンスは、成功した入力と見なされます。
これは、2つの特定の動作で確認できます。
(1)アルゴリズムは、画面に表示される前に物事に反応します。これは、4:50の世界4-3で見ることができます。高桁で実行され、2番目の高桁に長いジャンプをしますが、最初の桁の中央で2番目の桁の前でジャンプを開始します。見えます。世界5-3の5:43にもう一度見ることができます。そこでは、芝生のプラットフォームの非常に最初からその向こうの空洞へと大きく飛躍します-開始時に見えなかったフローティングプラットフォームに着陸するためだけにジャンプ。
アルゴリズムがマップを記憶し、モデル化していない場合は(それは行っていません)、アルゴリズムがそれらの場所でその入力を生成する唯一の理由は、結果(数フレーム後)がレベル位置のさらなる前進を可能にするためです。
(2)レベルの最後にマリオがブロックにスタックしているインスタンスがいくつかあります。レベル終了フラグの基部にあるブロックか、レベル終了の斧の直前の短い壁のいずれかです。レベルを完了するためにジャンプする前に、マリオは多くのフレームの間、少なくとも1秒間は1秒程度、そこでスタックします。この動作に絶対に価値はありません-たとえば、マリオが待つことによって回避する脅威はありません-そして、マリオがしなければならないことは、レベルを完了するためにジャンプすることだけです。しかし、行き詰まります。なぜ動かなくなるのですか?旗や斧に触れるためにジャンプする必要があることを知らないため、それに触れるためにジャンプする最も基本的な戦略を適用しないからです。むしろ、右に移動する(壁に入る)ことは害がなかった(マリオが殺されなかった)と成功したランの一部であり、そのセクションの動きは維持されました。アルゴリズムの選択部分では、ハザードや無意味な動きを回避するために、正しい歩行が重要な遅延戦術であるかどうかはまったくわかりません。
したがって、このMLアルゴリズムはチャットボットのようなものです。その出力は、より高いインテリジェンスと巧妙な意思決定を示唆していますが、大まかな進行の測定基準に従って十分にスコア付けされた結果を生み出すための試行の膨大な前処理に基づく幻想です。個々のパーツはロジックや戦略と一緒に織り込まれているのではなく、ミスターポテトヘッドの方法で織り込まれ、結果は非常に厳密に最高スコアの個々のパーツの合計になります。
レベル3
13ass13ass39ポイント・7時間前
この説明は、3つのレベルが未解決になったのは、論理パズルを解いてレベルを完了する必要があるためです。パズルを解かないと、時間がなくなるまでレベルがループします。画面を右に動かすと必ず成功すると信じ込んでエージェントが行き詰まる。
レベル3
よく言った。機械学習マリオは、どのレベルでも与えることができ、それを完了する方法を理解することを暗示していました。それは、それが力学を理解しているからです。これは、この正確なレベルレイアウトを移動する方法を学習しました。これは、敵が同じ予測可能なパターンであなたに向かって来るためにのみ機能します。敵にランダム性があった場合、この方法は何度も失敗します。
レベル3
むしろ、ブルートフォースの試行錯誤を使用しています。レベル位置を進める入力シーケンス、およびレベル位置をさらに進める他のシーケンスに接続できる入力シーケンスは、成功した入力と見なされます。
この特定のプログラムが上記のように機能している場合(正直に言って、それが正解かどうかはわかりません)、それでもAIの一種と見なされますか?
レベル4
それは単なる流行語です。現代の機械学習では、AIと呼ぶことができるものはほとんどありません。
レベル4
AIは非常に広義の用語であり、コンピューターが決定を下す必要があるあらゆるものをカバーします。if / elseステートメントを使用してゲームをプレイできるプログラムを作成しても、それはAIと見なされます。
あなたがおそらく行く用語は機械学習です。はい、そのため、コンピュータは、実行方法を教えることなくタスクを実行できます。それは機械学習と見なされます。
レベル3
このようにキープレスをつなぎ合わせるだけでなく、処理して決定できるAIに取り組んでいる人はいますか?
レベル4
私の知る限りではありませんが、(a)MLの研究は膨大であり、(b)いずれにせよ、その多くは秘密になっているため、その説明は無意味なものに次ぐものです。
しかし、もしそうなら、それは珍しい種類の努力でしょう。ほとんどの場合、MLの進歩は、私たちがすでに知っていることの漸進的な拡張です。忠実度が高いか、エラー率が低い言語翻訳。それは通常、機械にまったく新しい認知能力を最初から教えているわけではありません。
レベル2
-5ポイント・11時間前子供1人
レベル1
プロットツイスト:OPはマリオで本当に素晴らしく、これらは実行されます!
レベル2
これを画像化することは、逆ではなく、今日のプロットのねじれでなければなりません。
レベル2
これが本当に良いと思うなら、SMB1のany%スピードランとそれに入るすべてのものが表示されるはずです。
レベル2
ありがとうございました :)
レベル1
ソースコード:https : //github.com/uvipen/Super-mario-bros-PPO-pytorch
完全なデモ:https : //youtu.be/MpWnWWeuRVc
レベル1
美しい。10分間見てきました。よくできました!
レベル2
おかげで:)
レベル1
マリオをPythonでどのように実行しましたか?
レベル2
フルシアンテデブタンテ6ポイント・5時間前
私が推測しなければならないなら、それはエミュレーターを含むでしょう
レベル3
レベル3
それも私の賭けです。私はPyBoyのコントリビューターであり、彼がそれを使用したのかどうか疑問に思っています。(スマートフォンで)コードをざっと読みましたが、エミュレータへの参照が表示されませんでした
レベル4
パイボーイ?聞いたことがありませんが、本当にうんざりしているので、確認する必要があります。
レベル2
dockerfileで彼はこのpip libをインストールしますhttps://pypi.org/project/gym-super-mario-bros/
レベル2
レベル1
この魔術について説明してください。
レベル1
これはどのように作動しますか?それは実際にプレイ方法を学ぶのですか、それが得られるまで試行錯誤するだけですか?これは非常に印象的です!
レベル2
元卿、
簡単な説明はこちら:https : //openai.com/blog/openai-baselines-ppo/
レベル1
大好きです。私は全部を見ていて、時々心が殺到することを知っていた。私は何日も何日も遊んで過ごし、それを終えることができませんでした。でも見ていて楽しかったです。いい物
レベル2
私は世界5に到達したことがありません: '(
レベル1
このようなAIを適用するために私が学ぶ必要があるリソースを誰かに紹介してもらえますか?私はプロのPythonコーダーですが、AIの経験はありません
レベル2
ニューラルネットワークのしくみを知るには、線形代数と多変量計算が必要です。バックプロパゲーションを実装する方法を知っている必要はありませんが、概念的にそれらを取得することが重要です。Ian Goodfellowはディープラーニング(ニューラルネットワーク)に関する最も人気のある本の1つを持っています。SuttonとBartoは、このようなものに必要な強化学習に関する本を持っています。
レベル1
今カップヘッドを行います。
冗談はさておき、私はどのようにAIボスのフェーズを教えることができるのだろうと思っていました。たとえば、上司を傷つけるために何かを無効にする必要があるかもしれません。
レベル1
これはスピードランナーのように見えます
レベル1
最初のレベルでは、パイプの側面のAIジャンプはありますか?
レベル1
10分のパックですべての良い思い出を!
レベル2
ありがとうございました :)
レベル3
どういたしまして
レベル1
すごい、フレーム完璧、セミピクセル完璧な壁ジャンプが16秒でした
レベル1
印象的です。
これを書くのにどれくらいかかりましたか(時間で概算できるとしたら)?そして、Pytorchの使い方を学ぶのにどれくらいの時間がかかりましたか?
私は現在Djangoを使用してWebサイトを開発しており、次にPytorchを試してその要点を取得することを考えました。
レベル2
彼の記事によると、彼はアルゴリズムについて公開された研究論文を読み、その論文に基づいてそれを書きました。
理論を正しく機能させるためには、理論を十分に理解する必要があります。
あなたが機械学習に本当に手を出すことができるとは思いません。理論を理解し、実践するために十分な時間を費やす必要があります。このようなことを行うのは2年の専用の作業です(アルゴを完全に理解したい場合は、さらに多くのことになるでしょう)。
レベル2
正直なところ、どれくらいの時間を費やしたか覚えていませんが、この結果が出る前に、コードの記述とトレーニングの実行の両方で何度も失敗しました。Pytorchは、テンソルフローと比較して使いやすいフレームワークです:)
レベル1
共有してくれて本当にクールな投稿ありがとう。可能な限り「人間のよう」にするための入力遅延はありますか?
レベル1
ビデオ:
レベル1
今猫マリオのためにそれをします。AIを苦労させる
レベル1
マリオはフラッシュのように見えます。
レベル2
ありがとうございました :)
レベル1
ポイントではなく速度に最適化されていますか?最後に弱いポールジャンプはなぜですか?
レベル1
マリオありがとうございます、しかし私たちの王女は別の城にいます!
レベル2
ははは