I'm Japanese. I'm interested in programming and AI.
Github: https://github.com/kajitaka1201
Note: https://note.com/kajitaka1201
電卓アプリに続き、「Todoアプリを作って。」という指示で、Canvasを使わせて、Todoアプリを作らせた。
* デザインは結構いい(分かりやすく、新しめUI)
* 追加や完了の機能も正常に動く
* 「完了済みを削除」を押すと完了にしたタスクが削除される機能付き
電卓アプリの時と同様、ウェブアプリのデザインは強め。速度も遅くない。
VibeCodingとか得意そう(GoogleがそういうIDEも作成していたくらいだし)。
電卓アプリに続き、「Todoアプリを作って。」という指示で、Canvasを使わせて、Todoアプリを作らせた。
* デザインは結構いい(分かりやすく、新しめUI)
* 追加や完了の機能も正常に動く
* 「完了済みを削除」を押すと完了にしたタスクが削除される機能付き
電卓アプリの時と同様、ウェブアプリのデザインは強め。速度も遅くない。
VibeCodingとか得意そう(GoogleがそういうIDEも作成していたくらいだし)。
ついに、Gmeini 3シリーズが出始めました
そのProモデルに、「電卓アプリを作って。」という指示で、Canvasを使わせて、電卓を作らせました(写真はスクリーンショット)
* デザインに大きな破綻なし
* 四則演算OK
* キーボードショートカット対応
* 浮動小数点数計算は問題が発生
* 0で割ったときには、Errorと出る
デザインなどに問題がないのは、ほぼまれで、速度も遅いという感じはしなかった。
1回目に、アイコン関連でエラーが発生していたが、自動でエラーを検知し、修正してくれた。
リーク通り、プログラミングの性能は高そう。
ついに、Gmeini 3シリーズが出始めました
そのProモデルに、「電卓アプリを作って。」という指示で、Canvasを使わせて、電卓を作らせました(写真はスクリーンショット)
* デザインに大きな破綻なし
* 四則演算OK
* キーボードショートカット対応
* 浮動小数点数計算は問題が発生
* 0で割ったときには、Errorと出る
デザインなどに問題がないのは、ほぼまれで、速度も遅いという感じはしなかった。
1回目に、アイコン関連でエラーが発生していたが、自動でエラーを検知し、修正してくれた。
リーク通り、プログラミングの性能は高そう。
電卓を、"Create a calculation app."という指示のみで作らせた。
* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる
全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。
電卓を、"Create a calculation app."という指示のみで作らせた。
* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる
全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。
プロンプトはGoogleが公開しているものを使いました。
現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)
※生成AIの画像であり、販売するものではありません。
プロンプトはGoogleが公開しているものを使いました。
現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)
※生成AIの画像であり、販売するものではありません。
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。
ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。
LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。
9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。
ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。
LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。
9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...
プロンプトは前のNoteのものです。
得点は20点満点中18点だった。
* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。
全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。
プロンプトは前のNoteのものです。
得点は20点満点中18点だった。
* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。
全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。
プロンプトは前のNoteのやつです。
得点付けをすると、20点満点中17点。
* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。
プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。
プロンプトは前のNoteのやつです。
得点付けをすると、20点満点中17点。
* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。
プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。
プロンプトは前のNoteと同じもの。
Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。
* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。
インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。
プロンプトは前のNoteと同じもの。
Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。
* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。
インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。
いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。
* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)
ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。
いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。
* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)
ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。
いつもの電卓。
* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない
全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。
いつもの電卓。
* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない
全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。
いつもの電卓アプリ
* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)
全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。
いつもの電卓アプリ
* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)
全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。
いつもの電卓タスク
* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)
デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。
いつもの電卓タスク
* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)
デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。
いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった
全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。
いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった
全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。
いつもの電卓を作らせた。
* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった
全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。
いつもの電卓を作らせた。
* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった
全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。
Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)
2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった
日本でGoogle AI Studioを使っているユーザーには嬉しいかも。
Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)
2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった
日本でGoogle AI Studioを使っているユーザーには嬉しいかも。
いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった
前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。
いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった
前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。
Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)
全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。
Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)
全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。
* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い(104.6)が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている
thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。
* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い(104.6)が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている
thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。
* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い
Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。
* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い
Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。
文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。
結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。
対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった(比較対象としては強すぎるモデルな気はするが)。
文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。
結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。
対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった(比較対象としては強すぎるモデルな気はするが)。
何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。
比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。
もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。
何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。
比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。
もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。
1Mコンテキストウィンドウを持つ(OpenRouter公式が明言)
スピードは相当速い(130tokes/sは出る)
コーディングの性能も良い(電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし)
非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。
1Mコンテキストウィンドウを持つ(OpenRouter公式が明言)
スピードは相当速い(130tokes/sは出る)
コーディングの性能も良い(電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし)
非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。
電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利(多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い)。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも(consoleの機能もあったりと)。
電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利(多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い)。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも(consoleの機能もあったりと)。
いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった(若干変な気もするが、崩れているというほどではない)。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた(今までのAIで初)。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算(0.3-0.1など)も正確な値を返している(今までのAIで初)。
プログラミングにおいては相当有能そう。
いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった(若干変な気もするが、崩れているというほどではない)。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた(今までのAIで初)。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算(0.3-0.1など)も正確な値を返している(今までのAIで初)。
プログラミングにおいては相当有能そう。