tngtech/DeepSeek-TNG-R1T2-Chimera
本リポジトリは、DeepSeekの複数の既存モデルを「Assembly of Experts」手法で統合して開発された、新しい大規模言語モデル「DeepSeek-TNG R1T2 Chimera」(671B)を公開することを目的としています。
先行モデルで課題となっていたトークンの一貫性問題を解決し、新たな知能と出力トークン長の最適なバランスを提示しています。
モデルの仕様、構築方法、および詳細な評価結果が共有されています。
tngtech/DeepSeek-TNG-R1T2-Chimera
本リポジトリは、DeepSeekの複数の既存モデルを「Assembly of Experts」手法で統合して開発された、新しい大規模言語モデル「DeepSeek-TNG R1T2 Chimera」(671B)を公開することを目的としています。
先行モデルで課題となっていたトークンの一貫性問題を解決し、新たな知能と出力トークン長の最適なバランスを提示しています。
モデルの仕様、構築方法、および詳細な評価結果が共有されています。
#AI #LLMs #DeepSeekR1 #DeepSeekV3 #Chimera #OpenSourceAI #TNGTech #MoE #MachineLearning #TechNews #GenAI
winbuzzer.com/2025/04/27/n...
#AI #LLMs #DeepSeekR1 #DeepSeekV3 #Chimera #OpenSourceAI #TNGTech #MoE #MachineLearning #TechNews #GenAI
winbuzzer.com/2025/04/27/n...
Origin | Interest | Match
tngtech/DeepSeek-TNG-R1T2-Chimera
このリポジトリは、複数の既存のDeepSeekモデルを統合・改良した新しいテキスト生成向け大規模言語モデル「DeepSeek-TNG-R1T2-Chimera」を公開するものです。
以前のモデルの課題を解決し、知能と出力効率を向上させることを目的としています。
tngtech/DeepSeek-TNG-R1T2-Chimera
このリポジトリは、複数の既存のDeepSeekモデルを統合・改良した新しいテキスト生成向け大規模言語モデル「DeepSeek-TNG-R1T2-Chimera」を公開するものです。
以前のモデルの課題を解決し、知能と出力効率を向上させることを目的としています。
- TNG Tech's DeepSeek-R1T-Chimera ( huggingface.co/tngtech/Deep... )
- Moonshot AI's long2short methods as documented in Kimi k1.5: Scaling Reinforcement Learning with LLMs ( arxiv.org/abs/2501.12599 )
- TNG Tech's DeepSeek-R1T-Chimera ( huggingface.co/tngtech/Deep... )
- Moonshot AI's long2short methods as documented in Kimi k1.5: Scaling Reinforcement Learning with LLMs ( arxiv.org/abs/2501.12599 )
tngtech/DeepSeek-TNG-R1T2-Chimera
このリポジトリは、DeepSeekの複数の親モデル(R1-0528、R1、V3-0324)を「Assembly of Experts」手法で統合して構築された、新しい大規模言語モデル「DeepSeek-TNG R1T2 Chimera」(671B)を公開することを目的としています。
このモデルは、以前のモデルの課題を解決し、知能と出力トークン長のバランスを改善した最先端の言語生成能力を提供します。
tngtech/DeepSeek-TNG-R1T2-Chimera
このリポジトリは、DeepSeekの複数の親モデル(R1-0528、R1、V3-0324)を「Assembly of Experts」手法で統合して構築された、新しい大規模言語モデル「DeepSeek-TNG R1T2 Chimera」(671B)を公開することを目的としています。
このモデルは、以前のモデルの課題を解決し、知能と出力トークン長のバランスを改善した最先端の言語生成能力を提供します。
huggingface.co/tngtech/Deep...
they merged Deepseek R1 and v3 and found that it got much smarter than v3 alone, but without COT - and according to some people that have tried it, it's vibes check out
It might be on some API providers soon
huggingface.co/tngtech/Deep...
they merged Deepseek R1 and v3 and found that it got much smarter than v3 alone, but without COT - and according to some people that have tried it, it's vibes check out
It might be on some API providers soon
Interest | Match | Feed
The resulting merged model performs as well as R1 but without the wandering thought traces. Just as smart, but faster.
huggingface.co/tngtech/Deep...
The resulting merged model performs as well as R1 but without the wandering thought traces. Just as smart, but faster.
huggingface.co/tngtech/Deep...
The talk of the #schwarzdigits group was pretty cool. They sound pretty mature.
Yet I noticed that I'm not so good in getting in touch with new people on such a big event. 😕
The talk of the #schwarzdigits group was pretty cool. They sound pretty mature.
Yet I noticed that I'm not so good in getting in touch with new people on such a big event. 😕
In benchmarks, it appears to be as smart as R1 but much faster, using 40% fewer output tokens.
huggingface.co/tngtech/Deep...
In benchmarks, it appears to be as smart as R1 but much faster, using 40% fewer output tokens.
huggingface.co/tngtech/Deep...
www.reddit.com/u/imowlekk/s...
são 200 msg grátis por dia
os modelos do deepseek sao
deepseek-ai/DeepSeek-R1
deepseek-ai/DeepSeek-R1-0528
tngtech/DeepSeek-R1T-Chimera
microsoft/MAI-DS-R1-FP8
deepseek-ai/DeepSeek-V3-0324
deepseek-ai/DeepSeek-V3
deepseek-ai/DeepSeek-V3-Base
www.reddit.com/u/imowlekk/s...
são 200 msg grátis por dia
os modelos do deepseek sao
deepseek-ai/DeepSeek-R1
deepseek-ai/DeepSeek-R1-0528
tngtech/DeepSeek-R1T-Chimera
microsoft/MAI-DS-R1-FP8
deepseek-ai/DeepSeek-V3-0324
deepseek-ai/DeepSeek-V3
deepseek-ai/DeepSeek-V3-Base
L: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
C: https://news.ycombinator.com/item?id=44449540
posted on 2025.07.02 at 18:32:17 (c=0, p=4)
L: https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
C: https://news.ycombinator.com/item?id=44449540
posted on 2025.07.02 at 18:32:17 (c=0, p=4)
huggingface.co/blog/tngtech...
huggingface.co/blog/tngtech...
huggingface.co/tngtech/Deep...
huggingface.co/tngtech/Deep...