ソースコードの配布は「 https://github.com/aegisfleet/hugging-face-trending-to-bluesky 」で行っています。
GitHubトレンド: @dailygithubtrends.bsky.social
Zennトレンド: @dailyzenntrends.bsky.social
internlm/Intern-S1-Pro
このリポジトリは、大規模なMoE(Mixture of Experts)構造を持つマルチモーダル科学的推論モデル「Intern-S1-Pro」に関するものです。
1兆パラメータ規模で、化学、材料科学、生命科学など、科学分野の高度な推論タスクと、一般的なマルチモーダル・テキスト処理能力を両立します。
推論効率化のため、LMDeploy等の推論エンジンとの連携が推奨されています。
internlm/Intern-S1-Pro
このリポジトリは、大規模なMoE(Mixture of Experts)構造を持つマルチモーダル科学的推論モデル「Intern-S1-Pro」に関するものです。
1兆パラメータ規模で、化学、材料科学、生命科学など、科学分野の高度な推論タスクと、一般的なマルチモーダル・テキスト処理能力を両立します。
推論効率化のため、LMDeploy等の推論エンジンとの連携が推奨されています。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、Danbooru形式のタグや自然言語によるプロンプトに対応しています。
学習データは主にアニメ画像で、イラストや芸術的な画像の生成を目的としています。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、Danbooru形式のタグや自然言語によるプロンプトに対応しています。
学習データは主にアニメ画像で、イラストや芸術的な画像の生成を目的としています。
mistralai/Voxtral-Mini-4B-Realtime-2602
このリポジトリは、リアルタイム音声認識モデル「Voxtral Mini 4B Realtime 2602」を公開するためのものです。
13言語に対応し、オフラインシステム並みの精度を500ms以下の遅延で実現する、40億パラメータの軽量モデルです。
音声アシスタントやライブ字幕など、低遅延かつ高精度な音声認識を必要とする用途に適しています。
Apache-2ライセンスで公開されており、研究・商用利用が可能です。
mistralai/Voxtral-Mini-4B-Realtime-2602
このリポジトリは、リアルタイム音声認識モデル「Voxtral Mini 4B Realtime 2602」を公開するためのものです。
13言語に対応し、オフラインシステム並みの精度を500ms以下の遅延で実現する、40億パラメータの軽量モデルです。
音声アシスタントやライブ字幕など、低遅延かつ高精度な音声認識を必要とする用途に適しています。
Apache-2ライセンスで公開されており、研究・商用利用が可能です。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
zai-org/GLM-OCR
GLM-OCRは、複雑なドキュメント理解のためのマルチモーダルOCRモデルです。
GLM-Vアーキテクチャを基盤とし、Multi-Token Prediction損失や強化学習を用いて効率と精度を高めています。
画像とテキストの事前学習済みモデルCogViTやPP-DocLayout-V3と組み合わせ、多様なドキュメントレイアウトで堅牢なOCR性能を発揮します。
SDKも提供されており、ドキュメント解析を容易に行えます。
zai-org/GLM-OCR
GLM-OCRは、複雑なドキュメント理解のためのマルチモーダルOCRモデルです。
GLM-Vアーキテクチャを基盤とし、Multi-Token Prediction損失や強化学習を用いて効率と精度を高めています。
画像とテキストの事前学習済みモデルCogViTやPP-DocLayout-V3と組み合わせ、多様なドキュメントレイアウトで堅牢なOCR性能を発揮します。
SDKも提供されており、ドキュメント解析を容易に行えます。
unsloth/Qwen3-Coder-Next-GGUF
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発向けに設計されたオープンウェイトの言語モデルです。
transformersライブラリを用いて、コード生成を目的としています。
llama.cppやUnsloth Dynamic 2.0との連携により、精度とパフォーマンスの向上が図られています。
unsloth/Qwen3-Coder-Next-GGUF
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発向けに設計されたオープンウェイトの言語モデルです。
transformersライブラリを用いて、コード生成を目的としています。
llama.cppやUnsloth Dynamic 2.0との連携により、精度とパフォーマンスの向上が図られています。
stepfun-ai/Step-3.5-Flash
このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。
1960億パラメータのMoE構造を持ちつつ、推論時には110億パラメータのみを有効化することで、効率性と高度な推論能力を両立しています。
論文やデモ、利用方法などが公開されています。
stepfun-ai/Step-3.5-Flash
このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。
1960億パラメータのMoE構造を持ちつつ、推論時には110億パラメータのみを有効化することで、効率性と高度な推論能力を両立しています。
論文やデモ、利用方法などが公開されています。
ACE-Step/Ace-Step1.5
このリポジトリは、オープンソースの音楽生成モデルACE-Step v1.5に関するものです。
高性能な音楽生成を可能にし、ユーザーの簡単な指示から詳細な楽曲構成を作成します。
言語モデルと拡散Transformerを組み合わせた独自のアーキテクチャを採用し、多様なスタイル制御や編集機能を提供します。
ACE-Step/Ace-Step1.5
このリポジトリは、オープンソースの音楽生成モデルACE-Step v1.5に関するものです。
高性能な音楽生成を可能にし、ユーザーの簡単な指示から詳細な楽曲構成を作成します。
言語モデルと拡散Transformerを組み合わせた独自のアーキテクチャを採用し、多様なスタイル制御や編集機能を提供します。
openbmb/MiniCPM-o-4_5
このリポジトリは、Vision、Speech、Full-Duplex Mulitmodal Live Streamingに対応したGemini 2.5 FlashレベルのMLLM「MiniCPM-o」に関するものです。
特にMiniCPM-o 4.5は9BパラメータでGPT-4oやGemini 2.0 Proを上回る性能を持ち、リアルタイム二言語音声会話やボイスクローニング等の機能を提供します。
openbmb/MiniCPM-o-4_5
このリポジトリは、Vision、Speech、Full-Duplex Mulitmodal Live Streamingに対応したGemini 2.5 FlashレベルのMLLM「MiniCPM-o」に関するものです。
特にMiniCPM-o 4.5は9BパラメータでGPT-4oやGemini 2.0 Proを上回る性能を持ち、リアルタイム二言語音声会話やボイスクローニング等の機能を提供します。
Qwen/Qwen3-Coder-Next
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発に特化したオープンウェイトの言語モデルです。
テキスト生成を主な目的とし、特にコード生成に強みを持っています。
transformersライブラリとの連携を想定した設計で、ベンチマーク評価や推論性能に関する情報が公開されています。
Qwen/Qwen3-Coder-Next
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発に特化したオープンウェイトの言語モデルです。
テキスト生成を主な目的とし、特にコード生成に強みを持っています。
transformersライブラリとの連携を想定した設計で、ベンチマーク評価や推論性能に関する情報が公開されています。
internlm/Intern-S1-Pro
このリポジトリは、大規模なMoE(Mixture of Experts)構造を持つマルチモーダル科学的推論モデル「Intern-S1-Pro」に関するものです。
化学、材料科学、生命科学など、科学分野の高度なベンチマークで高い性能を発揮し、テキストと画像の両方を扱えます。
モデルの利用方法やデプロイメントに関する情報が提供されています。
internlm/Intern-S1-Pro
このリポジトリは、大規模なMoE(Mixture of Experts)構造を持つマルチモーダル科学的推論モデル「Intern-S1-Pro」に関するものです。
化学、材料科学、生命科学など、科学分野の高度なベンチマークで高い性能を発揮し、テキストと画像の両方を扱えます。
モデルの利用方法やデプロイメントに関する情報が提供されています。
mistralai/Voxtral-Mini-4B-Realtime-2602
このリポジトリは、リアルタイム音声文字起こしモデル「Voxtral Mini 4B Realtime 2602」を公開するためのものです。
13言語に対応し、オフラインシステム並みの精度を500ms以下の遅延で実現します。
40億パラメータで、少ない計算資源でのオンデバイス展開に適しており、音声アシスタントやライブ字幕などに活用できます。
Apache-2ライセンスで提供されます。
mistralai/Voxtral-Mini-4B-Realtime-2602
このリポジトリは、リアルタイム音声文字起こしモデル「Voxtral Mini 4B Realtime 2602」を公開するためのものです。
13言語に対応し、オフラインシステム並みの精度を500ms以下の遅延で実現します。
40億パラメータで、少ない計算資源でのオンデバイス展開に適しており、音声アシスタントやライブ字幕などに活用できます。
Apache-2ライセンスで提供されます。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、モデルファイルや生成設定、プロンプトの記述方法などが提供されています。
イラストや芸術的な画像の作成を目的としています。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、モデルファイルや生成設定、プロンプトの記述方法などが提供されています。
イラストや芸術的な画像の作成を目的としています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
zai-org/GLM-OCR
GLM-OCRは、GLM-Vアーキテクチャに基づくマルチモーダルOCRモデルです。
複雑なドキュメントの理解、高精度な文字認識、多様なレイアウトへの対応を目的としています。
画像やPDFからMarkdownファイルを高速に解析・エクスポートする能力を持ち、PP-DocLayout-V3と連携して堅牢なOCR性能を実現します。
zai-org/GLM-OCR
GLM-OCRは、GLM-Vアーキテクチャに基づくマルチモーダルOCRモデルです。
複雑なドキュメントの理解、高精度な文字認識、多様なレイアウトへの対応を目的としています。
画像やPDFからMarkdownファイルを高速に解析・エクスポートする能力を持ち、PP-DocLayout-V3と連携して堅牢なOCR性能を実現します。
unsloth/Qwen3-Coder-Next-GGUF
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発に特化したオープンウェイトの言語モデルです。
transformersライブラリを用いて、コード生成を目的としています。
llama.cppやUnsloth Dynamic 2.0との連携により、精度とパフォーマンスの向上が図られています。
unsloth/Qwen3-Coder-Next-GGUF
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発に特化したオープンウェイトの言語モデルです。
transformersライブラリを用いて、コード生成を目的としています。
llama.cppやUnsloth Dynamic 2.0との連携により、精度とパフォーマンスの向上が図られています。
ACE-Step/Ace-Step1.5
このリポジトリは、オープンソースの音楽生成モデルACE-Step v1.5に関するものです。
高性能な音楽生成を可能にし、ユーザーの簡単な指示から詳細な楽曲構成を作成します。
言語モデルと拡散Transformerを組み合わせた独自のアーキテクチャを持ち、多様なスタイル制御や編集機能を提供します。
ACE-Step/Ace-Step1.5
このリポジトリは、オープンソースの音楽生成モデルACE-Step v1.5に関するものです。
高性能な音楽生成を可能にし、ユーザーの簡単な指示から詳細な楽曲構成を作成します。
言語モデルと拡散Transformerを組み合わせた独自のアーキテクチャを持ち、多様なスタイル制御や編集機能を提供します。
openbmb/MiniCPM-o-4_5
このリポジトリは、Vision、Speech、Full-Duplexマルチモーダルライブストリーミングを実現するGemini 2.5 FlashレベルのMLLM「MiniCPM-o」に関するものです。
9BパラメータでGPT-4oやGemini 2.0 Proを上回る性能を持ち、英語と中国語でのリアルタイム音声会話をサポートします。
ローカル環境での実行も可能です。
openbmb/MiniCPM-o-4_5
このリポジトリは、Vision、Speech、Full-Duplexマルチモーダルライブストリーミングを実現するGemini 2.5 FlashレベルのMLLM「MiniCPM-o」に関するものです。
9BパラメータでGPT-4oやGemini 2.0 Proを上回る性能を持ち、英語と中国語でのリアルタイム音声会話をサポートします。
ローカル環境での実行も可能です。
stepfun-ai/Step-3.5-Flash
このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。
1960億パラメータのMoE構造を持ちつつ、推論時には110億パラメータのみを有効化することで、効率性と高度な推論能力を両立しています。
論文やデモ、利用方法などが提供されています。
stepfun-ai/Step-3.5-Flash
このリポジトリは、Step 3.5 Flashという高性能なオープンソース基盤モデルに関するものです。
1960億パラメータのMoE構造を持ちつつ、推論時には110億パラメータのみを有効化することで、効率性と高度な推論能力を両立しています。
論文やデモ、利用方法などが提供されています。
Qwen/Qwen3-Coder-Next
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発に特化したオープンウェイトの言語モデルです。
テキスト生成を目的とし、特にコード生成に強みを持っています。
transformersライブラリで利用可能です。
詳細な情報やベンチマーク、推論性能については、関連ブログやGitHubリポジトリ、ドキュメントを参照してください。
Qwen/Qwen3-Coder-Next
Qwen3-Coder-Nextは、コーディングエージェントやローカル開発に特化したオープンウェイトの言語モデルです。
テキスト生成を目的とし、特にコード生成に強みを持っています。
transformersライブラリで利用可能です。
詳細な情報やベンチマーク、推論性能については、関連ブログやGitHubリポジトリ、ドキュメントを参照してください。
nvidia/personaplex-7b-v1
このリポジトリは、NVIDIAが開発したリアルタイム音声対話モデルPersonaPlexに関するものです。
PersonaPlexは、音声とテキストのプロンプトにより、特定の声と役割を持つ対話エージェントを実現します。
連続音声入力に対し、同時ストリーミングで理解と生成を行い、自然な会話(割り込みなど)を可能にするのが特徴です。
nvidia/personaplex-7b-v1
このリポジトリは、NVIDIAが開発したリアルタイム音声対話モデルPersonaPlexに関するものです。
PersonaPlexは、音声とテキストのプロンプトにより、特定の声と役割を持つ対話エージェントを実現します。
連続音声入力に対し、同時ストリーミングで理解と生成を行い、自然な会話(割り込みなど)を可能にするのが特徴です。
mistralai/Voxtral-Mini-4B-Realtime-2602
このリポジトリは、リアルタイム音声文字起こしモデル「Voxtral Mini 4B Realtime 2602」を公開するものです。
13言語に対応し、オフラインシステム並みの精度を500ms以下の遅延で実現します。
40億パラメータで、少ない計算資源でのオンデバイス展開に適しており、音声アシスタントやライブ字幕などに活用できます。
Apache-2ライセンスで提供されます。
mistralai/Voxtral-Mini-4B-Realtime-2602
このリポジトリは、リアルタイム音声文字起こしモデル「Voxtral Mini 4B Realtime 2602」を公開するものです。
13言語に対応し、オフラインシステム並みの精度を500ms以下の遅延で実現します。
40億パラメータで、少ない計算資源でのオンデバイス展開に適しており、音声アシスタントやライブ字幕などに活用できます。
Apache-2ライセンスで提供されます。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、モデルファイルや生成設定、プロンプトの記述方法などが提供されています。
イラストや芸術的な画像の作成を目的としています。
circlestone-labs/Anima
このリポジトリは、アニメ様式の画像生成に特化した20億パラメータのテキストto画像モデル「Anima」に関するものです。
ComfyUIでの利用を想定し、モデルファイルや生成設定、プロンプトの記述方法などが提供されています。
イラストや芸術的な画像の作成を目的としています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
moonshotai/Kimi-K2.5
このリポジトリは、Kimi K2.5という1兆パラメータの混合エキスパート(MoE)モデルに関する情報を提供するものです。
Kimi K2.5は、画像とテキストを統合し、高度なエージェント機能を備えたマルチモーダルモデルであり、様々なベンチマークテストの結果も含まれています。
zai-org/GLM-OCR
GLM-OCRは、GLM-Vアーキテクチャに基づくマルチモーダルOCRモデルです。
複雑なドキュメントの理解、高精度な文字認識、多様なレイアウトへの対応を目的としています。
画像やPDFからMarkdownファイルを高速に解析・エクスポートする能力を持ち、PP-DocLayout-V3と連携して堅牢なOCR性能を実現します。
zai-org/GLM-OCR
GLM-OCRは、GLM-Vアーキテクチャに基づくマルチモーダルOCRモデルです。
複雑なドキュメントの理解、高精度な文字認識、多様なレイアウトへの対応を目的としています。
画像やPDFからMarkdownファイルを高速に解析・エクスポートする能力を持ち、PP-DocLayout-V3と連携して堅牢なOCR性能を実現します。