robottoyasan.bsky.social
@robottoyasan.bsky.social
トークン効率を最大化する分割手法(BPEやUnigram等)がLLMにも優しいとは限らない。形態素解析も考慮して、「キャ」「ベツ」や「太」「郎さん」といった分割が起きにくくする手法を提案。

ここに来て「古典的」言語処理の知識が活きてくるの面白い
tech.preferred.jp/ja/blog/plam...
大規模言語モデル PLaMo 2 のためのトークナイザ性能改善
PLaMo 2 のトークナイザは、前のバージョンである PLaMo 100 B と比較して、日本語のトークン効率が 45 %、英語のトークン効率が 25 % 向上しました。今回の記事では、PLaMo 2 に採用したトークナイザの改善について紹介します。
tech.preferred.jp
January 23, 2025 at 4:07 AM
Reposted
Introducing playground.mujoco.org
Combining MuJoCo’s rich and thriving ecosystem, massively parallel GPU-accelerated simulation, and real-world results across a diverse range of robot platforms: quadrupeds, humanoids, dexterous hands, and arms.
Get started today: pip install playground
MuJoCo Playground
An open-source framework for GPU-accelerated robot learning and sim-to-real transfer
playground.mujoco.org
January 16, 2025 at 8:48 PM