grumly6.bsky.social
@grumly6.bsky.social
Le dumping par la Chine et la gratuité pour absorber les données utilisateurs n’est pas une nouveauté.
January 30, 2025 at 8:52 AM
On peut le surentraîner comme on le fait avec Llama mais dans le cas de Meta, eux ont un droit de regard si c’est commercial.
January 29, 2025 at 6:26 PM
Le modèle DeepSeek n’est censuré que sur les sujets sensibles chinois, rien sur la sexualité par exemple, la propriété intellectuelle, etc… et ca change beaucoup de choses pour avancer plus vite (mais moins politiquement correcte)
January 29, 2025 at 6:25 PM
Ensuite les 6 millions on commence a comprendre que ca serait le prix pour transformer le gros modèle en le petit et non l’entraînement complet du gros… ce qui est plus logique (6 mois d’entraînement avec tous les GPU ca coute cher).
January 29, 2025 at 6:23 PM
Beaucoup d’erreurs dans le podcast sur DeepSeek : non un entraînement plus lourd d’induit pas une execution plus lourde (voir Llama), le concept d’affiner les données et non d’augmenter bêtement c’est les travaux de Meta depuis 3 ans…etc… en gros DeepSeek a surpris en sortant plus vite que Meta.
January 29, 2025 at 6:18 PM
Il me semble qu'il a été embauché avec la formation pour 737 MAX... et le MAX a été interdit de vol, puis le COVID... et finalement il s'est mis en dispo pour se consacrer à ses formations donc ca me semble logique
January 27, 2025 at 1:20 AM