Lightnews — Scholar-powered news

grumly6.bsky.social

@grumly6.bsky.social

Le dumping par la Chine et la gratuité pour absorber les données utilisateurs n’est pas une nouveauté.

January 30, 2025 at 8:52 AM

grumly6.bsky.social

@grumly6.bsky.social

On peut le surentraîner comme on le fait avec Llama mais dans le cas de Meta, eux ont un droit de regard si c’est commercial.

January 29, 2025 at 6:26 PM

grumly6.bsky.social

@grumly6.bsky.social

Le modèle DeepSeek n’est censuré que sur les sujets sensibles chinois, rien sur la sexualité par exemple, la propriété intellectuelle, etc… et ca change beaucoup de choses pour avancer plus vite (mais moins politiquement correcte)

January 29, 2025 at 6:25 PM

grumly6.bsky.social

@grumly6.bsky.social

Ensuite les 6 millions on commence a comprendre que ca serait le prix pour transformer le gros modèle en le petit et non l’entraînement complet du gros… ce qui est plus logique (6 mois d’entraînement avec tous les GPU ca coute cher).

January 29, 2025 at 6:23 PM

grumly6.bsky.social

@grumly6.bsky.social

Beaucoup d’erreurs dans le podcast sur DeepSeek : non un entraînement plus lourd d’induit pas une execution plus lourde (voir Llama), le concept d’affiner les données et non d’augmenter bêtement c’est les travaux de Meta depuis 3 ans…etc… en gros DeepSeek a surpris en sortant plus vite que Meta.

January 29, 2025 at 6:18 PM

grumly6.bsky.social

@grumly6.bsky.social

Il me semble qu'il a été embauché avec la formation pour 737 MAX... et le MAX a été interdit de vol, puis le COVID... et finalement il s'est mis en dispo pour se consacrer à ses formations donc ca me semble logique

January 27, 2025 at 1:20 AM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news