Lightnews — Scholar-powered news

Konark 🐍

@konark.bsky.social

по таким в школі лазили

October 6, 2025 at 2:18 PM

Konark 🐍

@konark.bsky.social

В них спочатку місяць, потім день, ні?

February 16, 2025 at 12:10 AM

Konark 🐍

@konark.bsky.social

medium.com/p/fb29d02eb3...

Стоматологічний туризм в Албанії

Хотів би поділитися своїм досвідом лікування зубів в Албанії і цінами. Отже, летів в низький сезон, тому в цілому все дешево. Давайте…

medium.com

February 15, 2025 at 5:46 PM

Konark 🐍

@konark.bsky.social

Пішоходів поки не зрозуміло чи треба пропускати, хоча вони наче не особливо питають, переходять де зручно. Але звикаєш, і просто насолоджуєшся красою країни 🇦🇱

February 11, 2025 at 8:57 PM

Konark 🐍

@konark.bsky.social

Неприємно

January 28, 2025 at 8:32 PM

Konark 🐍

@konark.bsky.social

“Чи програють США війну в галузі штучного інтелекту?” Я так не думаю. DeepSeek зробили кілька великих проривів, а ми — сотні невеликих. Якщо ми приймемо архітектуру DeepSeek, наші моделі стануть кращими. Тому що в нас більше обчислювальних потужностей і даних.

January 28, 2025 at 4:51 PM

Konark 🐍

@konark.bsky.social

Крім того, експортні обмеження не нашкодили їм настільки, як ми очікували. Ймовірно, тому, що наші експортні обмеження були, відверто кажучи, доволі паршивими. H800 гірші за H100 лише з точки зору пропускної здатності між чипами.

January 28, 2025 at 4:51 PM

Konark 🐍

@konark.bsky.social

Є ще низка дрібних інновацій, але ці є найважливішими.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.

January 28, 2025 at 4:51 PM

Konark 🐍

@konark.bsky.social

Як вони повторили o1?
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.

January 28, 2025 at 4:51 PM

Konark 🐍

@konark.bsky.social

Чому інференс у DeepSeek обходиться настільки дешевше?
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)

January 28, 2025 at 4:51 PM

Konark 🐍

@konark.bsky.social

Як DeepSeek тренувався настільки ефективніше?
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.

January 28, 2025 at 4:51 PM

Konark 🐍

@konark.bsky.social

Як DeepSeek обійшов експортні обмеження?
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.