Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
Я не думаю, що тут є щось магічне. Справді, вони просто зробили дві величезні інновації для зниження витрат, що дозволило їм проводити більше експериментів і швидше зворотно розробити o1.
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
Використовуючи навчання з підкріпленням. Вони брали складні запитання, які легко перевірити (наприклад, математичні задачі або код), і оновлювали модель, якщо відповідь була правильною.
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
Вони стиснули KV-кеш. (Це був прорив, якого вони досягли деякий час тому.)
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
Вони використовували формули (наведені нижче), щоб «передбачити», які токени модель активує. Потім вони тренували лише ці токени. Вони потребували на 95% менше GPU, ніж Meta, бо для кожного токена вони тренували лише 5% параметрів.
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.
Ніяк. Вони просто експериментували з чипами, щоб максимально ефективно використовувати пам’ять. Їм пощастило, і їхній ідеально оптимізований низькорівневий код не обмежувався пропускною здатністю чипів.