MIPT Deep Learning Club #9


1 мин на чтение

Очень большие нейронные сети, состоящие из слоев экспертов - Emil Zakirov про “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”

“Авторы статьи исследовали conditional computation слой под названием Mixture of Experts (MoE), разные части которого активируюся на разные примеры. За счет этого можно увеличить количество параметров в 1000 раз, сохраняя постоянным время предсказания на одном примере.

Одна из причин хороших результатов в этой статье - достаточный для такого количества параметров датасет, состоящий из 1 миллиарда предложений на разных языках. Результаты побили state of the art в задачах моделирования языков и многоязычных переводах, что не удивительно, ведь в авторах ученые из Google Translator.”

Оставить комментарий