Back All notes GELU Выражается сложно Позволяет добиться за то же число шагов результата лучше, чем ReLU и ELU, но считать дороже Широко используется в трансформерах (вроде как в gpt и в bert like моделях)