Каждый второй фрилансер в квантовом трейдинге сейчас пытается засунуть трансформеры и LSTM в свои стратегии. Вот неудобная правда: в 90% случаев это пустая трата времени и денег.
Честные сравнения моделей
Исследование 2021 года из Journal of Asset Management сравнило производительность глубоких нейросетей и линейных моделей на 15-летней истории акций S&P500. После учета транзакционных издержек разница в Sharpe ratio составила 0.08 - статистически незначимо.
Статья на Towards Data Science от квант-трейдера с 12-летним опытом показывает backtest сравнение. LSTM модель с 3 скрытыми слоями: разработка 6 недель, обучение 40 часов на GPU. Ridge regression: 2 дня разработки, обучение 3 минуты. Годовая доходность отличалась на 1.2%.
Презентация от Two Sigma на конференции NeurIPS объясняет, почему нелинейности в ценовых данных слишком зашумлены для глубокого обучения. Сигнал-шум ratio в финансах 1:100, в computer vision 1:3.
Когда DL действительно имеет смысл
Альтернативные данные с высокой размерностью: анализ спутниковых снимков парковок, NLP новостных потоков на 50 языках, обработка order book микроструктуры на миллисекундах. Там сложность оправдана.
Для классического price-volume трейдинга? Используйте gradient boosting или даже обычную логистическую регрессию. Сэкономите месяцы работы и получите модель, которую можно объяснить регулятору.