Окупился ли мой сервер за $48 000? История независимого AI-исследователя

В 2024 году я уволился с работы в FAANG, чтобы стать независимым исследователем. Для этого мне нужны были GPU, поэтому я собрал «grumbl» — сервер с шестью GPU 6000 Ada.
В этом посте описывается сборка, некоторые проблемы, с которыми я столкнулся, и даётся ответ на вопрос: «стоило ли собирать сервер самому или лучше было арендовать облачные GPU?»
GPU как инвестиция
Эта установка обошлась мне в $48 000. Звучит дорого, но это гораздо дешевле, чем увольнение с работы. Из-за потери дохода, если более мощные GPU могли бы помочь мне добиться успеха в работе всего на 2 месяца раньше, чем с менее мощной машиной, то покупка более мощного сервера оправдала бы себя. Поэтому я решил купить самый мощный сервер, который смог бы запустить в своей квартире.
Выбор GPU
Мне помогло руководство Тима Детмерса по выбору GPU. Из него я сузил выбор до A100, H100 или RTX 6000 Ada. A100 не поддерживают FP8 и имеют более низкую производительность инференса по сравнению с новыми GPU, а мне предстояло много инференса (RL), поэтому выбор сузился до 6000 Ada против H100. Посмотрев на соотношение цена/производительность между 6000 Ada, H100 и A100, я остановился на 6000 Ada.
Ограничения по питанию
Я живу в квартире и не могу модернизировать электропроводку для стандартного дата-центрового сервера. 6 GPU потребляют слишком много энергии для одной квартирной линии, поэтому мне пришлось использовать два блока питания, включённые в две разные розетки на разных цепях.
Если погуглить «подключение ПК к нескольким розеткам», можно найти множество предупреждений о том, что даже мысль о такой конфигурации приведёт к мгновенному возгоранию. Поэтому я нанял профессионального сборщика ПК, чтобы убедиться в безопасности. Это дороже, чем делать всё самому, но дешевле, чем ошибиться и сжечь квартиру.
По иронии судьбы, после проектирования всей сборки под квартирные ограничения по питанию, я в итоге перевёз grumbl в подвал родителей, где смог модернизировать проводку.
Свой сервер против облачного провайдера
Стоит ли покупать свои GPU или арендовать в облаке? Я решил измерить это, рассчитав, сколько я использовал GPU, и сравнив это со стоимостью аренды эквивалентных вычислительных мощностей в облаке.
В 2024 году я подсчитал, что при тогдашних ставках аренды GPU мне потребуется около года с загрузкой 85%+, чтобы сравняться с облачными тарифами. Это должно быть легко, но для полного анализа нужно также учесть электроэнергию и то, что по мере появления более мощных GPU стоимость аренды эквивалентных мощностей будет снижаться.
Для тщательности я написал скрипт, который каждую минуту логировал использование каждого GPU. Я также записывал потребляемую мощность в ваттах, чтобы рассчитать затраты на электричество.
В этом анализе я сравнивал только с ценами по запросу (on-demand). Существуют также платёжные планы с резервированием инстанса на 6–12 месяцев, но они показались мне невыгодными, поскольку были лишь немного дешевле покупки самого сервера, к тому же GPU оставались бы у меня.
Использование GPU во времени
Для измерения использования GPU я подсчитывал для каждого GPU количество часов в день, когда он использовался хотя бы один раз. Это показалось мне справедливым сравнением с арендой, поскольку я не стал бы останавливать и перезапускать облачный сервер, если бы он простаивал менее часа.
Это сравнение щедрое к облачной аренде, поскольку предполагает, что я могу останавливать и запускать каждый GPU независимо. Бо́льшая часть времени простоя была связана с параллельным запуском нескольких экспериментов: один завершался или падал, а другие продолжали работу, и я не стал бы выключать сервер при аренде.
Примечание: это показатель использования GPU, а не эффективности обучения. GPU с загрузкой 10% всё равно считался бы активным в течение часа. (Мой код был бы столь же неэффективен в облаке.)
На графике видно три отдельных случая, когда сервер был недоступен из-за обслуживания. Это довольно напряжно, потому что не знаешь, не загружается ли сервер из-за отказа одного PCIe-райзера или из-за катастрофической неисправности, поджарившей все GPU.
В июне 2025 года видно явное увеличение использования. До этого я проводил небольшие эксперименты, где время разработки было сопоставимо со временем эксперимента, поэтому между экспериментами было больше простоев. После июня 2025 года у меня появился проект, требующий больше вычислительных мощностей, поэтому большинство GPU постоянно работали над экспериментами, и только 1–2 GPU использовались для разработки.
Среднее общее использование составило 76%. Если считать с 1 января 2025 года, загрузка составляет 85%. Признаюсь, я немного разочарован. Я запускаю эксперименты 24/7, и у меня всегда есть очередь экспериментов на выполнение. Я думал, что загрузка будет легко 95%+.
Итоговый расчёт
Чтобы рассчитать сэкономленные деньги, я умножил цену аренды на количество часов использования GPU за каждый день и просуммировал. У меня не было исторических логов API провайдеров, поэтому я оценил исторические цены по timestamp-ссылкам в интернете.
На основе записей энергопотребления я рассчитал стоимость электричества — около $3 000, или примерно $125 в месяц.
Сводя всё вместе, по состоянию на 13 марта 2026 года аренда эквивалентных вычислительных мощностей обошлась бы в $68 000, так что я сэкономил $17 000.
Теперь GPU окупили себя, и при текущих рыночных ставках я экономлю $90–105 каждый день.
Настоящий итоговый расчёт
Смысл покупки сервера был не в экономии денег, а в создании чего-то крутого. Я потратил много времени на рискованные эксперизмы с высоким риском/высокой наградой и терпел неудачи. Но теперь у меня есть кое-что хорошее. Я решил серьёзную проблему LLM. И я запускаюсь в следующий понедельник — скоро узнаем, действительно ли это прорыв или просто LLM-психоз :) (Обновление: запуск прошёл успешно! 400 000+ просмотров, и несколько компаний обратились за использованием моей интеллектуальной собственности.)
Советы и заметки
- Будьте очень осторожны при сборке подобного высококлассного сервера — легко совершить дорогостоящие ошибки. Я думал, что не смогу получить стандартный дата-центровый сервер из-за ограничений проводки в квартире, поэтому мне понадобилось два блока питания от разных цепей. Из-за этого я выбрал материнскую плату с медленным GPU-интерконнектом. Это хорошо для параллельного запуска множества небольших экспериментов (мой основной сценарий), но ужасно для моделей, разделённых между GPU.
- Несколько отказов были связаны с проблемами райзеров. Расследование райзеров от Nathan Odle очень помогло в отладке.
- У меня привычки трат как у аспиранта-бедняка, и я копил на это годами. Мне очень повезло оказаться в положении, когда можно идти на сомнительные финансовые риски, но я бы не рекомендовал покупать эту установку всем подряд. Отличную работу можно делать и с подпиской Google Colab, арендой более дешёвых облачных GPU или с помощью небольших личных установок.
- Сдвиг в менталитете между арендой и владением GPU огромен. При аренде каждый эксперимент стоит денег, и приходится спрашивать себя, стоит ли он того. При владении кажется, что деньги теряешь именно тогда, когда не запускаешь эксперименты. К тому же приятно избавиться от постоянной возни с запуском и остановкой облачных инстансов.
- Этот анализ не учитывает стоимость моего времени. Сборка и обслуживание сервера отняли много времени.
- Я пытался застраховать его по полису арендатора. Им это не понравилось. Пришлось оформлять бизнес-страховку.
- Если бы я делал это снова, я бы не стал собирать кастомный сервер. Я бы купил стандартный дата-центровый сервер и арендовал место в колокейшн-центре. Но тогда я бы не мог время от времени заходить поздороваться с grumbl.