Окупился ли мой сервер за $48 000? История независимого AI-исследователя

Окупился ли мой сервер за $48 000? История независимого AI-исследователя

В 2024 году я уволился с работы в FAANG, чтобы стать независимым исследователем. Для этого мне нужны были GPU, поэтому я собрал «grumbl» — сервер с шестью GPU 6000 Ada.

В этом посте описывается сборка, некоторые проблемы, с которыми я столкнулся, и даётся ответ на вопрос: «стоило ли собирать сервер самому или лучше было арендовать облачные GPU?»

GPU как инвестиция

Эта установка обошлась мне в $48 000. Звучит дорого, но это гораздо дешевле, чем увольнение с работы. Из-за потери дохода, если более мощные GPU могли бы помочь мне добиться успеха в работе всего на 2 месяца раньше, чем с менее мощной машиной, то покупка более мощного сервера оправдала бы себя. Поэтому я решил купить самый мощный сервер, который смог бы запустить в своей квартире.

Выбор GPU

Мне помогло руководство Тима Детмерса по выбору GPU. Из него я сузил выбор до A100, H100 или RTX 6000 Ada. A100 не поддерживают FP8 и имеют более низкую производительность инференса по сравнению с новыми GPU, а мне предстояло много инференса (RL), поэтому выбор сузился до 6000 Ada против H100. Посмотрев на соотношение цена/производительность между 6000 Ada, H100 и A100, я остановился на 6000 Ada.

Ограничения по питанию

Я живу в квартире и не могу модернизировать электропроводку для стандартного дата-центрового сервера. 6 GPU потребляют слишком много энергии для одной квартирной линии, поэтому мне пришлось использовать два блока питания, включённые в две разные розетки на разных цепях.

Если погуглить «подключение ПК к нескольким розеткам», можно найти множество предупреждений о том, что даже мысль о такой конфигурации приведёт к мгновенному возгоранию. Поэтому я нанял профессионального сборщика ПК, чтобы убедиться в безопасности. Это дороже, чем делать всё самому, но дешевле, чем ошибиться и сжечь квартиру.

По иронии судьбы, после проектирования всей сборки под квартирные ограничения по питанию, я в итоге перевёз grumbl в подвал родителей, где смог модернизировать проводку.

Свой сервер против облачного провайдера

Стоит ли покупать свои GPU или арендовать в облаке? Я решил измерить это, рассчитав, сколько я использовал GPU, и сравнив это со стоимостью аренды эквивалентных вычислительных мощностей в облаке.

В 2024 году я подсчитал, что при тогдашних ставках аренды GPU мне потребуется около года с загрузкой 85%+, чтобы сравняться с облачными тарифами. Это должно быть легко, но для полного анализа нужно также учесть электроэнергию и то, что по мере появления более мощных GPU стоимость аренды эквивалентных мощностей будет снижаться.

Для тщательности я написал скрипт, который каждую минуту логировал использование каждого GPU. Я также записывал потребляемую мощность в ваттах, чтобы рассчитать затраты на электричество.

В этом анализе я сравнивал только с ценами по запросу (on-demand). Существуют также платёжные планы с резервированием инстанса на 6–12 месяцев, но они показались мне невыгодными, поскольку были лишь немного дешевле покупки самого сервера, к тому же GPU оставались бы у меня.

Использование GPU во времени

Для измерения использования GPU я подсчитывал для каждого GPU количество часов в день, когда он использовался хотя бы один раз. Это показалось мне справедливым сравнением с арендой, поскольку я не стал бы останавливать и перезапускать облачный сервер, если бы он простаивал менее часа.

Это сравнение щедрое к облачной аренде, поскольку предполагает, что я могу останавливать и запускать каждый GPU независимо. Бо́льшая часть времени простоя была связана с параллельным запуском нескольких экспериментов: один завершался или падал, а другие продолжали работу, и я не стал бы выключать сервер при аренде.

Примечание: это показатель использования GPU, а не эффективности обучения. GPU с загрузкой 10% всё равно считался бы активным в течение часа. (Мой код был бы столь же неэффективен в облаке.)

На графике видно три отдельных случая, когда сервер был недоступен из-за обслуживания. Это довольно напряжно, потому что не знаешь, не загружается ли сервер из-за отказа одного PCIe-райзера или из-за катастрофической неисправности, поджарившей все GPU.

В июне 2025 года видно явное увеличение использования. До этого я проводил небольшие эксперименты, где время разработки было сопоставимо со временем эксперимента, поэтому между экспериментами было больше простоев. После июня 2025 года у меня появился проект, требующий больше вычислительных мощностей, поэтому большинство GPU постоянно работали над экспериментами, и только 1–2 GPU использовались для разработки.

Среднее общее использование составило 76%. Если считать с 1 января 2025 года, загрузка составляет 85%. Признаюсь, я немного разочарован. Я запускаю эксперименты 24/7, и у меня всегда есть очередь экспериментов на выполнение. Я думал, что загрузка будет легко 95%+.

Итоговый расчёт

Чтобы рассчитать сэкономленные деньги, я умножил цену аренды на количество часов использования GPU за каждый день и просуммировал. У меня не было исторических логов API провайдеров, поэтому я оценил исторические цены по timestamp-ссылкам в интернете.

На основе записей энергопотребления я рассчитал стоимость электричества — около $3 000, или примерно $125 в месяц.

Сводя всё вместе, по состоянию на 13 марта 2026 года аренда эквивалентных вычислительных мощностей обошлась бы в $68 000, так что я сэкономил $17 000.

Теперь GPU окупили себя, и при текущих рыночных ставках я экономлю $90–105 каждый день.

Настоящий итоговый расчёт

Смысл покупки сервера был не в экономии денег, а в создании чего-то крутого. Я потратил много времени на рискованные эксперизмы с высоким риском/высокой наградой и терпел неудачи. Но теперь у меня есть кое-что хорошее. Я решил серьёзную проблему LLM. И я запускаюсь в следующий понедельник — скоро узнаем, действительно ли это прорыв или просто LLM-психоз :) (Обновление: запуск прошёл успешно! 400 000+ просмотров, и несколько компаний обратились за использованием моей интеллектуальной собственности.)

Советы и заметки

  • Будьте очень осторожны при сборке подобного высококлассного сервера — легко совершить дорогостоящие ошибки. Я думал, что не смогу получить стандартный дата-центровый сервер из-за ограничений проводки в квартире, поэтому мне понадобилось два блока питания от разных цепей. Из-за этого я выбрал материнскую плату с медленным GPU-интерконнектом. Это хорошо для параллельного запуска множества небольших экспериментов (мой основной сценарий), но ужасно для моделей, разделённых между GPU.
  • Несколько отказов были связаны с проблемами райзеров. Расследование райзеров от Nathan Odle очень помогло в отладке.
  • У меня привычки трат как у аспиранта-бедняка, и я копил на это годами. Мне очень повезло оказаться в положении, когда можно идти на сомнительные финансовые риски, но я бы не рекомендовал покупать эту установку всем подряд. Отличную работу можно делать и с подпиской Google Colab, арендой более дешёвых облачных GPU или с помощью небольших личных установок.
  • Сдвиг в менталитете между арендой и владением GPU огромен. При аренде каждый эксперимент стоит денег, и приходится спрашивать себя, стоит ли он того. При владении кажется, что деньги теряешь именно тогда, когда не запускаешь эксперименты. К тому же приятно избавиться от постоянной возни с запуском и остановкой облачных инстансов.
  • Этот анализ не учитывает стоимость моего времени. Сборка и обслуживание сервера отняли много времени.
  • Я пытался застраховать его по полису арендатора. Им это не понравилось. Пришлось оформлять бизнес-страховку.
  • Если бы я делал это снова, я бы не стал собирать кастомный сервер. Я бы купил стандартный дата-центровый сервер и арендовал место в колокейшн-центре. Но тогда я бы не мог время от времени заходить поздороваться с grumbl.
04:02
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.