ノード構築トラブルシューティング ― 闇の中でつまづいた時 ─

ノードを建てるという作業は、たいてい一度ではうまくいかない。どこかでつまずき、エラーログとにらめっこし、原因を探り、直す。その繰り返しだ。そして面白いことに、つまずくポイントの多くは「あらかじめ知っていれば避けられた」ものだったりする。

この記事は、私が2台目のノード(tencawffee.com)をクリーンに構築する過程で実際に踏んだトラブルを、一つずつ記録したものです。それぞれについて、どんなエラーか / 何が原因か / どう解決したか / 予防できるか の4点で整理しました。

過去ブロックの同期が進まない

どんなエラーか

ノードを起動して、過去ブロックの同期が始まった ── と思いきや、こんなエラーがログに流れ続けて、まったく前に進まない。

Error: query exceeds max block range 2000

何が原因か

CAWクライアントは、過去のブロックをまとめて取得しようとする。デフォルトでは「一度に10,000ブロック」を要求する設定になっている。ところが、多くのRPCプロバイダ(特に無料枠)は、一度のクエリで取得できるブロック数に上限を設けている。よくあるのが「2,000ブロックまで」という制限だ。「10,000ブロックください」という要求に対して、RPC側が「2,000までしか無理です」と拒否する。結果、同期が一切進まなくなる。

どう解決したか

ソースコードの中にある、取得ブロック数の定数を書き換える。

/var/www/(あなたのドメイン)/client/src/services/RawEventsGatherer/listenForRawEvents.ts

この中の値を、10,000から1,500に変更する。

// 修正前
chunkBlocks = 10_000
// 修正後
chunkBlocks = 1500

上限の2,000より少し余裕を持たせて1,500にしておくと安全だ。修正後、ビルドし直してノードを再起動すれば、同期が進み始める。

予防：半分できる

これは現時点でCAWの標準セットアップに残っている既知の問題で、新規に建てる人はほぼ全員が踏む。「最初からこの値を直しておく」と知っていれば慌てずに済む。ノードを起動する前に、先回りして1,500に変更しておくのがスマートだ。

ノードが登録されない（registered: false）

今回いちばん手こずった、本丸のトラブル。

どんなエラーか

ノードは動いている。同期も進み、ピアにも繋がっている。なのに、いつまで経っても登録されない。登録されるとInstanceIDが付与され、登録されたことも確認することができる。

registered: false,
instanceId: null,

そして、よく見るとログの中に、紛れるようにこんなエラーが流れていた。

[NftTransferWatcher] Poll error: 408 Request Timeout
"message":"Request timeout if you are on the free tier,
please upgrade your tier to the paid one"

何が原因か

L1(イーサリアムのテストネット)にアクセスするためのRPC(dRPCに設定した部分) ── ブロックチェーンに問い合わせる窓口 ── が、無料枠の制限でタイムアウトしていた。CAWの登録処理はL1上のコントラクトの状態を確認する処理を含むため、そのL1アクセスが詰まると、登録の前提が完了せず、登録そのものが始まらない。

決め手は、ブロックチェーンエクスプローラー(BaseScan)でバリデーターアドレスを見たことだった。「送信された取引：該当なし」── 登録に失敗しているのではなく、そもそも登録を試みていないとわかった。そしてログを丁寧に追うと、L1アクセスのタイムアウトが頻発していた。ここが詰まっているせいで、登録の前提となるL1確認が完了していなかったのだ。

じつはこの原因にたどり着けたのは、私がたまたま2台のノードを運用していて、片方(1台目)は問題なく登録できていたからだ。1台目はこのタイムアウトが一切出ていなかった。同じソフト・同じ無料枠なのに、なぜ2台目だけ詰まるのか ── 突き詰めると、RPCのキーごとに利用状況が管理されていて、2台目のキーだけが制限に達していた。

もしあなたがこれから建てる1台目で同じ症状(動いているのに registered: false のまま)に出くわしたら、台数を比べる必要はない。まずL1用RPCのタイムアウトを疑ってほしい。これは私が2台運用して回り道した末に掴んだ結論を、先回りして渡しておくものだ。

どう解決したか

詰まっていない別のRPCプロバイダの無料枠を新しく用意して、L1用のエンドポイントを差し替えた。

ここで一点、判断のポイントがある。「1台目と同じキーを使い回せばいいのでは?」と思ったが、やめた。1台目のキーに2台分の負荷を集中させると、今度は1台目まで詰まる危険があるからだ。動いているものに余計なリスクを背負わせない── これは大事な原則だと思う。dRPCから他のRPCに私が乗り換え先に選んだのは Chainstack だった。差し替えて再起動したところ、滞っていた登録処理が一気に流れ、registered: true / instanceId: 245 を取得できた。

── そして、その後（追記）

正直に書き残しておきたいことがある。この記事で「Chainstackに乗り換えて解決した」と書いたあと、しばらくして別の問題が起きた。今度はそのChainstackが原因だった。

症状は、ノードが再起動のたびにインスタンスを新規登録し直してしまう「再登録ループ」。本来は起動時に「自分は登録済み」と認識して既存を再利用するはずが、毎回ゼロから登録し、重複インスタンスが数日で数十個に膨れ上がっていた。

[InstanceRegistry] Registering new instance ...
  本来は Already registered になるべき

またしても、2台運用が原因究明を助けてくれた。1台目（L1 RPCはdRPCのまま）は正常に「登録済み」を認識していて、再登録ループは2台目（Chainstackに変えた方）だけで起きていた。違いはL1 RPCだけ。

ここで推測で終わらせず、同じ問い合わせを両方のRPCに直接投げて比べた。ノードは起動時、過去の自分の登録を探すためにレジストリ契約のログを「広いブロック範囲で」スキャンする（eth_getLogsという処理）。この同じスキャンを、cast（foundry）で両RPCに実行した。

実測でわかったこと

結果は、はっきりと分かれた。

2000ブロックの eth_getLogs：
  dRPC      → 即座に応答
  Chainstack → 30秒タイムアウト（3回中3回）

100ブロックの小さなクエリ：
  Chainstack → 即座に応答（サーバーは生きている）

Chainstackは「落ちている」のではなかった。広い範囲のログ取得だけで固まるのだ。小さなクエリには即答するのに、ノードが必要とする広範囲スキャンになると応答しない。これでは起動時に過去の登録を見つけられず、毎回「未登録だ」と誤認して、新規登録を繰り返してしまう。

どう解決したか（その後）

L1用のRPCを、dRPCに戻した。すると再起動後のログがこう変わった。

[InstanceRegistry] Already registered as instance #N

再登録ループは止まった。なお、これは.env（設定ファイル）の変更なので、git pullやアップデートで巻き戻ることはない。すでに溜まった重複インスタンスは、同じURL・validatorの冗長エントリなので無害だ。

念のため公平に書いておくと、これは「ある時点のChainstack無料Sepoliaエンドポイント」での実測値で、「Chainstackがダメ」という話ではない。プロバイダ・プラン（有料/専用ノード）・時期・対象チェーンで挙動は変わりうる。あくまで「同じ無料枠で広範囲のログ取得を投げたら、dRPCは返し、このChainstack無料Sepoliaは固まった」という個別の比較だ。
RPCに絶対の正解はなく、症状を見て使い分けるしかない。その生きた実例として、この回り道を残しておく。

予防：できる

ノードを建てる前に、L1用のRPCを最初から余裕のあるプロバイダにしておくこと。選ぶポイントは「月単位で十分な余裕があること」「WebSocket(wss)とHTTP(https)の両対応」、そして広いブロック範囲のログ取得（eth_getLogs）が固まらないことの3つ。そして将来もし2台目以降を建てるなら、ノードごとにRPCキーを分けると、片方が詰まってももう片方は無事でいられる。ただし、何が起こるかわからない部分はある。今回のように、ある時点で選んだRPCが、別の症状を生むこともある。dRPCとChainstackのように、複数の選択肢を持っておき、症状に応じて切り替えられる状態にしておくのが、いちばん心強い備えだ。

CORSエラー（他から接続できない）

登録が完了して安心したのも束の間、今度は別の赤いエラーが流れ始めた。

どんなエラーか

Error: Origin https://test.caw.social not allowed by CORS

これが、ほぼ1秒おきに延々と繰り返される。

何が原因か

CORS(クロスオリジン)は、「どのWebサイトからのアクセスを許可するか」を制御する仕組みだ。ノード側に「許可するアクセス元(オリジン)のリスト」があり、そこに載っていないサイトからのリクエストを拒否する。登録が完了してノードがネットワークに公開されたことで、公式のテストネット用フロントエンド(test.caw.social)が私のノードのAPIにアクセスしに来るようになった。ところが許可リストにそのアドレスが入っていなかったため、片っ端から弾いていた。せっかく登録されて一人前になったのに、訪ねてきた客を門前払いしているような状態だった。

どう解決したか（最初の対処）

まず思いついたのは、設定ファイル(.env)の ALLOWED_ORIGINS という項目に、公式フロントエンドのアドレスを追加することだった。

ALLOWED_ORIGINS=https://test.caw.social,https://(あなたのドメイン)

保存して再起動したら、CORSエラーはぴたりと止まった ── ように見えた。

── そして、その後（追記）

正直に書き残しておきたい。.env を直して安心していたら、しばらくして同じCORSエラーがぶり返した。.env にはちゃんと test.caw.social が入っているのに、だ。

実際に動いているプロセスの環境変数を直接覗いてみると（/proc 経由）、ALLOWED_ORIGINS がそもそもプロセスに入っていなかった。.env を読んでいるはずなのに、値が届いていない。

ソースコードを追って、ようやく真因が分かった。許可リストの本当の出どころは .env ではなく、config.json（サービス設定ファイル）の Api サービスの allowedOrigins だったのだ。ノードは起動時、この config.json の値で .env の ALLOWED_ORIGINS を上書きする。そしてインストーラは、この allowedOrigins を「自分のドメイン＋localhost」だけで自動生成する ── test.caw.social は最初から入らない。

// config.json が初期生成する allowedOrigins（test.caw.social が無い）
"allowedOrigins": [
  "https://(あなたのドメイン)",
  "http://localhost:5274"
]

つまり、.env をいくら直しても、起動のたびに config.json で上書きされて無効化されていた。「.env に追加して直った」と思っていたのは、私の早とちりだったわけだ。

教訓は明快だった。同じ設定が .env と config.json の二系統に存在し、config.json が .env を黙って上書きする。設定を直したのに効かないときは、「本当にその値が読まれているのか」「もう一つの出どころが上書きしていないか」を疑う。実プロセスの環境変数を /proc/PID/environ で直接確認すると、設定ファイルと現実の食い違いが一発で見えた。

どう解決したか（真の解決）

直すべきは config.json の方だった。Api サービスの allowedOrigins に公式フロントエンドのアドレスを追加する。jq を使えば、バックアップを取りつつ安全に追記できる。

# まずバックアップ
cp config.json config.json.bak.$(date +%s)
# Api の allowedOrigins に test.caw.social を追記
jq '(.[]|select(.service=="Api").config.allowedOrigins) |= (.+["https://test.caw.social"]|unique)' config.json > /tmp/cfg && cat /tmp/cfg > config.json

保存して再起動すると、CORSエラーは今度こそ完全に止まった。config.json はファイルから毎起動読み込まれるので、この修正は再起動や再ブートをまたいでも有効だ（.env と違い、巻き戻らない）。

再起動後、新規のCORS拒否は 9分間ゼロ ＝ 停止

予防：完全にできる

CORSの許可リストは .env ではなく config.json の Api.allowedOrigins で決まる。ここに公式フロントエンド（https://test.caw.social）と自分のドメインを、初期設定の段階で入れておくこと。そして今回いちばんの収穫は、「設定値の出どころが二つあり、片方がもう片方を上書きする」という構図を知れたことだ。設定が効かないときは、片方だけ見て満足せず両方を疑う。なお caw install で config.json をまるごと再生成したときは消えるので、その場合は再度足す。

初期設定でまとめて回避するチェックリスト

ノードを建てる最初の段階で設定しておけば、後で慌てずに済むこと。未来の自分と、これから建てる誰かのために。

起動前にやっておくこと

chunkBlocksを1,500に変更しておく（トラブル01の予防）
L1用RPCを余裕のあるプロバイダにする。wssとhttpsの両対応を確認（トラブル02の予防）
複数ノードならRPCキーをノードごとに分ける（トラブル02の予防・切り分けのしやすさ）
config.json の Api.allowedOrigins に公式フロントエンドと自分のドメインを設定（.env ではなく config.json が効く）（トラブル03の予防）

設定変更するときの鉄則

変更前に必ずバックアップを取る。cp .env .env.bak.(日付) の一手間が、いざというとき自分を救う
設定が効かないときは出どころを二つ疑う。同じ値が .env と config.json の両方にあり、config.json が勝つことがある（トラブル03）

エラーログを読むときの心構え

今回の3つのトラブル、振り返ると共通点がある。答えは、最初からログに書いてあったということだ。

「query exceeds max block range 2000」── ブロック範囲が大きすぎる、と言っている。「please upgrade your tier」── 無料枠の制限だ、と言っている。「not allowed by CORS」── 許可されていない、と言っている。エラーメッセージは、たいてい正直だ。面倒がらずに読めば、原因の半分はそこに書いてある。

ただし ── CORSの件がそうだったように、ログが教えてくれるのは「何が」起きているかまで。「なぜ」の残り半分は、設定が本当はどこから来ているのかを自分で辿らないと見えないこともある。.env を直したのに効かず、真の出どころが config.json だった、あの回り道がそれを教えてくれた。

そして、もう一つ伝えたいことがある。今回のトラブルの多くは、私がたまたま2台のノードを運用していたからこそ、原因を早く突き止められた。動いている個体と、つまずいた個体。その差分が、答えへの最短ルートだった。

とはいえ、これから初めてノードを建てる人にとって、最初から2台を並べて比べるのはハードルが高い。だからこそ、この記事を残している。私が2台運用して回り道した末に掴んだ知見を、あなたが1台目で先回りして使えるように。上のチェックリストは、まさにそのための地図だ。比べる相手がいなくても、ここに書いたポイントを最初から押さえておけば、同じ落とし穴は避けられる。

ログを読む。チェーンを確認する。動くものと比べる。バックアップを取ってから直す。
この地味な4つを、面倒がらずに繰り返すこと。

それが、闇の中で躓いたときに、もう一度立ち上がるための、いちばん確かな方法だと思う。

次に建てるとき、私はきっとこの記事を読み返す。「ああ、あのとき苦労したな」と思いながら、今度はもっと早く、躓かずに歩けるはずだ。

記録とは、未来の自分への手紙でもある。

← 前の話：ノードセキュリティ強化 ―城門を固める
次の話：Sepolia ETHの最短入手ルート紹介 →

過去ブロックの同期が進まない

どんなエラーか

何が原因か

どう解決したか

ノードが登録されない（registered: false）

どんなエラーか

何が原因か

どう解決したか

── そして、その後（追記）

実測でわかったこと

どう解決したか（その後）

CORSエラー（他から接続できない）

どんなエラーか

何が原因か

どう解決したか（最初の対処）

── そして、その後（追記）

どう解決したか（真の解決）

初期設定でまとめて回避するチェックリスト

エラーログを読むときの心構え

NEW POST

鎖の下の分散化、Hetznerが二割を沈めた夜

2025年9月22日、夜9時半。CAWの金庫が動いた90分の全記録

正常なログを読む。ノードの正体

Sepolia ETHの最短入手ルートを紹介

ノード構築トラブルシューティング ― 闇の中でつまづいた時 ─

ノードセキュリティ強化 ─ 城門を固める

CATEGORY