ReadyNAS のスクラブがとてつもなく遅いのが直ったよ(喜)

※ まとめだけ見たい方は一番最後をどうぞ

NETGEAR ReadyNAS 316 というNAS(ネットワークのディスクみたいなの)を使ってるんですが、定期的に行うスクラブ(SCRUB : ファイルの自然破損を防ぐために全領域を再書き込みする機能)がいつの頃から何日もかかるようになり、直近では24時間で2%しか終わらないという状態でした。その間NASは反応が悪く使いものになりません。このスクラブが遅い件は海外フォーラムでもたまに問題になっており、NASを初期化したら直ったというあまり受け入れたくない結末ばかり。そうせずにすむ(かもしれない)解法をたまたま見つけたのでお知らせします。

それは、スナップショット(過去のファイルに戻せる機能)と Bit Rot 保護(リードエラー時にファイルを修復する機能?)を全共有でオフにし、保存されているスナップショットを全て消す、です。ひょっとしたら最後のだけでいいかもしれません。

[スナップショット削除の方法を教えてください。 | ネットギア【NETGEAR】]

当初あきらめて初期化を決めたんですが、10ヶ月分、数百GBのスナップショットがあってバックアップにじゃまだと思い削除したのが効きました。通常のバックアップだとそもそもスナップショットはコピーされないようなので、報告されている初期化(+リストア)で解決するのはこのためかもしれません。


何十日もかかりそうだったスクラブが13時間43分で完了しました。構成は3TBのWD Red 3台のX-RAID。FW 6.8.0。

スクラブを開始するといくつもの kworker プロセスがCPUを占拠し始めるのは解決前後で変わらず、ただ異常時は btrfs が上位にほとんど登場しなかったような気がします(うろ覚え)。

あ。あと、いつの間にか24時間ずっと点きっぱなしになっていたフロントパネル照明が、タッチしたときにだけ点灯する正常動作にこのタイミングで直っていました。ふしぎ。。。

 

■追記 17/9/5 : スナップショット21日分、全共有BitRot保護、TimeMachine 500GBに設定してのスクラブは19時間半でした。1.5倍ですね。どれが時間増えた原因かわかりません。


■追記 17/10/1
: FW6.8.1にしたらまたフロントパネル照明が点きっぱなしに(涙)。


■追記 17/10/5
: BitRot保護を全共有でオフにしスクラブをしてみたところ24時間10分かかりました。先月から4時間以上延びてます。。。関係無いですけど途中から kworker プロセス群のCPU使用率がぐっと下がるんですがそうなるとスピードアップするみたい。


■追記 17/10/6
: スクラブを遅くする原因はスナップショットだと結論づけました。

・ReadyNAS316の状況 : WD RED 3TB x 3 / データ1.67TB / 空き容量3.78TB / スナップショット50GBぐらい

・スナップショット機能だけを全共有でオフにし(念のため再起動後)スクラブ。2時間0分で5.89%の進みは昨日と同じなのでここで中止。

・さらにスナップショットも全消去し再起動すると、FWアップデート後点きっぱなしになってた照明が消えました(なぞ)。そのままスクラブし、2時間0分で7.46%、3時間10分で11.88%、6時間18分で40.19%、9時間0分で71.71%、10時間30分で86.99%、11時間55分で終了。

・急激に速度が上がった 40.19%の時点では、高負荷の kworker がいなくなっていました。ディスク全体をチェックするというスクラブですが、ディスク使用量が30%なのを考えると、空き部分では進みが速いのかも。

・で。スナップショットはもう使いません。またBit Rot保護は「仮想環境のデータストアとして使用する場合、パフォーマンスに影響があるため無効にすることを推奨します」とありデフォルトでもオフですが、これはオンにしようかな。あとスクラブ関係では、動作中はTimeMachineがタイムアウトになるのか最初からとりなおしになる場合が多いのでMacのバックアップをNASに入れるのはやめようと考えてます。


■追記 17/10/16
: Bit Rot保護のオンオフをCrystalDiskMarkでベンチマークをとってみました。他で書いてますがこのReadyNAS316は標準2GBのメモリを4GBに交換してあります。

まずオフ(BitRot保護無し)の状態。

オン(保護)の状態。シーケンシャルライトが数パーセント遅くなってますが、4kのリードは数パーセント速いという、誤差と言えそうな言えなそうな、なんだかよくわからない感じ。まあBitRot保護はオンにしようと思います。

■追記 17/12/28 : 少し前の状態のファイルがほしいってことやっぱあるので、今は一部の共有だけスナップショットを2日保持するようにしてます。BitRot保護は全部オン。上記以降スクラブはまだしてません。

■追記 18/1/10 : ReadyNAS 526Xとの比較をはじめました。こちらをどうぞ

■追記 18/4/10 : ReadyNAS 526Xでスクラブしてみました。上記リンク記載の構成の通り WD Red WD40EFRX-RT2 (4TB) x 3台のX-RAID(RAID5) で、データ2.76TB / スナップショット1週間44コ14.28GBの場合18時間38分。直後にスナップショットを全部削除しスクラブしたところ2/3の12時間15分でした。スナップショットの期間はこのあたりかなあ。

■追記 18/8/9 : これまで約1.3TBの共有1つをスナップショットしていましたが、履歴が欲しいファイル132GBだけ残しあとはスナップショットしない別共有に移動しておいたところ、スクラブが上で全削除した場合と大きくは変わらない時間で終わりました。データ2.91TB / スナップショット1週間28コ38.76GBが13時間2分。前回と異なるCPU冷却性能アップ化がそう効いたとも思えませんので、もしかしたらファイル変更の有無にかかわらず共有フォルダ全体がスナップショットの数だけ何度もスクラブされているのかもしれません。だとしたらなんてあほな仕組みなんでしょう。

そうそう以前切っていたTime MachineはSMBで使っています。スクラブと関係無くたまに動作がおかしくなりますが。。。

■追記 18/8/24 :ページキャッシュを約8倍にしました。データ2.94TB / スナップショットをとっている共有の使用量132GB、スナップショット3週47コ38.87GBで14時間23分。キャッシュは影響しないと言ってよさそうです。あと、スナップショットの数以外は前回とだいたい同じでも1時間以上増えており、やっぱり前述の考察は当たってるかも。


■ スクラブまとめ 18/08/24

・スナップショットを削除すると早くなる

・スナップショットの数が多いと遅くなる

・スナップショットのオンオフ、Bit Rot保護は早さに無関係

・ディスク使用量が多いと遅くなる。この部分は主にCPUスピードに、空き領域はディスクスピードに影響される

・スナップショットをとる共有はスリムにすると早くなる

・メモリやディスクキャッシュの量は早さに無関係