hogecoder

tsutaj 競技プログラミングの記録

遅延評価セグメント木をソラで書きたいあなたに

この記事は前記事: 「セグメント木をソラで書きたいあなたに」の続編です。セグ木をソラで実装するのはまだ厳しい・・・という方はまずはこちらの記事を読んでみてください。

tsutaj.hatenablog.com

この記事は「セグメント木はソラで書けるけど、遅延評価セグ木は書けない・・・」という人を対象にしています。

遅延評価って何?

まず遅延評価について軽く説明しておきます。

遅延評価というのは、値の伝播*1を遅らせるテクニックです。これは区間に対して更新を行うときに必要になる時が多いです。例えば、値の更新を普通のセグメント木でやろうとしたとき、範囲の長さを  L とするとこの範囲の長さだけクエリを呼ばなければならないため  O(L \log N) かかってしまいますが、遅延評価をすることでこれを  O(\log N) で実現できます。

どうしたらうまくいくのか、簡単に解説します。

配列 a = {1, 3, 2, 6, 5, 4, 7, 9} を普通のセグメント木(区間和) で表すと、以下のようになります。

f:id:tsutaj:20170330223205p:plain

区間和に対応したセグメント木なので、親は子の 2 値の合計を持っている、といった作りになりますね。

このセグメント木に対して、 \left[1, 5\right] 内の要素それぞれに 3 加算することを考えます。すると、通常ではこんなにも多くのノードを更新しなければなりません。

f:id:tsutaj:20170330223607p:plain

これでは効率が悪いですね。そこで、遅延評価用の配列を別に用意し、1 つのノードにつき 2 つの値を持つようにします。説明のため、普通のセグメント木にもあるような、値を覚える配列を「値配列」と、遅延評価用の配列を「遅延配列」と呼ぶことにします(造語)。遅延配列では何を持つのかというと、 自ノードの区間に一様に加えられた値 を持つことになります。

遅延配列をもつセグメント木は、このようなイメージになります。

f:id:tsutaj:20170330223212p:plain

例えば  \left[1, 5\right] に加算クエリが与えられた時、この区間 \left[1, 4\right]  \left[5, 5\right] にわけて考えます。この 2 つの区間に対応するノードについて、遅延配列を更新 します。(なぜなら、この 2 つの区間について一様に加算されているからです。)

f:id:tsutaj:20170330223214p:plain

遅延配列に値が入っているノードについては、いつか遅延配列の情報を値配列の方に伝播させなければいけません。これはどのタイミングで行えば良いかというと、「クエリでそのノードにアクセスしたとき」に更新すれば良いです。

f:id:tsutaj:20170330223217p:plain

遅延配列に値が入っているとき、値配列に入っている値は本来の値ではありません。遅延配列の値を加味してあげることで、初めて本来の値になります。ですので、そこにアクセスした時はまず「遅延配列の中身を反映させてから」処理を行う必要があるのです。

まとめると、

  • 遅延配列は、区間に一様に与えられた値を記憶している
  • 遅延配列に中身が入っているノードにアクセスした時、自分と自分の子に対して値の伝播が起こる
  • 親ノードは、値配列が確定した状態の子ノードを参照することで更新される

このような実装をすることで、必要なときだけ値の伝播が起こるため計算量がぐっと減ります。これで、遅延評価付きのセグメント木も書けるようになります!

実際に書いてみよう

それでは「区間加算・区間和クエリ」を扱えるような遅延評価付きのセグメント木を書いてみましょう。

初期化

初期化については、普通のセグメント木とほぼ同じです

というのも、最初に用意するときは、遅延配列に何も入っているはずがないですよね。実装は普通のセグメント木に遅延配列の宣言が増えただけです。

実際に書くとこのようになります。

struct LazySegmentTree {
private:
    int n;
    vector<ll> node, lazy;

public:
    LazySegmentTree(vector<ll> v) {
        int sz = (int)v.size();
        n = 1; while(n < sz) n *= 2;
        node.resize(2*n-1);
        lazy.resize(2*n-1, 0);

        for(int i=0; i<sz; i++) node[i+n-1] = v[i];
        for(int i=n-2; i>=0; i--) node[i] = node[i*2+1] + node[i*2+2];
    }
};

遅延評価

ノードに対して評価を行う関数を作りましょう。そのためには

  • 自分のノードは何番目なのか?
  • 自分のノードが指す範囲はどうなっているのか?

を知る必要があるため、 3 つの引数を取ります。

遅延配列に中身が入っている場合、評価を行う必要があります。この関数で何をすべきなのかというと、

  • 自ノードの値配列に値を伝播させる
  • 子ノードの遅延配列に値を伝播させる
  • 自分のノードの遅延配列を空にする

これができればよいです。最下段のノードの処理に気をつけながら書くと、次のようになります。

// k 番目のノードについて遅延評価を行う
void eval(int k, int l, int r) {

    // 遅延配列が空でない場合、自ノード及び子ノードへの
    // 値の伝播が起こる
    if(lazy[k] != 0) {
        node[k] += lazy[k];

        // 最下段かどうかのチェックをしよう
        // 子ノードは親ノードの 1/2 の範囲であるため、
        // 伝播させるときは半分にする
        if(r - l > 1) {
            lazy[2*k+1] += lazy[k] / 2;
            lazy[2*k+2] += lazy[k] / 2;
        }

        // 伝播が終わったので、自ノードの遅延配列を空にする
        lazy[k] = 0;
    }
}

区間加算

区間に対しての更新なので、前記事でいうところの 最上段から下がっていく イメージで見ていきます。

基本的には前回の値の取得クエリとやることは同じです。しかし、遅延評価の関数を適切に呼び出す必要があります。

要求区間が対象区間を完全に被覆している場合、区間に対して一様に値が与えられていると言えます。ですので遅延配列に値を入れた後、評価関数を呼び出します。

そうでない場合、子ノードの値配列をしっかり更新してから、子ノードの値をもらって更新することをします。これは再帰関数にすることで簡潔に書くことができます。

実際に書くとこのようになります。

void add(int a, int b, ll x, int k=0, int l=0, int r=-1) {
    if(r < 0) r = n;

    // k 番目のノードに対して遅延評価を行う
    eval(k, l, r);

    // 範囲外なら何もしない
    if(b <= l || r <= a) return;
    
    // 完全に被覆しているならば、遅延配列に値を入れた後に評価
    if(a <= l && r <= b) {
        lazy[k] += (r - l) * x;
        eval(k, l, r);
    }

    // そうでないならば、子ノードの値を再帰的に計算して、
    // 計算済みの値をもらってくる
    else {
        add(a, b, x, 2*k+1, l, (l+r)/2);
        add(a, b, x, 2*k+2, (l+r)/2, r);
        node[k] = node[2*k+1] + node[2*k+2];
    }
}

区間和の取得

これも前回の区間和クエリと書き方はほぼ同じです。違いはやはり遅延評価を呼ぶかどうかで、今回の場合は関数の最初に遅延評価を入れるだけでよいです。

実際に書くとこのような感じになります。

ll getsum(int a, int b, int k=0, int l=0, int r=-1) {
    if(r < 0) r = n;
    if(b <= l || r <= a) return 0;

    // 関数が呼び出されたら評価!
    eval(k, l, r);
    if(a <= l && r <= b) return node[k];
    ll vl = getsum(a, b, 2*k+1, l, (l+r)/2);
    ll vr = getsum(a, b, 2*k+2, (l+r)/2, r);
    return vl + vr;
}

コード例

遅延評価セグメント木を習得することで様々なクエリを処理できるようになります。今回は AOJ の DSL で登場するクエリ処理のコード例を載せておきます。

※「区間更新」を扱うときは、遅延配列のフラグが立っているかどうかの bool 配列を別に用意しなければならないため、注意が必要です。

区間最大クエリにしたりなどは比較的簡単にできます。また、工夫すれば区間最小値の個数を答えるクエリなども作れますので、ぜひやってみてください。

楽しいセグ木ライフをお送りください。それではー。

*1:2018/05/19 追記: この記事で言う「伝播」とは、現在のノードに入っている値を子ノードに配ることを指します。子ノードに配られた値はさらにその子ノードに配られ、やがて最下段にあるノードまで順に配られるため、「伝播」という表現を用いています。

セグメント木をソラで書きたいあなたに

セグ木にいろいろ生やす問題がてんで解けない私なので、セグ木に慣れようと思い立ちました。そのためにはまずセグ木をもっと知らねばならないと思ったので、ソラで書けないか色々やっていました。

やってくうちにコツを掴んでソラで書けるようになってきたので、忘れないためにも記事を書くことにしました。ということで、何も見ずにセグ木を書くために押さえておきたいポイントを紹介していきます。

注意

この記事は、「セグ木がどんな形をしているかはわかるけど、実装はできない・・・」という方向けで、遅延評価が不要な、区間最小の基本的なセグメント木のみ扱っています。

そもそもセグ木って何という人は他記事を参考にしてください。
おすすめは iwiwi さんのスライド → プログラミングコンテストのためのデータ構造

また、すでにセグ木が書けるプロの方が見ても面白くないかもしれません。

記事では区間最小についてのみ扱っていますが、区間和もほぼ同じコードで実現できます (コード例は後述)。

まずは形を見よう

ノードの数

セグメント木は皆さんご存知のとおり、図で書くとこんな形をしています。

f:id:tsutaj:20170329204251p:plain

元のデータ数以上になる最小の 2 冪の数を  N とします。すると、ノードは全部で  2N - 1あります。なぜこうなるかは、各段にあるノードの数を 2 進で書いて足していくと簡単にわかります。

すなわち、

  • 最下段にはノードが  N 個ある
  • それより上の段のノードは全部で  N-1 個ある

ということになります。この性質は後に大事になるので、しっかり把握しておきましょう。

ノードの関係

セグメント木上で操作をするには、ノードの関係を明らかにする必要があります。ここでは木と同様に、自分のノードの直下にあるノードを「子」、自分のノードの真上にあるノードを「親」と呼ぶことにします。

木に例えるとこれは完全二分木になります。つまり、葉でない限り自分の子は必ず  2 個あるということです。

f:id:tsutaj:20170329204255p:plain

自分のノードの番号を  k をおくと、親や子にアクセスするには以下のようにします。

  • 親にアクセスするには、  \lfloor \frac{k-1}{2} \rfloor 番目にアクセスする
  • 子にアクセスするには、  2k+1 番目・  2k+2 番目にアクセスする

これを各所で使うことになります。

更新・取得クエリ

一般的なセグメント木では、値を更新するクエリと、値を取得するクエリの 2 種類を行うことになります。かなりざっくりとしていますが、各クエリに関してはこのようなイメージを持つと良いです。

  • 値の更新クエリは、最下段から上がっていくようにする
  • 値の取得クエリは、最上段から下がっていくようにする

雑ですが、このようなイメージを持って実装を重ねることで詰まることなく書けるようになると思います。

実際に書いてみよう

初期化

元となる配列があって、それをセグメント木で表してみることをやってみましょう。

まずは、セグメント木のサイズ (ノード数)を決定します。そのためには最下段のサイズを求める必要がありますが、これは先述のとおり、元のサイズ以上になる最小の 2 冪 です。この値を  N としたとき、セグメント木のサイズは  2N-1 です。

次に実際に値を入れていくのですが、最下段から値を入れていき、それ以降は下の段から順番に自分の子を参照することで値を入れていきます。上のノードの値を決めるには下のノードを参照しなければならないことを考えると、最下段から入れるのは自然な流れですね。

最下段のノードのインデックスはどうなるのか?と思うかもしれませんが、これには最下段より上の段のノードは全部で  N-1 個ある ことを利用します。前に  N-1 個の要素があるので、インデックスは元のインデックスに  N-1 を足せばよいですね。

これらをまとめると、次のような実装になります。

struct SegmentTree {
private:
    int n;
    vector<int> node;

public:
    // 元配列 v をセグメント木で表現する
    SegmentTree(vector<int> v) {
        // 最下段のノード数は元配列のサイズ以上になる最小の 2 冪 -> これを n とおく
        // セグメント木全体で必要なノード数は 2n-1 個である
        int sz = v.size();
        n = 1; while(n < sz) n *= 2;
        node.resize(2*n-1, INF);

        // 最下段に値を入れたあとに、下の段から順番に値を入れる
        // 値を入れるには、自分の子の 2 値を参照すれば良い
        for(int i=0; i<sz; i++) node[i+n-1] = v[i];
        for(int i=n-2; i>=0; i--) node[i] = min(node[2*i+1], node[2*i+2]);
    }
};

値の更新

 x 番目の要素を  val に更新する」ことを考えます。

これを行うには、 x 番目の要素が含まれる区間全てを更新する必要があります。上のノードを更新するには下のノードを見なければならないため、下のノードから更新していかなければいけないことがわかります。

最下段から上がっていく イメージで書いていきます。つまり、まずは最下段を更新し、あとはその親を更新することを繰り返せばよいです。

実際に書くとこんな感じになります。

void update(int x, int val) {
    // 最下段のノードにアクセスする
    x += (n - 1);

    // 最下段のノードを更新したら、あとは親に上って更新していく
    node[x] = val;
    while(x > 0) {
        x = (x - 1) / 2;
        node[x] = min(node[2*x+1], node[2*x+2]);
    }
}

値の取得

区間  [a, b) にある要素の最小値を答える」ことを考えます。

説明のため、クエリで与えられた区間 (実際に計算したい区間) を「要求区間」、各ノードがカバーしている区間を「対象区間」と定義します (造語)。

これを扱うには、以下の 3 つの情報が必要になります。

  • 要求区間はどのような区間か?
  • いま自分がいるノードは何番目か?
  • 自分がいるノードはどのような区間か? (対象区間はどのようになっているか?)

要求区間と対象区間の関係によって場合分けをします。

要求区間と対象区間が交わらない場合

この場合は、これ以上操作をすすめても意味がありませんので、答えに影響しない値を適当に返しておきます。

要求区間が対象区間を完全に被覆している場合

この場合、対象区間は要求区間の計算に必要です。そのため、現状の答えと比較して、更新が必要ならば更新をしていきます。

要求区間が対象区間の一部を被覆している場合

この場合、対象区間の子にあたる区間に移動して、完全に被覆するまで操作を行わなければなりません。

子に移動するので、「現在見ているノード」と「対象区間の情報」が変わります。子のノードのインデックスの取得は先述のとおりで、対象区間に関しては、子のノードが現在見ているノードを半分に分割したものであることを利用すると得られます。

最上段から下がっていくイメージでこれをまとめると、このようなコードになります。(ここが一番難しいと思いますので、わからなければ Twitter などで私に質問してください)

// 要求区間 [a, b) 中の要素の最小値を答える
// k := 自分がいるノードのインデックス
// 対象区間は [l, r) にあたる

int getmin(int a, int b, int k=0, int l=0, int r=-1) {
    // 最初に呼び出されたときの対象区間は [0, n)
    if(r < 0) r = n;

    // 要求区間と対象区間が交わらない -> 適当に返す
    if(r <= a || b <= l) return INF;

    // 要求区間が対象区間を完全に被覆 -> 対象区間を答えの計算に使う
    if(a <= l && r <= b) return node[k];

    // 要求区間が対象区間の一部を被覆 -> 子について探索を行う
    // 左側の子を vl ・ 右側の子を vr としている
    // 新しい対象区間は、現在の対象区間を半分に割ったもの
    int vl = getmin(a, b, 2*k+1, l, (l+r)/2);
    int vr = getmin(a, b, 2*k+2, (l+r)/2, r);
    return min(vl, vr);
}

コード例

AOJ にコードを上げていますので、参考までに。

以上です。遅延評価付きのセグ木についても後日記事でまとめます (たぶん)。

RUPC2017 Day3 北大セットのまとめ

この記事は立命合宿の 3 日目に行われた北大セットのまとめ的記事です。勝手にまとめてしまいました。

※ 随時更新します

問題

実際にコンテストで使われたバージョン

A 問題 | B 問題 | C 問題 | D 問題 | E 問題 | F 問題 | G 問題

正式掲載

A 問題 | B 問題 | C 問題 | D 問題 | E 問題 | F 問題 | G 問題

解説

A 問題 | B 問題 | C 問題 | D 問題 | E 問題 | F 問題 | G 問題

テスターやった人並みの一言

解法詳細はスライドを見てください。

  • A は (奇数個ある種類数) / 2。誤読しやすいのは正直申し訳ないし誤読する人が出るだろうなあという予想はしていたけど、問題をちゃんと読むという注意力を問うた部分もある (たとえ誤読していてもサンプル 3 で気づくと思ったんですけどね・・・)
  • B は 「x 点上げるときに 8 位以上になれるか?」で二分探索できる (全探索でも可)。同率の扱いや、得点を上げた時の順位変動に注意。
  • C はパスグラフとしてみるとよくて、端を特定したあとは端と任意の頂点について質問攻め。順列のサイズが 1 のときに注意。
  • D はパラメータが増えたダイクストラで、距離をキーにして priority_queue を使えばよい。N を通過したか否かのフラグを持つと楽に書ける。速度をキーにしてもそこそこうまくいくけど 1 ケースだけ落ちます (後述)
  • E は区間を set に突っ込むときの set のサイズがそのまま答えになる (更新は頑張らなければいけない)
  • F は根つき木の同型性判定を応用して、木の中心を根として同型性判定を行う
  • G は パターン順列の run の数に応じて解法を変えていく。run の数 が 4 以上なら確実に No
    • run の数 = 1 なら LIS
    • run の数 = 2 なら 山 → 谷 のパターンに合うように点を貪欲にとる
    • run の数 = 3 なら 山 → 谷 → 山 のパターンに合うように貪欲に

コード例 (tsutajiro 解)

A 問題 | B 問題 | C 問題 | D 問題 | E 問題 | F 問題 | G 問題

ちょっとした裏話

  • 作問班唯一の学部生・・・ (若人がいない)
  • 情報系学生の底辺なので作問するまで Git の使い方が分からなかった (爆笑)
  • B は最初二分探索が想定解であったため、チーム数が  10^{5} まで、得点上限が  10^{9} まで、といった感じだったが、 B にしては難しすぎるため全探索可能な範囲に落ちた
  • D で始めの自分の解では距離比較でなく速度比較でダイクストラをやっていて、それで一旦全ケース通ってた
    • → のちに Darsein さんがチャレンジケースを生成して見事に落とされる
    • → 理由は最悪計算量がベルマンフォードと同じになり間に合わないため (しかし通常のベルマンフォードよりは速い模様)
    • → tsukasa_diary さんが SPFA を実装したところ爆速で通る (が、最悪ケースを作るのが難しいためこれは許容する流れに)
  • 先輩方はみんなプロ (それはそう) (精進します)

以上です。