2017-10-08

CS Academy: Sorting Steps

公式の解説が鮮やかだったけど、英語がちょっと読みにくかったので日本語解説を作ってみたくなりました。

問題概要

長さ $N (1 \leq N \leq 10^{5})$ の配列をバブルソートすることを考える (どんな実装かは、原文にサンプルコードがあるのでそちらを参照してください)。

ソートが完了した時の、"steps" の値を出力せよ。

解説

なんとなくセグ木とかを使いたい気持ちになりますが、公式の解説を見るとソートをするだけで解いているのでビックリです。どうやれば解けるのか、詳しく見ていきましょう。なお、説明のため、 $A_{i}$ := 配列の $i$ 番目の値とします。 (ここからの内容はほぼ公式解説と同じです)

まず、 $C_{i}$ := $i$ 番目の要素より左にあり、かつ値が $A_{i}$ よりも大きい要素の個数と定義します。もしも全ての $i$ について $C_{i} = 0$ ならば、既にソート済みです。

ここで重要な考察として、バブルソートを $1$ ステップ進めると、 $C_{i} \gt 0$ を満たす全ての $C$ の値がそれぞれ $1$ 減少します。 なぜなら、それを満たす要素それぞれについて、自分より左にある要素の中で最大の要素とスワップされ、自分より左にあって自分より大きい要素の個数が $1$ 個減るからです。全ての $C$ の値が $0$ (= ソート済み) になるために必要なステップ数が $\max(C) + 1$ 回であることは明らかなので、あとは $\max(C)$ を求められれば OK です。

全ての $C$ を求めるのであれば前述の通りセグ木等を使う必要がありますが、今回必要な値は $\max$ だけなので、もっとシンプルに解くことができます。

まず、どのような要素が $\max(C)$ の候補になりえる・またはなりえないかを考えます。これについて、 ソート前配列の $i$ 番目の要素について、その右に自分より小さい要素があるならば、 $C_{i}$ が $\max$ になることはない という重要な考察ができます。

これを簡単に証明します。 $i \lt j$ であって $A_{i} \gt A_{j}$ である組 $(i, j)$ を考えます。このとき、 $C_{j}$ の計算において $i$ 番目の要素を考慮すると $C_{i} \lt C_{j}$ が成り立つことがわかります。これにより、自分より小さい要素が自分より右にあるならば $\max(C)$ の候補になりえないことが示せました。 (個人的にここの部分が一番巧妙だと思います。)

つまり、 $\max(C)$ の候補になる要素は、 自分より小さい要素全てが自分より左の位置にあること を満たす必要があります。そしてそのような候補について、 $C$ は (ソート済みの状態であるときのインデックス) - (ソート前の状態であるときのインデックス) で計算できます。よって、元のインデックスの情報を保持しながら配列をソートして、前述の計算の $\max$ を取れば良いです。

ソースコード

ほぼ Writer 解と同じですが・・・。

signed main() {
    int N; cin >> N;
    vector<pii> v(N);
    rep(i,0,N) {
        int p; cin >> p;
        v[i] = make_pair(p, i);
    }
    sort(v.begin(), v.end());

    int ans = 0;
    rep(i,0,N) {
        chmax(ans, v[i].second - i);
    }
    cout << ans + 1 << endl;
    return 0;
}

こういうシンプルな考察ができる頭になりたい。

2017-09-30

天下一プログラマーコンテスト 2016 予選 A C: 山田山本問題

AtCoder 文字列グラフ

hogehoge アルゴリズムのライブラリを貼るだけで解けるんじゃなくて、それにひと工夫加えないと解けない問題すき
— tsutaj@進捗 6/35 (@_TTJR_) September 29, 2017

この手の問題すき。すきだから記事を書いてしまう。

問題概要

原文を参照してください → C: 山田山本問題 - 天下一プログラマーコンテスト2016予選A | AtCoder

解説

まずは、 $A_{i}$ を $B_{i}$ より辞書順で小さくするには、どのような戦略が必要かを考えてみましょう。

辞書順で大きく / 小さくなる場合は

両方の文字列の $k-1$ 文字目まで一致しており、 $k$ 文字目が異なっている場合
片方の文字列が、もう片方の文字列の prefix と完全一致している場合

の、 $2$ 通りしかありません。

$1$ 番目については、各文字列の $k$ 文字目を見て、どの文字がどの文字よりも辞書順で小さくなる必要があるかを見れば十分です。例えば、 "yamamoto" と "yamada" は $4$ 文字目まで一致していますが、 $5$ 文字目が異なっているので、 $5$ 文字目のアルファベットについて注目すれば十分であり、この場合だと 'm' が 'd' よりも辞書順で小さく定義される必要があります。

$2$ 番目については、 $1$ 番目と違って辞書順の定義を変えたらどうにかなるものではありません。どういうことなのか、もう少し掘り下げてみましょう。

文字列 $S$ が、文字列 $T$ の prefix と一致しているとします。 $S =$ "yama"、 $T =$ "yamamoto" などがその例です。このとき、 $S$ は $T$ よりも辞書順で必ず小さくなります。 これを踏まえると、

$B_{i}$ が $A_{i}$ の prefix と一致する場合は、条件を満たすアルファベットの順番が存在しない

と言えます。

さて、辞書順で大きい / 小さい / そもそも不可能かどうかの判定はこれで良いことが分かりましたが、あとはどのように構築すればよいでしょうか？

これは、各アルファベットを頂点とみなし、「アルファベット $c_{1}$ が $c_{2}$ よりも辞書順で小さく定義される必要がある」という情報を、 $(c_{1}, c_{2})$ の有向辺を張って*1 表現することで、糸口が見えてきます。この有向グラフが DAG であることと、条件を満たすアルファベットの順番が存在することが同値なので、トポロジカルソートをすれば良いです。

ただし、適当にトポロジカルソートをやってしまうと辞書順最小が果たせないため、少し工夫をします。例えば Kahn のアルゴリズムでは入次数 $0$ の頂点を queue に入れてよしなにトポロジカルソートをやると思うのですが、この queue を priority_queue に変えることで、現時点で使える頂点のうち常に辞書順最小のものが手に入るため、辞書順最小のアルファベット列が構築できます。

ソースコード

template <typename T>
vector<int> tpsort_Kahn(const vector< vector< Edge<T> > > &g) {
    const int V = g.size();
    vector<int> indeg(V, 0);
    priority_queue< int, vector<int>, greater<int> > S;

    rep(i,0,V) rep(j,0,g[i].size())
        indeg[ g[i][j].to ]++;
    repr(i,V-1,0) if(indeg[i] == 0) S.push(i);

    vector<int> ans;
    while(S.size() > 0) {
        int u = S.top(); S.pop();
        ans.push_back(u);
        rep(i,0,g[u].size()) {
            indeg[ g[u][i].to ]--;
            if(indeg[ g[u][i].to ] ==  0)
                S.push( g[u][i].to );
        }
    }
    return ans;
}

int keynum(string a, string b) {
    int N = a.length(), M = b.length();
    rep(i,0,min(N,M)) {
        if(a[i] != b[i]) return i;
    }
    if(N < M) return -2; // OK
    else return -1; // NG
}

signed main() {
    int N; cin >> N;

    Graph<int> G(26);
    bool ng = false;
    rep(i,0,N) {
        string a, b; cin >> a >> b;
        int key = keynum(a, b);
        if(key == -1) ng = true;
        else if(key >= 0) {
            int p = a[key] - 'a', q = b[key] - 'a';
            G[p].push_back(Edge<int>(q, 1));
        }
    }

    vector<int> tp = tpsort_Kahn(G);
    if(tp.size() != 26) ng = true;

    if(ng) cout << -1 << endl;
    else {
        string ans = "";
        rep(i,0,tp.size()) {
            ans += ('a' + tp[i]);
        }
        cout << ans << endl;
    }
    return 0;
}

ライブラリを少しいじらないと正解にならない問題ほんとすき。

*1:例えば "yamamoto", "yamada" では 'm' が 'd' よりも小さい必要があるので ('m', 'd') の有向辺を張る

2017-09-06

天下一プログラマーコンテスト 2016 C: たんごたくさん

文字列 AtCoder

初めて Trie 木を使ったので、ハマったところとかを記事でまとめておきます (完全に自分用)

問題概要

原文参照 → C: たんごたくさん - 天下一プログラマーコンテスト2016本戦（オープンコンテスト） | AtCoder

解説

与えられる単語すべてを検索対象として、Trie 木を作ります。

文字列 $S$ の $i$ 文字目 $s_i$ を左端とする $S$ の部分文字列であって、単語と完全一致するものを考えます。単語の長さが高々 $200$ であることから、部分文字列の選び方は $200$ 通りしかありません。この制約だと、部分文字列の左端を決め打ちしてこの $200$ 通りを全て試すことで間に合うため、それを基にして DP を実装すればよいです。

ただ、部分文字列を作るために substr を使ったり、文字列検索のためにいちいち trie 木の根から走査していくと TLE になるため、前の結果をうまく使う必要があります。自分の実装では、文字列検索時に Trie のポインタを動かして、部分文字列の右端が右に移動する (= 部分文字列が 1 文字増える) ときに前の結果を用いて高速に処理するようにしています。

ソースコード

struct Trie {
    Trie* node[26];
    int score;
    Trie() {
        score = 0;
        fill(node, node+26, (Trie *)0);
    }
    void insert(const string &s, int val) {
        Trie* r = this;
        for(size_t i=0; i<s.length(); i++) {
            int c = s[i] - 'a';
            if(!r -> node[c]) r -> node[c] = new Trie;
            r = r -> node[c];
        }
        r -> score = val;
    }
    Trie* find(const char &s, Trie* pos) {
        int c = s - 'a';
        if(!pos -> node[c]) return (Trie *)0;
        return pos -> node[c];
    } 
};

string p[5010];
int score[5010], dp[200010];

signed main() {
    Trie trie;
    string s; cin >> s;
    int M, N; cin >> M; N = s.length();

    rep(i,0,M) cin >> p[i];
    rep(i,0,M) cin >> score[i];
    rep(i,0,M) trie.insert(p[i], score[i]);

    rep(i,0,N) {
        Trie* cur = &trie;
        repq(k,1,200) {
            if(i+k > N) continue;
            char target = s[i+k-1];
            Trie* next;
            if(cur != (Trie *)0) {
                next = trie.find(target, cur);
                cur = next;
                chmax(dp[i+k], (cur != (Trie *)0) ? dp[i] + cur -> score : dp[i]);
            }
            else chmax(dp[i+k], dp[i]);
        }
    }
    cout << dp[N] << endl;
    return 0;
}

ハマったところ

出現する文字は英小文字のみなので Trie のポインタ配列は 26 あれば十分 (ライブラリでは 256 にしていて、それをそのまま使うと MLE した)
find は前の結果をうまく使わないと遅くなる (いちいち trie 木の根からやるのはアウト)
左端を固定するとき、ある部分文字列に対してマッチするものがなければ、その後右端を伸ばしてもマッチするはずはないが、値の伝搬は忘れない (break で抜けると伝搬が起こらないのでアウト)

hogecoder

tsutaj 競技プログラミングの記録

CS Academy: Sorting Steps

問題概要

解説

ソースコード

天下一プログラマーコンテスト 2016 予選 A C: 山田山本問題

問題概要

解説

ソースコード

天下一プログラマーコンテスト 2016 C: たんごたくさん

問題概要

解説

ソースコード

ハマったところ