2021-12-21

技術的負債は開発者体験を悪化させる

ソフトウェアエンジニアにとって、技術的負債が増え続けるソフトウェアプロダクト開発現場に身を置くことがどれほど苦痛なことであるか。エンジニアリング組織のマネジメントを長年担ってきて、それは強く感じるところだ。

中途採用の選考プロセスに面接官として参加し、これまで数多くの退職理由を見聞きしてきた。その中で、レガシーシステムをリファクタリング・リアーキテクティング・リライトできないことへの不満を理由として挙げるエンジニアは多かったように思う。裏を返せば、自社のソフトウェアプロダクトが技術的負債にまみれたまま放置されているなら、優秀な人材が他社に流出するリスクがあると認識すべきだ。

本稿では、技術的負債と開発者体験の関係について紐解くとともに、それに対してソフトウェアエンジニアリング組織を預かるマネージャーが取るべき行動について考えてみたい。

※これは、Engineering Manager Advent Calendar 2021 の21日目の記事です。

バックログアイテムの分類にみる不可視領域と開発者体験の関係
Failure Demand という利子の支払いに追われるエンジニアの疲弊
開発者体験の悪化が組織を単なる集団に変えていく
技術的負債が増え続ける背景
コード品質にもSLOとエラーバジェットを
負債ベースラインと負債上限によるポリシー策定
高い保守性というコーディング指針の言語化
継続的インスペクションによるコードレビュー負荷の軽減と手戻りの防止
技術的負債の原因の多くはアーキテクチャ選定の失敗
最後に - エンジニアが組織やプロダクトに誇りを持つために
追記：YouTube Liveでの登壇時のアーカイブ

バックログアイテムの分類にみる不可視領域と開発者体験の関係

下の図は、バックログに含まれるアイテムをカテゴライズし、4色に色分けしたものだ。フィリップ・クルーシュテン（Philippe Kruchten）によって2009年頃に考案され、"What Colo(u)r is Your Backlog?" というタイトルで発表された。ここでは2013年に彼のブログ記事で紹介されたバージョンに基づいている。技術的負債（technical debt）を返済するためのアイテムは、右下の黒いエリアにカテゴライズされている。

四象限の左側にカテゴライズされたバックログアイテムは、ソフトウェアプロダクトの「振る舞い（behavior）」を変える・正すものだ。振る舞いは目に見える（visible）。「振る舞いを変える/正す」目的は、「ユーザー体験（UX, User eXperience）」を向上・改善することだろう。

対となる右側にカテゴライズされたバックログアイテムは、ソフトウェアプロダクトの「構造（structure）」を変える・正すものだ。構造は目に見えない（invisible）。「構造を変える/正す」目的は、振る舞いの「変更容易性（modifiability）」を向上・改善することだろう。

「振る舞いを変える/正す」のはエンジニアの役割なのだから、ソフトウェアプロダクトの変更容易性の良し悪しは、エンジニアの体験に影響を与える。「構造を変える/正す」意思決定が適切になされないと、「開発者体験（DX, Developer eXperience）」が悪化することが想像できる。

フィリップ・クルーシュテンの同ブログ記事にも書かれているように、右上の黄色いエリアである「アーキテクチャ（architectural, structural features）」にカテゴライズされるアイテムに手を付けない選択は、右下の黒いエリアである「技術的負債」にカテゴライズされるアイテムの増加につながってしまう点も留意すべきだろう。

Failure Demand という利子の支払いに追われるエンジニアの疲弊

変更容易性の悪化が、ソフトウェアデリバリのリードタイム（lead time for changes）を悪化させることは言うまでもない。マーティン・ファウラー（Martin Fowler）によれば、コード品質を高く保つコストを削ることで生産性を上げる試みが通用する期間、いわゆる "design payoff line" に到達するまでの時間は、せいぜい数週間以内だと言う。

それに加え、複雑化しすぎたコードを変更することは、多くのバグを生み出しやすい。それがリリース後の障害となり、変更失敗率（change failure rate）を押し上げる。こうしてエンジニアは度重なる障害対応に追われ、精神をすり減らし、疲弊していく。

このような、本来やるべきことをやらなかったために後から強いられる労力のことを "failure demand" と言う。技術的負債のメタファーで言えば、「利子を支払う」といったところだろう。この利子の支払いは、エンジニアが新たな価値を生み出す "value demand" のための時間を奪い、開発現場は益々混乱していく。書籍『LeanとDevOpsの科学』によれば、ローパフォーマーに分類される組織は、ハイパフォーマーに対して「予定外の作業や修正作業」にかかる時間比率が6ポイントも高い。

経営者やビジネスマネージャーからすれば、少しの振る舞いの変更に、なぜこれほどまでに時間がかかるのか理解できない。その上、障害まで頻発する。こんなことが続けば彼らは、エンジニアに対して不満と不審感を抱くようになる。その感情はエンジニアにも伝わる。エンジニアはきっと、やり切れない気持ちになるだろう。

開発者体験の悪化が組織を単なる集団に変えていく

2012年に行われたGallupの調査では、従業員エンゲージメント（employee engagement）の高さで上位4分の1に入る企業は、下位4分の1の企業に対し、顧客評価で10%, 生産性で21％, 収益性で22％上回った。また、欠勤は37%, 離職率は25%から60%、品質上の欠陥は41%下回った。

従業員体験（EX, Employee eXperience）は、従業員エンゲージメントに影響すると言われている。開発者体験も同様だろう。

先述したように、「構造を変える/正す」ことを軽視することは、リードタイムや変更失敗率といったソフトウェアデリバリのパフォーマンスを悪化させる。しかし、従業員エンゲージメントに関する調査結果からもわかるように、開発者体験が悪ければ、ソフト面からビジネス成果や組織の持続可能性を押し下げることになる。

これは、チェスター・バーナード（Chester I. Barnard）の言う組織の3要素のうちのひとつである「協働意思（willingness to serve）」が失われるからだろう。組織が組織たり得ず、単なる人の集まり、つまりは「集団」の状態に陥ってしまうのだ。

技術的負債が増え続ける背景

このような問題を生み出す背景のひとつには、「振る舞いを変える/正す」ためのバックログアイテムばかりが優先順位の上位に並んでいるという状況がある。「構造を変える/正す」ためのバックログアイテムに着手される日は、なかなかやってこない。

優先順位の決定権者にとっては、ユーザー体験を高め、プロダクトのユーザー価値を高めることこそが優先課題だ。それが、プロダクトのビジネス価値向上につながる道だからだ。ソフトウェアの「構造を変える/正す」ことに取り組んだところで、少なくとも短期的にはビジネスに良い影響を与えるように感じられない。そんなものは少しでも後回しにして、「振る舞いを変える/正す」ことに集中したい。

エンジニアの不満は主にここに集中しがちであるが、技術的負債が増え続ける主たる理由は本当にこれだけだろうか。

それを知るためには、技術的負債と呼ばれるコードを自分の目で確かめると良い。そうすると、別の根深い問題が潜んでいることに気づく。とんでもなく低い技術レベルで書かれたコードが数多く紛れ込んでいるからだ。

書籍『How Google Works』によれば、Google（Alphabet）社には、「採用の質を犠牲にしてまで埋めるべきポストはない」という不可侵な黄金率があるという。採用において、速さか質かという選択肢が迫られる場面では、必ず質を選ぶことで優秀なエンジニアの獲得にこだわる。

しかし多くの企業では、採用でそこまでの質を追求できないのが実情だろう。世界屈指のテック企業と比べたら、そもそもの応募者数が違う。結果、社内のエンジニアのスキルは玉石混交、優秀なエンジニアもいれば、プログラミング言語仕様やプログラミングパラダイムを十分に理解していないエンジニアも存在することになる。社内にエンジニアが増えていく企業フェーズでは特に、こういったことが起こりやすい。

そんな状況で、均一的に質の高いコードを維持することは難しい。エンジニア育成にも時間がかかる。数少ない優秀なエンジニアだけでこの状況をカバーすることは不可能だ。

つまり、技術的負債が増え続ける主な背景はふたつ。ひとつは、返済する意思のない無計画な借金を積み重ねること。もうひとつは、一度の借り入れ額が大きくなりやすい問題（技術スキルの低さ）を抱えていること。

マーティン・ファウラーは、前者を「意図的（deliverate）」かつ「無謀（reckless）」な負債と呼び、後者を「無自覚（inadvertent）」かつ「無謀（reckless）」な負債と呼んだ。下の四象限の左上と左下がそれにあたる。

コード品質にもSLOとエラーバジェットを

さて、まずは「意図的」かつ「無謀」な技術的負債への対処方法を考える。

いつまで経っても優先順位の上がらない「構造を変える/正す」ためのバックログアイテムに着手することを、関係者から合意を取り付けようとする開発チームの交渉は、なかなか上手くいかないことが多い。そうであればその大役は、マネージャーの責務であると考えるべきだろう。

しかし、その実践はなかなかに骨が折れる仕事だ。関係者との力関係も影響するし、強力で洗練された説得力も必要になる。その上、こういった交渉の必要性は一度だけでなく、度々発生するであろうことを考えると、対応コストが高すぎる。マネージャーが開発プロセス上でのボトルネックになりかねない。どこかに優先順位付けのための良いバランスツールはないのだろうか。

SRE（Site Reliability Engineering）に、「エラーバジェット（error budget）」というものがある。例えば、あるAPIへのリクエストの95%のレスポンスタイムが400ミリ秒以下であることをSLO（Service Level Objective）としていた場合、400ミリ秒を超えるリクエストが5%未満の間はサービスレベルとして許容できる。この許容幅をエラーバジェットと言う。この考え方が、技術的負債についても応用できそうだ。

エラーバジェットの優れている点は、システムの変更を担う開発サイドと、システムの信頼性を担う運用サイドの対立を、両者の力関係ではなく客観的なメトリクスで解決した点だ。エラーバジェットが枯渇するまではシステムを自由に変更できるが、許容値を超えると機能リリースを止め、信頼性回復に注力する。

このSLOやエラーバジェットのようなものを、コード品質にも取り入れたい。コード品質は静的コード解析ツールなどを利用してメトリクス化できる。そのメトリクスを使ってSLOを策定し、バックログの優先順位決定権者と握っておくのだ。そうすれば、「振る舞いを変える/正す」ことによって生じた技術的負債の量がバジェットを超えた時、開発チームは、「構造を変える/正す」ことに着手できるようになる。

なお、既存のソフトウェアプロダクトのコード品質をメトリクス化すると、最初はひどい結果になる。導入初期段階でのSLOは低めに設定し、徐々に理想的なラインに近づけていく運用にすると良いだろう。

さてこれで、我々マネージャーはコストの高い交渉業務から解放された。やるべきことはただ、この説得力の高いバランスツール導入への同意を関係者から取り付けるだけとなった。

負債ベースラインと負債上限によるポリシー策定

書籍『リーン開発の現場』の著者でもあるヘンリック・クニバーグ（Henrik Kniberg）が、技術的負債のマネジメント手法について、「負債ベースライン（debt baseline）」と「負債上限（debt ceiling）」による許容範囲を設けることをブログ記事で提案している。技術的負債がこの許容範囲内に入るようマネジメントしようというものだ。負債上限を超えたら全ての機能開発を止めて、クリーンアップに専念する。この手法が、コード品質のSLOやエラーバジェットの導入にちょうど合う。

ベースラインがある理由は、技術的負債の最後のひとつひとつを取り除いてゼロにする労力が大きすぎるからだ。

また、グラフがノコギリ歯状になっている理由は、振る舞いを変更するバックログアイテム、つまり新機能が提供する価値を仮説だと考えているからだ。リリース後の検証結果によってはその機能の提供を中止するかもしれないし、大幅に方向性を変えるかもしれない。それを前提とすると、仮説である間はコード品質を求め過ぎるのも非効率だ。検証によって価値が証明されてからクリーンアップするのが効率的だろう。これをサイクルとして繰り返すことが、ノコギリ歯で表現されている。それでも取りこぼしがあるだろうから、少しずつ技術的負債が増えていくという構図だ。

ちなみにここでは、素早く仮説検証するために生じた、数日から一週間以内の技術的負債を「良い技術的負債（good technical debt）」と呼んでいる。「意図的」かつ「慎重」な負債にカテゴライズされるものだろう。

技術的負債やコード品質のメトリクス化は、先述の通り静的コード解析ツールを利用するのが良いと思うが、そのメトリクスも完全なものとはならない。ヘンリック・クニバーグの同ブログ記事にもあるように、現場エンジニアの意見を取り入れるのも良さそうだ。

高い保守性というコーディング指針の言語化

次に、「無自覚」かつ「無謀」な技術的負債への対処方法を考える。もちろんエンジニアの技術力の底上げも必要であるが、本稿の趣旨とは外れるためここでは触れないこととする。

コード品質に対するSLOやエラーバジェットの導入は、コード品質の可視化と基準を明確にする。しかし、どのようにしてその基準を達成するのかについては明らかにしていない。つまり、どのように「コーディング」すれば、求めるコード品質となるのかが不明瞭だ。

残念ながら、静的コード解析のメトリクスが良いスコアになったからといって、それが必ずしも「コード品質が高い」ことを表しているとは言いきれない。それでなくても数値目標は、自己目的化しやすい。数値を追いかけるだけになってしまっては、目的は達せられない。どういうコードが「品質が高い」と言えるのか、それはどのようにコーディングすれば到達できるのか、開発チームと共同で言語化し、指針を明確にすべきだろう。

技術的負債をクリーンアップする方法と言えば、「リファクタリング（refactoring）」が真っ先に思い浮かぶ。指針を検討する上で、これが糸口となりそうだ。

リファクタリングの目的は、コードの変更容易性の向上・改善に加え、「理解容易性（understandability）」を向上・改善することだ。コードを変更するには、コードを読み、変更対象となる箇所を特定する必要がある。理解容易性が高いコードは、この探索活動の難易度を下げてくれる。

そして、リファクタリングには自動テストが付きものだ。変更後のコードが仕様通り動くことを簡単に確認するためだ。ここで、「テスト容易性（testability）」が向上する。

このように、リファクタリングによって得られる効果、すなわち「品質の高いコード」とは、変更容易性・理解容易性・テスト容易性が高いコードに他ならない。バリー・ベーム（Barry Boehm）らは、これらの品質特性をまとめて、「保守性（maintainability）」と呼んだ。

目指すべき品質の高いコードとは、変更容易性・理解容易性・テスト容易性を兼ね備えた保守性の高いコードであることは分かった。これは、構造を変える・正すためにリファクタリングする時だけではなく、振る舞いを変える・正すためにコードを書く時にも言えることだ。そして同時に、お馴染みの手法や活動の目的も次のように明確になる。

変更容易性・理解容易性・テスト容易性の高いコード設計を導く「TDD（Test-Driven Development, テスト駆動開発）」
テスト容易性を上げる「テスト自動化（test automation）」
保守性の高さを観点とした「コードレビュー」、または「ペアプログラミング」「モブプログラミング」

特に、いくつかのチームリーダーやマネージャーにコードレビューの観点についてヒアリングしたところでは、明確な基準が存在していないケースが多かった。それでは一貫したコード品質は得られない。保守性の高いコードとはどういうものであるかをチームで具体化し、それを観点とするレビューが実施できる状態を目指したい。

なお、「どのようにコーディング」コーディング指針やモジュールの依存関係に関するルールなどをテストコードにすることもできる。こちらについては、記事『ArchUnitでアーキテクチャをテストする - mtx2s’s blog』に書いた。

mtx2s.hatenablog.com

継続的インスペクションによるコードレビュー負荷の軽減と手戻りの防止

ところで、コードレビューには2点ほど問題があると考えている。

ソフトウェアデリバリのリードタイム改善を進めていた時に気付いたのだが、コードレビュー待ちで止まってしまうワークアイテムがそれなりに多い。レビュアーが複数のレビューを抱えていたり、自身もコーディング中のワークアイテムを抱えていたりして忙しいからだ。

ある調査によると、コードレビューの効果を高めたいなら、「一度にレビューするのは400LOC未満」「一時間あたり500LOC以下」「一度に60分以上のレビューをしない」のが良いらしい。それなりに時間がかかる。忙しい身で品質の高いレビューは難しい。これが一つ目の問題だ。

二つ目の問題は、コードレビューがコーディングの最後に行われる点だ。大きな問題が見つかった時の手戻りが痛い。

これらの問題の対策として、ペアプロやモブプロも良いのだが、あわせて「継続的インスペクション（continuous inspection）」の導入も検討したい。せっかく静的コード解析ツールを導入したのなら、それをCIのパイプラインに組み込み、コーディング中、プルリク時、ビルド時に自動で検査すれば良い。そうすることで、レビューによる負荷も軽減されるし、コーディング段階からコード品質を検査することが可能になる。

技術的負債の原因の多くはアーキテクチャ選定の失敗

Software Engineering Institute（SEI）が、大企業3社（39ビジネスユニット）で働くソフトウェアエンジニアとアーキテクトを中心とする1,831名を対象に行った調査によると、技術的負債の原因として回答者に最も多く選択されたのが「アーキテクチャ選定の失敗」だった。

下のグラフは、14の選択肢をプロジェクトにおける負債の量でランク付けするよう求めた結果を、1位、2位、3位のいずれかに選んだ回答者の数で集計したものだ。

アーキテクチャを入れ替えるには、大規模なリファクタリング、いや、おそらく「リアーキテクティング（rearchitecting）」が必要になる。

リアーキテクティングは時間がかかる上に、場合によってはその実施期間中、新機能開発を止めなければならないこともある。プロダクト開発に対してそのような厳しい制約を課すバックログアイテムの着手には、優先順位決定権者も簡単には許可を出せない。

しかしそれは、提案したリアーキテクティング計画の着手時期が早すぎるからだ。ビジネスには四半期や半期、通期ごとに目標がある。優先順位決定権者は、リアーキテクティングの実施が目標達成に影響を及ぼすことを危惧している。

だから、リアーキテクティングの実施を、目標達成に影響を及ぼさない時期にプロットすれば、意外とすんなり受け入れられる。次の目標策定時の計画に含められるからだ。そのためにもリアーキテクティング実施計画は十分に前もって準備を進めておきたい。

もちろん、リアーキテクティングを成功させるためには、十分な技術スキルとドメイン知識を持ったアーキテクトの存在と、その設計思想を適切にコードに変換できる能力がチームに求められることは、言うまでもないだろう。

最後に - エンジニアが組織やプロダクトに誇りを持つために

過去に、私がマネジメントすることになったばかりの組織のエンジニア数名に対して「もし、開発業務として自由な時間があるなら何がしたい？」と聞いたことがある。彼らの答えは概ね、担当する既存プロダクトのリファクタリング・リアーキテクティング・リライトのいずれかだった。これは、冒頭に書いた退職理由と同じだ。彼らは自分たちが作り上げたソフトウェアプロダクトやチームにも誇りを持っていなかった。むしろ否定的だった。

私は、自らが担当するエンジニアリング組織のミッションを、組織としての「プロダクト開発能力の差異化」だと定義している。市場においてプロダクトの優位性を獲得することに高い再現性のある組織を目指していると言えば伝わるだろうか。

mtx2s.hatenablog.com

その開発能力の源泉となるのは、チームやプロダクトに誇りを持って開発を続ける優秀なエンジニアたちだ。技術的負債の放置は、リードタイムや変更失敗率が悪化するというソフトウェアデリバリ面だけでなく、開発者体験、言い換えれば従業員エンゲージメントを悪化させる。これでは「プロダクト開発能力の差異化」の実現が遠のいてしまう。それだけに、技術的負債のマネジメントは、エンジニアリング組織を預かるマネージャーの重要な責務だと考えている。

追記：YouTube Liveでの登壇時のアーカイブ

本稿公開からちょうど1年後にあたる2022年12月21日に、本テーマをもとにイベント登壇した。タイミー社が主催するTech勉強会「技術的負債の返済から改善する開発者体験 - Techmee vol.5」でのゲスト公演枠で、その時の様子はYouTubeにアーカイブされている。

www.youtube.com

timeedev.connpass.com

登壇時の資料はspeakerdeckに置いてある。

speakerdeck.com

2021-10-17

クネビンフレームワークとソフトウェアエンジニアリング

2007年にクネビンフレームワークが Harvard Business Review で紹介されて以降、ソフトウェアエンジニアリングの世界では、アジャイル開発、特にスクラムを採用すべき理由の説明で本フレームワークが用いられるようになった。

リーダー向けツールとして開発された意思決定のためのフレームワークが、いったいどのようにして、ソフトウェアエンジニアリングの開発プロセスモデルや開発方法論を説明するというのだろうか。

本稿では、クネビンフレームワークがどういうものであるかを紐解きつつ、その具体例として、ソフトウェアエンジニアリングの現場に適用することを試みる。

クネビンフレームワークとは
Simple / 単純な状況にある領域
Complicated / 込み入った状況にある領域
Complex / 複雑な状況にある領域
Chaotic / カオスな状況にある領域
Disorder / 無秩序な領域
スクラムの祖野中郁次郎との関係性
最後に - 複雑な領域に挑む「攻め」の姿勢とイノベーション

クネビンフレームワークとは

クネビンフレームワーク（Cynefin framework）は、リーダーが直面する状況をカテゴライズし、そのそれぞれに適応した意思決定（decision making）プロセスを提供するツールだ。経営コンサルタントであり、ナレッジマネジメントと複雑系科学の研究者である David J. Snowden らによって、1990年代終わり頃に第一世代が開発された。

その後、現在の第三世代が、"A Leader’s Framework for Decision Making" というタイトルで英語版 Harvard Business Review の 2007年11月号にて紹介されると、翌2008年の Outstanding Practitioner-Oriented Publication in OB アワードを受賞するなど、大きな反響を読んだ。この時の記事は、日本語版ハーバード・ビジネス・レビューの2008年3月号で『臨機応変の意思決定手法「クネビン・フレームワーク」による』として読むことができる。

フレームワークはその後も進化を続けているが、本稿では基本的に、この日本語版ハーバード・ビジネス・レビューの2008年3月号で紹介されたバージョンをもとに書いている。

クネビンフレームワークでは、取り扱う問題が置かれた状況を次の五つの領域（domain）に分類している。

Simple / 単純な状況
Complicated / 込み入った状況
Complex / 複雑な状況
Chaotic / カオスな状況
Disorder / 無秩序

この五つの領域は、状況を生じさせている原因と結果の因果関係の明確さの度合いによって分類されている。そして、その領域それぞれに対し、意思決定のためのプロセスモデルが定義されている。

Simple / 単純な状況にある領域

この「単純（Simple）」という呼び名は、実はもう使われていない。2021年10月現在では、「明白（Clear）」と呼ばれ、その前は「単純（Obvious）」と呼ばれていた。いずれにしても、現時点では日本語での名称が未定義のようなので、クネビンフレームワークを紹介するドキュメントによって、若干の表記揺れがある。

単純な状況は、原因と結果の因果関係が誰の目にも明らかである問題領域だ。対応方法には必ずベストプラクティスが存在し、いずれを選択するかが重要だ。

この領域は、ソフトウェアエンジニアリングというより、アプリケーションを利用するシーンをイメージすると分かりやすい。

オンラインで開催される技術カンファレンスで、フロントエンド開発に関する5分間のライトニングトークを受け持つことになった。5分という短い時間とはいえ、トークだけで聴かせるのはなかなかハードルが高い。数枚のスライドを画面に映しながら話すことにしたので、プレゼンテーションソフトを使い、スライドを作り始めた。

ここでの意思決定プロセスモデルは、「把握 - 分類 - 対応（sense - categorize - respond）」だ。

把握 - ライトニングトークのハードルを下げるため、スライドを使う
分類 - プレゼンテーションソフトを使うことにした
対応 - スライドを作った

エンジニアっぽい例を挙げたが、経営者の視点での例を挙げるなら、IT化が進んでいない企業が業務改善を目的としてオフィススイートやグループウェアを導入するといったケースも、単純な状況に該当するだろう。

Complicated / 込み入った状況にある領域

「込み入った（Complicated）」は、「煩雑（Complicated）」と表記されることもある。

ここで扱う問題領域は、その原因と結果の因果関係を特定して適切な解決策を導き出すために、専門家の分析が必要になる。例として、業務システムの開発を考えてみよう。

事業規模の拡大によって非効率になった業務領域に対し、新たな業務システムの導入を検討している。ネットを使って様々なパッケージソフトを調べてはみたが、それらが問題を解決できるのかわからない。そこで、この業界を専門とするシステムコンサルに入ってもらうことにした。そして、コンサルによる業務分析の結果、いくつかのパッケージソフトを組み合わせ、カスタマイズした上で導入することになった。

ここでの意思決定プロセスモデルは、「把握 - 分析 - 対応（sense - analyze - respond）」だ。

把握 - 事業規模の拡大によって業務が非効率になった
分析 - 専門家による業務分析を行った
対応 - パッケージソフトを組み合わせ、カスタマイズした上で導入した

ここで扱う問題は、当事者にとっては未体験でも、業界にとっては未知の領域ではない。様々な人が何度も対峙してきた問題であり、その対応法が型化され、いくつかのプラクティスとなっている。そうして体系化されたナレッジを有している存在である専門家が、分析によって適切なプラクティスを選び出し、より具体化された対応法を提示する。

つまりこの領域は、不確実性が低く、予測可能性が高い領域だ。分析結果から得られた対応法が正しく問題を解決する可能性が高い。分析の品質が担保できればプロセスを後戻りすることもないので、段階的にプロセスを進めていくウォーターフォールモデルに向いた領域と言える。

しかし、ウォーターフォールでソフトウェアを作り上げた結果、ユーザーから「これじゃない」と言われたなら、対象としていた領域が実は複雑な状況であったのかもしれない。

Complex / 複雑な状況にある領域

「複雑（Complex）」は、前述した単純な状況や込み入った状況とは違い、その状況を生じさせている原因と結果の因果関係が、後になって分かる領域だ。その因果関係を見出すために、失敗しても影響が小さい実験を繰り返し、そこから成功パターンを見つけ出す。

コンシューマー向けソフトウェアプロダクトの自社開発を例に考えてみよう。

ユーザー調査によって、ターゲットユーザーの日常生活をより便利にするための方向性が見えてきた。それを新機能としてリリースすることはできるが、想定通りのユーザー価値になる保証はない。大規模に開発してリリースした結果、使われなければ無駄だ。そこで、ユーザー価値があるという仮説を検証する最小限の機能（MVP, minimum viable product）を作り、ユーザーに使ってもらうことで、ユーザー価値の有無を確認することにした。そして検証の結果、ユーザー価値が十分に確認できなかったため、仮説を組み直して新たに検証を進めることにした。

ここでの意思決定プロセスモデルは、「探索 - 把握 - 対応（probe - sense - respond）」だ。

探索 - MVP を作って検証した
把握 - ユーザー価値が十分に確認できなかった
対応 - 仮説を組み直すことにした

これは言うまでもなく、アジャイル開発系のソフトウェア開発方法論が得意とする開発プロセスだ。込み入った状況とは対照的に、不確実性が高く、予測可能性が低い領域であり、実験を繰り返すことで正解となるパターンを見つけ出すことを重視している。

Chaotic / カオスな状況にある領域

「カオス（Chaotic）」は、「混沌」と表記されることもある。

この領域は、その名の通りカオスだ。何が起きているのかを正確に把握することができない。状況は刻一刻と変わり続ける。得られる情報が断片的で、全貌が見えず、時間経過と共に様々な事象が検知され、報告されてくる。それ故、因果関係が明らかになることはなく、この段階で根本的な解決策を打ち出すことは不可能だ。

そもそも、解決策を見出すために探索したり、分析したりといった、そんな悠長な時間はない。止血することが最優先であり、とにかく、実効性のある一次対応を可能な限り打つことに集中する。そうして状況が安定してきたところで、ようやく根本的な解決策を見つけ出す活動に移行できる。

この状況をソフトウェアエンジニアリングの現場に当てはめてみると、真っ先に思い浮かぶのは、障害対応だろう。

企業向けに提供しているマルチテナントの SaaS プロダクトをアップデートし、新機能をリリースした。数時間後、ある顧客から「既存機能でエラーが出て、業務に必要なデータがダウンロードできない」という問い合わせが入った。他の顧客では同様の事象が発生していないようだったので、問い合わせのあった顧客が必要としているデータをひとまず手動で取得し、顧客に渡した。その直後ぐらいから、様々な機能からアラートが飛び始め、問い合わせが増え始めた。対応に追われ、社内はパニックだ。事象としては、いずれもデータベースとの接続で失敗しているようであった。しかし、調査・対策するにも時間がかかる。ひとまず今回のアップデートをロールバックすることで状況は落ち着いた。やはり、先程まで発生していた問題は、アップデートによる影響のようだ。被害状況を調査しつつ、原因の特定と対策に取り掛かった。

ここでの意思決定プロセスモデルは、「行動 - 把握 - 対応（act - sense - respond）」だ。

行動 - 手動でのデータダウンロードや、ロールバックなどの手を打った
把握 - ロールバックによって状況が安定したことで、アップデートによる影響であることがわかった
対応 - 被害状況の調査と、原因の特定と対策を進めた

このように、カオスな状況では、唐突に未知なる状況に追い込まれ、その緊急対応に追われる。

ソフトウェアエンジニアリングでは、カオスな状況を意図的に生み出すことで、前もって未知な問題への対応能力を高め、ソフトウェアシステムの信頼性をより高めようとする手法がある。それが、カオスエンジアリングだ。命名の由来は異なるようだが、「カオス」と名付けられている点が興味深い。

Disorder / 無秩序な領域

「無秩序（Disorder）」は現在、「混乱（confused）」と呼ばれているようだ。これは、現在の状況が、前述の四つの領域のいずれにあるのか、当事者が理解していない混乱した状態のことだ。そもそも、理解していないこと自体を本人が認識していない可能性もある。

この状態にある意思決定者は、自分の経験や好みに基づいて、意思決定プロセスモデルを選択する。よくある、アジャイル開発とウォーターフォールモデルの論争も、この辺りに起因しているのかもしれない。取り扱っている問題領域が複雑な状況にあるにもかかわらず、ウォーターフォールを採用している、といったように。さすがに、カオスな状況の中で、スクラムやウォーターフォールを使って問題解決しようとするなんてことは無いと思うが。

プロセスモデルや手法の選択は、個々のモデルの長所・短所や、モデル同士の比較だけで決定するのではなく、取り扱う問題領域がいずれの状況にあるのかを理解し、そこから導きだすべきなのだろう。

スクラムの祖野中郁次郎との関係性

クネビンフレームワークの構築にあたり、David J. Snowden 自身が、一橋大学名誉教授の野中郁次郎らの著書『知識創造企業』に刺激を受けたと述べている点が興味深い。

He also recalls being particularly provoked by Ikujiro Nonaka and Hirotaka Takeuchi’s book The Knowledge-Creating Company around converting tacit knowledge into explicit knowledge and around the whole Socialization, Externalization, Combination and Internalization (SECI) approach.

野中郁次郎と言えば、一般的には書籍『失敗の本質―日本軍の組織論的研究』の著者の一人として知られているが、ソフトウェアエンジニアリングの世界では、「スクラムの祖」としての方が知られているのではないだろうか。スクラムを作り上げたメンバーの一人である Jeff Sutherland が、その着想を得る原点が、野中郁次郎らが1986年に Harvard Business Review で公開した論文 “The New New Product Development Game” だ。

実際、Jeff Sutherland は、スクラムに関する自著で、スクラム理論の中心として David J. Snowden が参考にしたものと同じ書籍『知識造像企業』の「SECIモデル」を紹介しているようだ。

このような点からも、クネビンフレームワークとアジャイル開発の間接的な関係性がうかがえる。Cynefin.io にも、アジャイル開発に関する次のような記述がある。

Alongside this, the Cynefin® framework "took off" in a world of "Agile" software development, coming together with the "Agile Manifesto" in ways which have been "a rich source of ideas and practice ever since."

最後に - 複雑な領域に挑む「攻め」の姿勢とイノベーション

不確実性が低く、予測可能性の高い環境では、新しいものは生まれない。不確実性が高く、予測可能性の低い、複雑な状況にある領域に挑んでこそ、イノベーションが創発される。では、その観点で日本の現状を見てみるとどうだろうか。

ガートナージャパンによる2018年5月の調査では、日本国内でのアジャイル開発の採用状況は 17% 程度にとどまっている。ウォーターフォールの採用状況である 43% と比較するとかなり低い状況だ。

これは、日本国内でのIT投資の対象が「込み入った領域」であり、よりイノベーティブな「複雑な領域」に踏み込めていない現状を表しているのではないだろうか。これが、日本のIT投資が「攻め」ではなく「守り」だと言われる所以だろう。調査結果からは、ウォーターフォール採用の縮小と、アジャイル開発採用の拡大が読み取れるため、これからは期待が持てるようにも読み取れる。

また、『DX白書2021』で、日本のアジャイル開発の採用状況をアメリカと比較してみると（『DXを支える手法と技術』p.213）、日本の 19.3% に対し、アメリカは 45.8% と、大きく差が開いている。インターネットの登場以降、GAFAをはじめとするアメリカのテック企業に日本企業が後塵を拝しているのは、ここに起因するのではないだろうか。

note.com

よく言われるように、世の中は否応なしに複雑化している。少なくとも、複雑な状況にある領域にも関わらず、分析に時間をかけて機能要件を網羅するようなソフトウェアプロダクト開発は、無秩序な領域にはまり込んでいると言わざるを得ないだろう。

note.com

2021-09-05

開発組織を分散モノリスにしないチーム分割と協働のデザイン

複数チームに分かれたプロダクト開発スタイルをかえって不自由に感じてはいないだろうか。チーム間に張り巡らされた無数のチェーンが自由を奪い、チームの活動を束縛する。そんな感覚だ。

組織を複数のプロダクト開発チームに分割する組織アーキテクチャは、マイクロサービスアーキテクチャに例えることができる。そこから見いだせる原則は、チームをコンポーネントとして捉え、凝集度を高く、結合度を低く設計することだ。この原則を軽視すると、チーム間の依存関係が互いをチェーンのように繋ぎ、絡み合い、組織全体を「分散されたモノリス」に変えてしまう。その結果として、チームは日々、多大な調整コストや遅延コストを支払い続ける羽目になる。

では、既存のソフトウェアプロダクト開発において、個々のチームが活動しやすい分散型組織の設計とはどういうものだろうか。あくまでも私の経験や考えに基づくものではあるが、本稿はこれをテーマに書いてみたい。

「分散されたモノリス」と化したプロダクト開発組織
チーム分割と協働のデザイン
よくある問題へのソリューション
最後に - 組織は戦略に従い、システムは組織に従う

「分散されたモノリス」と化したプロダクト開発組織

チーム間を縛りつける制約というチェーン

「凝集度（cohesion）」と「結合度（coupling）」は、ソフトウェアコンポーネントのモジュール性（modularity）の程度を示す尺度だ。凝集度が高いほど、また、結合度が低いほど良いとされる。

凝集度が高いコンポーネントは、それが提供しようとする特定の機能に対し、関係性の高い責務を網羅的に含み、関係性の低い責務をほとんど（あるいは全く）含まない。凝集度が高いと結合度が低く、凝集度が低いと結合度が高い傾向がある。

チームとは、組織を構成するコンポーネントだ。ソフトウェアコンポーネントと同様に、チームにも凝集度と結合度がある。そして、チーム間の結合は、チームの活動に制約を課す。

本来、デリバリパフォーマンス上で好ましい組織の状態とは、チーム間が疎結合であり、それぞれのチームが独立してミッション遂行が可能であることだろう。チームが何かをしようとするたびに、他のチームに何らかの協力を依頼せざるを得ないようでは、高いパフォーマンスは期待できない。

しかし、結合による制約は、チーム間をチェーンで繋ぐかのように、互いの活動に干渉する。これらがクリティカルチェーンやクリティカルパスを形成し、ソフトウェアデリバリのリードタイム（lead time for changes）を悪化させる。それはまるで、互いが無数のチェーンで繋がれた「分散されたモノリス（distributed monolith）」のようだ。

本来、「分散されたモノリス」という言葉は、サービス間が密結合になってしまったマイクロサービスアーキテクチャを指すアンチパターンの名だ。しかしながら、組織設計のアンチパターンとしても、何ともしっくりくるではないか。

制約を生じさせる代表的な三つの結合要因

制約というチェーンを全て完全に断ち切ることは、おそらくできないだろう。しかし、その数を削減したり、緩和することはできる。そのためには、分散組織の凝集度を可能な限り高く、結合度を可能な限り低くなるよう、デザインする必要がある。

自組織の凝集度・結合度のレベルは、二つ以上のチームが参加するミーティングの実施頻度で把握できる。そこで話し合われているのは、互いのチーム活動に干渉し合う制約に対する調整だ。このような調整が頻繁に行われる組織は、チーム間の結合度が高い。

その調整のテーマは概ね次の三つのいずれかに大別できるのではないか。

複数チームによる人員の共有
複数チームによる同一案件の実施
複数チームによる同一コンポーネントへの変更

ソフトウェア開発の現場でよく見られるこれらの行為が、なぜチーム間の結合要因となるのだろうか。そこで生じる制約とはどういうものなのだろうか。

「複数チームによる人員の共有」による制約

チーム間での人員の共有、すなわち「兼務」や「兼任」と呼ばれるそれは、チーム間の結合度を高める要因となる。人的リソースの利用を接点として、チームとチームが互いのスケジュールに干渉し合うからだ。

二つ以上のチームが、ひとりの人員に対し、同時期に作業をスケジューリングしようとすると競合が起きる。その解決方法は二つ。ひとつは優先順位を決めて順に作業を終わらせること。もうひとつは複数の作業を同時に進めること。

前者の直列方式では、優先順位が低いとされた作業を抱えるチームが、先行の作業が終わるまで待たなければならなくなる。後者の並列方式では、マルチタスキングによって、いずれのチームの作業も、実行期間が長くなる。どちらにしても、結局はリードタイムを悪化させることになる。

兼務の問題は以前の記事「兼務はチームの独立性とのトレードオフ」で詳しく書いたので、そちらも参照してほしい。

mtx2s.hatenablog.com

「複数チームによる同一案件の実施」による制約

機能追加や機能改善といった開発案件をチームが進める上で、必要となる責務をチームが網羅できていない場合、欠けた責務を担う他のチームに協力を仰ぐことになる。つまり、チーム機能の凝集度が低いのだ。

ひとつの開発案件を複数のチームで協力して進めるには、互いのスケジュールを調整する必要がある。しかし、協力を依頼されたチームも手が空いているわけではなく、常に様々な開発案件を抱えている。そのため、依頼先チームでの作業スケジューリングが、依頼元チームの期待通りになるとは限らない。結果、このような協力関係は多くの場合、リードタイムを悪化させることになる。

この問題は、「バリューストリーム」という観点で別の記事「マルチバリューストリームというアンチパターン」でも取り上げたので、そちらも参照してほしい。

mtx2s.hatenablog.com

「複数チームによる同一コンポーネントへの変更」による制約

二つ以上のチームがそれぞれの開発案件の都合で、同時期に、同じコンポーネントに対して変更を加えようとすることがある。これが、チーム間の結合度を上げる。そうすると、変更しようとするコンポーネントに関するテストやデプロイの実施日について、チーム間での調整が必要となる。

テストやデプロイの実施を、チームを跨いで統合実施しようとすると、その実施タイミングはもっとも遅いチームに合わせることになる。逆に、テストやデプロイの実施をチーム間で優先順位を決めて順に実施しようとしても、優先順位が低いチームは先行チームの実施完了を待つことになる。いずれにしても、リードタイムを悪化させてしまう。

結合要因の排除

以上のように、三ついずれの結合要因においても、それぞれの制約によって、ソフトウェアデリバリのリードタイムを悪化させるに至っている。この制約が、冒頭で述べた「チームの活動を束縛する」という感覚を生じさせているのだろう。

本稿は、この三つの結合要因を可能な限り排除し、制約を削減・緩和することを戦術として、以下に具体的な施策を講じている。

チーム分割と協働のデザイン

チームというアトミックで不可分な単位としての活動

チーム内で複数の開発案件が並列で走ることはあり得る。しかし、マネジメント主体がそれぞれの開発案件ごとに分かれているなら、それはもはやチームとしての体を成していない。

こういうケースでは往々にして、個々の開発案件ごとにプロジェクト体制が敷かれ、専任のプロジェクトマネージャーが立ち、企画担当も含め、いくつかのチーム・組織から人が集められる。チームの存在は、都度発生するプロジェクトに人的リソースを提供するリソースプールでしかない。

このような体制に関する問題は、note に書いた記事「ソフトウェアプロダクトの機能追加・機能改善をプロジェクト体制で進めるのはもうやめよう」でも扱った。

note.com

そこでも書いた通り、プロジェクト体制は、兼務体制を生みやすい。つまり、「複数チーム（プロジェクト）による人員の共有」による制約を受けやすくなる。

また、「複数チーム（プロジェクト）による同一コンポーネントへの変更」による制約も受けることになる。

だからこそ、プロダクト開発を担うチームは、アトミックでありたい。チームメンバーが個々に活動するのではなく、チームとして活動するということだ。チームは不可分な存在であり、チームとして開発案件の実行に責任を持つ。複数の開発案件が並走したとしても、チームとしてそれらをまとめてマネジメントする。これが、分散組織をデザインする上での核となる基本原則だ。

単一の担当チームによるコンポーネントの開発・保守・運用

ソフトウェアプロダクトは、複数のコンポーネントの集合体として存在するものだ。ここでは、このコンポーネントというものの粒度を、「何らかのプラットフォーム（動作環境）にデプロイする単位」としよう。この定義は、『Microservices』での component の定義とも一致する。

Our definition is that a component is a unit of software that is independently replaceable and upgradeable.

（中略）

One main reason for using services as components (rather than libraries) is that services are independently deployable.

開発組織を複数チームに分割する時は、この独立してデプロイ可能（independently deployable）なコンポーネントに着目することが鍵となる。

プロダクト開発組織を複数のチームに分割する主な理由のひとつは、それぞれのコンポーネントごとに、唯一の担当チームを割り当てることにあると言っても良い。Products not Projects にもあるように、コンポーネントの開発・保守・運用は、原則として担当チームだけで行う。

これは、Amazon.com の CTO のワーナー・ヴォゲルズの言う “You build it, you run it” にも通じる。

もし、ひとつのコンポーネントに対し、複数のチームが変更を加えようとすると、「複数チームによる同一コンポーネントへの変更」による制約を受けることになる。そしてそれは、調整コストや遅延コストとして跳ね返る。コンポーネントの開発・保守・運用を唯一の担当チームで行うことが原則である理由のひとつは、ここにある。

コンテキストと更新頻度に着目したコンポーネントの兼務

コンポーネントの数が、現実的に編成可能なチームの数より多いこともある。必然的に、ひとつのチームが複数のコンポーネントを担当することになる。

担当コンポーネントの組み合わせは、「境界付けられたコンテキスト（bounded context）」が同じもの同士を寄せるべきだろう。そうしなければ、チームの凝集度が下がり、「複数チームによる同一案件の実施」による制約を受けるようになるからだ。

また、それと同時にコンポーネントの更新頻度にも着目しなければならない。更新頻度が高いコンポーネントを複数抱えることになったチームは、人的リソースの枯渇が状態化し、開発案件が滞るようになる。そうなったチームは、他チームから一時的に人的リソースを借り受ける形で「複数チームによる人員の共有」を発動させることを繰り返すようになる。

このような事態を極力避けるためにも、更新頻度の高いコンポーネントと、低いコンポーネントを組み合わせるようにすることもポイントになる。チームの負荷を平準化することが狙いだ。

次の四象限のように、二つ目以降のコンポーネントの兼務は、主たるコンポーネントとコンテキストが同じかどうかと、更新頻度が低いかどうかで決定すると良いだろう。

数多くのコンポーネントの開発・保守・運用に要する負荷の軽減や平準化については、他にもいくつか方法がある。ただ、それらは本稿のテーマである組織設計とは外れるため、今回は割愛し、別の機会で取り上げたいと思っている。

依存関係に着目したコンポーネントの兼務

コンポーネント間に、強い依存関係が存在することも多い。そこに着目せずにコンポーネントの担当チームを分けてしまうと、コンポーネント間の依存関係が、そのままチーム間の依存関係になってしまう。つまり、「複数チームによる同一案件の実施」の発動だ。

このチェーンを完全に断ち切ることは難しい。コンポーネント同士の依存関係を弱めるには、日々の蒸留を続け、コンポーネントのコンテキスト境界を時間をかけて整理するしかないからだ。

もし、依存関係にあるコンポーネントの組み合わせが同一のコンテキストに属すものであるなら、同一のチームの担当とすると良いだろう。そうすれば、「複数チームによる同一案件の実施」の発動を回避できる。

一方で、依存関係にあっても、コンテキストが異なるコンポーネントであるなら、担当チームは分けておいた方が良い。このような関係にあるコンポーネントの担当をひとつのチームにまとめると、コンポーネント間の依存関係の結合度がより強くなる傾向があるからだ。

コントリビューター／コミッターモデルでのフィーチャー開発と協働

「複数チームによる同一案件の実施」の必要性は、やはりどうしても発生してしまうものだ。すべてのチームの凝集度を完全に高めきることは不可能だからだ。それに、たとえ凝集度を完全に高められたとしても、境界づけられたコンテキストを横断するフィーチャー開発というものも日常的に発生する。こういう時は、制約を受けつつも複数チームで協働する道を選ぶことになるだろう。

しかし、協働するにしても、チーム間でのスケジュールが上手く噛み合わず、どうしても他のチームの協力を得られそうにないケースもある。

また、協働で進めるためのオーバーヘッドが、作業規模に対して大きすぎることもある。チームが単独で進めた方が効率が良いケースだ。

いずれのケースでも、案件の主担当チームが、他チームが担当するコンポーネントに対して変更を加えることになる。そうすると、本来の担当チームによるコンポーネントへの変更と、他チームによるコンポーネントへの変更が同時期に発生する。こうして、「複数チームによる同一コンポーネントへの変更」が発動する。

コンテキストを横断するフィーチャー開発における「複数チームによる同一コンポーネント」への変更

この時の制約への緩和策としては、OSS 開発のような、コントリビューター／コミッターモデルでのチーム間協働が適している。ここで言うコントリビューターは、他チームが担当するコンポーネントを変更するチームのことで、コミッターは、そのコンポーネントを本来担当するチームのことを指す。

コントリビューターチームは、必要な変更をプルリクとしてコミッターチームに投げ、コミッターチームは、それをレビューし、マージした上で、任意のタイミングでデプロイする。

このやり方はあくまでも「複数チームによる同一コンポーネントへの変更」や「複数チームによる同一案件の実施」の亜種であり、制約は受ける。しかし、プルリクを介してプロデューサー／コンシューマーパターンが形成されるため、コントリビューターチームとコミッターチームがそれぞれ自分たちのペースで活動することが可能になる。つまり、調整コストが下がる上、コミッターチームの負荷もコントロールしやすくなる。

とは言え、やはり課題はいくつかある。最も大きい課題は、プルリクを投げたコントリビューターチームが期待するデプロイ日と、コミッターチームが実際にそれをデプロイする日を、どうやって合わせるかだ。

チーム間でデプロイ日の調整を行うこともできるが、できれば調整コストは下げたい。それを実現する決定的な方法を、私自身もまだ見出せていないが、ブランチ戦略によってある程度はカバーできる。

その一つの方法としては、あらかじめコミッターチームが、デプロイ日ごとにブランチを複数用意しておくことだ。コントリビューターチームは、その中から任意のブランチをマージ先として選んで、プルリクを投げれば良い。

もう一つの方法は、マージした変更が、速やかに本番環境にデプロイされることを、コミッターチームが保証するというものだ。これには、継続的デプロイ（continuous deployment, CD）によって、マージされた変更が自動でデプロイされるレベルのデリバリパイプラインが実現されていることが求められる。

いずれにしても、マージ後に手動テストが必要であればそれが制約となってしまう。CI/CD のパイプラインによって、デリバリまでのテストが自動化されていることが前提となるため、コントリビューター／コミッターによる協働は、実現難易度が高いと言えるだろう。

よくある問題へのソリューション

クライアントサイドとサーバサイドの垂直統合チーム

クライアントサイドとサーバサイドという切り方で、チームを分けている組織を見かける。ウェブ API をサーバサイドのサービスが提供し、それをクライアントサイドのアプリケーションが利用するという形で、コンポーネントが分かれているからだ。

しかし、両チームの活動をよく観察してみると、機能追加や機能改善といった開発案件を協力して進めていることが多く、「複数チームによる同一案件の実施」が頻発している。ひとつの開発案件に要するコンポーネントの変更が、クライアントサイドとサーバサイドの両方に及ぶからだ。

クライアントサイドとサーバサイドのコンポーネントは、このように強い依存関係にある。それは、コンポーネントを分割している理由が、システムアーキテクチャ上の都合でしかないからだ。基本的に、両者は同一のコンテキストに属している。これらのことを考慮せずに担当チームを分けてしまうと、チームの凝集度が下がり、それが「複数チームによる同一案件の実施」につながる。

この問題を回避する方法は、両方のコンポーネントを単一のチームで担当することだろう。つまり、クライアントサイドとサーバサイドを垂直統合したチームを作る。そうすれば、チームの凝集度を上げられる。それが意思決定を迅速にし、価値の提供に集中することを可能にする。

垂直統合型チームでは、メンバー個々のスキルセットの垂直統合も要求される。もしチーム内で、クライアントサイド開発のスキルセットしか持たないメンバー、サーバサイド開発のスキルセットしか持たないメンバーで分かれてしまうと、一方のスキルセットのメンバーが多忙な時に、もう一方のスキルセットのメンバーが助けに入れない。

スキルセットを垂直統合するといっても、各人がどちらのスキルも同レベルで高めるまでの必要はない。メンバー各自の志向やチームの状況にあわせ、専門とするスキルを深堀させつつ、他の領域のスキルに幅を広げる。いわゆる「T 字型人材」の集まりとしてチームが構成されていれば良い。

プラットフォーム別アプリケーションチームとプラットフォーム間移植

モバイルアプリを自社ソフトウェアプロダクトとして展開する組織は、iOS と Android、それぞれのプラットフォーム向けにアプリを開発していることが多い。このようなプラットフォーム別に存在するコンポーネントの担当を、「アプリチーム」といった形でひとつのチームに統合していないだろうか。

確かに、同一ドメインを扱うという点では悪くはないが、互いのコンポーネントの間には、クライアントサイド／サーバサイドのような依存関係はほとんどない。つまり、プラットフォームごとにチームが分かれていても、制約は生じにくいのだ。これは、デスクトップアプリの Mac 版と Windows 版や、ウェブアプリケーションの PC 版とスマホ版についても言える。

それならば、プラットフォームごとにチームを分けた方が、チームとしての小回りが効く。

もちろん、組織には人員数という制約条件があるので、無尽蔵にチームを作れる訳ではないが、可能な範囲で分けておくことをおすすめする。なぜなら、プラットフォームごとにチームを分けた体制は、互いに異なる機能を開発し、互いにそれらを移植するという、「たすきがけ」のような開発をやりやすくするからだ。同時に同じ機能を開発するより、いずれかのプラットフォームで作り上げた機能を、別のプラットフォームに移植する方が開発効率が良いはずだ。

それぞれのプラットフォームで同じ機能開発を進めることも可能だが、仮説検証を重視する昨今の開発スタイルに合わない。想定通りの価値を生み出せるかどうかわからない機能を、複数プラットフォームで同時に開発することは非効率だ。単一のプラットフォームで検証を繰り返し、機能を適度に磨き込んでから、別のプラットフォームに移植することで、無駄な開発を避けることもできる。

ただし、クリスマス向け機能といった、期限が重要な意味を持つ機能開発については、複数プラットフォーム同時で開発することになるだろう。

プラットフォーム別アプリケーションチームにおける垂直統合

ここで疑問がひとつ起きる。クライアントサイドのコンポーネントはプラットフォームごとに分かれているが、サーバサイドのコンポーネントは共有しているというケースでは、どのような分散組織をデザインすれば良いかだ。

このようなケースではまず、プラットフォームごとにクライアントサイドコンポーネントを担当するチームを分ける。その上で、サーバサイドのコンポーネントは、そのいずれかひとつのチームに垂直統合する。そして、サーバサイドのコンポーネントを担当しないチームは、必要に応じて、コントリビューター／コミッターモデルでサーバサイドコンポーネントに変更を加える。

負荷の高いチームへのコントリビュート型ヘルプ体制

あるチームが人手不足に陥った時、他のチームから、人手が貸し出されていないだろうか。このやり方は、「複数チームによる人員の共有」に該当してしまう。

とは言え、人手不足で困っているチームを放置するわけにはいかない。ここは考え方を変えてみよう。困っているチームに人を派遣するのではなく、困っているチームのタスクを切り出して、他のチームがそれを請け負うようにすれば良い。もちろん、請け負ったチームは、コントリビューターとして協働するのだ。

最後に - 組織は戦略に従い、システムは組織に従う

「うちの会社は組織を頻繁に変える」という愚痴を耳にすることがある。変化というのは受け入れられにくいものだが、そのような言葉が多く出てしまうようなら、組織を変化さる意図を、社員に上手く伝えられていないのだろう。

「組織は戦略に従う（アルフレッド・チャンドラー）」と言うように、組織を変える理由は、戦略を変えることにある。組織を頻繁に変えると言うのは、見方を変えれば、ビジネスを取り巻く内外の状況変化に対する組織の適応力が高いのだ。

プロダクト開発チームも組織の一部だ。ビジネス戦略の変化に応じて、プロダクト開発組織としての変化が求められる。

ではその戦略に従って、チームの分け方を柔軟に変えられるかというと、それは難しい。本稿で話してきた通り、既存のプロダクトのコンポーネントのあり方が、チームの分け方に強く影響を及ぼすからだ。戦略に合わせて無理な変化を加えてしまうと、そこで生じた制約によって、組織が「分散されたモノリス」になってしまう。

このことから、戦略に従って形作られたビジネス組織全体と、コンポーネントの構成に従って形作られたプロダクト開発組織は、ねじれが生じやすい。そしてこのねじれは、ビジネスパフォーマンスを阻害する要因になり得る。

ジレンマだ。ねじれが無いようプロダクト開発組織を編成すると、制約によってデリバリパフォーマンスを落とし、ねじれを受け入れるとビジネスパフォーマンスを落とす。

私はやはり、制約によるデリバリパフォーマンス悪化は避けるべきものだと考えている。制約を受け入れてしまうと、デリバリパフォーマンスの悪化がビジネスパフォーマンスを悪化させる。そのことは、書籍『LeanとDevOpsの科学』の調査からも明らかだろう。

制約を受けながらもビジネスパフォーマンスに影響を与えない方法があれば良いのだが、少なくとも現時点ではその妙案が、私には考えつかない。だから、デリバリパフォーマンスを最大化するプロダクト開発組織を設計することに注力する。その上で、そこで生じたねじれに対して、短期の対策と中長期の対策を講じる。

短期的には、戦略に従った組織との接点に、ねじれによるビジネスパフォーマンス低下を解消（あるいは緩和）する構造を設ける。簡単に言えば、戦略に基づくビジネス組織の動きを、プロダクト組織へ迅速に伝搬させ、連動させることを可能にする。これについてはまだ試行錯誤中なので、ここでは割愛する。

中長期の対策については、「組織は戦略に従い、システムは組織に従う」という状態を実現することだ。そうすればねじれも制約も避けることができる。

「システムは組織に従う」と言えば、「逆コンウェイ戦略（Inverse Conway Maneuver）」を思い出す。しかし、既存のソフトウェアシステムに対し、その構造に関係ない組織を組んでしまうと、先述の通り制約によってデリバリパフォーマンスが悪化しかねない。その上、システムアーキテクチャが組織アーキテクチャに追いついたころには、ビジネス戦略が変わって組織も変わってしまっている。それほどまでに、ビジネスを取り巻く外部環境の変化はめまぐるしい。

だから我々にできることは、個々のコンポーネントの責務を小さく、そして凝集度を高く、結合度を低くすることで、プロダクト開発組織の分割と、担当コンポーネントの編成を柔軟に組み替えやすくすることではないか。日々の地道な蒸留を続けていくことが、その実現の唯一の方法だろう。

2021-07-09

開発チームは本当の顧客視点を持っているか

自社ソフトウェアプロダクトのひとつが軽微な障害を起こした。

問題のコンポーネントを担当する開発チームによる一次対応がようやく落ち着き、一息ついたところで、チームリーダーから、障害に関する詳細な報告をZoom越しに受けていた。直前までリモート会議続きだった私は、この時点ではまだ、障害の内容を把握できてなかった。こういう時、流れ切ったSlackチャンネルを後から見て、情報を正確に追いかけるのはなかなか難しい。

バックエンドAPIが、本来であれば処理可能なリクエストに対し、特定の条件下で誤って 400 Bad Request を返していたという。リーダーは、一通りの報告が終わったところで、「何か不明点などありませんか」と私に尋ねた。

この問題の影響を受けたリクエストの件数や期間、APIの振る舞いや内部処理の問題点についてはよくわかった。しかし、その外側がわからない。ステータスコード 400 を返されたことによって、APIクライアントであるスマートフォンアプリは、どのような振る舞いをしたのだろうか。その結果、アプリを利用するユーザーには、どのような影響があったのだろうか。

「アプリ側の実装によるので、アプリチームに聞かなければわかりません」と、これが、リーダーの答えだった。

アーキテクチャの観点で言えば、その通りだろう。バックエンドAPIの仕様、それが、アプリとバックエンドの間での合意事項だ。アプリがどのようにAPIを呼び出しているのか、バックエンドがAPIをどう実装しているのか、互いにそれらに依存すべきではない。こうすることで、アプリ、バックエンドそれぞれのデプロイ容易性を上げ、デリバリパフォーマンスを高く維持しているのだ。

しかしそれは、バックエンドチームがアプリやユーザーについて知らなくて良い、ということではない。社外に公開する汎用的なAPIを提供しているわけではなく、サービスクライアントとしては専用のiOSアプリとAndroidアプリがあるだけだ。アプリのこと、その先のユーザーのことを知らなくて、良いサービスを提供できるとは思えない。そもそも、障害によってユーザーにどのような影響を与えてしまったのか、気にならないのだろうか。

――今の開発チームの目には、ソフトウェアシステムしか映っていないのかもしれない。

そのような思考を巡らす中で、私は、以前の職場でのエピソードを思い出した。

数年前、いや10年近く前だったかもしれないが――ある日の午後、企業向けSaaSプロダクト開発の責任者だった私のデスクに、紺のスーツ姿の男性が近づいてきた。当時はまだ、オフィスに集まって働くスタイルが一般的だった。私のデスクの周辺は、カジュアルな服装のエンジニアばかりが集まるエリアだ。近づいてくるのが営業部員であることはひと目でわかる。

「お疲れさまです。少し、お時間よろしいですか」と、落ち着いた口調でそう言うと、私を促すようにして、すぐ近くのミーティングルームに向かって歩き出した。

4人程度が座れる小さなミーティングルーム。テーブルを挟んで二人で向かい合って座り、彼が口を開くのをまっていた。彼と話す機会はこれまでほとんどなかったが、営業成績がナンバーワンの若手エースだったので、顔はよく知っている。

話は察しがつく。ちょうど今、開発チームが、プロダクトの障害対応にあたっている。多くのクライアントを持つプロダクトだ。彼が担当する顧客にも、おそらく影響があったに違いない。プロダクト開発の責任者である私に対し、障害対応の状況を聞きに来たのか、あるいはクレームを伝えに来たのだろう。後者だとしたら、珍しいことではあるが。

「今日開かれたA社のキャンペーンイベントは、この障害で台無しになりました」と、感情の読み取りづらい視線を私に向けた。抑制されたトーンで話してはいるが、言葉の選び方からは、怒りが滲み出ている。

障害が発生すると、営業部員は、担当する顧客からの直接の問い合わせや苦情の電話に応えたり、場合によっては、客先へ謝罪に向かうなど対応に終われる。当然ながら、本来の営業活動にあてる時間は奪われてしまう。しかし、そんな矢面に立つ中でも彼らは、私たちに文句を言うわけでもなく、むしろ「これも自分たちの仕事です。開発のみなさんは、良いプロダクトを作ることに集中してください」と言う。

しかし、ここのところ立て続けに障害を起こしてしまっている。

執務室では、声を掛け合いながら慌ただしく対応に追われるエンジニアの姿が、ここからでも壁面のガラス越しによく見える。障害を起こしたのは、企業のキャンペーンイベントでよく利用される機能だった。これまで10年以上、改修を繰り返してきた機能で、ローンチ当初から複雑だったコードは今やカオスとなり、保守が困難な状況にまで至っていた。変更を加えると多くの不具合を混入しやすい箇所であり、数日前にも軽微な問題を起こしたところだ。確かその際にも、彼が担当する別のクライアントが被害を受けていたはずだ。

「先方の担当者のBさんは、このイベントの準備に本気で取り組んでおられました」と、こちらを向いて、ゆっくり話しはじめた。「お客様の思い出になるイベントにしたい、そう、おっしゃっていて、だから、僕も、我々のプロダクトを活用したイベントが成功するよう、Bさんに全力で協力して……」

沈黙。

「くやしいです、イベントを楽しみにされていたA社のお客さまにも申し訳なくて……でも開発の人はいつも、そういったことを気にかけている様子も見えなくて、本当に、このプロダクトをお客様にすすめても良いのか、わからなく……」

そこまで話して、うつむいて泣きだした。その理由が、売り上げや成績の心配ではなく、顧客のこと、その先のエンドユーザーのことを想ってのことだと伝わってくる。彼が、ナンバーワンである理由がわかった気がした。

ソフトウェアプロダクト開発を担うエンジニアが、顧客と向き合う機会は多くない。企業向けプロダクトならまだしも、コンシューマー向けならなおさらだろう。まして、企画段階にも参画しないなら、顧客体験について思いを巡らす機会はほとんどない。エンジニアにとっての顧客とは、アプリケーションが吐き出すログや、モニタリングダッシュボード上のグラフや数字でしかないのかもしれない。これでは、エンジニアの目に、ソフトウェアシステムしか映らなくなってしまうのも当然だろう。

当時の私は、その出来事から以降、プロダクト企画部門も巻き込んで、開発プロセスもシステムも組織も大きく変えていった。顧客体験を中心に据える開発組織を作ろう、と。そして、開発チームからの障害報告にはまず、「お客さまへの影響は？」と問うことにしている。

あれから何年も経ち、いま振り返ってみて、目指す組織を作り上げられたのかと自分に問うと、自信を持って答えることはできないように思う。今はそこから離れ、こうしてまた開発チームのリーダーから障害報告を受けている。Zoom越しに映し出されたGrafanaのカラフルなグラフを眺めながら、またあそこからはじめてみようと思った。

2021-06-02

デリバリパフォーマンス向上にはリリースに対する顧客体験の可視化が効く？

もし、開発チームのデリバリパフォーマンスが十分ではないと感じているなら、リリースした新機能や改善に対する顧客の反応を計測し、その評価結果をビジネス組織全体に対して可視化することをおすすめする。それが結果的に、デリバリパフォーマンスの向上につながると考えているからだ。

私は常々、組織を変化させるために断行されるトップダウン的な「仕組み」の変更は、即効性はあるものの、期待した効果を得にくいように感じている。そういった力技では関係者間にコンフリクトを起こしたり、始まる前から形骸化したりすることも多い。それよりも、仕組みが自然に変わっていく流れを生み出すことを考える。その流れを生み出す起点となる何かを、私は「仕掛け」と呼んでいる。

上述した「リリースに対する顧客体験の可視化」は、デリバリパフォーマンス向上に至る流れを組織内に作り出す仕掛けとして効果を期待できる。下図は、そのストーリーを描いている。

リリースに対する顧客体験を可視化する
プッシュ型の問題に気づく
プル型に変わっていく
バッチサイズが小さくなる
デリバリパフォーマンスが向上する
最後に

リリースに対する顧客体験を可視化する

まず最初に言っておくと、ソフトウェアプロダクトのデリバリパフォーマンスとして計測するデプロイ頻度（deployment frequency）といったメトリクスが示す値は、あくまでも結果であり、それを改善すること自体は目的ではない。デリバリパフォーマンスのメトリクスを改善すればビジネスパフォーマンス（組織パフォーマンス）が高くなるわけではなく、ビジネスパフォーマンスが高い組織はデリバリパフォーマンスのメトリクスが良い値を示している、と考えるべきだろう。

では、ビジネスパフォーマンスに対し、開発チームが寄与できることとは何だろうか。それは、プロダクトを顧客体験に優れ、顧客価値がより高いものになるよう洗練させ続けることだろう。これを本質として押さえておかないと、デリバリパフォーマンスのメトリクスが向上しても、ビジネスパフォーマンスが上がることはない。

そういう視点から、仕掛けとして「リリースに対する顧客体験の可視化」を選択した。プロダクトに変更を加える主な目的は、より優れた体験を顧客に提供することにある。したがって、リリース後の可視化によって明らかにされるその結果は、組織のプロダクト開発プロセスのあり方について強い影響力を持つと考えられる。その影響力によって、プロセスに変化を生じさせようというのが、今回の仕掛けの狙いだ。

ここでやることは、プロダクトに加えた変更が、顧客に想定通りの効果をもたらしたのかをリリースの度に計測することだ。計測するメトリクスは例えば、コンバージョン率、新機能の利用率、アクティブユーザー数、新規ユーザー数などだ。いずれにしても、計測結果を評価し、ビジネス組織全体に共有する。対象とするのは、リリースに含まれる全ての変更のうちの一つで構わない。

何を計測してどう評価するかは、リリースの内容次第だが、取り組みやすい方法を選択すべきだろう。はじめから力を入れ過ぎると導入障壁が上がる。簡単な方法ではじめ、回を重ねて効果を感じていくうちに、徐々に厳密にしていく方が上手くいく。

プッシュ型の問題に気づく

リリースサイクルの中にこのような顧客体験の可視化を組み込んでいる組織は、実はそれほど多くないように感じている。そのような組織は、プロダクトに加えた変更が想定通りの体験を顧客に提供できているかについて、楽観視しているということだろう。

しかし実際には、想定通りの結果とならなっていないことが多い。顧客体験を計測するメトリクスを可視化するということは、リリースの結果を客観的な事実として目の当たりにするということだ。

そんな体験を何度か繰り返せば、ビジネス組織全体の考え方に変化が起こりはじめる。自分たちが作り出す新機能や改善が、顧客に対して想定通りの体験や価値を提供できるのか、今までのように強い自信が持てなくなってくる。

これまでは、競合プロダクトと競い合うように、追加機能や改善のアイデアを企画してきた。バックログは常に、未着手のアイテムが山積み状態だ。とにかく早くリリースしたい。だから、様々な変更を詰め込んだアップデートを計画し、開発チームは常にフル回転で、期日までにリリースすることで手一杯になっている……

結果の計測と可視化というプロセスを導入することは、このような「プッシュ型」のプロダクト開発スタイルに疑問を持つきっかけを与えるのだ。よく言われるように、顧客にとって必要なものが何であるかは顧客自身にも答えられない。それを、プロダクトの作り手側が正しく言い当てることができると信じる方が、そもそも無謀だということは明らかだ。

プル型に変わっていく

組織にこのような意識の変化が生まれると、世界が一変する。組織のプロダクト開発スタイルが、プッシュ型からプル型に移行し始めるからだ。

顧客にとって必要なものが何であるかは顧客自身にも答えられないのだから、試してみてそこから学ぶしかない。プル型の組織はこのように、まず顧客に関する仮説（hypothesis about the customer）を立て、それを検証する方法を考え、そために必要最小限の機能が何であるかを導き出す。build-mesure-learn とは逆の、learn-mesure-build の順で計画を立てる。

Learn-Mesure-Buildによる計画とBuild-Mesure-Learnによる実行

そうすれば、無駄なものを作ってしまう時間の浪費を避け、必要とされるものを少しずつ積み上げていくことに時間を費やせるようになる。このような開発手法は、「仮説駆動型開発（hypothesis-driven development）」と呼ばれることもある。

そう、「リリースに対する顧客体験の可視化」という仕掛けは、ここでより計画性を持った形でプロダクト開発プロセスのフィードバックループの中に組み込まれていくのだ。

バッチサイズが小さくなる

プル型のプロダクト開発スタイルは、組織の意識をバッチサイズ削減に向かわせる。まだ仮説段階でしかない「顧客が必要としていると思われるもの」を数多く生み出したり、フル機能で作り上げることは、ムダになりかねないからだ。

また、計測・評価プロセスの精度と効率を上げたいという欲求も、更なるバッチサイズ削減へのモチベーションを高める。大きなバッチでは、評価対象となるアイテムが複数であったり、一個あたりのアイテムが大きすぎて、評価しづらいからだ。

デリバリパフォーマンスが向上する

いよいよ、デリバリパフォーマンスが向上をはじめる。そもそもデリバリパフォーマンスを測定する代表的なメトリクスであるデプロイ頻度は、ソフトウェアでは測定しづらい概念であるバッチサイズの代替メトリクスだからだ。

ソフトウェアの場合は目に見える商品が存在しないため、バッチサイズを測定してその結果を伝えるということが難しい。そのため、我々は「バッチサイズ」の代わりに「デプロイ頻度」を測定基準とすることに決めた。

「『LeanとDevOpsの科学』p.23」

バッチサイズ削減による効果としては、二点が挙げられる。開発に要する全体の工数を削減することと、マルチタスクの並列度を緩和することだ。前者によって開発期間が短くなることは容易に想像がつく。後者は、タスク切り替えによるオーバーヘッドを削減するだけでなく、ワークアイテムごとのリードタイムに含まれるタスクの待ち時間（wait time）を削減し、開発チームのフロー効率（flow efficiency）を改善する。

このようにして、最終的に、デプロイ頻度を高く押し上げる仕組みができあがる。

最後に

重要なことは、仕掛けによって組織に起こる変化が、仕組みという形だけでなく、意識や文化にまで及ぶということだ。むしろ、組織における意識・文化の変化こそが、硬直化した仕組みを変化させる原動力になると言って良いだろう。

もちろん、仕掛けだけ置けばあとは想定通りの仕組みができあがるほど、組織を変化させることは容易ではない。理想とする仕組みに向かうよう、マネージャー自身が組織の変化を促していく必要があることは言うまでもない。

2021-04-28

「体験」にコミットするチームと「仕様」にコミットするチーム

自社ソフトウェアプロダクトの内製開発チームの振る舞いが、外部ベンダー的だと感じたことはないだろうか。開発チームと企画担当の関係が、請負契約的な受発注構造になっているということだ。

ソフトウェア開発の従来的な請負契約では、何を作るかは発注側の責任で、それを形にして納品するのが受注側となるベンダーの責任となる。これを先程の企画担当と開発チームの関係に置き換えて言えば、「何を作るか」が企画担当の責任で、それを「形にしてリリースする」のが開発チームの責任となる。

このような開発チームのことを私は、「仕様にコミットするチーム」と呼んでいる。「何を作るか」を言語化した存在である「仕様」の通りにソフトウェアを開発してリリースすることが、彼らのゴールだからだ。

しかし、内製でのプロダクト開発の良いところは、開発チームが「何を作るか」にまで踏み込みやすい環境があることだろう。もしそこに挑もうとすれば、チームは必ず顧客体験について考えることになる。だから、それを実践するチームを私は、「体験にコミットするチーム」と呼んでいる。

仕様へのコミット
体験へのコミット
体験にコミットすると顧客視点で仕様を見るようになる
体験にコミットすると顧客の反応を計測するようになる
体験にコミットするとデプロイ頻度が上がる
体験にコミットする開発チームと企画担当の責任分界点
最後に

仕様へのコミット

ソフトウェアを開発する過程では、様々な成果物が作られる。中でも最も重要なものが、最終成果物であるソフトウェア自体であることは間違いないだろう。ここでは「プロダクト」と呼ぶことにする。「フィーチャー」や「インクリメント」と読み替えてもらっても構わない。

それに対し、最初の成果物と言うべき「仕様」も、プロダクトそのものと同じぐらい重要な位置付けと言えるだろう。仕様とは言わば、「何を作るか」について定めた、企画担当と開発チームの合意事項と呼べるものだからだ。

完成したプロダクトにはたいてい、仕様とのギャップが存在する。その正体は、仕様に対する実装漏れや不適合といった欠陥だ。

仕様に対する網羅性や適合性が低いプロダクトは、企画担当と開発チームとの合意に反する。だから開発チームは仕様とプロダクトのギャップを最小限に抑えることがミッションとなる。これが、「仕様にコミットする」ということだ。

仕様にコミットすることは必要なことだ。しかし、内製開発チームのミッションとしては、十分と言えないのではないか。

体験へのコミット

プロダクトは、顧客が抱える何らかの課題を解決するソリューションとして生み出される。では、仕様を完全に満たしたプロダクトであればソリューションたり得るかというと、そうとは限らない。いちユーザーとして思い返して見ると、残念ながらそれを肯定する経験がいくつも思い浮かぶ。利用シーンにおいて重要な機能が不足していたり、機能としては事足りていても、非常に使いづらいアプリケーションなんて、珍しくもない。

このように、顧客のソリューションとして完全な仕様を定義することは、おそらく誰にもできない。だから、仕様を「真」として考えることは危険だ。

仕様や、それに基づいて作られたプロダクトは、あくまで仮説に過ぎない。顧客に体験してもらい、その仮説を検証してこそ、プロダクトに対して本当に求められている姿が見えてくる。仕様に対するプロダクトの品質より、体験に対するプロダクトの品質を真としてそこに近づけようとする。それが、「体験にコミットする」ということだ。

自社ソフトウェアプロダクト開発の内製開発チームには、体験にコミットして欲しいと考えている。

体験にコミットすると顧客視点で仕様を見るようになる

体験にコミットするようになると、チームは、「顧客視点」という新たな能力を獲得する。顧客視点を持つと、仕様に対するとらえかたも変わってくる。

開発中に、仕様に関する問題点に気付くことはよくあることだ。顧客視点を得たことでさらに、今までは気付かなかったような問題点について気付くようになる。それを「仕様だから」といって、やみくもに仕様通りに作るようなことはない。そんなことをしたら、顧客体験を損ねてしまいかねない。だから、見つけた問題は、すぐに企画担当と話し合い、より良い形に見直す。この活動が仕様自体の品質を高め、プロダクトがより優れた体験を生み出す可能性を高める。

体験にコミットすると顧客の反応を計測するようになる

仕様にコミットするチームの開発スケジュールは、「リリース」が最終タスクとして配置されている。

一方で、体験にコミットするチームの開発スケジュールでは、リリースが単なる通過点でしかない。リリース日の後に、学びのための期間が組み込まれている。

彼らは、プロダクトが顧客体験に優れたものになるよう、リリース前に可能な限り努力する。しかし、それが必ずしも想定通りの結果になるとは考えていない。仕様やプロダクトを、仮説だと考えているからだ。

だから、リリースしたプロダクトが顧客体験に良い影響を与えられたのかどうかを検証する。そうしなければ、自分たちのやったことが正しかったのか間違っていたのかがわからない。間違いから学ぶこともできない。体験にコミットするチームにとって、リリースとは完了ではなく、学びの開始点なのだ。

顧客体験の評価方法は、開発前にあらかじめ設計する。定量評価の場合もあれば、定性評価の場合もある。とにかく重要なことは、プロダクトを利用した顧客の実際の反応に基づいて評価することだろう。そのために、顧客の反応を収集・計測する仕組みをプロダクト自体に作り込むことさえある。

体験にコミットするとデプロイ頻度が上がる

動くプロダクトがあってこそ、顧客体験に基づいた検証が可能になる。だから、動くプロダクトをまず作り、リリースする。そして、顧客に体験してもらうことによって得たフィードバックを検証する。その評価に基づいて仕様に追加・変更を行い、プロダクトをアップデートする。

このようにプロダクト品質は、顧客も巻き込んだ改善サイクルによって高められていく。

しかし、下の図からも分かるように、「開発」の中でのみ行う「仕様に対するプロダクトの品質改善」に比べ、サイクル全体に及ぶ「体験に対するプロダクトの品質改善」は、時間的に長くなる。

「開発」に要する時間が長くなると、「検証」「適応」に要する時間も長くなることは想像がつく。バッチサイズが大きいほど、検証すべき対象や、その評価に基づいて手を加える対象が増えるからだ。そもそも検証対象が複数あると、何がどれだけ体験に影響を与えたのかを個別に把握することが困難なこともある。

このように考えてみると、体験にコミットする開発チームにとって、大きなバッチサイズでの開発・リリースというのは、非常に効率の悪いものだとわかる。新規で作り上げたプロダクトや、既存プロダクトに対する変更は、あくまでも仮説であり、その内容が 100% 正しいという保証はない。バッチサイズが大きいほど、間違いの数は増える。

だったらバッチサイズを小さくする方が良い。ちょっと出しては検証することを繰り返す。「単位期間あたりにリリースした機能・変更の数」という意味でのスループットは変わらない（あるいは下がる）かもしれないが、変わりにデプロイ頻度（deployment frequency）があがる。この回転数の高いフィードバックループが、ムダなものを作り込むコストを最小限に抑える。

体験にコミットする開発チームと企画担当の責任分界点

ここまで読んで、ひとつ疑問が沸くかもしれない。開発チームが体験にコミットすると、企画担当の責任範囲はどこにあるのだろうか、と。

仕様とのギャップが小さいプロダクトをリリースする責任は開発チームにある。プロダクトの体験をより高める責任は、開発チームと企画担当の双方にある。そして、その体験を「ビジネス価値」に変えるのが企画チームの役割だ。

顧客体験の改善サイクルをまわし続けることで、プロダクトの「顧客価値」が高まっていく。顧客価値が高まることで、ビジネス価値が高まることも期待される。しかし、顧客価値がそのままビジネス価値に変換されるわけではない。この変換に対して責任を持つのが企画担当という構図になる。

最後に

顧客体験に優れたプロダクトを、たった一度のリリースで実現することは難しい。だからこそ、フィードバックループをまわす必要がある。

フォーカスすべき対象を顧客体験に定めたチームは、プロダクトを利用する顧客の実際の反応を測定し、その評価に基づいて改善を積み重ねていく。この繰り返しが、彼らの顧客視点をより研ぎ澄まし、改善の精度はより高まっていく。このようにして高められていった顧客体験が、プロダクトを顧客価値と呼ぶに相応しい存在に押し上げる。そしてその顧客価値があってこそ、ビジネス価値が生まれていくのだ。

2020-12-31

兼務はチームの独立性とのトレードオフ

ソフトウェアエンジニアリングの世界では、エンジニアに、チームをまたいでプロジェクトやプロダクトを掛け持ちさせるアサインメントを強いることがある。いわゆる兼務と呼ばれるものの一形態だ（以降、この形態による兼務を単に「兼務」と呼ぶ）。

組織設計においてマネージャーを大いに悩ませるのは、人材面での制約だろう。人的リソース（human resource, 人的資源）と呼ばれるように、資源には限りがある。他の経営リソースと違って個々が無二の存在であるから、その制約はさらに、個別の事情までもが複雑に絡み合う。だから兼務による人的リソースのアロケートは、マネージャーにとって、複雑で厳しい制約に柔軟性を持たせる魔法の杖となる。

しかし、兼務には大きなコストがつきまとう。そのコスト自体の可視性が低いためか、組織を設計する上で、兼務に伴うコストが軽視されているように感じている。

いや、兼務者が、参加するチームそれぞれに100%の時間を割けないことは自明だ。これは、兼務を選択する上での前提条件であり、十分に理解されているだろう。そうではなく、兼務がチームの独立性を落とすことが問題なのだ。それがチームの足を引っ張り、プロジェクトを遅らせる。

このトレードオフによるコストを十分に評価した上で、兼務するか否かの意思決定が行われるべきだろう。コストが効果を上回るなら、その兼務は破棄すべき選択肢となる。

本稿ではこのトレードオフを扱う。兼務がどのようにチームの独立性を阻害するのか、どのようなコストを支払うことになるのかをひも解いていく。また、兼務という選択が正しい判断であるかをケースごとに検討し、より良い選択の模索を試みる。

兼務の問題点
- チームの独立性はパフォーマンスの源泉
- 兼務によるチーム間結合度の上昇と独立性の低下
兼務のコスト
- チーム間の密結合状態が生むコスト
  - 調整コスト
  - 遅延コスト
- その他のコスト
  - コミュニケーションコスト
  - スイッチングコスト
兼務の再考
- 兼務を選択した目的
- 兼務以外の選択肢
最後に

兼務の問題点

チームの独立性はパフォーマンスの源泉

エンジニアリング組織を設計する上で、チームの独立性は、何より重視すべきパラメータだと考えている。独立性の高いチームは、チーム外部の影響を受けることなく、プロジェクトの計画を決め、実行できる。ユーザー価値、ビジネス価値を迅速に生み出せるということだ。

mtx2s.hatenablog.com

このように独立性は、チームのパフォーマンスを左右する重要なファクターなのだが、その評価は難しい。それ自体が、定量的な尺度ではないためだ。

しかし、いくつかの観点をもとに、チームの独立性の高低を見極めることはできる。そのひとつが、チームによる「リソースの利用」に対する独立性だ。

チームが責務を果たすには、その実行に足る権限とともに、リソースが必要だ。人材や設備、予算、情報が揃っていなければならない。これらの要素のいずれかひとつでもチームの単独判断で利用できないなら、それがチームの活動を阻害する大きな要因となる。兼務を問題視しているのは、この「人材の利用」の独立性に抵触する組織設計だからだ。

兼務によるチーム間結合度の上昇と独立性の低下

兼務は、複数のチームで人的リソースをシェアするアーキテクチャだ。シェアすれば必然的に、リソース利用にコンフリクトが生じる。このコンフリクトの解決や、そもそもコンフリクトさせないための合意アルゴリズムの導入、あるいはスケジューリングの必要性が、チームとチームの結合度を高めてしまう。

ソフトウェア設計では、モジュール間の結合度を下げることが、モジュールの独立性を高める上で良いとされている。組織設計もその原則は同じだ。チーム間の結合度が高いと、チームの独立性は低くなる。兼務は、兼務者を挟んでチームとチームを結合し、互いを縛り付けるチェーンのようなものだ。これではあまりに身動きが取りづらい。兼務の選択は、チームの独立性を失うこととトレードオフの関係にあるのだ。

では、兼務によってチーム間の結合度が上がり、チームが独立性を失うことで、具体的にどのようなコストを支払うことになるのだろうか。

兼務のコスト

チーム間の密結合状態が生むコスト

チーム間の密結合状態が直接的な原因となって生じるコストは、主に、「調整コスト」と「遅延コスト」の二種類が考えられる。

調整コスト

兼務者の作業時間をいつからいつまで確保するかは、チームの一存では決められない。兼務者を挟んで結合されたチーム間で調整することになる。この調整を行う中で消費される時間やお金といったリソースを、調整コストと言う。

ソフトウェア開発プロジェクトは、常に不確実性との戦いだ。計画に無い出来事が次々と発生する。だから、兼務者のスケジュールをチーム間で厳格に取り決めてしまうと、プロジェクトが立ち行かなくなってしまう。トラブルへの適宜対応が可能となるよう、スケジュールを臨機応変に組み替えられるようにしたい。しかし、その実現と引き換えに、調整コストはさらに大きく膨らむこととなる。

遅延コスト

調整コストを支払ったからといって、兼務者の作業時間がチームの思い通りになるわけではない。その影響は、プロジェクトのスケジュールとして現れる。

兼務者の作業時間の都合がつかないために、プロジェクトの開始予定日を、チームの希望より後ろ倒しにせざるを得ないこともある。また、兼務者という制約がクリティカルチェーンとなって、計画上のプロジェクト期間をより長くさせてしまうこともある。いずれにしても、リリース予定日は、チームの希望より先延ばしになるだろう。

ソフトウェアプロジェクトが価値を生み出すのは、その成果物がリリースされてからだ。リリースが先延ばしになればなるほど、ユーザーやビジネスが本来得られるはずであった価値が目減りする。こうして失われる利益を遅延コスト（CoD, Cost of Delay）と言う（参考『遅延コスト回避中心のPBIライフサイクルマネジメント』）。

mtx2s.hatenablog.com

遅延コストにつながる兼務の制約は、プロジェクトの計画に影響を及ぼすものだけでない。プロジェクトの実行にも強い影響力がある。プロジェクトの進捗に遅れが生じた時に、兼務者を介してその影響が通常より酷くなる傾向があるのだ。

例えば、先行タスクが遅延したとしよう。兼務者は予定日に担当タスクを開始できなくなる。それを待っている間に、別チームの担当タスクの開始日になってしまう。こうなると、マルチタスクで進めるか、いずれかのタスクの予定を変更するか、何らかの手段で乗り切ることになる。どちらにしても、プロジェクトの進捗は大きく遅延する。

兼務者自身がタスクを遅らせてしまった時も同様だ。遅延を取り戻そうと頑張っている間に、別のチームのタスクに取り掛かる予定日になってしまう。

このように、ひとつのプロジェクトの進捗の遅れが、複数のチームに飛び火していく。こうしてリリースが遅れ、遅延コストが膨らんでいく。

その他のコスト

チーム間の密結合状態が直接的な原因ではないが、「コミュニケーションコスト」と「スイッチングコスト」も、兼務によって増加するコストとして挙げられる。

コミュニケーションコスト

プロジェクトはたいてい、それごとに複数の会議体を持っている。兼務者は、兼務しているチームの数に比例して、参加しなければならない会議の数が増える。

こうして増加したコミュニケーションコストにより、兼務者の開発時間は大きく削られることになる。

スイッチングコスト

兼務者の業務は、マルチタスクが起こりやすい。マルチタスクが、コンテキストスイッチによるオーバーヘッドを生むことはよく知られている。このオーバーヘッド時間がスイッチングコストだ。

ジェラルド・M・ワインバーグによると、タスクの並列数が2になると、スイッチングコストによって稼働時間の20%をロスし、並列数が3だと40%をロスするという（『ワインバーグのシステム思考法ソフトウェア文化を創る〈1〉』ジェラルド・M・ワインバーグ（著）増田信爾（訳）共立出版 1994）。

兼務の再考

兼務を選択した目的

ここまでで、兼務によって失うものを見てきたが、逆に、兼務によって得ようとしたものとは何だったのだろうか。

兼務を選択した目的として考えられる代表的なものを、以下に挙げる。

エンジニア不足を補う

組織は複数のプロジェクトを抱えているものだ。その数や規模に対し、一時的、あるいは常態的にエンジニア不足が起きているケースも多いだろう。

こういう状態にある組織のマネージャーは、兼務ながらもメンバー数を揃えることで、チームを機能させようとする。

エキスパートに頼る

どこのチームにも、特定の領域に精通したエキスパートが存在する。そして、唯一の存在であることが多い。それゆえに、ただ一人しかいないエキスパートがチームから抜けると、担当していた業務の効率が著しく損なわれたり、業務の継続が不可能な状況に陥ってしまう。

だから、エキスパートを別のチームに参加させなければならなくなった時、元のチームに籍を置いたまま、別のチームにも参加させることを考える。そうすることで、業務効率を落とすことなく現状を維持できる。

エースに頼る

飛び抜けて優秀なエンジニアの生産性は、とてつもなく高い。平均的なエンジニアに比べ、数倍の違いがあるとも言われている。エースと呼ばれるエンジニアたちだ。

マネージャーとしてはやはり、可能な限りエースに活躍して欲しいと考えるだろう。こうして優秀なエンジニアは、多くのプロジェクトに関わることになる。

稼働率を上げる

チーム内でのタスク割り当てだけでは、一部のエンジニアが時間を持て余してしまうことがある。マネージャーにとって、エンジニアの稼働率が低い状態が続くことは、ムダに思えてしまう。

このようなケースでは、稼働率が低いエンジニアの余った時間を他のチームの業務にあてることが、全体最適だと考えることは自然だ。その手段として、チームメンバーを他のチームに兼務させることになる。

兼務以外の選択肢

はたして、兼務を選択した目的はそもそも課題定義として正しかったのだろうか。先述のケースそれぞれの原因をもう一段深掘りし、兼務以外の選択肢を検討してみよう。

現状に対するエンジニア不足を補うより、選択と集中を

エンジニア不足は、ビジネスやプロダクト開発に戦略が無いからかもしれない。

「不足」とは、相対的な尺度だ。人的リソースはそもそも制約であり、プロジェクトすべてに理想的で完全なリソースを割り当てることはできない。だから、プロジェクトに優先順位を付け、今やるべきことを絞り込み、そこにリソースを集中的にあてる。この優先順位付けのアルゴリズムこそが、戦略だと考えて良い。

したがって、戦略が無ければ優先順位付けアルゴリズムも存在しない。あらゆるプロジェクトが、同列で稼働することになる。やることを絞り込んでいないから、リソースは分散する。結果、エンジニア不足に陥る。

これが当てはまるなら、戦略を立て、やるべきことの絞り込みに取り組むと良い。

とは言え、複数のチームを取りまとめる立ち場にあるマネージャーでなければ、この取り組みを進めることは難しい。そのような立ち場にないならば、適切な人物に現状を説明して協力を仰ぐのが懸命だろう。

ただ一人のエキスパートに頼るより、属人化を解消する

エキスパートが一人しか存在しない状態は、業務の属人化が深刻である証だろう。この状態を問題としてとらえ、解決しようとすると、それなりの時間を要してしまう。兼務という選択肢を選んだのは、その時間や、一時的な効率悪化を嫌ってのことだろう。

業務が属人化することを「どんな場合でも悪である」とは思わないが、少なくとも三つの観点で問題を抱えることを念頭に置く必要がある。

一つめは、リスクマネジメントの観点。属人化した業務は、会社からそのエキスパートが去ると、継続が困難になる。

二つめは、ビジネス戦略の観点。戦略が変われば組織も変わる。変化に応じて、柔軟に人を配置させたい。しかし、属人化した領域にあるエキスパートは、その領域に固定されたままとなる。結果、人材配置の面で自由が奪われ、変革が不十分なものとなってしまう。

三つめは、キャリア形成の観点。長期間、特定のエンジニアを一つの業務に縛り付けることは、エンジニアとしての可能性を奪うことになりかねない。属人化という形であれ、エキスパートになるほどだから、優秀な人材に違いない。それに、チームが手放さない人物であるからには、まわりからの信頼も厚いのだろう。だからこそ、いつまでも一所に留めておくには惜しい才能だ。これは、本人にとっても会社にとっても好ましい状態とは言えない。

属人化してしまった業務からは、あえてエキスパートを引き剥がす勇気も必要だ。一時的に業務効率は落ちるかもしれないが、長期的に見れば良い結果につながるだろう。

常にエースに頼るより、チームメンバー全体に経験を積むチャンスを

エースに頼り過ぎると、周囲のエンジニアは簡単な仕事しか経験できなくなる。その状態が続くと、エースとそうでないエンジニアの差は益々広がる。この状態も、ある意味では属人化と言える。

エースでなくとも、エンジニアは、経験し、失敗することで成長を続けられる。それはエンジニアとして働く上での彼らの権利でもある。

それに、後進が育たなければ、将来のいずれかの時点で組織が破綻することは目に見えている。目先の利益を優先するばかりでなく、将来を見据えた体制作りも考えるべきだろう。

目先の稼働率を上げるより、チームや役割の責務を見直す

ビジネスの目的を「ユーザーに価値を届けること」だと捉えると、注目すべきは「人の稼働状況」よりも「タスクの進行状況」だ。プロジェクトは、成果物をリリースするまで価値を生み出さない。そして、リリースが遅れるほど、その期間に得られるはずであった価値が、無となってしまう。だから、プロジェクトを最短距離でゴールに導くことこそ最優先とすべきなのだ。兼務によってチームの独立性を落とし、タスクの進行状況を悪化させることは、可能な限り回避したい。

業務時間を持て余すのであれば、それは組織設計を見直すべきだろう。チームのメンバー数を減らした上で役割を集約することや、チームの責務を広げるといった方法で、適正な業務量が割り当たるようになるだろう。

最後に

本稿では、兼務がどのようにチームの独立性を阻害するのか、どのようなコストを支払うことになるのかをひも解いてきた。また、兼務という選択が正しい判断であるかをケースごとに検討し、より良い選択の模索を試みた。これらを読み終えて、兼務というアサインメントの選択に対し、これまでより慎重になっただろうか。

また本文では触れなかったが、兼務について考えるなら、兼務者のメンタル面についても注意しなければならないだろう。

兼務者は、プロジェクトにオーナーシップを持てているだろうか。会議やスイッチングコストに時間を取られ、開発が進まないことにストレスはないだろうか。自分がチームのボトルネックになっていると感じていないだろうか。

1on1などを通じてケアを続けているとは思う。しかし、ただでさえ把握することが難しいメンタル面の動きを、兼務はより複雑にしかねない。これは、マネジメントコストを拡大する。そして、チームメンバーが不安定な状況にあると、チームの舵取りも難しくなる。失敗すれば、プロジェクトは価値を損なう。

兼務が直接的、間接的に引き起こす相互作用は複雑だ。ソフトウェア設計と同じように、組織設計もシンプルなアプローチを選択する方が良いだろう。

バックログアイテムの分類にみる不可視領域と開発者体験の関係

Failure Demand という利子の支払いに追われるエンジニアの疲弊

開発者体験の悪化が組織を単なる集団に変えていく

技術的負債が増え続ける背景

コード品質にもSLOとエラーバジェットを

負債ベースラインと負債上限によるポリシー策定

高い保守性というコーディング指針の言語化

継続的インスペクションによるコードレビュー負荷の軽減と手戻りの防止

技術的負債の原因の多くはアーキテクチャ選定の失敗

最後に - エンジニアが組織やプロダクトに誇りを持つために

追記：YouTube Liveでの登壇時のアーカイブ

クネビンフレームワークとは

Simple / 単純な状況にある領域

Complicated / 込み入った状況にある領域

Complex / 複雑な状況にある領域

Chaotic / カオスな状況にある領域

Disorder / 無秩序な領域

スクラムの祖 野中郁次郎との関係性

最後に - 複雑な領域に挑む「攻め」の姿勢とイノベーション

「分散されたモノリス」と化したプロダクト開発組織

チーム間を縛りつける制約というチェーン

制約を生じさせる代表的な三つの結合要因

「複数チームによる人員の共有」による制約

「複数チームによる同一案件の実施」による制約

「複数チームによる同一コンポーネントへの変更」による制約

結合要因の排除

チーム分割と協働のデザイン

チームというアトミックで不可分な単位としての活動

単一の担当チームによるコンポーネントの開発・保守・運用

コンテキストと更新頻度に着目したコンポーネントの兼務

依存関係に着目したコンポーネントの兼務

コントリビューター／コミッターモデルでのフィーチャー開発と協働

よくある問題へのソリューション

クライアントサイドとサーバサイドの垂直統合チーム

プラットフォーム別アプリケーションチームとプラットフォーム間移植

プラットフォーム別アプリケーションチームにおける垂直統合

負荷の高いチームへのコントリビュート型ヘルプ体制

最後に - 組織は戦略に従い、システムは組織に従う

リリースに対する顧客体験を可視化する

プッシュ型の問題に気づく

プル型に変わっていく

バッチサイズが小さくなる

デリバリパフォーマンスが向上する

最後に

仕様へのコミット

体験へのコミット

体験にコミットすると顧客視点で仕様を見るようになる

体験にコミットすると顧客の反応を計測するようになる

体験にコミットするとデプロイ頻度が上がる

体験にコミットする開発チームと企画担当の責任分界点

最後に

兼務の問題点

チームの独立性はパフォーマンスの源泉

兼務によるチーム間結合度の上昇と独立性の低下

兼務のコスト

チーム間の密結合状態が生むコスト

調整コスト

遅延コスト

その他のコスト

コミュニケーションコスト

スイッチングコスト

兼務の再考

兼務を選択した目的

エンジニア不足を補う

エキスパートに頼る

エースに頼る

稼働率を上げる

兼務以外の選択肢

現状に対するエンジニア不足を補うより、選択と集中を

ただ一人のエキスパートに頼るより、属人化を解消する

常にエースに頼るより、チームメンバー全体に経験を積むチャンスを

目先の稼働率を上げるより、チームや役割の責務を見直す

最後に

スクラムの祖野中郁次郎との関係性