順番学研究所のご案内

無料ブログはココログ

« 書籍出版社の数理(3)―何で売り上げ見通しは外れるのか? | トップページ | 書籍出版社の数理・番外編―べき分布に従う乱数値のつくりかた »

2010年3月20日 (土)

書籍出版社の数理(4)―モンテカルロ法で売り上げの確率分布を求める!

・売り上げの確率をモンテカルロ・シミュレーションで求める

 前回、前々回に述べたように、書籍出版の場合、売り上げがある額に達する確率がわからないことが、経営者の過信や、予算策定の誤りにつながるのでした。これを防ぐためには、ある程度、客観的に「売り上げがある額になる確率」を求める必要があります。今回はその方法を考えます。結論から言うと、これは過去のデータからある程度、客観的に考えることができるはずなのです。

 具体的には、物理学などで非常によく使われている「モンテカルロ法」と呼ばれるシミュレーションの手法を使います。モンテカルロ法とは、解析的な計算によって答えを導くことができないような(つまり、方程式を解くことができないような)複雑な問題の解を求めるのに使われる手法です。基本的な仕組みは、コンピュータを使って大量に発生させた乱数をモデルに当てはめることで近似的に答えを得るというものです。乱数を使うところから、カジノで有名なモナコのモンテカルロの名前がついています。

 モンテカルロ法で、書籍出版社の売り上げの90%水準を求める方法は以下のようなもので、Excelなどを使っても比較的簡単に行うことができます。

  1. 会社の編集者ごとの過去4~5年の担当書籍(数十点)とそれらの売り上げ実績(刊行から1年間の数値)のリストを作る。
  2. 各編集者がそれぞれ年間に何点担当するのが妥当か判断する。
  3. 編集者ごとのリストからランダムに年間担当点数と同じ点数の本を選び、それらの売り上げを合計することで、その編集者の年間売り上げを生成させる。つまりAという編集者が年間8点を担当するとすれば、Aが過去に担当した本のリストからランダムに8点を選び、その売り上げを合計することで、Aの年間売り上げが生成されたことになる。
  4. 各編集者について3で生成された売り上げを、全員分足すと、会社の年間売り上げ値が生成されることになる。この値を記録する。
  5. この3と4の過程を1万回程度繰り返し、年間売り上げとして生成された1万個程度のデータを得る。
  6. このデータを金額の大小の順に並べ変えて、度数分布表(ヒストグラム)を作成、グラフにする。これをもとに上位90%の境目になる売り上げ値(つまり、90%の確率でそれ以上の売り上げになるという値)を求める。これがモンテカルロ法によって求められた90%確実売り上げ水準である。

 つまり、過去の書籍の売り上げ実績をもとに、未来の売り上げをランダムに生成させ、その分布がどのようになるかを考えるわけです。
 もちろん、未来は過去とは別のものですから、モンテカルロ法で求めた確率分布が本当に正しいかどうかは、わかりません。しかし、過去のデータをある程度豊富に用意することにより、妥当な推定を行うことは可能だと思われます。

・やってみるとどんな感じのデータが得られるのか?


image01.jpg

 

 

 

 

 

 



 90%水準の求め方の話だけでは実感が得られないと思うので、少し具体的に話を進めていこうと思います。

 上の青いグラフは、べき分布に従う書籍売り上げのデータを人工的に作り出し、そこから年間50点の書籍を発行する出版社の売り上げをランダムに1万回生成させ、ヒストグラムにしたものです(実在の出版社のデータを出すのは差し障りがありますので。今回のダミーデータ生成条件など詳しいことは最後にまとめて掲示)。グラフの区間幅は1000万円です。データはダミーのものを使用していますが、実際にリアルなデータを使って行ったモンテカルロ法でも、同じような形のヒストグラムが現れます。

 このヒストグラムの特徴は、かなりピークが左(値の低い方)にずれた形をしていることと、右側の度数がだらだらと減衰しながらもなかなかゼロにならないことです。これが全体の平均を上昇させる原因となります。右端にぴょこんと大きな度数がありますが、これは売り上げが10億円以上になった度数をまとめて示しているものです。

 赤い曲線は、累積の確率(下位からの累積)をしめしています。このグラフは、3億円程度のところで10%に達していることが目測でもわかるでしょう。この場合の「90%確実売り上げ水準」は、だいたい3億円くらいだということを示しています。詳しく90%水準を求めるには、1万回生成させた売り上げ値を大きい順に並べ、9000位の値をみる必要があります。今回のシミュレーションでは、90%水準の値は2億8600万円ほどになりました。

 今回のシミュレーションの結果は、ダミーのデータを元に生成させたものですので、あまり現実味はありません。それでも実際のデータを元にした場合に得られる分布に、かなり近い「形」をしています(「絶対的な金額の大小」は、各出版社ごとにかなり違うはずです)。ここでは、分布の特徴を議論するため、このダミー値でのシミュレーション結果を元に、説明していこうと思います。今回のシミュレーション結果の統計値を算出して、リストにしてみました。

  • 90%水準   286,367,875円
  • 下四分位数  313,095,634円
  • 中央値    351,895,379円
  • 上四分位数 405,904,474円
  • 平均値    382,238,878円
  • 最頻区間  340,000,000~350,000,000円
  • 標準偏差   136,162,338円
  • 試行回数   10,000回

 標準偏差は、参考のために算出してみましたが、分布の形が正規分布から大きくはずれているので、あまり意味がありません。それでも、売り上げ値に対して標準偏差が大きいことから、全体にかなりばらつきの大きい分布になっていることがわかります。

 中央値(上からの順位と下からの順位が同じに当たる値。今回の場合は5000位の値のこと)をみてみましょう。中央値は、これ以上の売り上げが達成される確率が50%になる値なので、本シミュレーションにとっては非常に重要な値です。前回の議論のように中央値と平均値を比べると、平均値のほうが大きいことがわかります。これは、ヒストグラムの右端の方、すなわち、売り上げが非常に高い値になる度数が無視できないほどたくさん生じていることに原因があります。これによる平均のつり上げ効果がかなりあり、結果として、売り上げが平均値を超える確率は2分の1を下回ります。

 度数分布から、売り上げが平均を超える確率を求めるためには、平均値と同額のデータが何位になっているかを調べます。今回の場合は上から3400位くらいのところに平均と同じ程度のものがありました。このことから、売り上げが平均を超える確率は、34%という結果になります。

 上四分位数とは、順位で上から4分の1に当たる値のことです。下四分位数とは、逆に、順位で下から4分の1に当たる値のこと。売り上げが上四分位数より大きくなる可能性は25%、また下四分位数よりも小さくなる可能性も25%です。くどいですが、上四分位数と下四分位数の間に売り上げが納まる確率は50%ということになります。

  今回の場合、下四分位数が3億1300万円くらい、上四分位数が4億600万円くらい。これくらいの範囲での売り上げ値の変動は、かなり頻繁に起こるということがわかります。上四分位数から下四分位数では、25%ほど金額が違います。2~3割程度の売り上げ変動は当たり前という小規模出版社の現実が、本シミュレーションからも示唆されます。

・実用上の注意

 もし、自社のデータを使ってこのシミュレーションを実際にやってみようという場合にはいくつかの注意事項があります。もう、すでにここまで読まれた方の中には、いくつか突っ込みどころがあることに気づいておいでの方もいるでしょうが…。

 まずは、このシミュレーションで予測できるのは新刊・準新刊の売り上げだけだという点です。しかし、既刊書の売り上げについては、従来の勘に頼る方法や、線形的な予測でも、それほど大きな外れはないと考えられます。そういった方法と併用して、売上総計を求めることが可能でしょう。

 上記の「やり方」のところでは、各書籍の発行後1年間の売り上げ値を元にシミュレーションすると書きましたが、これにより、通年の新刊と、準新刊(前年度発行された本)の売り上げ合計に近い値が得られると考えられます。しかし、これだけでは不正確だと考える場合には、 各書籍の発行後1ヶ月後、2ヶ月後、3ヶ月後…の売り上げ累計数をリストにしておいて、そういった数値を元に、「第3四半期に発行された本が期末までに売り上げる金額」を算出するなどの方法で、もうすこし現実に近い形でシミュレーションすることが可能でしょう。「売り上げ」の定義をどうするか、期間をどうとるかによって、モディファイした方がいいでしょう。

 定期的に発行される本で確実に固定読者が見込める本に関しては、このシミュレーションからは外したほうがいいでしょう。シミュレーション結果にあとから加算するほうが、正確な値が求められるでしょう。

 最後に、モンテカルロ法には、本来的にいくつかの暗黙の前提があります。

 それは、各書籍の売り上げが、独立事象であるという前提です。一般的にはそのような仮定をしてもかまわないと思われますが、必ずしもそうでない可能性もあります。たとえば、シリーズものの場合、シリーズ内の本の売り上げがお互いに影響を与えあうことが考えられます。また、ある年にかなり大きなヒット作が出た場合、それにより、広告の原資が確保されたので、同じ年に出た本には例年より広告費が多く使われ、その結果、全般的に売り上げが底上げされるというようなことも考えられます。 そういうヒット作は、書店への営業活動やパブリシティ活動にも好影響を与えるので、そういった効果によっても、同年に出た本の売り上げが底上げされる可能性があります。このほかにも、ヒット作が出た直後に、第2作や派生企画を出版するという場合にも、それらの本の売り上げ値は独立事象とはいえません。各編集者ごとの過去の売り上げデータを元にシミュレーションを行うので、こういった相関関係は、結果を不正確にする可能性があります。このため、シミュレーションの結果をなるべく正確にするような補正が必要でしょう。

 もう一つの暗黙の前提は、全体状況が定常的で不変であるという前提です。最近のように、書籍市場の規模が少しずつ縮小している場合、シミュレーションの元になる過去5年間程度の実績が、そのまま将来に当てはまるとは限りません。また、ある分野に特化して本を出している出版社の場合、その分野の市場が縮小や拡大をしているなら、補正する必要があるかもしれません。このような構造的な変化を織り込むことは、モンテカルロ法とは別の方法で行わなければなりません。

・何でこんな面倒なことをしなければならないのか

 そもそも、こんなモンテカルロ法などという面倒なことをしなければ売り上げの予測が立たないのは、書籍の売り上げの確率分布が「べき分布」に従うような、ばらつきの大きい分布になっているからです。

 次回からは、そのべき分布の基本的な性質から、本の売り上げ分布の驚くべき正体に迫ります。

 

 まとめ

  • 90%水準の算出には、過去のデータを使ったモンテカルロ法を利用できる
  • モンテカルロ法により、売り上げがある水準に達する確率を判定できる
  • モンテカルロ法による結果は、書籍売り上げに関する現場の感覚と矛盾しない
  • モンテカルロ法を利用したシミュレーションにはいくつかの限界や暗黙の前提があるので、実用上は注意が必要

 

*シミュレーションに使ったダミーデータの生成条件

  • 下限3,000部上限200万部で、累積分布関数の指数が1.63のべき分布に従うよう、データをランダムに生成させた(生成させたデータは連続値)。
  • すべての本の価格が1,000円であるとして、上記で生成させた値に1,000をかけた(生成させたデータが連続値だったので、結果は1,000で割り切れるものにはなっていない)。
  • 各年度の発行タイトル数は50点とした。
  • 試行回数は10,000回

 

« 書籍出版社の数理(3)―何で売り上げ見通しは外れるのか? | トップページ | 書籍出版社の数理・番外編―べき分布に従う乱数値のつくりかた »

出版」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

« 書籍出版社の数理(3)―何で売り上げ見通しは外れるのか? | トップページ | 書籍出版社の数理・番外編―べき分布に従う乱数値のつくりかた »