データの作り方

確率を考える時に大事なこと　再現性に期待していいデータと、期待してはいけないデータの違い

確率の話になると、つい「過去に当たっている」「数字が良かった」という結果だけを見て安心したくなります。ですが、そこには大きな落とし穴があります。その数字が、未来でも同じように働く作り方なのか、それとも過去を見た後に都合よく拾っただけなのかで、意味がまったく変わるからです。

再現性に期待していいデータは、条件の決め方が先にあり、その条件に合うものを機械的に集めたデータです。逆に、再現性に期待してはいけないデータは、結果を見た後で「ここが良さそう」と切り取ったデータです。見た目は同じ集計表でも、この差はかなり大きいです。

まず大事なのは、「集計した」ことではなく「どう集計したか」

たとえば、最初から「芝1600mの1人気を5年分全部集計する」と決めて集めた数字なら、未来でも同じルールで追いかけることができます。これは再現性に期待しやすい取り方です。

一方で、全体を見渡したあとに「この条件だけ回収率が高かった」「この年だけ良かった」「この人気帯だけ妙に当たっていた」と後から拾うやり方は、過去にはきれいに見えても、未来で崩れやすいです。これはデータが強いのではなく、過去の偶然にきれいにハマっただけということが起こるからです。

再現性に期待していいデータの特徴

条件を先に決めている
良い結果も悪い結果も含めて全部集計している
途中で都合よく条件を足したり外したりしていない
別期間でも同じルールで検証できる
あとから見つけた条件ではなく、先に決めたルールを守っている

再現性に期待してはいけないデータの特徴

結果を見た後に条件を作っている
悪い期間や悪いパターンを後から外している
試した条件のうち、良かったものだけを出している
サンプルが少ないのに強い結論を出している
同じデータで条件探しと成績判定を両方やっている

やっていいこと・やってはいけないこと

分類	例	再現性	理由
やってええで	最初に「芝1200m・1人気・過去5年を全部集計」と決めて、そのまま全部集計する	高い	条件が先に固定されていて、未来でも同じやり方をそのまま繰り返せるため
やってええで	2015～2021年で条件を作り、2022～2024年で別検証する	高い	条件探しに使った期間と、強さを確認する期間が分かれているため
やってええで	サンプル数の下限を先に決めてから比較する	高い	少数のまぐれ当たりに引っ張られにくくなるため
やってええで	悪い年も含めて全期間をそのまま出す	高い	都合の悪い部分を隠していないため、実戦に近い見え方になる
やったらあかん	全部見た後で、回収率が高かった条件だけを選んで「強い」と言う	低い	過去の偶然に合わせて条件を作っているだけで、未来では崩れやすいため
やったらあかん	悪かった年だけ後から外す	低い	本来受け入れるべきブレを切り落としているため、実力以上に見えてしまう
あかん	100通り試して、一番良かった1通りだけ出す	低い	試行回数が多いほど、偶然きれいに見える条件が混ざるため
あかん	同じデータで条件発見も検証も済ませる	低い	そのデータ専用の答えになりやすく、別期間で再現しにくいため
アカーン！	数件しかない条件を「高確率」と断定する	低い	少数の結果はブレが大きく、数字の見た目が安定しないため

ここで重要になるのが「ゆらぎ」です

確率の話で見落としやすいのが、数字のゆらぎです。ここでいうゆらぎとは、実力そのものではなく、偶然や条件の偏りで数字が大きく上下して見えることです。良すぎる数字も、悪すぎる数字も、そのまま鵜呑みにすると判断を誤りやすくなります。

特に危ないのは、上振れした部分だけを見て「この条件は強い」と決めてしまうことです。

ですが、下振れした部分も同じように偶然で動いているかもしれません。だからこそ、片側だけではなく、両端のゆらぎを外して中心を見るという考え方が重要になります。

ちなみにいつも私が発表しているpricecode表の印には、このようにカーソルを合わせるとそのタイプの馬の連対率が一目見てわかるようになっていますが、

ここでの確率は両端のゆらぎを外して中心を見るという考え方に基づいてます。

記憶に新しいので天皇賞(春)をサンプルにします

つまりクロワデュノールの同タイプの数字を持つ馬は揺らぎを取り除くと76.7％の確率で連対した実績があった事がわかります。

いつものP順位1位馬は得点ごとに算出した連対率なので↓の確率58.8％とは別の概念なのでお間違えの無いようにお願いします

なぜ両端を外すのか

上側の極端な好成績だけを外さずに残すと、数字は必要以上によく見えます。逆に、下側の極端な不成績だけを外すと、都合の悪い失敗を消しただけになります。

これでは再現性を見る作業ではなく、見栄えを整える作業に近くなってしまいます。

その昔、多くの競馬必勝本なるものはこれ系(揺らぎ無視の上振れ記述)が多かったです。

出版社も発行部数を伸ばしたいし、意外と悪い例は人って読まないからです！

このブログ記事だってよい報告は読む人が多い傾向にありますが、失敗した例はあまり読まれません。

私も記事を書いている以上よい例ほど読まれたいと思いますし、やはり本心は失敗例を沢山紹介はしたくありません。

このように今の現代人はこの傾向の人が多いです。というよりそのような仕組みの世の中になっています。

自分が見たいものだけが目の前に並びやすくなっています。YouTubeのおすすめも、SNSの投稿も、その人の興味に合わせて次々と表示される。

便利な反面、自分の考えとは対極にある意見に触れる機会は、知らないうちに減っていきます。

根源にあるものは、「興味のない分野の広告を表示してもしょうがない」からです。

これは意外と危険で、反対側の考えを見ないままでいると、自分の判断が正しいのか、それとも同じ方向の情報ばかり見て安心しているだけなのかが分かりにくくなるからです。

馬券でも、人生でも、自分に都合のいい材料だけを集めると判断は鈍ります。だからこそ、あえて反対側の意見にも目を向けることは大事だと思います。

話が逸れてしまいましたが、両端をそろえて外す意味は、偶然の大勝ちと偶然の大負けをいったん脇に置いて、真ん中の安定した景色を確認することにあります。

これをやると、その条件が本当に安定しているのか、それとも一部の極端な結果に支えられているだけなのかが見えやすくなります。

あなたがどんな方法論を作ろうとしているかにもよりますが、　1　が全体像だとするならば残し0.2～0.8あたりが無難です。

ゆらぎを見る → 両端の極端値を確認する → しきい値を置いて外す → 真ん中の安定した部分を見る

見方	何が起きるか	問題点
上振れだけ残して見る	成績が実力以上によく見える	未来で同じ上振れが出る保証がない
下振れだけ消して見る	都合の悪い失敗を消した数字になる	再現性ではなく、後付け調整になる
両端を同じ基準で外して見る	中心の安定した傾向が見えやすくなる	条件を先に決めておかないと、後から都合よく触る危険は残る

ゆらぎを外す時の正しい考え方

大事なのは、数字を見た後で好きに削ることではありません。どこまでを外れ値として扱うのかを先に決めておくことです。たとえば、上位5％と下位5％を外す、あるいは明らかに異常な値だけを除くなど、先にルールを固定してから見る必要があります。

この手順を守ると、元の数字と、両端を外した後の数字を並べて比べる意味が出てきます。そこで差が小さいなら、その条件は極端な結果に頼らず安定している可能性があります。差が大きいなら、その条件は一部の大勝ち、大負けに引っ張られて見えていただけかもしれません。

ありがちな勘違い

「過去できれいに当たっている＝未来でも強い」とは限りません。むしろ、過去にきれいすぎる数字が出ている時ほど、その条件が後付けになっていないかを疑った方がいい場面があります。

本当に見るべきなのは、数字の派手さではなく、同じルールで、別の期間でも近い傾向が続くかです。ここが通るなら、そのデータには再現性を期待しやすいです。逆に、条件を少し変えただけで崩れるものは、たまたま過去に合っていただけの可能性が高いです。

結局、何を基準に見ればいいのか

確率を考える時は、まず「この条件は、結果を見る前に決めたものか」を確認することです。次に、「悪い期間も含めて全部出しているか」を見ることです。

そして最後に、「別期間でも同じ傾向が残るか」を確かめることです。

さらに、極端に良かった結果と、極端に悪かった結果の両方を脇に置いても、なお傾向が残るかを見ることです。再現性を考えるなら、派手な上振れよりも、両端をならしたあとに残る安定感のほうが価値があります。

確率の議論で本当に大事なのは、派手な数字を探すことではありません。同じ取り方をもう一度やっても、だいたい同じ景色が出るか、そしてゆらぎの両端を外しても中心が崩れないかです。ここが残る数字こそ、未来に向けて使う価値があります。

私の監修したすべてのソフト、馬券ロジックは、全期間、1年刻み、全体の半分の期間を学習させ、残りの半分の期間を実践検証、ランダムラーニング⇒ランダム期間検証などを行っています。

それらはもちろんAIが行うので所要時間は昔より大幅に短縮されました！

再現性を見るなら、1回当たったでは足りない　学習期間と検証期間の切り方で見えてくるもの

ロジックを作っていると、どうしても気になるのは「これ、ほんまに次も通用するんか？」というところです。過去10年で成績が良かったとしても、その10年をただまとめて見ただけでは、まだ安心はできません。

たまたまその期間にハマっただけかもしれないし、たまたま大きい当たりが数本入って数字がきれいに見えているだけかもしれないからです。

再現性を確かめたいなら、過去データを1回集計して終わりではなく、どう分けて、どう崩れずに残るかを見る必要があります。ここを雑にやると、見た目は強そうでも、実戦に入った瞬間に急に鈍るロジックが混ざります。

まず有効なのは、前半で作って後半で確かめる形

たとえば10年分あるなら、前半5年で条件を作って、残り5年で検証する。これはかなり大事です。なぜなら、未来に向けて使う時の形にいちばん近いからです。先に過去を見て条件を作り、そのあとまだ見ていない期間で試す。この流れなら、「その期間専用の答え」になっていないかを確かめやすいです。

この検証で強いのは、学習期間ではもちろん、検証期間でもちゃんと形が残るロジックです。逆に、学習側では派手に勝つのに、検証側に行った途端にしぼむものは、見た目ほど信用しにくいです。

1年刻みで送っていく検証は、かなり価値があります

もうひとつ有効なのが、学習期間と検証期間を1年ずつずらしていく見方です。たとえば「5年学習→次の1年検証」をずらしながら何回も回すやり方です。これは、ある1回だけ通ったのか、

それとも年をまたいでも傾向が残るのかを見るのに向いています。

このやり方の良いところは、どの年で崩れやすいかが見えることです。ずっと安定しているのか、特定の年だけ急にダメになるのか、そこが見えるだけでも価値があります。

再現性というのは、きれいな平均値より、こういう年ごとの耐久力のほうが大事やったりします。

ランダム検証も使える。ただし、やり方は選んだほうがいい

ランダムに学習期間と検証期間を切る考え方自体は有効です。ただ、ここで気をつけたいのは、行単位でバラバラに混ぜるランダム分割です。これは見た目には便利ですが、時系列の空気を壊しやすいです。過去と未来をちゃんと分けて確認したいのに、ランダムに混ぜると、未来で起きるはずの変化がぼやけます。

なので、ランダムにやるなら、年単位や開催単位など、ある程度まとまりを持ったブロックで分けたほうがいいです。要するに、時系列の骨組みは残したまま、いろんな切り方で崩れないかを見る、ということです。

どの検証が有効かをまとめると

検証の仕方	有効度	見えるもの	注意点
前半5年で学習し、後半5年で検証する	高い	未来にそのまま通す形で強さを見られる	たまたま切り方が当たる場合もあるので、これ1本では足りない
1年ずつずらして、学習→検証を繰り返す	高い	年ごとの安定感、崩れる年の傾向が見える	年によるブレがそのまま出るので、単年の見た目だけで決めないこと
年や開催のブロックをランダムに入れ替えて検証する	中〜高	切り方を変えても傾向が残るかが見える	ブロックが小さすぎると、時系列の意味が薄れる
行単位で完全ランダム分割する	低め	見た目の平均的な強さは出しやすい	過去と未来の境目がぼけやすく、実戦の確認としては弱い

どれくらい良ければ再現性が高いと言えるのか

ここは正直、ひとつの数字でスパッと切るのは危ないです。なぜなら、的中率型なのか、回収率型なのか、サンプルの大きさはどれくらいか、ロジックが狙っているゾーンはどこかで、評価の重みが変わるからです。

ただ、それでも目安はあります。たとえば10年ある中で、いろんな切り方で見ても良い年が7年あるというだけなら、まだ「有望」くらいです。ここで止まると、残り3年の悪さが重かった場合に、全体では簡単に崩れます。

一方で、8年くらい安定して良くて、しかも悪い年も致命傷ではなく、総合でもプラスを維持し、さらに特定の1年だけで利益の大半を稼いでいないとなると、だいぶ強く見やすくなります。ここまで来ると、「たまたま1本の大当たりで見えているだけ」とは言いにくくなります。

私なら、こういう順番で見ます

判定	見たい状態	見方
候補	検証側の総合がプラスで、プラス年が多い	まず土台があるかを見る段階
有望	複数の切り方でも崩れにくく、10年のうち7年程度は良い	ただし一部の年に利益が偏っていないかを必ず確認する
かなり強い	8年程度以上で安定、総合でもプラス、特定年依存が薄い	再現性をかなり期待しやすい形
見送り	学習では強いのに検証で急に鈍る、利益の大半が1年依存	見た目はきれいでも、実戦では不安が大きい

これ忘れたらあかん！「気を付けよう1年だけの大当たり」です

10年中7年が良かったとしても、利益の大半を1年だけで稼いでいるなら、再現性が高いとはまだ言いにくいです。逆に、爆発は少なくても、いろんな切り方でそこそこ残るロジックのほうが、実戦ではずっと扱いやすいです。

要するに、見るべきなのは「最高の年」ではなく、良い年がどれだけ広く分散しているかと、悪い年がどれだけ浅く済んでいるかです。ここが整っているほうが、次にも期待しやすいです。

結局、再現性が高いロジックとは何か

私なら、再現性が高いと見やすいのは、次の条件が重なる時です。固定分割でも通る、年送りでも通る、ブロックの切り方を変えても大崩れしない、そして一部の特大当たりに依存していない。この形がそろえば、だいぶ信用しやすいです。

逆に、どれか1本だけきれいでも、それだけで安心するのは早いです。検証というのは、ロジックの強さを飾る作業ではなく、どれだけ崩れにくいかを見にいく作業です。そこが残っているものは、数字が少し地味でも、実戦では案外しぶといです。

ということで今回は1～3番人気の単勝オッズ和と3連複決着人気の関係と確率の扱い方、再現性の高いデータの作り方や検証方法についての記事を書きました！

ではまた！如月

© Price-Code

Pricecode表の見方