経済産業省のウェブサイトには、毎週複数のPDFが静かにアップロードされている。審議会の議事録、産業政策の中間報告、エネルギー基本計画の改訂草稿。これらは記者発表を経ずにひっそり公開されることも多く、市場が気づく前に「次の予算が動く場所」を読み解ける。
私はこれを「国策の先読み」と呼んでいる。大手デベロッパー時代に覚えた「都市計画決定の先にある土地評価」の読み方が、AI時代に一段上のレイヤーで再現できるようになった。
なぜ公開情報に価値があるのか
インサイダー情報に頼らなくても、公開情報の時間差だけで十分なアルファが取れる。理由は単純で、読むのに時間がかかるからだ。
経産省の「総合資源エネルギー調査会」の議事録は1回分で100ページを超えることがある。国土交通省の「国土形成計画」関連資料は数百ページに及ぶ。これを人間が全部読むのは現実的でない。だからこそ、AIがバッチ処理で一括解析できる環境を持つ人間だけが、情報の先読みポジションに立てる。
Pythonクローラーの概念設計
仕組みは難しくない。以下の3ステップが基本構成だ。
Step 1:更新検知
各省庁のサイトマップXMLまたは「新着情報」ページのHTMLをcronで定期取得し、前回との差分からPDFリンクを抽出する。requests+BeautifulSoup4で実装できる。
Step 2:PDF取得と前処理
差分検出されたPDFをダウンロードし、pdfplumberまたはpymupdfでテキスト抽出。日本語OCRが必要な場合はtesseractを噛ませる。64GBのRAMがあるため、数百件のPDFを並列処理してもスワップなしで動く。
Step 3:ローカルLLMで構造化要約
抽出テキストをローカルの70Bモデルに渡し、「予算規模・対象地域・関連産業・スケジュール感」の4軸で構造化出力させる。出力はJSONで保存し、日次レポートとして自動生成する。
64GBだからできる数百件一括解析
32GBマシンで同じことをしようとすると、モデルのロード・アンロードが頻発してバッチ処理が現実的な速度に収まらない。64GBあるからこそ、モデルをメモリに常駐させたまま、PDFのテキストを次々に流し込める。
実績として、直近では原子力規制委員会が公表した「新規制基準適合性審査」関連の議事録50件(総計3,200ページ超)を一夜でバッチ処理した。出力されたレポートから「次の審査通過候補サイトと周辺送電線の強化計画」が浮かび上がった。この結果を基に不動産×エネルギーインフラの相関を見始めたのが、次の記事につながる。
AI秘書が拾う「着金地点のシグナル」
国策予算が動くとき、その前に必ず「審議会での議論の収束」「関係省庁の連名文書」「地方自治体との協定締結」という3つのフェーズがある。この3つが揃った案件は、半年〜1年後に予算として具現化する確率が高い。
AIが毎日自動でチェックし、このパターンを検出したときだけ通知する仕組みを作れば、24時間のうち23時間は別の仕事をしながら「国策アンテナ」を立て続けられる。これが私の言う「AI副業」の本質だ。労働集約ではなく、システムが働く構造を作ること。
📝 2026年後半の「着金地点」の具体的な結論は、noteの有料レポートで公開しています。
半導体・原子力・エネルギー政策の交差点から、AIが導き出した「次に予算が動く地域」を実名の政策名・資料名とともに解説。クローラーが拾った生データも一部公開しています。