YouTube字幕取得検証 / データベース規模推定 / SNSソース選定
調査日: 2026-02-22
youtube-transcript-api v1.2.4 + WebshareProxyConfigの組み合わせで、日本語字幕の取得が正常に動作することを確認しました。
| テスト項目 | 結果 | 詳細 |
|---|---|---|
| プロキシなし(直接接続) | NG | IpBlocked エラー(ローカルIPがYouTubeにブロック済み) |
| Webshareプロキシ経由 | OK | 英語・日本語ともに正常取得 |
| スーツ旅行チャンネル RSS | OK | 15動画のメタデータ取得成功 |
| 旅動画の日本語字幕 | OK | 平均5,500文字/動画、スポット関連キーワード多数検出 |
| バイクツーリング動画の字幕 | OK | 成功率75%(4動画中3動画で字幕取得成功) |
ツーリング動画3本の字幕から以下のキーワードを自動検出:
道の駅, 温泉, 峠, スカイライン, カフェ, ラーメン, 神社, 寺, 城, 展望台, 海岸, 滝, 湖, 山, 川, ホテル, 旅館, 宿, 港, 公園, キャンプ, ワインディング, 富士, 日光, 北海道, 四国カルスト, 四万十川, 足摺サニーロード
現在の youtube_service.py にはプロキシ設定が入っていません。以下の変更が必要です:
WebshareProxyConfig をインポートし、YouTubeTranscriptApi(proxy_config=...) に渡すWEBSHARE_USERNAME, WEBSHARE_PASSWORD)| カテゴリ | チャンネル数 | 推定対象動画数 | 1動画あたりスポット |
|---|---|---|---|
| バイクツーリング専門 | 15 | 3,000 | 5〜8 |
| 車ドライブ系 | 8 | 1,600 | 4〜6 |
| 旅行・グルメ系 | 10 | 2,000 | 5〜10 |
| 日本一周系 | 5 | 1,000 | 3〜5 |
| 合計 | 38 | 7,600 | 平均5 |
YouTube字幕から約18,500のユニークスポット抽出。Google Places APIで座標・評価を補完。道の駅1,221件を一括インポート。
温泉800箇所、宿泊施設1,500、レジャー施設500を追加。ツーリングの「泊まり」「温泉」ニーズをカバー。
観光庁JAPAN47GOの12万件から約12,000のツーリング向けスポットをフィルタ。ブログからの穴場スポット追加。
| ソース | データ量 | データ質 | コスト | 法的リスク | 実装難易度 | 総合 |
|---|---|---|---|---|---|---|
| YouTube | $6/月 | |||||
| Google Places API | 無料枠 | |||||
| 道の駅API | 無料 | |||||
| じゃらんAPI | 無料 | |||||
| 楽天トラベルAPI | 無料 | |||||
| ブログ・Webメディア | Claude費のみ | |||||
| 無料 | ||||||
| X/Twitter | $200/月〜 | |||||
| TikTok | $49〜/月 | |||||
| 食べログ | - | - |
maps_service.py を拡張するだけ| 項目 | Phase 1 | Phase 2 | Phase 3 |
|---|---|---|---|
| Webshare プロキシ | $5.49/月 | $5.49/月 | $5.49/月 |
| Google Places API | $0(無料枠内) | $0 | $0 |
| Claude API(スポット抽出) | ~$15/月 | ~$5/月 | ~$10/月 |
| 道の駅API / じゃらん / 楽天 | $0 | $0 | $0 |
| 合計 | ~$21/月(約3,100円) | ~$11/月(約1,600円) | ~$16/月(約2,400円) |
※ Phase 1はDB初期構築で Claude API費が高め。Phase 2以降は差分更新のみで低コスト
| サービス | スポット数 | 特徴 |
|---|---|---|
| ツーリングマップル | 5,000〜10,000 | 紙面+Web。編集部キュレーション |
| じゃらん観光ガイド | ~30,000 | 口コミベース。全カテゴリ |
| Google Maps 日本 | 数百万POI | 全カテゴリ。ツーリング特化ではない |
| Calimoto(海外) | ~50,000(全世界) | ユーザー投稿 + キュレーション |
全国8地方を最低限カバー。各地方600+スポット
毎回異なるルートを提案可能。ツーリングマップルを超える
圧倒的な網羅性。穴場スポットまでカバー
Google Mapsは数百万POIを持つが「ツーリングで楽しい場所」の選定はできない。TouringAppの強みは:
| データ | 活用方法 | 実装場所 |
|---|---|---|
| touring_logs (走行記録) |
GPS座標から訪問済みスポットを判定。半径500m以内に走行ログがあるスポットを「訪問済み」とマーク | user_preference_service.py |
| saved_routes (保存ルート) |
過去に保存したルート上のスポットを「知っている場所」として扱う | user_preference_service.py |
| favorite_spots (お気に入り) |
お気に入り登録済みスポットは「既知」として新規提案から除外 | spot_service.py |
各スポットに「このユーザーにとっての新鮮さ」を数値化:
ルート生成時にスコアの高いスポットを優先的にプロンプトに含めることで、常に新しい発見があるルートを提案します。
YouTube字幕取得はWebshareプロキシで動作確認済み。技術的な障壁はクリアされました。
Phase 1で18,500+スポットのDBが構築可能。月額約3,100円のコストで、ツーリングマップルを超える規模のスポットデータベースが実現できます。
推奨ソース構成: YouTube + Google Places + 道の駅API。X/Twitter、Instagram、TikTokはコスト対効果が低く見送り。じゃらん・楽天はPhase 2で追加。