チャンピオンズリーグのアーセナルvsセビージャのハイライト動画取得に失敗
結論から言うと入稿ミスと思われるタイトルの形式崩れが原因でした。
【アーセナル vs セビージャ】がこれまで入稿されていた正解形式だったが、【アーセナルvs セビージャ】で入稿されていました。
対処としては、vsの前後に強制的にスペースを入れるようにしました。
対処用のpythonコード
正規表現で置換しました。
以下に入稿データと置換対応のコードを残しておきます。
補足説明として、入稿データからホームチーム、アウェイチーム、大会名、シーズン、マッチデイのデータを取得しています。
入稿データ
【アーセナル vs セビージャ】UEFAチャンピオンズリーグ 2023-24 グループB Matchday4/1分ハイライト【WOWOW】
pythonコード
title = re.sub(r'\s*vs\s*', ' vs ', title)
対処後
無事正しくデータを処理できるようになりました。
入稿ミスにも対応できるようなより抽象的なデータ抽出を書きたいですが、今は動いているコードを素早く修正することに注力しています。
文字列処理はパズル感があって、数あるプログラミングの楽しさの一つだと思います。