リザルトを加工しよう!PDFから変換 motogp結果を円滑に更新するプロジェクト
MotoGPの結果表は、紙で配布するのが目的と思われ、A4サイズにベストなレイアウトでPDF化されます。
この仕組みは凄くて、イベント終了後、集計、PDFファイル作成が数分で完了、ホームページに公開されます。
とは言え、ブログで使うにはちょっと見ずらい。
使いやすいようにデータ化します。
Acrobatでエクセル化
有償版のAcrobatで、pdfファイルをエクセルに変換してみました。
おしい、ヘッダーが壊れる。
それ以外は良さそう。
手作業でヘッダー作れば利用できます。
コピー&ペーストでテキスト化
エクセル化するには有料Acrobatが必要なので、Acrobat readerで対応できる方法考えます。
いろんなソフトで活用する為に、CSVファイル変換を試みます。
先ずはAcrobat readerで開き、空のテキストファイルにコピペ。
壊れたヘッダーや不要な行を削除
ヘッダーは後で作成する事にして、余計な情報は削除します。
カンマ区切りに置換してCSV化
空白をカンマに置換
ヘッダーを先頭行に追加
何番目の列が何か分かるようにヘッダーを作成。
余計なカンマを排除
空白の一括置換でカンマを付けたら、チーム名が分断されてました。
仕方ないのでチーム毎に置換「Repsol Honda Team」→「Repsol Honda Team」
3チームほど置換して、めんどい、毎回この作業は出来ないと気が付く。
自動化を考えましょう。
そんな訳で、次回に続く。