紙または画像データしかないけど、書いてある内容を文字データにしたい。こんなケースありませんでしょうか。諦めて手入力する前に、できることがないか考えてみましょう。

文字データがほしいのに、データがない。そんなときありませんか?

例えば、次のようなケースに遭遇したことありませんか?

  • パソコンで作成した紙の資料を受け取ったけど、データをもらえない
  • PDFファイルを受け取ったけど、文字をコピーできない
  • データはあるけど、PDFファイルではなく画像ファイルだった

こんなときに、書いてある内容をデータにしたければどうするか?

中には

「どうしようもないし、考えてる時間もったいないから、とりあえず手入力してしまおう」

という方もいらっしゃるかもしれません。

2~3行であれば手入力でもいいと思いますが、例えば100行あったとしても手入力されますか?

今回は、こうしたケースで文字データを作るのに使えそうな方法を整理してみました。

手元にある道具を使って、どこまでデータ化できるか試してみた

次の3つのケースについて、できることを確認してみましょう。

  1. 紙資料しかないが、スキャナーを持っているケース
  2. 紙資料しかないが、スキャナーを持っていないケース
  3. 画像データしか手元にないケース

今回サンプルとして、以下の書類を使います(Googleドキュメントのテンプレートを少し変更したものです)。

ブログ上はPDFファイルとして表示していますが、これをモノクロ印刷した紙資料をサンプルとして使いました。

会議メモ - Google ドキュメント

1.紙資料しかないが、スキャナーを持っているケース

スキャナーの機種によりますが、スキャナーを使ってPDFファイルを作成するときに、自動的に文字認識をしてくれるケースが多いです。

今回試しに、手元にあるScanSnap iX100という機種で、先ほどの紙資料をPDFファイルにしました。

なお、iX100の読み取り時の設定は、「検索可能なPDFにします」にチェックを入れて作成。

その後PDFファイルを開いて、文字列を選択・コピーしてから、メモ帳に貼付けた結果が以下の通りです。

使えなくはないですが、特にタイトル付近がうまく変換できていません。

ちなみに、「検索可能なPDFにします」のチェックを外して作成したPDFファイルだとこうなります。「来週の議題」の部分が改善したくらいで、あまり差はありません。

ここで諦めずに、別の方法を試してみましょう。スキャナーで作成したPDFファイルをGoogleドライブに保存して、Googleドキュメントで開いてみましょう。

GoogleドライブにはOCR機能があるため、ファイルの文字を自動的に文字データへと変換してくれます。

PDFファイル(「検索可能なPDFにします」のチェックあり)のファイルを、この手順で開いた結果が以下の通りです。

PDFファイルからコピーしてメモ帳に貼付けるよりも、特にタイトル部分の認識の精度はよくなっていることがわかります。

2.紙資料しか無いが、スキャナーを持っていないケース

スキャナーが手元にあれば、先ほどのような方法が使えますが、もし持っていなければどうするか?

この場合はスマホを使ってみましょう。

iPhoneであれば、ScannableというEvernoteと連携して使えるアプリがあります。このアプリで先ほどの紙の書類を撮影するとPDFファイルを作成できます。

ただ、このアプリでは文字認識が行われないため、作成したPDFファイル内で文字列を選択・コピーすることができません。

そこで、先ほどと同じように作成したファイルをGoogleドライブに保存して、Googleドキュメントで開いてみましょう。

レイアウトはかなり崩れてしまいますが、データとしては結構使えそうです。

今回Androidではテストしていませんが、CamScannerというアプリを使えば、紙の書類をPDFファイルにすることができます。

3.画像データしか手元にないケース

画像データしか手元にない場合は、先ほどと同じようにGoogleドライブに保存して、Googleドキュメントで開いてみましょう。

適当な画像データがなかったため、サンプルを印刷した紙をスキャナーで読み取り、直接JPEGファイルとして保存したもので試してみました。

意外にも最もキレイにデータ化することができました。

なお、Googleドキュメントでファイルを開く際には、Googleドキュメントからファイルを開くのではなく、Googleドライブ内でファイルを選択して、

右クリック-アプリで開く-Googleドキュメント

の順に開いてください。OCR機能はGoogleドライブにあるため、この方法でファイルを開かないと適用されないようです。

「どうしようもない」で諦めないのが効率化の第一歩

いかがでしたでしょうか?今回はひとつのサンプルをもとに、どこまでデータ化できるかを検証してみました。

使用されるファイルによっては、今回とまったく異なる結果になるかもしれませんが、できることについてなんとなくイメージはつかめたのではないでしょうか。

今回のようなケース、データがないから「どうしようもない」と諦めて手入力してしまうと、改善するための発想は絶対に出てくることはありません。

もちろん締切り等の関係で時間がないケースもあるとは思いますが、ほんの少し立ち止まって、何か使えるツールがないか調べてみることが効率化につながる最初の一歩となります。

もし似たようなケースで困っているようでしたら、一度今回の方法試してみてはいかがでしょうか。