PDFと画像ファイルからテキストを抽出する


すべてのテキストを抽出したいPDF文書がありますか?編集可能なテキストに変換するスキャンされたドキュメントのイメージファイルはどうですか?

この記事では、PDFからテキストを抽出しようとするいくつかの方法について説明します。または画像から取得することができる。抽出結果は、PDFまたはイメージのテキストの種類と品質によって異なります。

画像やPDFからテキストを抽出する

画像やPDFからテキストを抽出する

始める最も簡単で簡単な方法は、オンラインのPDFテキスト抽出サービスを試すことです。これらは通常無料で、コンピュータに何もインストールすることなく、探しているものを正確に提供することができます。ここでは、私が優れた結果に非常に良いと使用している2つです:

ExtractPDF

extractpdf s>はPDFファイルから画像、テキスト、フォントを取り込むための無料のツールです。唯一の制限は、PDFファイルの最大サイズが10 MBであることです。それは少し小さいです。より大きなファイルをお持ちの場合は、以下のいくつかの方法をお試しください。ファイルを選択し、[ファイルを送信]ボタンをクリックします。結果は通常非常に速く、テキストタブをクリックするとテキストのプレビューが表示されるはずです。

download text

それが必要な場合に備えて、PDFファイルから画像を抽出するという利点も追加されました!全体として、オンラインツールは素晴らしいですが、私は面白い結果を出すいくつかのPDF文書を読みました。テキストはちゃんと抽出されますが、何らかの理由で各単語の後に改行が入ります!短いPDFファイルでは大きな問題ではありませんが、テキストがたくさんあるファイルでは確かに問題です。もしそうなら、次のツールを試してみてください。

オンラインOCR

オンラインOCR は通常、ExtractPDFで正しく変換されなかった文書どちらのサービスがより良い出力を提供するかを確認するために、両方のサービスを試してみることをお勧めします。オンラインのOCRには、ドキュメント全体ではなく、数ページのテキストを変換する必要のある大規模なPDFファイルを持つ人にとって便利な機能がいくつかあります。

最初にやりたいことはgo無料のアカウントを作成してください。ちょっと面倒ですが、無料のアカウントを作成しないと、ドキュメント全体ではなくPDFの部分的な変換のみになります。

online ocr

最初に5 MBの文書のみをアップロードするのではなく、ファイルごとに最大100 MBをアップロードすることもできます。言語を選択し、変換されたファイルの出力形式の種類を選択します。あなたはいくつかの選択肢があり、好きな場合は複数を選択することができます。 [複数ページのドキュメント]で[ページ番号]を選択してから、変換するページのみを選択できます。次に、ファイルを選択して[変換]をクリックします。

変換後は、残っている空きページ数を確認できる[ドキュメント]セクション(ログインしている場合)に移動します。

online ocr docs 変換されたファイルをダウンロードするリンク。

オンラインOCRは1日に25ページしか無料ではないようですので、それ以上のものが必要な場合は少し待たなければならないでしょう。私のPDFはテキストの実際のレイアウトを維持することができたからです。私のテストでは、箇条書き、異なるフォントサイズなどを使用したWord文書を取り出し、PDFに変換しました。その後、私はOnline OCRを使ってWord形式に戻しました。元の95%と同じでした。それはかなり印象的です。

また、イメージをテキストに変換する場合、オンラインOCRはPDFファイルからテキストを抽出するのと同じくらい容易に行うことができます。オンラインOCR

画像OCRの画像について話して以来、画像で本当にうまく機能する別の良いウェブサイトについて言及しましょう。 Free オンラインOCR はテスト画像からテキストを抽出するときに非常に正確で非常に正確でした。私は書籍、パンフレットなどからiPhoneのページから2枚の写真を撮ったが、テキストをどれだけうまく変換できたかに驚いた。

free online ocr

ファイルを選択し、[アップロード]ボタンをクリックします。次の画面には、いくつかのオプションと画像のプレビューがあります。すべてをOCRしたくない場合は、それを切り抜くことができます。次に、OCRボタンをクリックすると、変換されたテキストがイメージプレビューの下に表示されます。

オンラインサービスに加えて、実行するためにコンピュータ上でローカルに実行するソフトウェアが必要な場合に備えて、2つのフリーウェアのPDFコンバータがありますコンバージョンオンラインサービスでは、インターネットに接続する必要があります。これは誰にとっても不可能です。しかし、私は、フリーウェアプログラムの変換の質がウェブサイトの変換の品質よりも著しく悪いことに気づいた。

A-PDF Text Extractor

A-PDFテキストエクストラクタ PDFファイルからテキストを抽出することはかなり良い仕事をしているフリーウェアです。ダウンロードしてインストールしたら、[開く]ボタンをクリックしてPDFファイルを選択します。次に、テキストを抽出するをクリックしてプロセスを開始します。

apdf extractor

テキスト出力ファイルを保存する場所を尋ねて、 。 [オプション]ボタンをクリックして、抽出する特定のページと抽出タイプのみを選択することもできます。 2番目の選択肢は、さまざまなレイアウトのテキストを抽出し、3つすべてを試して最高の出力を得ることができるので興味深いです。

PDF2Text Pilot

PDF2テキストパイロット はテキストを抽出するのに大丈夫です。これにはオプションはありません。あなたは単にファイルやフォルダを追加し、変換し、最高のものを願っています。

11

「ファイルを追加」をクリックし、「」をクリックするだけで、PDFでうまくいきました。 >変換]をクリックします。変換が完了したら、[参照]をクリックしてファイルを開きます。あなたの走行距離はこのプログラムで変わるので、あまり期待しないでください。

また、会社の環境にいる場合や仕事場からAdobe Acrobatのコピーを手に入れることができれば、はるかに優れた結果を得ることができます。 Acrobatは明らかに無料ではありませんが、PDFをWord、Excel、HTML形式に変換するオプションがあります。また、元の文書の構造を維持し、複雑なテキストを変換するという最良の仕事をします。

PDFファイルから任意のページを抽出する方法

関連記事:


13.11.2014