どのようなファイル形式に対応していますか？

画像ファイル（JPEG、PNG、GIF、BMP、WebP）とPDFファイルに対応しています。複数ファイルの一括処理も可能です。

無料で利用できますか？

はい、完全無料で利用できます。登録や会員登録は不要です。

処理速度はどのくらいですか？

ファイルサイズや選択するOCRモデルによって異なりますが、通常数秒から数十秒で処理が完了します。キューシステムにより、複数のリクエストも順番に処理されます。

アップロードしたファイルはどのように管理されますか？

セキュリティを重視し、OCR処理完了後すぐに自動的に削除されます。ファイルは外部に共有されることはありません。

どのような出力形式に対応していますか？

テキスト形式、Excel形式（CSV）、Word形式、PDF形式（BETA版）に対応しています。用途に応じて選択できます。

文字認識OCRサービス・音声文字起こし - 無料で画像・PDF・音声をテキスト化

処理タイプを選択

OCR（文字認識）または音声文字起こしを選択してください。

IMG → TXT

OCR（文字認識）

画像やPDFファイルからテキストを抽出します

OCR処理を選択

AUDIO → TXT

音声文字起こし

音声ファイルからテキストを抽出します

音声文字起こしを選択

OCR文字認識・音声文字起こしサービスについて

mojiscan.onlineは、高精度なOCR（Optical Character Recognition：光学文字認識）と音声文字起こし技術を提供する無料サービスです。Google Gemini 2.5 Flashを活用した最新のAI技術により、画像やPDFファイルから正確にテキストを抽出できます。また、WhisperやGoogle Speech-to-Textを活用した音声文字起こし機能により、音声ファイルからもテキストを抽出できます。

主な機能

高精度な文字認識（OCR）：Google Gemini 2.5 Flashを使用した高精度なOCR処理
音声文字起こし：WhisperやGoogle Speech-to-Textを活用した高精度な音声認識機能
複数ファイル形式対応：画像ファイル（JPEG、PNG、GIF、BMP、WebP）、PDFファイル、音声ファイル（WAV、MP3、FLAC、OGG、M4A、AAC、WebM、Opus）に対応
複数出力形式：テキスト、Excel（CSV）、Word、PDF形式で出力可能
複数ファイルの一括処理：複数のファイルを同時にアップロードして一括処理
完全無料：登録不要で無料で利用可能
セキュリティ重視：処理完了後すぐに自動削除、プライバシー保護

使い方

処理タイプを選択（OCR（文字認識）または音声文字起こし）
OCRの場合は出力形式を選択（テキスト、Excel、Word、PDF）
ファイルをアップロード（ドラッグ&ドロップ対応、複数ファイル選択可能）
処理を開始
処理完了後、結果を確認・ダウンロード

よくある質問（FAQ）

どのようなファイル形式に対応していますか？: OCR（文字認識）では、画像ファイル（JPEG、PNG、GIF、BMP、WebP）とPDFファイルに対応しています。音声文字起こしでは、音声ファイル（WAV、MP3、FLAC、OGG、M4A、AAC、WebM、Opus）に対応しています。複数ファイルの一括処理も可能です。
無料で利用できますか？: はい、完全無料で利用できます。登録や会員登録は不要です。
処理速度はどのくらいですか？: ファイルサイズによって異なりますが、通常数秒から数十秒で処理が完了します。キューシステムにより、複数のリクエストも順番に処理されます。
アップロードしたファイルはどのように管理されますか？: セキュリティを重視し、処理完了後すぐに自動的に削除されます。ファイルは外部に共有されることはありません。
どのような出力形式に対応していますか？: OCRでは、テキスト形式、Excel形式（CSV）、Word形式、PDF形式（BETA版）に対応しています。音声文字起こしでは、テキスト形式で出力されます。用途に応じて選択できます。
OCRの精度はどのくらいですか？: Google Gemini 2.5 Flashを使用しているため、高精度な文字認識が可能です。ただし、画像の品質や文字の大きさによって精度が変動する場合があります。
音声文字起こしの精度はどのくらいですか？: WhisperやGoogle Speech-to-Textを活用しているため、高精度な音声認識が可能です。音声の品質や話す速度によって精度が変動する場合があります。

OCR技術について

OCR（Optical Character Recognition）は、画像やPDFファイルに含まれる文字を認識し、テキストデータに変換する技術です。mojiscan.onlineでは、最新のAI技術であるGoogle Gemini 2.5 Flashを活用することで、従来のOCR技術よりも高い精度で文字認識を実現しています。

音声文字起こし技術について

音声文字起こし（Speech-to-Text）は、音声ファイルに含まれる音声を認識し、テキストデータに変換する技術です。mojiscan.onlineでは、WhisperやGoogle Speech-to-Textを活用することで、高精度な音声認識を実現しています。会議の議事録作成、講義の文字起こし、インタビューの記録など、様々な用途でご利用いただけます。

利用シーン

スキャンした書類のテキスト化（OCR）
PDFファイルからのテキスト抽出（OCR）
画像内の文字をコピー可能なテキストに変換（OCR）
名刺やレシートのデータ化（OCR）
書籍や資料のデジタル化（OCR）
会議の議事録作成（音声文字起こし）
講義やセミナーの文字起こし（音声文字起こし）
インタビューの記録（音声文字起こし）
ポッドキャストの文字起こし（音声文字起こし）
音声メモのテキスト化（音声文字起こし）