
MinerUは、複雑なPDF文書(画像、数式、表などを含む)を効率的にMarkdownやJSONなどの構造化フォーマットに変換するために設計された、オープンソースのインテリジェントな文書解析ツールです。これは、研究者、学生や専門家の大量の文書コンテンツを扱うために必要とされ、大幅に作業効率を向上させます。
主な特徴
- 意味的一貫性ヘッダー、フッター、脚注、ページ番号を自動的に削除し、テキストの一貫性を確保します。
- 可読性出力コンテンツは自然な読み順で配置され、シングルカラム、マルチカラム、複雑なレイアウトに対応します。
- 構造上の予約見出し、段落、リストなど、元の文書の構造的要素を保持します。
- 多様なコンテンツ抽出画像、表、数式などを抽出し、LaTeX(数式用)やHTML(表用)などの適切な形式に変換する機能をサポート。
- OCR機能スキャンされたPDFや文字化けしたPDFを自動的に検出し、光学式文字認識(OCR)を有効にし、84の言語をサポートします。
- 複数の出力フォーマットマルチモーダルかつNLPフレンドリーなMarkdown、リードオーダーJSON、その他のリッチな中間フォーマットをサポート。
使い方:
- MinerUのインストールからの情報を得ることができる。 MinerU の GitHub リポジトリ Windows、Linux、macOSの各プラットフォームに対応したインストールガイドを入手できます。
- 書類の準備: 解析 さ せたい PDF 文書を、 指定 し たデ ィ レ ク ト リ 内に配置 し ます。
- オペレーション分析コマンドラインまたはグラフィカルインターフェースからMinerUを実行し、処理するドキュメントを選択し、出力フォーマットとその他のパラメータを設定します。
- 結果を出すパージングが完了すると、出力ディレクトリに構造化されたファイルが作成されます。
さらに、MinerUは、Windows、macOS、Linuxなどの主要なオペレーティングシステムをサポートするグラフィカルインターフェースクライアントを提供しています。プログラムやログインの必要はなく、ダウンロードして使うだけである。ユーザーは、変換したいドキュメントのURLをドラッグ&ドロップするか入力するだけで、グラフィカルインターフェース上でドキュメントをインテリジェントに抽出することができる。このクライアントは、さまざまな種類の文書からのコンテンツ抽出をサポートし、さまざまなシナリオのニーズを満たすために、さまざまな認識モード、モデル、言語設定オプションを提供します。 citeturn0search4
MinerUを使用すると、複雑なPDF文書を構造化フォーマットに簡単に変換し、その後の編集、分析、処理を行うことができます。
- ¥免费下载コメントとリフレッシュ後にダウンロードログインしてダウンロード