slide-translate/refine.py

import argparse  # New import
from pdf_convertor import load_md_file, save_md_images, refine_content
from pathlib import Path

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Refine Markdown content from PDF.")
    parser.add_argument(
        "--md-path", type=str, required=True, help="Path to the input Markdown file."
    )
    args = parser.parse_args()

    md_path = args.md_path
    pdf_path = Path("input").joinpath(Path(args.md_path).parent.name + ".pdf")

    output = Path(md_path).parent
    output.mkdir(parents=True, exist_ok=True)

    md, images = load_md_file(md_path)
    with open(pdf_path, "rb") as pdf_file:
        pdf = pdf_file.read()
    md = refine_content(md, images, pdf)

    save_md_images(output, md, images, md_name="index_refined.md")