Chúng tôi đã từng giới thiệu đến bạn tiện ích Text Mining Tool giúp bạn dễ dàng trích xuất nội dung từ file pdf. Tuy nhiên, nhược điểm của tiện ích này đó là không cho phép bạn trích xuất hình ảnh có bên trong nội dung của file. Tuy nhiên, nếu kết hợp tiện ích trên với Some PDF Image Extract, bạn sẽ có được 1 file pdf dường như là hoàn chỉnh.
Some PDF Image Extract là tiện ích miễn phí, cho phép bạn trích xuất toàn bộ hình ảnh có trong file pdf. Có thể nói tính năng của tiện ích này trái ngược với Text Mining Tool, đó là nó chỉ trích xuất hình ảnh có trong file mà không hề trích xuất nội dung.
Download chương trình tại đây. Sau khi download và cài đặt, tại giao diện chính của chương trình, bạn click vào Open File (hoặc click vào File chọn Open File), tìm đến file pdf cần trích xuất hình ảnh và chọn Open. Bạn có thể tiến hành bước này nhiều lần để chọn nhiều file, tuy nhiên để tiết kiệm thời gian, bạn nên đặt các file pdf cần trích xuất vào chung 1 thư mục, rồi click vào Open Directory (hoặc chọn File -> Import Directory) rồi tìm đến thư mục chứa các file này.
Các file pdf đã được chọn sẽ xuất hiện thành 1 danh sách trên chương trình cùng với thông tin của từng file xuất hiện ở khung bên dưới. Để xóa 1 file ra khỏi danh sách, bạn chọn file cần xóa và nhấn vào nút Remove Current Selected Item hoặc click vào Clear All Selected để xóa sạch danh sách.
Mặc định, chương trình sẽ trích xuất toàn bộ hình ảnh có trong file pdf, với chất lượng hình ảnh 70% nguyên mẫu và lưu lại dưới định dạng jpeg. Để thay đổi những thông số này, như lựa chọn trang cần thiết để trích xuất, lựa chọn chất lượng và định dạng hình ảnh… bạn chọn file và lựa chọn các thay đổi ở khung bên phải (Outpit General Options) của chương trình sao cho phù hợp.
– Page Range: Mặc định sẽ trích xuất ảnh từ tất cả các trang. Nếu muốn trích ảnh từ các trang nhất định, bạn thay đổi tùy chọn thành Selected Page và điền trang cần chọn vào bên dưới.
– Open Result: Mặc định sẽ tự động mở thư mục chứa hình ảnh trích xuất được sau khi quá trình trích xuất kết thúc. Nếu không muốn, bạn chọn No.
– Output Directory: Lựa chọn vị trí để lưu lại các hình ảnh đã trích xuất được. Mặc định sẽ lưu lại tại vị trí chứa file pdf hiện thời.
– Output mode: Lựa chọn định dạng file ảnh sau khi trích xuất.
– jpeg quality và jpeg gray scale: điều chỉnh chất lượng file jpeg (chỉ có tác dụng khi bạn chọn lưu file dưới định dạng jpeg)
Cuối cùng, sau khi đã chọn lựa các thông tin thích hợp, bạn click vào nút Start Convert (nút tròn có dấu mũi tên ở bên dưới) để bắt đầu tiến hành trích xuất hình ảnh từ các file pdf. Sau khi quá trình kết thúc, sẽ xuất hiện các thư mục mới mà mỗi thư mục sẽ là tên của các file pdf bạn đã chọn, trong đó sẽ chứa hình ảnh được trích xuất từ các file pdf tương ứng. Chất lượng hình ảnh sau khi trích xuất có thể nói là rất tốt và không hề thua kém gì chất lượng ảnh có trong file pdf.
Bây giờ, bạn có thể sử dụng những hình ảnh đã trích xuất được này, kết hợp với nội dung đã trích xuất bằng Text Timing Tool, bạn đã có được nội dung của file pdf hoàn chỉnh, bao gồm cả hình ảnh, mà trên hết, bạn có thể thay đổi được nội dung của nó 1 cách dễ dàng.
Có thể nói rằng, chương trình rất nhỏ gọn và rất dễ sử dụng, thích hợp với tất cả những ai không quá chuyên về máy tính hoặc bước đầu làm quen với file pdf. Hy vọng, chương trình sẽ hữu ích cho các bạn.
Phạm Thế Quang Huy (Theo Dantri)
Bình luận (0)