Word ডকুমেন্ট থেকে HTML অথবা Text ফরম্যাটে রূপান্তর

Java Technologies - অ্যাপাচি পিওআই (ওয়ার্ড) File Conversion এবং Compatibility |
121
121

Apache POI ব্যবহার করে আপনি Word ডকুমেন্ট (.docx) থেকে HTML বা Plain Text ফরম্যাটে রূপান্তর করতে পারেন। POI মূলত Word ডকুমেন্টের কন্টেন্ট অ্যাক্সেস করতে সক্ষম হলেও, ডকুমেন্টটিকে HTML বা Text ফরম্যাটে রূপান্তর করার জন্য কিছু অতিরিক্ত প্রসেসিং এবং কোডিং প্রয়োজন।

এখানে আলোচনা করা হবে কিভাবে Word ডকুমেন্টের কন্টেন্টকে HTML এবং Plain Text ফরম্যাটে রূপান্তর করা যায়।


Word ডকুমেন্ট থেকে HTML রূপান্তর

Word ডকুমেন্টকে HTML ফরম্যাটে রূপান্তর করার জন্য Apache POI সরাসরি সমর্থন না দিলেও, কিছু অতিরিক্ত কোডিং এবং এক্সটেনশনের মাধ্যমে এটি করা সম্ভব। এর জন্য XWPF API ব্যবহার করা যেতে পারে এবং HTML ট্যাগে ডকুমেন্টের কন্টেন্টকে ম্যানুয়ালি মাপ করা যায়।

উদাহরণ: Word থেকে HTML ফরম্যাটে রূপান্তর

import org.apache.poi.xwpf.usermodel.*;
import org.apache.poi.xwpf.converter.core.XWPFConverterException;
import org.apache.poi.xwpf.converter.html.HtmlConverter;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;

public class WordToHTMLConversion {
    public static void main(String[] args) throws IOException, XWPFConverterException {
        // Word ডকুমেন্ট লোড করা
        FileInputStream fis = new FileInputStream("document.docx");
        XWPFDocument document = new XWPFDocument(fis);

        // HTML ফাইলে রূপান্তর করা
        FileOutputStream out = new FileOutputStream("output.html");
        HtmlConverter.getInstance().convert(document, out, null);

        fis.close();
        out.close();

        System.out.println("Word ডকুমেন্ট সফলভাবে HTML এ রূপান্তরিত হয়েছে।");
    }
}

এখানে, HtmlConverter ব্যবহার করা হয়েছে যা Apache POI এর সাথে সংযুক্ত করা হয়েছে HTML ফরম্যাটে ডকুমেন্ট রূপান্তর করতে। আপনি HTML ট্যাগগুলো দেখতে পাবেন যেমন <p>, <b>, <i> ইত্যাদি, এবং ডকুমেন্টের টেক্সট সঠিকভাবে কনভার্ট হবে।

প্রয়োজনীয় লাইব্রেরি:

  • poi-ooxml - POI লাইব্রেরি
  • poi-ooxml-schemas - POI স্কিমা
  • xmlbeans - XML প্রসেসিংয়ের জন্য
  • Apache POI Converter লাইব্রেরি (HtmlConverter)

Word ডকুমেন্ট থেকে Plain Text রূপান্তর

Word ডকুমেন্ট থেকে Plain Text রূপান্তর করা তুলনামূলকভাবে সহজ, কারণ এতে শুধুমাত্র ডকুমেন্টের কন্টেন্টের টেক্সট অংশটি বের করতে হবে, কোনো স্টাইল বা ফরম্যাটিং সন্নিবেশিত করা হবে না।

উদাহরণ: Word থেকে Plain Text ফরম্যাটে রূপান্তর

import org.apache.poi.xwpf.usermodel.*;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;

public class WordToTextConversion {
    public static void main(String[] args) throws IOException {
        // Word ডকুমেন্ট লোড করা
        FileInputStream fis = new FileInputStream("document.docx");
        XWPFDocument document = new XWPFDocument(fis);

        // Plain Text বের করা
        StringBuilder text = new StringBuilder();
        for (XWPFParagraph paragraph : document.getParagraphs()) {
            text.append(paragraph.getText()).append("\n");
        }

        // Text ফাইলে রূপান্তরিত ডেটা সংরক্ষণ
        FileOutputStream out = new FileOutputStream("output.txt");
        out.write(text.toString().getBytes());

        fis.close();
        out.close();

        System.out.println("Word ডকুমেন্ট সফলভাবে Plain Text এ রূপান্তরিত হয়েছে।");
    }
}

এখানে XWPFParagraph ব্যবহার করে ডকুমেন্টের প্রতিটি প্যারাগ্রাফের টেক্সট একত্রিত করা হচ্ছে। এরপর তা Plain Text হিসেবে ফাইল আউটপুটে সংরক্ষণ করা হচ্ছে।


সারাংশ

Apache POI ব্যবহার করে Word ডকুমেন্ট (.docx) থেকে HTML এবং Plain Text ফরম্যাটে রূপান্তর করা সম্ভব। HTML রূপান্তর করতে HtmlConverter ব্যবহার করা হয়, যেখানে ডকুমেন্টের কন্টেন্ট HTML ট্যাগে রূপান্তরিত হয়। অন্যদিকে, Plain Text রূপান্তরের জন্য ডকুমেন্টের টেক্সট কন্টেন্ট একত্রিত করে একটি সাধারণ টেক্সট ফাইল তৈরি করা হয়।

এটি খুবই কার্যকরী যখন আপনাকে Word ডকুমেন্ট থেকে কেবলমাত্র টেক্সট বা প্রাথমিক HTML কন্টেন্ট দরকার হয়।


common.content_added_by
টপ রেটেড অ্যাপ

স্যাট অ্যাকাডেমী অ্যাপ

আমাদের অল-ইন-ওয়ান মোবাইল অ্যাপের মাধ্যমে সীমাহীন শেখার সুযোগ উপভোগ করুন।

ভিডিও
লাইভ ক্লাস
এক্সাম
ডাউনলোড করুন
Promotion