Apache POI ব্যবহার করে আপনি Word ডকুমেন্ট (.docx) থেকে HTML বা Plain Text ফরম্যাটে রূপান্তর করতে পারেন। POI মূলত Word ডকুমেন্টের কন্টেন্ট অ্যাক্সেস করতে সক্ষম হলেও, ডকুমেন্টটিকে HTML বা Text ফরম্যাটে রূপান্তর করার জন্য কিছু অতিরিক্ত প্রসেসিং এবং কোডিং প্রয়োজন।
এখানে আলোচনা করা হবে কিভাবে Word ডকুমেন্টের কন্টেন্টকে HTML এবং Plain Text ফরম্যাটে রূপান্তর করা যায়।
Word ডকুমেন্টকে HTML ফরম্যাটে রূপান্তর করার জন্য Apache POI সরাসরি সমর্থন না দিলেও, কিছু অতিরিক্ত কোডিং এবং এক্সটেনশনের মাধ্যমে এটি করা সম্ভব। এর জন্য XWPF API ব্যবহার করা যেতে পারে এবং HTML ট্যাগে ডকুমেন্টের কন্টেন্টকে ম্যানুয়ালি মাপ করা যায়।
import org.apache.poi.xwpf.usermodel.*;
import org.apache.poi.xwpf.converter.core.XWPFConverterException;
import org.apache.poi.xwpf.converter.html.HtmlConverter;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
public class WordToHTMLConversion {
public static void main(String[] args) throws IOException, XWPFConverterException {
// Word ডকুমেন্ট লোড করা
FileInputStream fis = new FileInputStream("document.docx");
XWPFDocument document = new XWPFDocument(fis);
// HTML ফাইলে রূপান্তর করা
FileOutputStream out = new FileOutputStream("output.html");
HtmlConverter.getInstance().convert(document, out, null);
fis.close();
out.close();
System.out.println("Word ডকুমেন্ট সফলভাবে HTML এ রূপান্তরিত হয়েছে।");
}
}
এখানে, HtmlConverter ব্যবহার করা হয়েছে যা Apache POI এর সাথে সংযুক্ত করা হয়েছে HTML ফরম্যাটে ডকুমেন্ট রূপান্তর করতে। আপনি HTML ট্যাগগুলো দেখতে পাবেন যেমন <p>
, <b>
, <i>
ইত্যাদি, এবং ডকুমেন্টের টেক্সট সঠিকভাবে কনভার্ট হবে।
poi-ooxml
- POI লাইব্রেরিpoi-ooxml-schemas
- POI স্কিমাxmlbeans
- XML প্রসেসিংয়ের জন্যWord ডকুমেন্ট থেকে Plain Text রূপান্তর করা তুলনামূলকভাবে সহজ, কারণ এতে শুধুমাত্র ডকুমেন্টের কন্টেন্টের টেক্সট অংশটি বের করতে হবে, কোনো স্টাইল বা ফরম্যাটিং সন্নিবেশিত করা হবে না।
import org.apache.poi.xwpf.usermodel.*;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
public class WordToTextConversion {
public static void main(String[] args) throws IOException {
// Word ডকুমেন্ট লোড করা
FileInputStream fis = new FileInputStream("document.docx");
XWPFDocument document = new XWPFDocument(fis);
// Plain Text বের করা
StringBuilder text = new StringBuilder();
for (XWPFParagraph paragraph : document.getParagraphs()) {
text.append(paragraph.getText()).append("\n");
}
// Text ফাইলে রূপান্তরিত ডেটা সংরক্ষণ
FileOutputStream out = new FileOutputStream("output.txt");
out.write(text.toString().getBytes());
fis.close();
out.close();
System.out.println("Word ডকুমেন্ট সফলভাবে Plain Text এ রূপান্তরিত হয়েছে।");
}
}
এখানে XWPFParagraph ব্যবহার করে ডকুমেন্টের প্রতিটি প্যারাগ্রাফের টেক্সট একত্রিত করা হচ্ছে। এরপর তা Plain Text হিসেবে ফাইল আউটপুটে সংরক্ষণ করা হচ্ছে।
Apache POI ব্যবহার করে Word ডকুমেন্ট (.docx) থেকে HTML এবং Plain Text ফরম্যাটে রূপান্তর করা সম্ভব। HTML রূপান্তর করতে HtmlConverter ব্যবহার করা হয়, যেখানে ডকুমেন্টের কন্টেন্ট HTML ট্যাগে রূপান্তরিত হয়। অন্যদিকে, Plain Text রূপান্তরের জন্য ডকুমেন্টের টেক্সট কন্টেন্ট একত্রিত করে একটি সাধারণ টেক্সট ফাইল তৈরি করা হয়।
এটি খুবই কার্যকরী যখন আপনাকে Word ডকুমেন্ট থেকে কেবলমাত্র টেক্সট বা প্রাথমিক HTML কন্টেন্ট দরকার হয়।
common.read_more