รหัสโครงการ : | R000000157 |
ชื่อโครงการ (ภาษาไทย) : | การบูรณะภาพเอกสารทางประวัติศาสตร์ของไทยที่เสื่อมสภาพโดยใช้การไบนาไรเซชันแบบปรับตัวตามสารสนเทศหลายระดับ |
ชื่อโครงการ (ภาษาอังกฤษ) : | Restoration of Degraded Thai Historical Document Images Using Adaptive Multilevel-Information Binarization |
คำสำคัญของโครงการ(Keyword) : | - |
หน่วยงานเจ้าของโครงการ : | คณะวิทยาศาสตร์และเทคโนโลยี > ภาควิชาวิทยาศาสตร์ประยุกต์ สาขาวิชาคอมพิวเตอร์ และเทคโนโลยีสารสนเทศ |
ลักษณะโครงการวิจัย : | โครงการวิจัยเดี่ยว |
ลักษณะย่อยโครงการวิจัย : | ไม่อยู่ภายใต้แผนงานวิจัย/ชุดโครงการวิจัย |
ประเภทโครงการ : | โครงการวิจัยใหม่ |
สถานะของโครงการ : | propersal |
งบประมาณที่เสนอขอ : | 50000 |
งบประมาณทั้งโครงการ : | 50,000.00 บาท |
วันเริ่มต้นโครงการ : | 19 พฤศจิกายน 2556 |
วันสิ้นสุดโครงการ : | 18 พฤศจิกายน 2557 |
ประเภทของโครงการ : | งานวิจัยประยุกต์ |
กลุ่มสาขาวิชาการ : | สังคมศาสตร์ |
สาขาวิชาการ : | สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์ |
กลุ่มวิชาการ : | วิทยาการคอมพิวเตอร์ |
ลักษณะโครงการวิจัย : | ระดับชาติ |
สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์ : | สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์ |
สร้างความร่วมมือประหว่างประเทศ GMS : | ไม่สร้างความร่วมมือทางการวิจัยระหว่างประเทศ |
นำไปใช้ในการพัฒนาคุณภาพการศึกษา : | นำไปใช้ประโยชน์ในการพัฒนาณภาพการศึกษา |
เกิดจากความร่วมมือกับภาคการผลิต : | ไม่เกิดจากความร่วมมือกับภาคการผลิต |
ความสำคัญและที่มาของปัญหา : | การเก็บรักษาเอกสารทางประวัติศาสตร์มีความสำคัญในแง่ของการเก็บรักษา ประวัติ ความเป็นมา และภูมิปัญญาของประเทศ การเก็บรักษาต้นฉบับเอกสารดังกล่าวต้องเผชิญกับสภาะความเสื่อมสภาพหลายประการ เช่น มลภาวะที่เป็นพิษ สภาพอากาศที่แปรปรวน คุณภาพของกระดาษที่ใช้พิมพ์เอกสาร การรบกวนจากฝุ่น และการเก็บรักษาที่ผิดวิธี เป็นต้น ในทางปฏิบัติ การเก็บรักษาหรือบูรณะเอกสารต้นฉบับให้คงสภาพเดิมได้มากที่สุดนั้นค่อนข้างทำได้ยากเนื่องจากต้องควบคุมปัจจัยหลายประการ เช่น อุณภูมิห้อง ความเข้มของแสง ความชื้นสัมพัธในอากาศ ปัจจัยดังกล่าวนั้นมีค่าใช้จ่ายค่อนข้างสูง จึงเป็นที่มาของการนำเอกสารต้นฉบับดังกล่าวมาทำการแสกนเพื่อเก็บรักษาไว้ในรูปแบบเอกสารดิจิตอล ซึ่งในปัจจุบันได้รับความนิยมเพิ่มขึ้นอย่างรวดเร็ว โดยสังเกตุได้จากจำนวนคลังเอกสารดิจิตอลที่มีอัตราเติบโตเพิ่มมากขึ้นอย่างต่อเนื่อง [5] เมื่อเอกสารอยู่ในรูปแบบเอกสารดิจิตอลแล้ว หากต้องการบูรณะหรือฟื้นฟูภาพเอกสารเสื่อมสภาพดังกล่าวจะสามารถดำเนินการได้ด้วยเทคนิคการประมวลผลภาพดิจิตอล (digital image processing) โดยวิธีการหนึ่งที่ได้รับความนิยมในการบูรณะภาพเอกสารดิจิตอลดังกล่าวคือ การไบนาไรเซชัน (binarization)
การไบนาไรเซชัน คือการตัดสินใจเพื่อจัดกลุ่มค่าระดับเทาของภาพให้อยู่ในกลุ่มของ foreground ที่เป็นสีดำ หรือ background ที่เป็นสีขาว โดยมีจุดประสงค์เพื่อเตรียมการประมวลผล (pre-processing) เพื่อการประมวลผลภาพเอกสาร (document image) อันนำไปสู่การประมวลผลในขั้นตอนลำดับถัดไปเช่น การแบ่งส่วนภาพอักษร (character segmentation) การรู้จำภาพอักษร (character recognition) และการรู้จำอักขระด้วยแสง (optical character recognition) เป็นต้น นอกจากนั้นยังใช้เพื่อการบูรณะฟื้นฟูภาพเอกสารดิจิตอลอีกด้วย [1-4]
จากการทดลองใช้อัลกอริทึมการทำไบนาไรเซชันที่เป็นที่รู้จักแพร่หลายจำนวน 6 อัลกอริทึม ประกอบด้วย Otsu’s method [5] Kapur’s method [6] Kittler’s method [7] Bernsen’s method [8] Niblack’s method [9] และ Sauvola’s method [10] กับคลังภาพเอกสารภาษาไทยจำนวน 100 ภาพ พบว่าหากภาพเอกสารอยู่ในสภาพสมบูรณ์แล้วผลลัพธ์ที่ได้จะเป็นที่น่าพอใจ แต่หากเป็นภาพเอกสารที่มีลักษณะของความเสื่อมสภาพแล้ว จะพบว่าผลลัพธ์ที่ได้นั้นอยู่ในระดับที่ไม่สามารถนำไปใช้งานในขั้นตอนถัดไปได้
|
จุดเด่นของโครงการ : | - |
วัตถุประสงค์ของโครงการ : | 1 เพื่อศึกษาหลักการและอัลกอริทึมการทำภาพสองระดับที่เป็นที่รู้จักอย่างแพร่หลาย (well-known) จำนวน 6 อัลกอริทึม ประกอบด้วยวิธีการของ Otsu, Kapur, Kittler, Bernsen, Niblack และ Sauvola และวิเคราะห์หาสาเหตุของปัญหาความไม่สมบูรณ์เมื่อดำเนินการกับเอกสารเสื่อมสภาพ
2 เพื่อออกแบบกรอบการทำงาน (framework) และวิธีการการทำภาพสองระดับกับภาพเอกสารเสื่อมสภาพภาษาไทยที่มีประสิทธิภาพ
3 เพื่อพัฒนาซอฟต์แวร์ที่สามารถดำเนินการทำภาพสองระดับกับภาพเอกสารเสื่อมสภาพภาษาไทยได้ตามกรอบการทำงานที่ได้ออกแบบไว้อย่างมีประสิทธิภาพ
4 ทดสอบซอฟต์แวร์กับภาพเอกสารทางประวัติศาสตร์ไทยที่เสื่อมสภาพ
|
ขอบเขตของโครงการ : | 1 ใช้ MATLAB เป็นเครื่องมือในการพัฒนาซอฟต์แวร์ให้มีความสามารถตามกรอบการทำงานที่ออกแบบไว้
2 ทดสอบอัลกอริทึมการทำภาพสองระดับแบบปรับตัวตามสารสนเทศหลายระดับ กับภาพเอกสารทางประวัติศาสตร์ไทยที่เสื่อมสภาพ 2 กลุ่ม กลุ่มที่ 1 เป็นภาพเอกสารที่เขียนด้วยลายมือจำนวน 10 ภาพ กลุ่มที่ 2 เป็นภาพเอกสารที่เป็นตัวพิมพ์จำนวน 10 ภาพ รวมเป็นจำนวน 20 ภาพ
3 ประเมินผลการทำงานของซอฟต์แวร์ในเชิงคุณภาพโดยตัวชี้วัด 7 ประการ [11] และในเชิงปริมาณโดยใช้ตัวชี้วัด ค่าความแม่นยำ (precision) [11] ค่าการระลึก (recall) [11] และดัชนีเอฟ (f-index) [11]
|
ผลที่คาดว่าจะได้รับ : | - |
การทบทวนวรรณกรรม/สารสนเทศ : | - |
ทฤษฎี สมมุติฐาน กรอบแนวความคิด : | ผู้เสนอโครงการวิจัยมีแนวคิดที่จะสร้างกรอบการทำงานที่สนับสนุนการทำไบนาไรเซชันกับภาพเอกสารทางประวัติศาสตร์ไทยที่เสื่อมสภาพอย่างมีประสิทธิภาพประสิทธิภาพ โดยแนวคิดหลักคือการใช้เทรชโชลด์ที่สามารถปรับตัวตามสารสนเทศหลายระดับ อัลกอริทึมการทำไบนาไรเซชันที่มีในปัจจุบัน ทั้งที่เป็นแบบ local thresholding และ global thresholding จะใช้สารสนเทศหนึ่งระดับ ซึ่งอาจจะอยู่ในรูปแบบภาพต้นฉบับ (original Image) หรือภาพระดับเทา (gray-scale Image) แต่การดำเนินการกับภาพเอกสารเสื่อมสภาพนั้น สารสนเทศที่จำเป็นในการคำนวนค่าเทรชโชลด์คือสารสนเทศจากชั้นเสื่อมสภาพและพื้นหลัง (degraded and background Layer) ซึ่งการจะได้มาซึ่งสารสนเทศดังกล่าวต้องทำการลบสารสนเทศจากชั้นตัวอักษร (foreground layer) ออกจากรูปภาพเสียก่อน จากนั้นจึงทำการซ่อมแซมส่วนที่ถูกลบออกโดยใช้ข้อมูลจากพิกเซลข้างเคียงเพื่อประมาณค่าเฉลี่ยของส่วนที่ถูกลบออก ลำดับถัดไปนำสารสนเทศชั้นเสื่อมสภาพและพื้นหลังดังกล่าวมาคำนวนค่าเทรชโชลด์แบบปรับตัวได้ (adaptive thresholding) กับภาพระดับเทาที่ผ่านตัวกรองจุดรบกวนแล้ว และสุดท้ายนำภาพผลลัพธ์ที่ได้มาผ่านขั้นตอนการวิเคราะห์คลัสเตอร์อีกครั้ง จะได้ภาพสองระดับที่กำจัดความเสื่อมสภาพ รอยเปื้อน และพื้นหลังที่ไม่เกี่ยวข้อง คงเหลือไว้เพียงสารสนเทศที่สำคัญของภาพเอกสารเท่านั้น
แนวคิดกรอบการทำงานที่นำเสนอ 5 ขั้นตอน ประกอบด้วย
1) Pre-processing เพื่อกำจัดสัญญาณรบกวนในภาพโดยวิธีการ Wiener filter [12-14]
2) Foreground layer extraction โดยใช้วิธีการ majority analysis method (เป็นอัลกอริทึมที่ผู้เสนอโครงการ นำเสนอขึ้นเอง)
3) Degraded and background estimation โดยใช้วิธีการหาค่าเฉลี่ยจากพิกเซลรอบข้างเพื่อประมาณค่าความเสื่อมสภาพของเอกสาร
4) Adaptive thresholding โดยอาศัยหลักการของ sigmoid function [15] เพื่อการคำนวนหาค่าเทรชโชลด์แบบปรับตัวได้ตามระดับความเสื่อมสภาพของเอกสาร และสุดท้าย
5) Post-processing โดยใช้หลักการ cluster analysis (เป็นอัลกอริทึมที่ผู้เสนอโครงการ นำเสนอขึ้นเอง) การเขียนอธิบายแนวคิดให้ผู้อ่านจินตนาการตามผู้เขียนนั้นเป็นเรื่องยากที่จะทำให้เกิดความเข้าใจ
|
วิธีการดำเนินการวิจัย และสถานที่ทำการทดลอง/เก็บข้อมูล : | 1 วิธีการดำเนินการวิจัย ในการดำเนินการวิจัยนี้เป็นการคิดค้นกรอบการทำงานและอัลกอริทึมที่มีความเหมาะสมในการบูรณะภาพเอกสารไทยที่เสื่อมสภาพ เมื่อได้กรอบการทำงานและอับกอริทึมดังกล่าวแล้ว จะนำไปพัฒนาเป็นซอฟต์แวร์เพื่อทดสอบกับกลุ่มตัวอย่างภาพเอกสารไทยที่เสื่อมสภาพโดยได้รับความร่วมมือจากหอสมุดแห่งชาติในการจัดเตรียมกลุ่มตัวอย่างดังกล่าว เนื่องจากโครงการวิจัยนี้ใช้วิธีการพัฒนาซอฟต์แวร์เพื่อแก้ปัญหาและทดสอบสมมติฐานดังที่ได้นำเสนอแล้ว ดังนั้นผู้เสนอโครงการวิจัยจะดำเนินโครงการวิจัยตามหลักการของวิศวกรรมซอฟต์แวร์รูปแบบ water fall model ซึ่งประกอบด้วย 7 ขั้นตอนดังนี้
1. ศึกษาค้นคว้าข้อมูลเบื้องต้น แนวคิด และวิธีดำเนินงาน ในขั้นตอนนี้ผู้ดำเนินโครงการวิจัยได้ศึกษาถึงปัญหาการทำไบนาไรเซชันที่เกิดกับภาพเอกสารเสื่อมสภาพภาษาไทยจากคลังเอกสารภาพทางประวัติศาสตร์ของหอสมุดแห่งชาติ โดยโจทย์วิจัยนี้เกิดขึ้นระหว่างเวทีการเสวนา IRPUS ซึ่งจัดโดยมหาวิทยาลัยนเรศวร จากนั้นผู้ดำเนินโครงการวิจัยได้ศึกษาวิธีการฟื้นฟูภาพเอกสารโดยการทำไบนาไรเซชันที่มีการใช้งานในต่างประเทศจากบทความในวารสารวิชาการระดับนานาชาติ พบว่ามีผู้นำเสนอไว้หลายวิธีซึ่งแต่ละวิธีก็มีข้อดี ข้อเสีย และลักษณะการนำไปใช้ที่เหมาะสมแตกต่างกัน เมื่อนำมาประยุกต์ใช้งานกับภาพเอกสารของหอสมุดแห่งชาติพบว่าผลลัพธ์ไม่เป็นที่น่าพอใจ เนื่องจากคุณลักษณะและความเสื่อมสภาพของเอกสารต้นฉบับนั้นไม่เหมือนกัน (ขั้นตอนนี้ดำเนินการไปแล้ว)
2. วิเคราะห์ความต้องการของระบบ ในขั้นตอนนี้ผู้ดำเนินโครงการวิจัยได้วิเคราะห์อัลกอริทึมการทำไบนาไรเซชันที่เคยมีผู้นำเสนอไว้ พบว่าประเด็นสำคัญคือต้องใช้การทำ pre-processing และ post-processing ที่เหมาะกับลักษณะของเอกสาร รวมไปถึงเทคนิคการทำ adaptive threshold ซึ่งคาดว่าจะได้ผลลัพธ์ที่ดีขึ้น จากนั้นจึงสร้าง frame work ที่เหมาะสมกับคุณลักษณะของภาพเอกสารเสื่อมสภาพ
3. การเตรียมการและนำเสนอโครงการ ขั้นตอนนี้ เป็นการรวบรวมสิ่งที่เป็นผลลัพธ์ของขั้นตอนที่ 12.1 และ 12.2 เรียบเรียงออกมาเป็นแบบเสนอโครงการวิจัยฉบับนี้และนำเสนอโครงการวิจัยต่อคณะกรรมการผู้ทรงคุณวุฒิ
4. การวิเคราะห์และออกแบบระบบ เป็นขั้นตอนที่ผู้วิจัยจะทำการออกแบบระบบโดยลักษณะ coarse to fine โดยใช้ UML และ flow chart เป็นเครื่องมือ ผลลัพธ์ที่ได้จากขั้นตอนนี้จะส่งผลให้ทีมพัฒนาระบบในขั้นตอนต่อไปสามารถเข้าใจกรอบการทำงานและอัลกอริทึมที่ผู้ดำเนินโครงการวิจัยคิดขึ้นมาได้
5. พัฒนาระบบ เป็นขั้นตอนการพัฒนาระบบโดยใช้ MATLAB เป็นเครื่องมือ โดยเขียนโปรแกรมให้สามารถทำงานตามกรอบการทำงานและอัลกอริทึมในขั้นตอนที่ 4 และตรวจสอบการทำงานของระบบในแต่ละขั้นตอนว่าเป็นไปตามกรอบการทำงานและอัลกอริทึมที่คิดไว้หรือไม่ เมื่อพัฒนาระบบจนเกือบจะสมบูรณ์แล้วผู้ดำเนินโครงการจะเขียนบทความวิจัยที่เน้นถึงกรอบการทำงานและผลลัพธ์เบื้องต้นที่ได้เพื่อเผยแพร่และร่วมนำเสนอในงานประชุมวิชาการระดับนานาชาติ โดยมุ่งหวังที่จะได้รับฟังข้อคิดเห็นจากการประชุมวิชาการระดับนานาชาติดังกล่าวเพื่อรวบรวมข้อคิดเห็นมาปรับปรุงระบบให้มีความสมบูรณ์มากที่สุด
6. ทดสอบและปรับปรุงแก้ไขระบบ ในขั้นตอนนี้เป็นการนำระบบที่พัฒนาสำเร็จแล้วมาทำการทดสอบกับชุดทดสอบที่ได้กล่าวถึงไปแล้วในส่วนขอบเขตของงานวิจัยเพื่อหาข้อบกพร่องของระบบที่ได้สร้างขึ้น และเมื่อพบจุดบกพร่องก็ทำการหาสาเหตุ และแก้ไขโปรแกรมเพื่อให้ได้ตัวระบบที่สมบูรณ์มากที่สุด
7. จัดทำรายงานและเอกสารที่เกี่ยวข้อง ผู้ดำเนินโครงการวิจัยจะจัดทำรายงานวิจัยฉบับสมบูรณ์ คู่มือการใช้งานซอฟต์แวร์ และเขียนบทความวิจัยเพื่อการเผยแพร่ในวารสารวิชาการระดับนานาชาติ
2 สถานที่ทำการทดลอง ห้องปฏิบัติการสาขาวิชาคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ภาควิชาวิทยาศาสตร์ประยุกต์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏนครสวรรค์
3 สถานที่เก็บข้อมูล หอสมุดมหาวิทยาลัยราชภัฏนครสวรรค์และหอสมุดแห่งชาติ
|
คำอธิบายโครงการวิจัย (อย่างย่อ) : | - |
จำนวนเข้าชมโครงการ : | 777 ครั้ง |