รายละเอียดโครงการวิจัย
กลับไปหน้าโครงการวิจัยทั้งหมด

รหัสโครงการ :R000000157
ชื่อโครงการ (ภาษาไทย) :การบูรณะภาพเอกสารทางประวัติศาสตร์ของไทยที่เสื่อมสภาพโดยใช้การไบนาไรเซชันแบบปรับตัวตามสารสนเทศหลายระดับ
ชื่อโครงการ (ภาษาอังกฤษ) :Restoration of Degraded Thai Historical Document Images Using Adaptive Multilevel-Information Binarization
คำสำคัญของโครงการ(Keyword) :-
หน่วยงานเจ้าของโครงการ :คณะวิทยาศาสตร์และเทคโนโลยี > ภาควิชาวิทยาศาสตร์ประยุกต์ สาขาวิชาคอมพิวเตอร์ และเทคโนโลยีสารสนเทศ
ลักษณะโครงการวิจัย :โครงการวิจัยเดี่ยว
ลักษณะย่อยโครงการวิจัย :ไม่อยู่ภายใต้แผนงานวิจัย/ชุดโครงการวิจัย
ประเภทโครงการ :โครงการวิจัยใหม่
สถานะของโครงการ :propersal
งบประมาณที่เสนอขอ :50000
งบประมาณทั้งโครงการ :50,000.00 บาท
วันเริ่มต้นโครงการ :19 พฤศจิกายน 2556
วันสิ้นสุดโครงการ :18 พฤศจิกายน 2557
ประเภทของโครงการ :งานวิจัยประยุกต์
กลุ่มสาขาวิชาการ :สังคมศาสตร์
สาขาวิชาการ :สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์
กลุ่มวิชาการ :วิทยาการคอมพิวเตอร์
ลักษณะโครงการวิจัย :ระดับชาติ
สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์ : สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์
สร้างความร่วมมือประหว่างประเทศ GMS : ไม่สร้างความร่วมมือทางการวิจัยระหว่างประเทศ
นำไปใช้ในการพัฒนาคุณภาพการศึกษา :นำไปใช้ประโยชน์ในการพัฒนาณภาพการศึกษา
เกิดจากความร่วมมือกับภาคการผลิต : ไม่เกิดจากความร่วมมือกับภาคการผลิต
ความสำคัญและที่มาของปัญหา :การเก็บรักษาเอกสารทางประวัติศาสตร์มีความสำคัญในแง่ของการเก็บรักษา ประวัติ ความเป็นมา และภูมิปัญญาของประเทศ การเก็บรักษาต้นฉบับเอกสารดังกล่าวต้องเผชิญกับสภาะความเสื่อมสภาพหลายประการ เช่น มลภาวะที่เป็นพิษ สภาพอากาศที่แปรปรวน คุณภาพของกระดาษที่ใช้พิมพ์เอกสาร การรบกวนจากฝุ่น และการเก็บรักษาที่ผิดวิธี เป็นต้น ในทางปฏิบัติ การเก็บรักษาหรือบูรณะเอกสารต้นฉบับให้คงสภาพเดิมได้มากที่สุดนั้นค่อนข้างทำได้ยากเนื่องจากต้องควบคุมปัจจัยหลายประการ เช่น อุณภูมิห้อง ความเข้มของแสง ความชื้นสัมพัธในอากาศ ปัจจัยดังกล่าวนั้นมีค่าใช้จ่ายค่อนข้างสูง จึงเป็นที่มาของการนำเอกสารต้นฉบับดังกล่าวมาทำการแสกนเพื่อเก็บรักษาไว้ในรูปแบบเอกสารดิจิตอล ซึ่งในปัจจุบันได้รับความนิยมเพิ่มขึ้นอย่างรวดเร็ว โดยสังเกตุได้จากจำนวนคลังเอกสารดิจิตอลที่มีอัตราเติบโตเพิ่มมากขึ้นอย่างต่อเนื่อง [5] เมื่อเอกสารอยู่ในรูปแบบเอกสารดิจิตอลแล้ว หากต้องการบูรณะหรือฟื้นฟูภาพเอกสารเสื่อมสภาพดังกล่าวจะสามารถดำเนินการได้ด้วยเทคนิคการประมวลผลภาพดิจิตอล (digital image processing) โดยวิธีการหนึ่งที่ได้รับความนิยมในการบูรณะภาพเอกสารดิจิตอลดังกล่าวคือ การไบนาไรเซชัน (binarization) การไบนาไรเซชัน คือการตัดสินใจเพื่อจัดกลุ่มค่าระดับเทาของภาพให้อยู่ในกลุ่มของ foreground ที่เป็นสีดำ หรือ background ที่เป็นสีขาว โดยมีจุดประสงค์เพื่อเตรียมการประมวลผล (pre-processing) เพื่อการประมวลผลภาพเอกสาร (document image) อันนำไปสู่การประมวลผลในขั้นตอนลำดับถัดไปเช่น การแบ่งส่วนภาพอักษร (character segmentation) การรู้จำภาพอักษร (character recognition) และการรู้จำอักขระด้วยแสง (optical character recognition) เป็นต้น นอกจากนั้นยังใช้เพื่อการบูรณะฟื้นฟูภาพเอกสารดิจิตอลอีกด้วย [1-4] จากการทดลองใช้อัลกอริทึมการทำไบนาไรเซชันที่เป็นที่รู้จักแพร่หลายจำนวน 6 อัลกอริทึม ประกอบด้วย Otsu’s method [5] Kapur’s method [6] Kittler’s method [7] Bernsen’s method [8] Niblack’s method [9] และ Sauvola’s method [10] กับคลังภาพเอกสารภาษาไทยจำนวน 100 ภาพ พบว่าหากภาพเอกสารอยู่ในสภาพสมบูรณ์แล้วผลลัพธ์ที่ได้จะเป็นที่น่าพอใจ แต่หากเป็นภาพเอกสารที่มีลักษณะของความเสื่อมสภาพแล้ว จะพบว่าผลลัพธ์ที่ได้นั้นอยู่ในระดับที่ไม่สามารถนำไปใช้งานในขั้นตอนถัดไปได้
จุดเด่นของโครงการ :-
วัตถุประสงค์ของโครงการ :1 เพื่อศึกษาหลักการและอัลกอริทึมการทำภาพสองระดับที่เป็นที่รู้จักอย่างแพร่หลาย (well-known) จำนวน 6 อัลกอริทึม ประกอบด้วยวิธีการของ Otsu, Kapur, Kittler, Bernsen, Niblack และ Sauvola และวิเคราะห์หาสาเหตุของปัญหาความไม่สมบูรณ์เมื่อดำเนินการกับเอกสารเสื่อมสภาพ 2 เพื่อออกแบบกรอบการทำงาน (framework) และวิธีการการทำภาพสองระดับกับภาพเอกสารเสื่อมสภาพภาษาไทยที่มีประสิทธิภาพ 3 เพื่อพัฒนาซอฟต์แวร์ที่สามารถดำเนินการทำภาพสองระดับกับภาพเอกสารเสื่อมสภาพภาษาไทยได้ตามกรอบการทำงานที่ได้ออกแบบไว้อย่างมีประสิทธิภาพ 4 ทดสอบซอฟต์แวร์กับภาพเอกสารทางประวัติศาสตร์ไทยที่เสื่อมสภาพ
ขอบเขตของโครงการ :1 ใช้ MATLAB เป็นเครื่องมือในการพัฒนาซอฟต์แวร์ให้มีความสามารถตามกรอบการทำงานที่ออกแบบไว้ 2 ทดสอบอัลกอริทึมการทำภาพสองระดับแบบปรับตัวตามสารสนเทศหลายระดับ กับภาพเอกสารทางประวัติศาสตร์ไทยที่เสื่อมสภาพ 2 กลุ่ม กลุ่มที่ 1 เป็นภาพเอกสารที่เขียนด้วยลายมือจำนวน 10 ภาพ กลุ่มที่ 2 เป็นภาพเอกสารที่เป็นตัวพิมพ์จำนวน 10 ภาพ รวมเป็นจำนวน 20 ภาพ 3 ประเมินผลการทำงานของซอฟต์แวร์ในเชิงคุณภาพโดยตัวชี้วัด 7 ประการ [11] และในเชิงปริมาณโดยใช้ตัวชี้วัด ค่าความแม่นยำ (precision) [11] ค่าการระลึก (recall) [11] และดัชนีเอฟ (f-index) [11]
ผลที่คาดว่าจะได้รับ :-
การทบทวนวรรณกรรม/สารสนเทศ :-
ทฤษฎี สมมุติฐาน กรอบแนวความคิด :ผู้เสนอโครงการวิจัยมีแนวคิดที่จะสร้างกรอบการทำงานที่สนับสนุนการทำไบนาไรเซชันกับภาพเอกสารทางประวัติศาสตร์ไทยที่เสื่อมสภาพอย่างมีประสิทธิภาพประสิทธิภาพ โดยแนวคิดหลักคือการใช้เทรชโชลด์ที่สามารถปรับตัวตามสารสนเทศหลายระดับ อัลกอริทึมการทำไบนาไรเซชันที่มีในปัจจุบัน ทั้งที่เป็นแบบ local thresholding และ global thresholding จะใช้สารสนเทศหนึ่งระดับ ซึ่งอาจจะอยู่ในรูปแบบภาพต้นฉบับ (original Image) หรือภาพระดับเทา (gray-scale Image) แต่การดำเนินการกับภาพเอกสารเสื่อมสภาพนั้น สารสนเทศที่จำเป็นในการคำนวนค่าเทรชโชลด์คือสารสนเทศจากชั้นเสื่อมสภาพและพื้นหลัง (degraded and background Layer) ซึ่งการจะได้มาซึ่งสารสนเทศดังกล่าวต้องทำการลบสารสนเทศจากชั้นตัวอักษร (foreground layer) ออกจากรูปภาพเสียก่อน จากนั้นจึงทำการซ่อมแซมส่วนที่ถูกลบออกโดยใช้ข้อมูลจากพิกเซลข้างเคียงเพื่อประมาณค่าเฉลี่ยของส่วนที่ถูกลบออก ลำดับถัดไปนำสารสนเทศชั้นเสื่อมสภาพและพื้นหลังดังกล่าวมาคำนวนค่าเทรชโชลด์แบบปรับตัวได้ (adaptive thresholding) กับภาพระดับเทาที่ผ่านตัวกรองจุดรบกวนแล้ว และสุดท้ายนำภาพผลลัพธ์ที่ได้มาผ่านขั้นตอนการวิเคราะห์คลัสเตอร์อีกครั้ง จะได้ภาพสองระดับที่กำจัดความเสื่อมสภาพ รอยเปื้อน และพื้นหลังที่ไม่เกี่ยวข้อง คงเหลือไว้เพียงสารสนเทศที่สำคัญของภาพเอกสารเท่านั้น แนวคิดกรอบการทำงานที่นำเสนอ 5 ขั้นตอน ประกอบด้วย 1) Pre-processing เพื่อกำจัดสัญญาณรบกวนในภาพโดยวิธีการ Wiener filter [12-14] 2) Foreground layer extraction โดยใช้วิธีการ majority analysis method (เป็นอัลกอริทึมที่ผู้เสนอโครงการ นำเสนอขึ้นเอง) 3) Degraded and background estimation โดยใช้วิธีการหาค่าเฉลี่ยจากพิกเซลรอบข้างเพื่อประมาณค่าความเสื่อมสภาพของเอกสาร 4) Adaptive thresholding โดยอาศัยหลักการของ sigmoid function [15] เพื่อการคำนวนหาค่าเทรชโชลด์แบบปรับตัวได้ตามระดับความเสื่อมสภาพของเอกสาร และสุดท้าย 5) Post-processing โดยใช้หลักการ cluster analysis (เป็นอัลกอริทึมที่ผู้เสนอโครงการ นำเสนอขึ้นเอง) การเขียนอธิบายแนวคิดให้ผู้อ่านจินตนาการตามผู้เขียนนั้นเป็นเรื่องยากที่จะทำให้เกิดความเข้าใจ
วิธีการดำเนินการวิจัย และสถานที่ทำการทดลอง/เก็บข้อมูล : 1 วิธีการดำเนินการวิจัย ในการดำเนินการวิจัยนี้เป็นการคิดค้นกรอบการทำงานและอัลกอริทึมที่มีความเหมาะสมในการบูรณะภาพเอกสารไทยที่เสื่อมสภาพ เมื่อได้กรอบการทำงานและอับกอริทึมดังกล่าวแล้ว จะนำไปพัฒนาเป็นซอฟต์แวร์เพื่อทดสอบกับกลุ่มตัวอย่างภาพเอกสารไทยที่เสื่อมสภาพโดยได้รับความร่วมมือจากหอสมุดแห่งชาติในการจัดเตรียมกลุ่มตัวอย่างดังกล่าว เนื่องจากโครงการวิจัยนี้ใช้วิธีการพัฒนาซอฟต์แวร์เพื่อแก้ปัญหาและทดสอบสมมติฐานดังที่ได้นำเสนอแล้ว ดังนั้นผู้เสนอโครงการวิจัยจะดำเนินโครงการวิจัยตามหลักการของวิศวกรรมซอฟต์แวร์รูปแบบ water fall model ซึ่งประกอบด้วย 7 ขั้นตอนดังนี้ 1. ศึกษาค้นคว้าข้อมูลเบื้องต้น แนวคิด และวิธีดำเนินงาน ในขั้นตอนนี้ผู้ดำเนินโครงการวิจัยได้ศึกษาถึงปัญหาการทำไบนาไรเซชันที่เกิดกับภาพเอกสารเสื่อมสภาพภาษาไทยจากคลังเอกสารภาพทางประวัติศาสตร์ของหอสมุดแห่งชาติ โดยโจทย์วิจัยนี้เกิดขึ้นระหว่างเวทีการเสวนา IRPUS ซึ่งจัดโดยมหาวิทยาลัยนเรศวร จากนั้นผู้ดำเนินโครงการวิจัยได้ศึกษาวิธีการฟื้นฟูภาพเอกสารโดยการทำไบนาไรเซชันที่มีการใช้งานในต่างประเทศจากบทความในวารสารวิชาการระดับนานาชาติ พบว่ามีผู้นำเสนอไว้หลายวิธีซึ่งแต่ละวิธีก็มีข้อดี ข้อเสีย และลักษณะการนำไปใช้ที่เหมาะสมแตกต่างกัน เมื่อนำมาประยุกต์ใช้งานกับภาพเอกสารของหอสมุดแห่งชาติพบว่าผลลัพธ์ไม่เป็นที่น่าพอใจ เนื่องจากคุณลักษณะและความเสื่อมสภาพของเอกสารต้นฉบับนั้นไม่เหมือนกัน (ขั้นตอนนี้ดำเนินการไปแล้ว) 2. วิเคราะห์ความต้องการของระบบ ในขั้นตอนนี้ผู้ดำเนินโครงการวิจัยได้วิเคราะห์อัลกอริทึมการทำไบนาไรเซชันที่เคยมีผู้นำเสนอไว้ พบว่าประเด็นสำคัญคือต้องใช้การทำ pre-processing และ post-processing ที่เหมาะกับลักษณะของเอกสาร รวมไปถึงเทคนิคการทำ adaptive threshold ซึ่งคาดว่าจะได้ผลลัพธ์ที่ดีขึ้น จากนั้นจึงสร้าง frame work ที่เหมาะสมกับคุณลักษณะของภาพเอกสารเสื่อมสภาพ 3. การเตรียมการและนำเสนอโครงการ ขั้นตอนนี้ เป็นการรวบรวมสิ่งที่เป็นผลลัพธ์ของขั้นตอนที่ 12.1 และ 12.2 เรียบเรียงออกมาเป็นแบบเสนอโครงการวิจัยฉบับนี้และนำเสนอโครงการวิจัยต่อคณะกรรมการผู้ทรงคุณวุฒิ 4. การวิเคราะห์และออกแบบระบบ เป็นขั้นตอนที่ผู้วิจัยจะทำการออกแบบระบบโดยลักษณะ coarse to fine โดยใช้ UML และ flow chart เป็นเครื่องมือ ผลลัพธ์ที่ได้จากขั้นตอนนี้จะส่งผลให้ทีมพัฒนาระบบในขั้นตอนต่อไปสามารถเข้าใจกรอบการทำงานและอัลกอริทึมที่ผู้ดำเนินโครงการวิจัยคิดขึ้นมาได้ 5. พัฒนาระบบ เป็นขั้นตอนการพัฒนาระบบโดยใช้ MATLAB เป็นเครื่องมือ โดยเขียนโปรแกรมให้สามารถทำงานตามกรอบการทำงานและอัลกอริทึมในขั้นตอนที่ 4 และตรวจสอบการทำงานของระบบในแต่ละขั้นตอนว่าเป็นไปตามกรอบการทำงานและอัลกอริทึมที่คิดไว้หรือไม่ เมื่อพัฒนาระบบจนเกือบจะสมบูรณ์แล้วผู้ดำเนินโครงการจะเขียนบทความวิจัยที่เน้นถึงกรอบการทำงานและผลลัพธ์เบื้องต้นที่ได้เพื่อเผยแพร่และร่วมนำเสนอในงานประชุมวิชาการระดับนานาชาติ โดยมุ่งหวังที่จะได้รับฟังข้อคิดเห็นจากการประชุมวิชาการระดับนานาชาติดังกล่าวเพื่อรวบรวมข้อคิดเห็นมาปรับปรุงระบบให้มีความสมบูรณ์มากที่สุด 6. ทดสอบและปรับปรุงแก้ไขระบบ ในขั้นตอนนี้เป็นการนำระบบที่พัฒนาสำเร็จแล้วมาทำการทดสอบกับชุดทดสอบที่ได้กล่าวถึงไปแล้วในส่วนขอบเขตของงานวิจัยเพื่อหาข้อบกพร่องของระบบที่ได้สร้างขึ้น และเมื่อพบจุดบกพร่องก็ทำการหาสาเหตุ และแก้ไขโปรแกรมเพื่อให้ได้ตัวระบบที่สมบูรณ์มากที่สุด 7. จัดทำรายงานและเอกสารที่เกี่ยวข้อง ผู้ดำเนินโครงการวิจัยจะจัดทำรายงานวิจัยฉบับสมบูรณ์ คู่มือการใช้งานซอฟต์แวร์ และเขียนบทความวิจัยเพื่อการเผยแพร่ในวารสารวิชาการระดับนานาชาติ 2 สถานที่ทำการทดลอง ห้องปฏิบัติการสาขาวิชาคอมพิวเตอร์และเทคโนโลยีสารสนเทศ ภาควิชาวิทยาศาสตร์ประยุกต์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏนครสวรรค์ 3 สถานที่เก็บข้อมูล หอสมุดมหาวิทยาลัยราชภัฏนครสวรรค์และหอสมุดแห่งชาติ
คำอธิบายโครงการวิจัย (อย่างย่อ) :-
จำนวนเข้าชมโครงการ :777 ครั้ง
รายชื่อนักวิจัยในโครงการ
ชื่อนักวิจัยประเภทนักวิจัยบทบาทหน้าที่นักวิจัยสัดส่วนปริมาณงาน(%)
-กฤษดา ขันกสิกรรม บุคลากรภายในมหาวิทยาลัยหัวหน้าโครงการวิจัย100

กลับไปหน้าโครงการวิจัยทั้งหมด