Untitled Page

รายละเอียดโครงการวิจัย

รหัสโครงการ :	R000000547
ชื่อโครงการ (ภาษาไทย) :	การใช้หลักการประมวลผลภาษาธรรมชาติเพื่อสอบสวนโรคจากเอกสารบันทึกอาการของผู้ป่วยโควิด-19
ชื่อโครงการ (ภาษาอังกฤษ) :	The use of Natural Language Processing principles for the investigation of diseases from patients COVID-19 records
คำสำคัญของโครงการ(Keyword) :	NLP, Covid-19, Text mining
หน่วยงานเจ้าของโครงการ :	สถาบันวิจัยและพัฒนา > กลุ่มงานส่งเสริมและพัฒนางานวิจัย
ลักษณะโครงการวิจัย :	โครงการวิจัยเดี่ยว
ลักษณะย่อยโครงการวิจัย :	ไม่อยู่ภายใต้แผนงานวิจัย/ชุดโครงการวิจัย
ประเภทโครงการ :	โครงการวิจัยใหม่
สถานะของโครงการ :	propersal
งบประมาณที่เสนอขอ :	55000
งบประมาณทั้งโครงการ :	55,000.00 บาท
วันเริ่มต้นโครงการ :	01 มกราคม 2564
วันสิ้นสุดโครงการ :	01 มกราคม 2565
ประเภทของโครงการ :	การวิจัยพื้นฐาน
กลุ่มสาขาวิชาการ :	วิศวกรรมศาสตร์และเทคโนโลยี
สาขาวิชาการ :	ด้านวิทยาศาสตร์ เทคโนโลยีและอุตสาหกรรม
กลุ่มวิชาการ :	อื่นๆ
ลักษณะโครงการวิจัย :	ระดับชาติ
สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์ :	สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์
สร้างความร่วมมือประหว่างประเทศ GMS :	ไม่สร้างความร่วมมือทางการวิจัยระหว่างประเทศ
นำไปใช้ในการพัฒนาคุณภาพการศึกษา :	นำไปใช้ประโยชน์ในการพัฒนาณภาพการศึกษา
เกิดจากความร่วมมือกับภาคการผลิต :	ไม่เกิดจากความร่วมมือกับภาคการผลิต
ความสำคัญและที่มาของปัญหา :	จากข้อมูลของกรมควบคุมโรค โรคติดเชื้อไวรัสโคโรนา 2019 (โควิด-19) นั้น ถูกจัดว่าเป็นโรคอุบัติใหม่ หมายถึงการมีผู้ป่วย หรือมีแนวโน้มที่จะพบผู้ติดเชื้อเพิ่มมากขึ้น โดยโควิด-19 นั้น เริ่มพบการติดเชื้อครั้งแรกที่ประเทศจีนในเมืองอู่ฮั่น ในช่วงปลายปี 2562 โดยได้รับการยืนยันอย่างเป็นทางการเมื่อ 31 ธันวาคม 2562 และจากจุดเริ่มต้นการระบาดในประเทศจีนนั้น ปัจจุบัน โควิด-19 ได้แพร่ขยายเป็นการระบาดใหญ่ (Pandemic) ไปยังทั่วโลก โดยมีผู้ติดเชื้อมากกว่า 4 ล้านราย และมีผู้เสียชีวิตเกือบ 3 แสนคน โดยมีการติดเชื้อแพร่กระจายไปในทุกทวีป และประเทศสหรัฐอเมริกา เป็นประเทศที่มีผู้จำนวนผู้เสียชีวิตต่อประชากรหนึ่งแสนคน โดยมีตัวเลขสูงกว่า 8 หมื่นคน คิดเป็นร้อยละ 24.7 ของผู้ติดเชื้อรวมกว่า 1.3 ล้านคน สำหรับสถานการณ์ โควิด-19 ในประเทศไทยนั้น มีการตรวจพบผู้ติดเชื้อรายแรกเมื่อวันที่ 12 มกราคม 2563 รวมถึงพบผู้ติดเชื้อจำนวนมากเกิดหนึ่งร้อยรายต่อวัน อยู่ในระหว่างวันที่ 22 มีนาคม 2563 ถึง 3 เมษายน 2563 และพบผู้ติดเชื้อไม่ถึง 10 ราย ตั้งแต่วันที่ 27 เมษายน 2563 โดยคงสถานะผู้ป่วยต่ำกว่า 10 รายได้เป็นส่วนใหญ่ ทั้งนี้เมื่อทำการสรุปจำนวนผู้ติดเชื้อในประเทศไทยแล้ว พบว่ามีผู้ติดเชื้อสะสมถึงวันที่ 12 พฤษภาคม 2563 อยู่ที่ 3,017 คน มีผู้เสียชีวิต 56 ราย โดยจังหวัดที่มีผู้ติดเชื้อสูงสุด ได้แก่กรุงเทพมหานคร ซึ่งมีผู้ติดเชื้อสะสมถึง 1,547 ราย และมี 9 จังหวัดที่ไม่พบผู้ติดเชื้อ ได้แก่จังหวัดน่าน กำแพงเพชร พิจิตร บึงกาฬ สิงห์บุรี ชัยนาท อ่างทอง ตราด และระนอง ในช่วงที่พบการระบาดครั้งใหญ่ (Super spreader) ในประเทศไทยนั้น เกิดจากการจัดรายการมวยแชมเปี้ยนเกียรติเพชร ในวันที่ 6 มีนาคม 2563 ที่สนามมวยลุมพินี ซึ่งผู้ที่ทำการแพร่เชื้อนั้น ได้เดินทางกลับมาจากประเทศอิตาลี ซึ่งเป็นหนึ่งในประเทศที่มีการระบาดของเชื้อเป็นวงกว้าง โดยบุคคลดังกล่าวได้แพร่เชื้อให้กับผู้ที่เข้ามาภายในสนามมวยมากกว่า 50 คน และหลังจากนั้น ผู้ที่ได้รับเชื้อกว่า 50 คนนี้ ได้นำเชื้อไปแพร่กระจายให้กับส่วนต่าง ๆ ของประเทศเป็นวงกว้างต่อไป ดังนั้น จึงจะพบจำนวนผู้ป่วยจำนวนมากหลังจากการแข่งขันมวยเสร็จสิ้นแล้วประมาณ 14 วัน โดยการจะได้มาซึ่งของผู้รับเชื้อกว่า 50 คนนี้ ต้องมีการสอบสวนโรค ในกลุ่มของประชาชนกลุ่มที่เข้ามาสัมผัสกับผู้ป่วย การสอบสวนโรคโควิด-19 นั้น มีเกณฑ์การตรวจสอบจากผู้ที่มีอาการไข้ พร้อมกับมีประวัติอย่างใดอย่างหนึ่งต่อไปนี้ประกอบ ได้แก่ การเดินทางกลับมาจากพื้นที่การระบาด ตามการประกาศของกระทรวงสาธารณสุข การอาศัยอยู่ในพื้นที่เสี่ยง การสัมผัสใกล้ชิดกับผู้ป่วย และการสัมผัสสัตว์แหล่งรังโรค โดยเป็นประวัติในช่วง 14 วัน ก่อนอาการป่วย โดยมีการใช้งานร่วมกับแบบสอบสวนโรค Novelcorona 2 ซึ่งนอกจากจะมีรายละเอียดของข้อมูลในลักษณะการเติมคำลงในช่องว่าง และรายการตัวเลือกแล้ว ยังมีรายละเอียดเหตุการณ์ ประวัติเสี่ยงต่อการติดเชื้อ ก่อนเริ่มป่วย ไว้เป็นคำถามปลายเปิด เพื่อให้เจ้าหน้าที่ที่ทำการสอบสวนข้อมูล ได้ทำการบันทึกข้อความการสอบสวนเพิ่มเติมลงไปอีกด้วย ซึ่งอาจจะเป็นข้อมูลในส่วนของสถานที่ หรือเวลา และรายละเอียดของสถานการณ์ที่เกิดขึ้นกับผู้สงสัยว่าตนเองจะติดเชื้อไวรัสโควิด-19 จากข้อมูลในแบบสอบสวนในส่วนของ รายละเอียดเหตุการณ์ฯ นั้น จะเห็นได้ว่าเป็นการบันทึกข้อมูลที่เป็นลักษณะของข้อความ และไม่เป็นโครงสร้าง เมื่อต้องมีการบันทึกข้อมูลเป็นจำนวนมาก ตัวอย่างเช่น หากต้องการสอบสวนจากเหตุการณ์ Super Spread จำเป็นต้องแยกกลุ่มหาบุคคลที่เกี่ยวข้องกับผู้แพร่เชื้อ สถานที่ที่คนเหล่านั้นเคยไป ซึ่งอาจจะทำการแพร่เชื้อต่อไปยังผู้อื่นได้อีก การหาความสัมพันธ์ของบุคคล สถานที่ และเวลา ซึ่งเป็นเรื่องที่สิ้นเปลืองทรัพยากรบุคคลเป็นอย่างยิ่ง ในการจำแนกข้อมูลด้วยแรงงานคน ดังนั้นทางผู้วิจัยจึงเห็นว่า หากมีการนำเอาระบบอัตโนมัติมาเพื่อใช้ในการสกัดข้อมูล แล้วนำข้อมูลเหล่านั้นมาวิเคราะห์แทนเจ้าหน้าที่สาธารณสุข ก็จะเป็นประโยชน์ และลดระยะเวลาในการทำการสอบสอบโรคได้เป็นอย่างดีต่อไป
จุดเด่นของโครงการ :	เพิ่มขีดความสามารถทางด้าน AI: NLP ให้กับทางมหาวิทยาลัย สร้างเครื่องมืออัตโนมัติด้วย NLP เพื่อการสอบสวนโรค
วัตถุประสงค์ของโครงการ :	1. เพื่อศึกษาแบบฟอร์ม และวิธีการเก็บข้อมูลการสอบสวนโรคไวรัสโควิด-19 2. เพื่อวิจัยหาทฤษฎี เทคโนโลยีที่เหมาะสมมาวิเคราะห์ข้อมูลจากการสอบสวนโรค 3. เพื่อนำข้อมูลที่รวบรวมได้แบบสอบสวนโรค มาการวิเคราะห์หาความสัมพันธ์ระหว่างบุคคล เวลา และสถานที่ 4. เพื่อให้เกิดแบบแผนการบันทึกข้อมูลแบบไร้โครงสร้าง แต่สามารถเข้าถึงหรือวิเคราะห์ข้อมูลได้อย่างรวดเร็ว 5. เพื่อสร้างเครื่องมือต้นแบบด้าน NLP เพื่อนำไปใช้ในการสอบสวนโรค สำหรับสถานพยาบาลในเขตจังหวัดนครสวรรค์
ขอบเขตของโครงการ :	1. การใช้ข้อมูล จากข้อมูลทุติยภูมิ จากตัวอย่างแบบสอบสวนโรค Novelcorona 2 2. การใช้ข้อมูล จากข้อมูลตัวอย่าง เพื่อตรวจสอบความแม่นยำของระบบ
ผลที่คาดว่าจะได้รับ :	1. ต้นแบบระบบ AI โดยใช้ NLP เพื่อหาความสัมพันธ์ของรายการบันทึกแบบสอบสวนโรคในส่วนของ Social Networking and Relationship 2. โปรแกรมต้นแบบสำหรับการศึกษาในด้าน NLP ของหลักสูตรวิทยาการคอมพิวเตอร์ หรือที่เกี่ยวข้อง 3. แนวทางการบันทึกคำตอบให้กับคำถามปลายเปิดสำหรับการสอบสวนโรค เพื่อเพิ่มประสิทธิภาพให้กับระบบอัตโนมัติในการทำความเข้าใจกับข้อมูลที่ได้บันทึกไว้
การทบทวนวรรณกรรม/สารสนเทศ :	1. ข้อมูลแบบไร้โครงสร้าง (Unstructured Data) เป็นข้อมูลที่มาในหลากหลายรูปแบบ และแตกต่างจากการเก็บข้อมูลในลักษณะปกติคือแถว คอลัมน์ นั่นคือไม่สามารถจัดเก็บได้ในฐานข้อมูลรูปแบบฐานข้อมูลเชิงสัมพันธ์ หรือตารางคำนวณแบบอิเล็กทรอนิกส์ อย่างเช่น MS Excel หรือ Google Sheet สำหรับข้อมูลไร้โครงสร้างนั้นมีอัตราการเติบโตที่ร้อยละ 55-65 ต่อปี และถูกใช้โดยหลายองค์กร รวมถึงถูกใช้ในแอพพลิเคชั่นทางธุรกิจด้วย อย่างไรก็ตามข้อมูลในลักษณะยากต่อการนำมาวิเคราะห์ หรือยากต่อการค้นหาข้อมูล รวมถึงยากต่อการนำไปทำให้เกิดประโยชน์ต่อการใช้งานหากไม่มีวิธีการที่เหมาะสมจัดการกับข้อมูลดังกล่าว [6] [7] โดยข้อมูลแบบไร้โครงสร้างนั้น จะถูกจัดเก็บจากคำถามปลายเปิดที่มีในแบบสอบสวนโรค โดยจะนำข้อมูลเหล่านี้ไปใช้ประโยชน์ในการวิเคราะห์ข้อมูลต่อไป 2. NLP ด้านสาธารณสุข นั้นถูกนำมาใช้กับการบันทึกรายการคำสั่งจากแพทย์ รวมถึงรายการบันทึกข้อมูลด้านสุขภาพอื่น ๆ โดยในปัจจุบันมีผู้คนไม่ต่ำกว่า 26 ล้านคนได้บันทึกข้อมูลทางพันธุกรรมลงไปในฐานข้อมูลเชิงพาณิชย์ผ่านอุปกรณ์ตรวจสุขภาพส่วนบุคคลบ้าน หรืออุปกรณ์สวมใส่ ซึ่งเป็นยุคใหม่ของการสร้างข้อมูลด้านสุขภาพของผู้บริโภคโดยมีการสร้างข้อมูลถึง 2,314 exabytes ในปี 2020 ซึ่งข้อมูลเหล่านี้จะมีการใช้การวิเคราะห์ข้อความเพื่อใช้ในการตอบคำถามด้านสุขภาพให้มีความรวดเร็ว และปรับปรุงคุณภาพการดูแลผู้ป่วย และลดต้นทุนในการดำเนินการได้ [8] ซึ่งเทคนิคทางด้าน NLP ที่ใช้กับงานวิจัยนี้ จะถูกจัดทำขึ้นเพื่อทำความเข้าใจกับข้อมูลประเภทไร้โครงสร้างที่ได้ถูกจัดเก็บผ่านทางแบบสอบสวนโรค เพื่อหาความเข้าใจในข้อมูลด้วยระบบอัตโนมัติ 3. Text analytics เป็นกระบวนการวิเคราะห์ข้อความที่ถูกจัดทำขึ้นมาจากวิธีการต่าง ๆ โดยผู้ใช้งาน ซึ่งสามารถใช้ในการค้นหารูปแบบ หรือหัวข้อที่น่าสนใจ โดยการวิเคราะห์ข้อความสามารถทำได้ด้วยแรงงานคน แต่เป็นกระบวนการที่ขาดประสิทธิภาพ ดังนั้นการใช้การวิเคราะห์ข้อมูลด้วยซอฟต์แวร์จะช่วยในการค้นหาความหมายข้อมูล รวมถึงอัลกอริทึมที่ใช้ในการประมวลผลเพื่อหาความหมายจากข้อมูลปริมาณมาก [9] โดยงานวิจัยนี้จะใช้ Text analytics เพื่อวิเคราะห์ความหมายที่เกิดขึ้นในข้อมูลแบบสอบสวนโรค เพื่อใช้ในการแยกประเภทข้อมูลว่ามีส่วนใดบ้างที่เป็นส่วนสำคัญต่อการสอบสวนโรคระบาด 4. Text Mining เป็นหนึ่งในเทคโนโลยีของปัญญาประดิษฐ์ (Artificial Intelligence: AI) โดยการใช้คุณสมบัติของ NLP เพื่อแปลงข้อมูลแบบไร้โครงสร้างไม่ว่าจะเป็นจากเอกสาร หรือจากฐานข้อมูล ในอยู่ในรูปแบบที่เหมาะสม และสะดวกต่อการวิเคราะห์ โดยมักจะนิยมใช้ในหน่วยงานที่มีการตรวจสอบข้อมูลในเอกสารจำนวนมาก เพื่อนำข้อมูลเหล่านั้นมาค้นหาสามารสนเทศใหม่ ๆ หรือช่วยในการตอบคำถามเฉพาะต่าง ๆ โดย text mining เป็นการระบุข้อเท็จจริง ความสัมพันธ์ และการยืนยันตัวข้อมูลที่ถูกซ่อนหรือปะปนอยู่ในกลุ่มข้อมูลขนาดใหญ่ เมื่อข้อมูลเหล่านี้ถูกสกัดออกมา ข้อมูลเหล่านี้จะถูกจัดรูปแบบโครงสร้างที่ง่ายต่อการวิเคราะห์ หรือนำเสนอได้โดยตรงผ่านรูปแบบต่าง ๆ เช่น กราฟ ตาราง แผนผังความคิด และ อื่น ๆ [10] ซึ่งในงานวิจัยนี้จะใช้ Text mining เพื่อการสกัดหาข้อมูลความสัมพันธ์ที่จำเป็นสำหรับการสอบสวนโรคจากรายงานของผู้ป่วย มาทำการวิเคราะห์ข้อมูล 5. Social Networking หรือ Social Relationship เป็นปฏิสัมพันธ์ระหว่างบุคคลในช่วงระยะเวลาหนึ่ง โดยการปฏิสัมพันธ์นั้น สามารถอธิบายได้ไม่ว่าจะเป็นความสัมพันธ์ในลักษณะเป็นผู้ปกครอง ผู้บังคับบัญชากับผู้ใต้บังคับบัญชา ความสัมพันธ์ทางอารมณ์ต่าง ๆ โดยเป็นความสัมพันธ์ที่มีคุณภาพคงที่ เกิดขึ้นจากการตอบสนองซ้ำ ๆ คู่ปฏิสัมพันธ์อาจมีความสัมพันธ์ทางสังคมในเชิงบวก หรือลบก็ได้ รวมไปถึงความสัมพันธ์แบบชั่วคราว หรือยั่งยืนก็ได้ คู่ปฏิสัมพันธ์ทางสังคมระยะยาวจะปรับพฤติกรรมระหว่างกันและกัน จากทัศนคติที่ได้รับจากอีกฝ่ายหนึ่ง [11] โดยงานวิจัยนี้จะดำเนินการหาคู่ปฏิสัมพันธ์ทั้งแบบถาวร และไม่ถาวรที่เกิดขึ้นในช่วงเวลาใด ๆ เพื่อนำมาวิเคราะห์ว่า ได้มีโอกาสสัมผัสกับโรคหรือไม่
ทฤษฎี สมมุติฐาน กรอบแนวความคิด :	1. Unstructured clinical records เป็นขั้นตอนการหาตัวอย่างเอกสารไร้รูปแบบ เพื่อเอามาเป็นข้อมูลสำหรับเป็น Input ของระบบวิเคราะห์เอกสารด้านสาธารณสุข 2. Organized into structured data เป็นการนำเอาข้อมูลที่ได้จากข้อ 1. มาผ่านการประมวลผลขั้นต้น เพื่อผลดังต่อไปนี้ ได้แก่ การตัดคำ การจัดการกับข้อมูลที่ไม่มีความจำเป็น ออกไป เพื่อให้การวิเคราะห์ทำได้ง่ายขึ้น 3. NLP algorithm for extracting data เป็นขั้นตอนการสร้าง AI ด้วย NLP algorithm เพื่อใช้ในการสกัด และหาความสัมพันธ์ของข้อมูล 4. Results of place, date, and time relationship ผลแสดงออกถึง Timeline ของความสัมพันธ์ระหว่างสถานที่กับเวลาที่อยู่ในแบบสอบสวนโรค
วิธีการดำเนินการวิจัย และสถานที่ทำการทดลอง/เก็บข้อมูล :	1. เตรียมความพร้อม หาข้อมูลในรูปแบบทุติยภูมิ เพื่อนำมาใช้ในงานวิจัย 2. ออกแบบการทดลอง 3. พัฒนาระบบ NLP Healthcare ในส่วนของ Data Extraction 4. พัฒนาระบบ NLP Healthcare ในส่วนของ Social Networking and Relationship 5. ทดสอบกับข้อมูลตัวอย่าง 6. สรุปผลดำเนินงาน 7. ทำรายงานสรุปผลโครงการ 8. จัดทำเอกสารเผยแพร่ผลงานวิจัย
คำอธิบายโครงการวิจัย (อย่างย่อ) :	การอ่านข้อความ จากแบบสอบส่วนโรค เพื่อหาความสัมพันธ์ระหว่าง บุคคล สถานที่ และเวลา ด้วยการใช้ NLP
จำนวนเข้าชมโครงการ :	530 ครั้ง

รายชื่อนักวิจัยในโครงการ

ชื่อนักวิจัย	ประเภทนักวิจัย	บทบาทหน้าที่นักวิจัย	สัดส่วนปริมาณงาน(%)
นายถิรภัทร มีสำราญ	บุคลากรภายในมหาวิทยาลัย	หัวหน้าโครงการวิจัย	40
นายวิฑูร สนธิปักษ์	บุคลากรภายในมหาวิทยาลัย	ผู้ร่วมวิจัย	40
นายภาสกร วรอาจ	บุคลากรภายในมหาวิทยาลัย	ผู้ร่วมวิจัย	20

กลับไปหน้าโครงการวิจัยทั้งหมด