รหัสโครงการ : | R000000633 |
ชื่อโครงการ (ภาษาไทย) : | คลังคำศัพท์บอกความรู้สึกเกี่ยวกับโรคติดเชื้อไวรัสโคโรนา 2019 จากข้อความทวิตเตอร์ในประเทศไทย |
ชื่อโครงการ (ภาษาอังกฤษ) : | A Corpus of Sentiment Lexicon of Covid-19 on Thai Twitter |
คำสำคัญของโครงการ(Keyword) : | Corpus, Sentiment Lexicon, Covid-19, Twitter |
หน่วยงานเจ้าของโครงการ : | คณะมนุษยศาสตร์และสังคมศาสตร์ > สาขาวิชาภาษาต่างประเทศ |
ลักษณะโครงการวิจัย : | โครงการวิจัยเดี่ยว |
ลักษณะย่อยโครงการวิจัย : | ไม่อยู่ภายใต้แผนงานวิจัย/ชุดโครงการวิจัย |
ประเภทโครงการ : | โครงการวิจัยใหม่ |
สถานะของโครงการ : | propersal |
งบประมาณที่เสนอขอ : | 50000 |
งบประมาณทั้งโครงการ : | 50,000.00 บาท |
วันเริ่มต้นโครงการ : | 17 มกราคม 2565 |
วันสิ้นสุดโครงการ : | 16 มกราคม 2566 |
ประเภทของโครงการ : | งานวิจัยพื้นฐาน(ทฤษฎี)/บริสุทธิ์ |
กลุ่มสาขาวิชาการ : | มนุษยศาสตร์ |
สาขาวิชาการ : | สาขามนุษยศาสตร์และสังคมศาสตร์ |
กลุ่มวิชาการ : | อื่นๆ |
ลักษณะโครงการวิจัย : | ระดับชาติ |
สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์ : | ไม่สะท้อนถึงการใช้ความรู้เชิงอัตลักษณ์ |
สร้างความร่วมมือประหว่างประเทศ GMS : | ไม่สร้างความร่วมมือทางการวิจัยระหว่างประเทศ |
นำไปใช้ในการพัฒนาคุณภาพการศึกษา : | ไม่นำไปใช้ประโยชน์ในการพัฒนาณภาพการศึกษา |
เกิดจากความร่วมมือกับภาคการผลิต : | ไม่เกิดจากความร่วมมือกับภาคการผลิต |
ความสำคัญและที่มาของปัญหา : | จากสถานการณ์การณ์โรคติดเชื้อไวรัสโคโรนา 2019 (Covid-19) ที่ยังคงระบาดอย่างหนักในประเทศไทย ซึ่งถือเป็นวิกฤตการณ์ที่น่าเป็นห่วงอย่างยิ่งในเรื่องของการแพร่ระบาด จากศูนย์ข้อมูล Covid-19 พบผู้ป่วยในประเทศไทย เพิ่มขึ้น ผู้ป่วยสะสม ผู้เสียชีวิต และรักษาตัวในโรงพยาบาลเป็นจำนวนมาก จำนวนประชากรที่ติดเชื้อเพิ่มขึ้น 10,000 รายต่อวัน และยอดรวมผู้เสียชีวิตอีกมากกว่า 3,000 ราย แสดงให้เห็นถึงปัญหาที่ทุกคนกำลังให้ความสำคัญในเรื่องของการแก้สถานการณ์ให้ดีขึ้น โควิด-19 ที่กำลังส่งผลต่อผู้คนในรูปแบบต่าง ๆ ที่แตกต่างกันไป ผู้คนหลากหลายสายอาชีพกำลังประสบกับปัญหาตรึงเครียดจากสถานการณ์การแพร่ระบาดของโรคติดเชื้อโคโรนา 2019 ซึ่งสามารถสังเกตได้จากข้อความต่าง ๆ บนโลกออนไลน์ ที่ผู้คนจำนวนมากแสดงความคิดเห็นอย่างต่อเนื่องถึงปัญหาดังกล่าว
ในปัจจุบันการสื่อสารผ่านช่องทางอินเทอร์เน็ต ถือเป็นช่องทางหลักในการติดต่อสื่อสารของคนทั่วไป อีกทั้งมีการแสดงความคิดเห็นผ่านทางสื่อสังคมออนไลน์ (social media) ในรูปแบบต่าง ๆ อาทิ Facebook Twitter YouTube TikTok Instagram เป็นต้น ซึ่งกลายเป็นเครื่องมือสำคัญในการแลกเปลี่ยนความคิดเห็นในด้านต่าง ๆ ของผู้คนในวงกว้าง ผู้ใช้อินเทอร์เน็ตสามารถสืบค้นข้อมูลต่าง ๆ รวมทั้งสามารถสร้างข้อมูลของตนเอง เก็บรวบรวมข้อมูล คัดลอก หรือแม้แต่การประมวลผล ได้อย่างหลากหลาย โดยมีรูปแบบหลากหลาย เช่น ข้อความ รูปภาพ วิดีโอ เป็นต้น จึงทำให้เกิดข้อมูลจำนวนมากที่ปรากฏอยู่บนโลกออนไลน์
การสร้างคลังข้อมูลทางภาษา (corpus) ถือเป็นการรวบรวมหรือสะสมข้อมูลที่มีขนาดใหญ่ อาทิ ข้อมูลจากข้อความ บทความ หรือข้อเขียนต่าง ๆ ในภาษาใดภาษาหนึ่ง โดยมีลักษณะเฉพาะของการเก็บข้อมูล เพื่อนำไปใช้ประโยชน์ ทั้งนี้ลักษณะของข้อมูล อาจมีที่มาจากข้อความต่าง ๆซึ่งสามารถแบ่งออกเป็น ภาษาเขียน (written text) และ ภาษาพูด (spoken text) ดังนั้นการสร้างคลังข้อมูลที่ชัดเจน จึงช่วยในการอธิบายลักษณะของการใช้ภาษา คำทั่วไป หรือคำศัพท์เฉพาะทาง เพื่อนำไปการวิเคราะห์ และประยุกต์ใช้ในการเขียนพจนานุกรม หรือการสอนภาษา อีกทั้ง สามารถแสดงให้เห็นถึงทัศนคติหรือความคิดเห็นส่วนใหญ่ของผู้คนผ่านคลังข้อมูลขนาดใหญ่ได้ การวิเคราะห์ความรู้สึก (sentiment analysis) ถือเป็นกระบวนการในการระบุความรู้สึกของข้อความ ซึ่งสามารถแบ่งออกเป็น 2 ด้านใหญ่ ๆ คือ ด้านบวก (positive) และด้านลบ (negative) เพื่อเป็นประโยชน์ในการประยุกต์ใช้ข้อมูลต่อสถานการณ์การแพร่ระบาดของไวรัสโคโรนา 2019 ซึ่งปัจจุบันผู้คนจำนวนมากให้ความสำคัญถึงสถานการณ์ อีกทั้งจำนวนปริมาณข้อมูลการแสดงความคิดเห็นเกี่ยวกับโควิด-19 มีการกล่าวถึงและถูกแสดงความคิดเห็นบนสื่อสังคมออนไลน์ต่าง ๆ จำนวนมาก การวิเคราะห์ความรู้สึก จึงถือเป็นเครื่องมือที่สามารถใช้สรุปความคิดเห็นของประชาชนต่อสถานการณ์การแพร่ระบาดของโรคติดเชื้อโคโรนา 2019 ได้โดยอัตโนมัติ นอกจากนี้ การวิเคราะห์ความรู้สึกยังสามารถสะท้อนมุมมองในแต่ละสถานการณ์ของผู้พูดหรือผู้เขียนได้ในสภาวะของโรคระบาดโควิด-19
ทวิตเตอร์ (Twitter) เป็นสื่อออนไลน์ขนาดใหญ่ที่มีผู้ใช้จำนวนมาก ซึ่งสามารถแสดงความคิดเห็น ถ่ายทอดประสบการณ์ได้อย่างเป็นอิสระ ข้อความต่าง ๆ ที่เกี่ยวข้องกับสถานการณ์โควิด-19 จำนวนมากถูกถ่ายทอดผ่าน โดยมุมมองของผู้เขียน หากจะกล่าวถึงประโยชน์ทั้งในแง่ทางการแพทย์ การศึกษา ตลอดจนการบริหารต่าง ๆ ที่เกี่ยวข้องกับสถานการณ์โควิด-19 ข้อมูลดังกล่าวสามารถแสดงให้เห็นถึงความต้องการ ความรู้สึก อาการต่าง ๆ ที่เกิดขึ้นจากไวรัสโควิด-19 ของกลุ่มคนขนาดใหญ่ ตลอดจนลักษณะของภาษาที่ผู้เขียนแสดงออกมา
งานวิจัยนี้จึงมีเป้าหมายเพื่อสร้างคลังศัพท์บอกความรู้สึกจากข้อความต่าง ๆ ที่เกี่ยวข้องกับโรคติดเชื้อไวรัสโคโรนา 2019 ตามแนวทางการสร้างคลังศัพท์โดยใช้คลังข้อมูลทางภาษา ผลที่ได้จะเป็นคลังคำศัพท์ที่สามารถนำไปใช้วิเคราะห์ความรู้สึกของผู้คนที่ใช้ภาษาไทยในการออกความคิดเห็นได้ อีกทั้งยังสื่อให้เห็นถึงมุมมองของคนส่วนใหญ่ที่มีต่อสถานการณ์การแพร่ระบาดของโควิด-19 ในแต่ละแง่มุม อาทิ มุมมองด้านวัคซีน มุมมองด้านการรักษา มุมมองด้านอาการของโรค มุมมองการแพร่ระบาดของโรค เป็นต้น เนื่องจากคลังข้อมูลที่ใช้ในงานวิจัยต้องมีการรวบรวมข้อความที่เกี่ยวข้องกับโรคโควิด-19 ผ่าน Twitter เป็นจำนวนมาก และการเก็บข้อมูลที่เกี่ยวข้องกับโรคโควิด-19 ด้วยข้อความที่ติด hashtag #โรคโควิด-19 #Covid-19 โดยข้อมูลทั้งหมดจะถูกแบ่งเป็นกลุ่มที่แสดงความเห็นเชิงบวกและเชิงลบ ดังนั้น การสร้างคลังศัพท์ในงานวิจัยนี้ คลังศัพท์ที่ได้นำมาวิเคราะห์เพื่อศึกษาการใช้ภาษาที่แตกต่างกันไป เพื่อเป็นแนวทางในการสร้างคลังคำศัพท์และการวิเคราะห์ความรู้สึกของข้อความภาษาไทยต่อไป |
จุดเด่นของโครงการ : | - |
วัตถุประสงค์ของโครงการ : | 1. วิเคราะห์คำบอกความรู้สึกจากความเห็นเกี่ยวกับโรคติดเชื้อไวรัสโคโรนา ที่ปรากฏในข้อความ Twitter
2. สร้างคลังคำศัพท์บอกความรู้สึกแต่ละมุมมองที่เกี่ยวข้องกับโรคติดเชื้อไวรัสโคโรนา 2019 |
ขอบเขตของโครงการ : | งานวิจัยนี้มุ่งศึกษาแนวทางการวิเคราะห์ความรู้สึกผ่านคลังคำศัพท์ โดยไม่พิจารณาวิธีการเรียนรู้ด้วยเครื่องมือใด ๆ และประเภทความรู้สึกที่กำหนดให้ใช้ในการวิเคราะห์ข้อมูลจะแบ่งออกเป็น 2 ด้านเท่านั้น คือด้านบวก และด้านลบ (negative) นอกจากนี้ กระบวนการสร้างคลังคำศัพท์ในงานวิจัยนี้มุ่งออกแบบให้เป็นระบบอัตโนมัติ โดยปราศจากขั้นตอนการแก้ไขด้วยตนเอง (manually) ที่น้อยที่สุด |
ผลที่คาดว่าจะได้รับ : | รายการคำศัพท์ที่ได้ทั้งหมดและผ่านกระบวนการวิเคราะห์ความรู้สึกแล้วนั้น จะถูกคัดเลือกชุดคำบอกความรู้สึกที่ดีที่สุดสำหรับการสร้างคลังคำศัพท์ อีกทั้งคลังคำศัพท์แต่ละแง่มุมที่เกี่ยวข้องกับสถานการณ์การแพร่ระบาดของโรคติดเชื้อไวรัสโคโรนา 2019 จะถูกนำมาวิเคราะห์เพื่อศึกษาการใช้ภาษาที่แตกต่างกันไป เพื่อเป็นแนวทางในการสร้างคลังคำศัพท์และการวิเคราะห์ความรู้สึกของข้อความในภาษาไทยต่อไป |
การทบทวนวรรณกรรม/สารสนเทศ : | ข้อความที่กล่าวถึงสิ่งที่เกี่ยวข้องกับความรู้สึกนึกคิดของผู้เขียน หรือที่เรียกว่า ข้อความแสดงอัตวิสัย คือข้อความที่แสดงถึง มุมมอง การคาดคะเน ความเชื่อ หรือสภาพอารมณ์ของผู้เขียนในขณะนั้น ซึ่งข้อความจะสามารถใช้การจำแนกประเภทของความรู้สึกออกเป็นด้านบวกและลบได้ จึงมักจะเป็นข้อความที่แสดงอัตวิสัย การจำแนกโดยทั่วไปจะทำในระดับประโยค การจำแนกดังกล่าวอาจจะทำได้โดยอาศัยเบาะแสทางภาษา (linguistic clues) เช่น ประเภททางไวยากรณ์ (parts of speech) หรือความสัมพันธ์ระหว่างคำตามที่ระบุไว้ในพจนานุกรม ร่วมกับวิธีการต่างๆ ของการเรียนรู้ด้วยเครื่อง งานวิจัยด้านการจำแนกประโยคอัตวิสัยหลาย ๆ งาน ได้แสดงให้เห็นถึงความเกี่ยวข้องกันระหว่างการวิเคราะห์การบอกความรู้สึกและการจำแนกประโยคอัตวิสัย
การจำแนกประโยคแสดงความรู้สึก ถือเป็นกระบวนการสำคัญในการวิเคราะห์และสร้างคลังคำศัพท์ ในปัจจุบันการแสดงความคิดเห็นต่าง ๆ มีแนวโน้มจะมีความเป็นอัตวิสัยมากขึ้น ความต่างระหว่าง อัตวิสัย (subjective) และ ภววิสัย (objective) คือ อัตวิสัย คือความคิดเห็นของตนเอง สิ่งที่ตนเองนั้น คิด รู้สึก เช่น หนาว ร้อน หิว โกรธ เป็นต้น ในขณะที่ภววิสัย คือ ภวะนั้น ๆ หรือข้อเท็จจริง เช่น รูปทรงสี่เหลี่ยม น้ำหนัก 50 กิโลกรัม อุณหภูมิ 10 องศา ซึ่งจะพบว่าสิ่งที่เป็นภววิสัยนั้น เมื่อเอาให้คนแต่ละคนสัมผัสอาจจะเกิดความรู้สึกที่ไม่เหมือนกัน ดังนั้นเวลาที่คนใดคนหนึ่งกล่าวว่า วันนี้อากาศเย็น แต่คนอื่น ๆ ที่มาจากต่างเมือง อาจจะกล่าวแค่ว่า อากาศไม่เย็นเลย เพราะคำว่าเย็นของแต่ละคนนั้นต่างกัน ตัวอย่างการวิจัยของ Yu and Hatzivassiloglou (2003) ได้ทดลองจำแนกประโยคอัตวิสัยโดยอาศัยการคำนวณความคล้ายคลึงกันของประโยค (sentence similarity) ด้วย SIMFINDER ซึ่งพิจารณาการปรากฏร่วมกันของคำกลุ่มคำและกลุ่มคำพ้อง (synsets) จาก WordNet ระหว่างประโยค และนำไปเปรียบเทียบผลที่ได้จากการใช้วิธีการจำแนกแบบ naive Bayes ซึ่งเป็นหนึ่งในวิธีการเรียนรู้ด้วยเครื่อง การจำแนกดังกล่าวพิจารณา unigram/bigram/trigram ของคำประเภททางไวยากรณ์ และกลุ่มคำแสดงความรู้สึกจากงานวิจัยของ Hatzivassiloglou and Wiebe (2000) ผลที่ได้ออกมาว่าการจำแนกด้วย naive Bayes ทำการจำแนกประโยคอัตวิสัยได้ดีกว่า SIMFINDER โดยมีค่าความแม่นยำและความครบถ้วน (recall) อยู่ในช่วงประมาณ 80% ถึง 90% นอกจากนี้ Pang and Lee (2004) ยังมีการใช้เทคนิค minimal cuts ของ Blum and Chawla (2001) ซึ่งพิจารณาข้อมูลทั้ง 2 แบบคือ คะแนนเดี่ยว (individual score) บ่งบอกความน่าจะเป็นที่ประโยคใดๆ (Xi) จะจัดอยู่ในประเภทประโยคแสดงอัตวิสัย (C1) หรือประโยคบอกข้อเท็จจริง (C2) และคะแนนร่วม (association score) ซึ่งสามารถจำแนกประโยคอัตวิสัยก่อนการทำการวิเคราะห์ความรู้สึกที่แสดงในข้อความต่าง ๆ ได้ และสามารถวิเคราะห์ความรู้สึกได้ดีเทียบเท่ากับการใช่ข้อมูลทั้งหมด
การสร้างคลังคำศัพท์บอกความรู้สึกมี 2 วิธีการ คือ (1) การใช้ข้อมูลความสัมพันธ์ระหว่างคำในพจนานุกรมเพื่อรวบรวมคำบอกความรู้สึก หรือสกัดเอาคำบอกความรู้สึกจากข้อมูลการใช้ภาษาจริงในคลังข้อมูลภาษา การสร้างคลังคำศัพท์บอกความรู้สึกโดยใช้พจนานุกรมในภาษาอังกฤษโดยส่วนใหญ่จะอิงจากพจนานุกรม WordNet เช่น Kim and Hovy (2004) เริ่มสร้างคลังศัพท์จากกลุ่มคำเริ่มต้นซึ่งประกอบด้วยคำกริยาและคำคุณศัพท์จำนวนหนึ่งที่มีทั้งด้านความรู้สึกบวกและลบ ในงานวิจัยของ Esuli and Sebastiani (2005) เสนอว่าวิธีการใช้ความสัมพันธ์ของคำในพจนานุกรมเพื่อรวบรวมคำบอกความรู้สึก อีกทั้งมีการใช้คำอธิบายความ (gloss) ของรายการคำใน WordNet แทนการใช้รูปคำนั้น ๆ คำอธิบายความดังกล่าวจะถูกทำมาแปลงเป็นรูปแทนเวกเตอร์ (vector representation) ซึ่งใช้เปรียบเทียบความใกล้เคียงกันของคำทางความหมาย (2) การสร้างคลังศัพท์บอกความรู้สึกจากคลังข้อมูลภาษา ซึ่งในการใช้ภาษาจริงนั้นจะพบทั้งการใช้คำบอกความรู้สึกในกลุ่มเจาะจงได้ แนวคิดดังกล่าวปรากฏในงานของ Hatzivassiloglou and McKeown (1997) ซึ่งเสนอวิธีการระบุขั้วความรู้สึกของคำคุณศัพท์โดยอาศัยลักษณะเฉพาะของการใช้คำเชื่อมในภาษาอังกฤษ 2 ประเภท คือ คำเชื่อมระหว่างคำที่มีด้านความรู้สึกเหมือนกัน เช่น “and” และคำเชื่อมระหว่างคำที่มีด้านความรู้สึกต่างกัน เช่น “but” นอกจากนี้ งานวิจัยของ Kaji and Kitsuregawa (2006) ได้สร้างคลังข้อมูลภาษาญี่ปุ่นที่มีการระบุด้านความรู้สึก ในระดับประโยคจากเว็บเพจจำนวน 120 ล้านเว็บ โดยอาศัยโครงสร้าง 2 แบบที่มีการระบุข้อดี (pros) ข้อเสีย (cons) ไว้ให้ ได้แก่ รายการ (itemization) หรือกลุ่มของประโยคภายใต้คำขึ้นต้น (header) ว่า “ข้อดี”/“ข้อเสีย” และตาราง (table) ซึ่งมีข้อดี/ข้อเสียระบุไว้ในช่องแรกของแถว (row) หรือหลัก (column)
ในประเทศไทย การสร้างคลังคำศัพท์บอกความรู้สึกนั้น ยังมีจำนวนไม่มาก อาจเป็นเหตุมาจากการขาดแคลนแหล่งข้อมูลและเครื่องมือต่างๆ เช่น โปรแกรมแท็กชนิดของคำ เป็นต้น รวมไปถึงแนวโน้มของการเลือกใช้แบบจำลองในการวิเคราะห์ข้อมูล ซึ่งในปัจจุบันวิธีการเรียนรู้ด้วยเครื่องเป็นที่นิยมมากกว่า ตัวอย่างเช่น การจำแนกประโยคแสดงอัตวิสัยในงานวิจัยของ Sukhum, Nitsuwat, and Haruechaiyasak (2011) และการวิเคราะห์ความรู้สึกของข้อความในงานวิจัยของ Haruechaiyasak, Kongthon, Palingoon, and Trakultaweekoon (2013) ซึ่งอาศัยการจำลองการจำแนกด้วย Naive Bayes จากคลังข้อมูลที่ผ่านการระบุประเภทของข้อความแล้ว (tagged corpus) ด้วยเหตุนี้ การเลือกศึกษาแนวทางการวิเคราะห์ความรู้สึกและการสร้างคลังคำศัพท์ จึงเป็นอีกแนวทางหนึ่งที่สามารถนำไปใช้วิเคราะห์ความรู้สึกของข้อความได้เช่นกัน และยังสามารถนำใช้ไปพัฒนาเครื่องมือสำหรับการวิเคราะห์ความรู้สึกในภาษาไทยต่อไปในอนาคตได้อีกด้วย |
ทฤษฎี สมมุติฐาน กรอบแนวความคิด : | 1. คำบอกความรู้สึกเป็นคำในกลุ่มคำคุณศัพท์และคำกริยาที่ปรากฎร่วมกับคำนามซึ่งเป็นคำที่เกี่ยวข้องกับโรคโควิด-19 ในมุมมองต่าง ๆ
2. คำบอกความรู้สึกจากข้อความต่าง ๆ จะมีด้านความรู้สึกเหมือนกันในทุก ๆ ข้อความที่ปรากฏ โดยจะมีความหมายบ่งบอกในเชิงนามธรรม เช่น "เยี่ยม" และ “แย่”
3. คำบอกความรู้สึกจากข้อความต่าง ๆ จะมีด้านความรู้สึกเปลี่ยนไปแต่ละมุมมอง เช่น "เร็ว" เป็นคำบอกความรู้สึกด้านบวก เช่น "ประชาชนได้รับวัคซีนเร็ว" ในขณะที่คำบอกความรู้สึกด้านลบ เช่น “ผู้ติดเชื้อเสียชีวิตเร็วขึ้น" |
วิธีการดำเนินการวิจัย และสถานที่ทำการทดลอง/เก็บข้อมูล : | งานวิจัยมีจุดประสงค์เพื่อสร้างคลังคำศัพท์บอกความรู้สึกตามแนวทางการสร้างคลังคำศัพท์โดยการใช้คลังข้อมูลทางภาษา ซึ่งวิธีดำเนินงานวิจัยจะเริ่มจากการเก็บข้อมูล จากนั้นจึงแบ่งกลุ่มข้อมูลเพื่อเตรียมข้อมูลสสำหรับการวิเคราะห์โดยการการตัดคำ และแท็กชนิดของคำ และการวิเคราะห์ข้อมูลเริ่มจากการคัดเลือกคำบอกที่ใช้แทนโรคโควิด-19 โดยคำนามที่มีความถี่การปรากฏสูง และเมื่อคำที่ใช้แทนโรคโควิด-19 แล้วจึงจะจับคู่กับคำบอกความรู้สึก แล้วจึงทำการคัดเลือกคำบอกความรู้สึกเพื่อใช้สร้างคลังคำศัพท์ต่อไป โดยขั้นตอนการดำเนินงานวิจัย มีดังต่อไปนี้
1. การเก็บข้อมูล ข้อมูลภาษาจะถูกรวบรวมจากข้อความ Twitter โดยเลือกจากข้อความที่ติด hashtag #โควิด-19 #Covid-19 ตั้งแต่ปี ค.ศ. 2019 ถึง ค.ศ. 2021
2. การแบ่งกลุ่มข้อมูล ข้อมูลทั้งหมดจะถูกแบ่งกลุ่มออกเป็น 2 กลุ่ม คือ กลุ่มที่แสดงความคิดเห็นเชิงบวก และกลุ่มที่แสดงความคิดเห็นเชิงลบ อีกทั้งแบ่งประเภทของข้อมูล ตามมุมมองแต่ละด้านของผู้เขียน อาทิ มุมมองด้านวัคซีน มุมมองด้านอาการของโรคโควิด-19 มุมมองด้านอาชีพที่ได้รับผลกระทบ เป็นต้น
3. การตัดคำ ข้อมูลทั้งหมดที่รวบรวมมาได้จากข้อความ Twitter จะถูกนำมาเข้าสู่กระบวนการตัดคำ (word segmentation)
4. การแท็กชนิดของคำ การแท็กชนิดของคำ (parts of speech tagging) จะนำไปสู่ขอบเขตของคำและอนุประโยค (clause) รวมทั้งชนิดของคำแต่ละคำ
5. การคัดคำที่ใช้แทนโรคโควิด-19 คำที่ใช้แทนโรคโควิด-19 เป็นคำที่ผู้เขียนใช้ร่วมกับคำบอกความรู้สึก หรือเป็นคำที่แทนโรคโควิด-19 ที่ถูกเขียนออกมาในเชิงบวกและเชิงลบ ซึ่งคำที่ใช้แทนโรคโควิด-19 มักจะเป็นกลุ่มคำนามที่มักได้รับการพูดถึงบ่อย ๆ และจะพบความถี่การปรากฏสูงกว่าคำนามอื่น ๆ
6. จับคู่คำที่ใช้แทนโรคโควิด-19 และคำบอกความรู้สึก การค้นหาคำบอกความรู้สึกจากข้อความต่าง ๆ จะอาศัยวิธีการจับคู่คำที่ใช้แทนที่พบกับคำบอกความรู้สึก
7. การคัดคำบอกความรู้สึก คำบอกความรู้สึกจะถูกกำหนดให้มี 2 ด้านความรู้สึก คือ ด้านบวกแลละด้านลบ โดยจะพิจารณาจากความถี่การปรากฏของคำบอกความรู้สึกในข้อความทั้งในด้านบวกและด้านลบ
8. การจำแนกประเภทของคำบอกความรู้สึก เมื่อได้ชุดคลังคำศัพท์บอกความรู้สึกของแต่ละมุมมองแล้ว จะสามารถคัดเลือกคำบอกความรู้สึกแบบเจาะจงแต่ละมุมมองที่เกี่ยวข้องกับสถานการณ์โรคติดเชื้อไวรัสโคโรนา 2019 ได้ |
คำอธิบายโครงการวิจัย (อย่างย่อ) : | งานวิจัยด้านภาษาศาสตร์คอมพิวเตอร์ (Computational Linguistics) |
จำนวนเข้าชมโครงการ : | 54 ครั้ง |