ว่าด้วยเรื่องของ "ข้อมูล" ตอนที่ 1

ในยุคที่กระแสของระบบ Internet of Things (IoT) กำลังกล่าวถึงและนำมาใช้งานกันมากขึ้นเรื่อย ๆ จนมีการนำไปสร้างเป็นธุรกิจกันแล้ว ก็ได้มีการเขียนบทความทางด้านเทคนิคมากมาย ทั้งด้านฮาร์ดแวร์และซอฟต์แวร์ แต่ที่เห็นว่าจะยังไม่ค่อยกล่าวถึงกันก็คือเรื่องของ "ข้อมูล" ทั้งที่ระบบ IoT เกือบทุกระบบต้องทำงานกับข้อมูล ก็เลยเป็นแรงจูงใจให้เขียนเรื่องเกี่ยวกับ "ข้อมูล" ขึ้นมา

เริ่มต้นด้วยการแบ่งกลุ่มข้อมูลก่อน ตอนนี้เราแบ่งข้อมูลแบบกว้างๆ เป็นสองกลุ่มคือ

  1. ข้อมูลเชิงคุณภาพ (Qualitative Data)
  2. ข้อมูลเชิงปริมาณ (Quantitative Data)
ข้อมูลเชิงคุณภาพเป็นข้อมูลที่วัดหรือจัดเก็บด้วยระบบตัวเลขโดยตรงไม่ได้   เป็นข้อมูลที่ใช้บอกคุณลักษณะหรือความรู้สึก หรือทำให้เข้าใจ เช่น กลิ่น สี ผิวสัมผัส รส สวย หล่อ ร้อน เย็น ชื่อสถานที่ท่องเที่ยว  ชื่อเมือง ฯลฯ

ข้อมูลเชิงปริมาณตรงกันข้ามคือเราสามารถวัดและจัดเก็บด้วยระบบตัวเลขได้โดยตรง เช่น ความสูง อุณหภูมิ ความชื้น ความเข้มแสง  ราคาหลักทรัพย์ ระดับน้ำฝน ฯลฯ

กลุ่มย่อยของข้อมูลเชิงปริมาณ

ข้อมูลกลุ่มนี้แบ่งออกเป็นกลุ่มย่อยได้อีกสองกลุ่มคือ 
  1. Discrete
  2. Continuous
บางตำราจะบอกว่า Discrete Data คือข้อมูลที่นับได้ ส่วน Continuous จะนับไม่ได้ ส่วนตัวอ่านแล้วออกจะสับสนกับความหมาย เพราะในเมื่อเป็นข้อมูลเชิงตัวเลขแล้วทำไมถึงมีแบบนับได้กับนับไม่ได้ ก็เลยคิดว่าเพื่อจะให้เข้าใจง่ายขึ้นก็เอาเรื่อง "นับ" ออกไปก่อน มาพิจารณาลักษณะของข้อมูลดีกว่า สมมุติเหตุการณ์ว่าเรากำลังจัดเก็บข้อมูลการเจริญเติบโตของเด็กนักเรียน เราก็จะเก็บข้อมูล
  1. อายุ
  2. น้ำหนัก
  3. ความสูง
  4. จำนวนนักเรียน

อายุ ถ้าเราเอาแบบหยาบหน่อยคือหน่วยเป็น "ปี" ตัวเลขก็อาจจะเป็น 10 ปี, 11 ปี, 12 ปี, 13ปี ,... แบบนี้เราจัดให้อยู่เป็น Discrete ครับ แต่หากเราต้องการแบบละเอียดยิบ (สมมุตินะ) เป็นวินาทีเลย ข้อมูลของเด็กหนึ่งคนก็อาจจะอยู่ในรูปแบบ 11 ปี 2 เดือน 14 วัน 5 ชั่วโมง 6 นาที 34 วินาที ซึ่งจะเห็นได้ว่าข้อมูลมันสามารถถูกแบ่งเป็นหน่วยย่อย ๆ ให้ละเอียดลงไปได้อีก นำมาซึ่งความแม่นยำมากขึ้น แบบนี้เราจะจัดให้อยู่ในกลุ่ม Continuous  

นำ้หนัก และความสูง ก็ทำนองเดียวกับอายุ  ถ้าวัดหน่วยเป็น "กิโลกรัม" หรือหน่วยเป็น "เมตร" ก็จัดเป็น  Discrete ถ้าละเอียดยิบอย่างเป็น มิลลิกรัมเลย ก็จัดเป็น Continuous ไป


จำนวนนักเรียน นั้นก็แน่นอนว่าเป็น Discrete เพราะเรานับได้แน่นอนเป็นคน ๆ ไม่มีละเอียดกว่านี้แล้ว

ดังนั้นการที่เราจะมองว่าข้อมูลจะเป็น Discrete หรือ Continuous ส่วนตัวมองว่าการพิจารณาจากความละเอียดหรือหยาบของหน่วยวัดน่าจะเป็นตัวตัดสินใจที่เข้าใจง่าย

ในการใช้งานก็ไม่จำเป็นต้องแยกกันใช้นะครับ ใช้ผสมกันได้ตามความเหมาะสม เช่น เราอาจสนใจเรื่อง "ความสัมพันธ์ระหว่างความสูงกับเพศ" หรือ "ความสูงกับอายุและเพศ" ซึ่งก็เป็นการผสมผสานกันระหว่างรูปแบบข้อมูล

กลุ่มย่อยของข้อมูลเชิงคุณภาพ

เนื่องจากข้อมูลเชิงคุณภาพไม่ได้อยู่ในรูปแบบที่เราจะจัดเก็บเป็นตัวเลขได้โดยตรง หรืออาจต้องใช้การเขียนบรรยายแทน (ลองนึกภาพว่าเราจะบรรยายความงามของทิวทัศน์ที่เราเห็นได้อย่างไร) เขาก็เลยหาวิธีการที่จะแบ่งกลุ่มข้อมูลเชิงคุณภาพขึ้นมาแล้วก็ทำให้สามารถจัดเก็บได้ง่ายขึ้น มีตำราหลายเล่มที่กล่าวถึงเรื่องนี้ พอสรุปได้ว่ามีการแบ่งกลุ่มตามลักษณะข้อมูลดังนี้
  1. nominal  scale
  2. ordinal scale
  3. interval scale
  4. ration scale
คำว่า "nominal" มีมากกว่า 1 ความหมาย ความหมายแรกคือ "น้อย"  อีกความหมายคือ "ชื่อ"  ดังนั้นค่าที่เป็นไปได้ของข้อมูลแบบนี้มีน้อย หรือ มีการแบ่งเป็นกลุ่มชัดเจน เช่น เพศ  ดี เลว จริง เท็จ สีผม สีตา สีผิว ฯล จะเห็นว่าข้อมูลบางอย่างมีค่าที่ยอมรับได้เพียงสองค่าเท่านั้น บางตำราเลยแยกพวกนี้ออกมาเป็นอีกกลุ่มเรียกว่า "binary"  สังเกตุอย่างข้อมูลแบบนี้จะเรียงลำดับไม่ได้หรือเรียงไปก็ไม่มีความหมายอะไร

อีกกลุ่มเรียกว่า ordinal มีลักษณะที่เราสามารถเรียงลำดับได้ เช่น ความชอบ (เหมือนกับ emoticon ใน Facebook) เราสามารถสร้างลำดับได้เช่น ไม่ชอบ  ชอบ ชอบมาก ชอบมากที่สุด ข้อสังเกตุคือ ความแตกต่างระหว่างข้อมูลมักจะคลุมเคลือแต่ก็พอตีความได้ เช่น ความต่างระหว่าง "ชอบ" กับ "ชอบมาก" นั้นเข้าใจได้ แต่จะให้ระบุออกมาเป็นตัวเลขเลยนั้นไม่ได้ เป็นต้น

กลุ่ม interval scale   พอสรุปข้อสังเกตุได้ดังนี้

  • ความต่างระหว่างข้อมูลชัดเจน
  • ความต่างระหว่างข้อมูลมีความคงที่
  • ลำดับมีความหมาย
ตัวอย่างที่มักยกขึ้นมาเพื่ออธิบายคือ ค่าอุณหภูมิ  ความต่างระหว่างอุญหภูมิที่ 10 องศากับ 20 องศามีค่า 10 หน่วย ในขณะที่ความต่างระหว่างอุญหภูมิที่ 60 องศากับ 70 ก็มีค่า 10 หน่วยเช่นกัน แบบนี้คือมีความต่างระหว่างข้อมูลคงที่และชัดเจน และเราเข้าใจได้ว่าที่อุณภูมิ 10 องศาจะเย็นกว่าที่อุณหภูมิ 50 องศา อีกตัวอย่างคือ "เวลา" ระยะห่างระหว่างหน่วยเวลามีค่าคงที่ เช่น แต่ละชั่วโมงห่างกัน 60 นาที แต่ละนาทีห่างกัน 60 วินาที และเราก็เข้าใจได้ว่า ที่เวลา 10 นาฬิกามีลักษณะต่างจากที่เวลา 20 นาฬิกาอย่างไร ขอเติมตัวอย่างอีกสักตัวอย่างหนึ่งคือ การวัดค่า pH ครับ ลักษณะที่มักย้ำกันคือ interval scale ไม่มีค่าเป็น "0" จริง ๆ หรือ "0"  ไม่ได้หมายถึง "ไม่มี" เช่น ที่อุญหภูมิ 0 องศา ไม่ได้หมายถึงไม่มีความร้อนอยู่เลย และที่ 0 นาฬิกาไม่ได้หมายถึงไม่มีเวลาอยู่

กลุ่ม ratio scale นี้ก็มีการอธิบายไว้หลายแบบเช่นกัน พอสรุปได้ว่า ratio scale ต่างกันตรงที่ ration scale สามารถกำหนดค่าที่เป็น 0 ได้จริง เช่น ถ้าข้อมูลระยะเวลาการใช้บริการ ถ้าระยะเวลาการใช้บริการเป็นศูนย์คือไม่มีการใช้บริการ เป็นต้น 

สรุป

จากที่กล่าวมาก็พอสรุปออกมาเป็นแผนภาพได้ตามภาพครับ




การเรียนรู้เรื่องของข้อมูลแบบนี้อาจไม่ได้นำไปใช้ในชีวิตประจำวันของหลายคน แต่สำหรับท่านที่ทำงานด้านข้อมูล การวิจัยหรือ ออกแบบระบบ IoT เรื่องนี้จะมีความหมายครับ การเข้าใจวิธีคิดจะช่วยให้เราสามารถออกแบบระบบได้มีประสิทธิภาพมากขึ้น


อ้างอิง



Previous
Next Post »