


1. ตลาดข้อมูล ไม่แตกต่างจาก คลังข้อมูล เพราะ Data Mart คือ data warehouse ขนาดเล็กนั่นเอง ข้อมูลใน Data Mart เป็น subset ของ data warehouse ซึ่งมีลักษณะดังนี้
- มีลักษณะเฉพาะของแต่ละเรื่อง/หัวข้อ หรือ ความเคลื่อนไหวทางธุรกิจ
- สามารถใช้เป็นยุทธวิธีเพื่อแก้ปัญหาทางธุรกิจในทันทีทันใด
เราสามารถสร้าง Data Marts ก่อนหรือหลังจากการสร้าง Data Warehouse ก็ได้
ทำไมจึงมีการสร้าง Data Marts ขึ้นมาเราสามารถสร้าง Data Warehouse โดยปราศจาก Data Mart ได้
เช่นเดียวกันกับการสร้าง data Mart โดยปราศจาก Data Warehouse ได้ อย่างไรก็ตามการสร้าง Data Mart ก่อให้เกิดผลดังนี้
- มีความเร็วในการ query สูงเพราะว่ามีข้อมูลน้อย
- มีการแย่งข้อมูลระหว่างผู้ใช้ระบบด้วยกันน้อย
- สามารถปรับปรุงได้อย่างรวดเร็วทำไมจึงมีการสร้าง Data Marts ขึ้นมา เราสามารถสร้าง Data Warehouse โดยปราศจาก Data Mart ได้เช่นเดียวกันกับการสร้าง data Mart โดยปราศจาก Data Warehouse ได้
อย่างไรก็ตามการสร้าง Data Mart ก่อให้เกิดผลดังนี้
- มีความเร็วในการ query สูงเพราะว่ามีข้อมูลน้อย- มีการแย่งข้อมูลระหว่างผู้ใช้ระบบด้วยกันน้อย
- สามารถปรับปรุงได้อย่างรวดเร็ว
- สามารถปรับปรุงได้อย่างรวดเร็ว
ที่มา การจัดการข้อมูลและสารสนเทศองค์กร-คลังข้อมุล http://pil2ate.site50.net/
2. รูปแบบการวิเคราะห์ข้อมูลในคลังข้อมูล
การวิเคราะห์ข้อมูลในคลังข้อมูล
มีสองประเภทใหญ่ ๆ คือ
Online Analytical Processing
Online Analytical Processing (OLAP) คือการใช้คำค้น (query) เพื่อค้นหาข้อมูลในคลังข้อมูลเหมือนในฐานข้อมูล เหตุผลที่เราไม่ค้นในฐานข้อมูล แต่มาทำในคลังข้อมูลแทนมีสองสาเหตุคือ
ความเร็ว
ความครอบคลุมของข้อมูลทั้งบริษัทที่มีอยู่ในคลังข้อมูล
ลักษณะการจัดเก็บข้อมูลที่ OLAP สามารถเรียกใช้
รูปแบบการจัดเก็บข้อมูลที่ทรงประสิทธิภาพมีอยู่ 3 ชนิดที่ (OLAP) สามารถเข้าถึงข้อมูลได้
1. ฐานข้อมูลเชิงสัมพันธ์ (Relational DataBase) โดยทั่วไปแล้วระบบงานประจำมีการจัดเก็บข้อมูลแบบ RDBMS และ data warehouse ก็มีการจัดเก็บข้อมูลแบบ RDBMS ซึ่งอาจจะมีโครงสร้างข้อมูล แบบ star schema และอาจจะเป็นได้ทั้ง normalized & denormalized
2. ฐานข้อมูลหลายมิติ ( multidimentional database) ข้อมูลที่จัดเก็บในฐานข้อมูลหลายมิติอาจมาจากฐานข้อมูลเชิงสัมพันธ์ หรือระบบงานปัจจุบันโดยจะแปลง การจัดเก็บข้อมูลเสียใหม่ โดยมีโครงสร้างการจัดเก็บแบบ array โดยทั่วไปแล้วฐานข้อมูลหลายมิติจะยอมให้สิทธิการเขียนข้อมูลลงในฐานข้อมูล ในช่วงเวลาหนึ่งเพียงคนเดียว แต่อนุญาตให้หลาย ๆ คน เข้าค้นหาข้อมูลในเวลาเดียวกัน หรือมิฉะนั้นก็อนุญาตให้ค้นหาข้อมูลเพียงอย่างเดียว
3. เก็บข้อมูลไว้ที่ client ลักษณะของfile (client-base files) ในกรณียอมให้client ดึงข้อมูลจำนวนไม่มากนักมาเก็บไว้ซึ่งเหมาะกับการประมวลผลแบบกระจาย หรือการสร้างคำสั่งให้ข้อมูลปรากฏบน web
OLAP ที่เกี่ยวข้องกับสาขาอื่นๆ
OLAP นับเป็นเทคโนโลยีที่มีความสำคัญต่อสาขาธุรกิจในปัจจุบันเป็นอย่างมาก เนื่องจากความซับซ้อนที่มากขึ้น และเวลาที่น้อยลงสำหรับการตัดสินใจทางธุรกิจ OLAP จึงเป็นคำตอบที่เหมาะสมมากที่สุดในปัจจุบัน เพราะจุดเด่นที่สำคัญของ OLAP ประกอบด้วย การตอบสนองต่อการคิวรีของผู้ใช้ที่กินเวลาไม่มาก การทำงานที่ไม่ขึ้นกับขนาดและความซับซ้อนของฐานข้อมูล แอปพลิเคชัน OLAP ช่วยงานการวิเคราะห์ข้อมูล ไม่ว่าจะเป็นการเปรียบเทียบ การนำเสนอในมุมมองเฉพาะ รวมถึงการวิเคราะห์ข้อมูลย้อนหลังและคาดการณ์ข้อมูลในอนาคตตามโมเดลการตอบคำถามแบบ "What-If"
การทำเหมืองข้อมูล
การทำเหมืองข้อมูล (Data Mining) คือ การหารูปแบบ (pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก เช่น การค้นหากฎความสัมพันธ์ (association rules) ของสินค้าในห้างสรรพสินค้า เราอาจพบว่าลูกค้าร้อยละ 90 ที่ซื้อเบียร์ จะซื้อผ้าอ้อมเด็กด้วย, ซึ่งเป็นข้อมูลให้ทางห้างคิดรายการส่งเสริมการขายใหม่ๆ ได้; หรือ ธนาคารอาจพบว่า คนทั่วไปที่มีอายุ 20-29 ปี และมีรายได้ในช่วง 20,000-30,000 บาท มักซื้อเครื่องเล่นเอ็มพีสาม, ธนาคารอาจเสนอให้คนกลุ่มนี้ทำบัตรเครดิต โดยแถมเครื่องเล่นดังกล่าว เป็นต้น..........................
ลักษณะเด่นของคลังข้อมูล
ให้ผลตอบแทนจากการลงทุนที่สูง ถึงแม้ว่าจะมีการลงทุนที่ต่ำก็ตาม
เนื่องจากมีการให้ให้ผลตอบแทนจากการลงทุนที่สูง จึงสามารถทำให้องค์กรเกิดความได้เปรียบคู่แข่งขันในแง่ของการได้รับข้อมูลและสารสนเทศก่อนคู่แข่งขันเสมอ จึงทำให้สามารถวิเคราะห์ข้อมูลเหล่านั้นเพื่อทำการกำหนดเป็นกลยุทธ์ และกำหนดทิศทางในการดำเนินงานได้ก่อนคู่แข่งขัน เช่น พฤติกรรมของผู้บริโภค ความต้องการทางตลาด และแนวโน้มความต้องการของผู้บริโภค
เพิ่มประสิทธิภาพในการตัดสินใจของผู้ตัดสินใจ เนื่องจากคลังข้อมูลได้รับการให้ข้อมูลที่รับมาจากแหล่งข้อมูลที่แตกต่างกัน มีความสอดคล้องกัน และวิเคราะห์ตามประเด็นที่ผู้ตัดสินใจต้องการ อีกทั้งข้อมูลที่มีอยู่ในคลังข้อมูลก็มีปริมาณมากทั้งข้อมูลในอดีตและปัจจุบัน จึงทำให้การตัดสินใจมีประสิทธิภาพมากขึ้นอีกด้วย ทำให้สะดวกและรวดเร็วในการค้นหาข้อมูลต่างๆ และลดความซ้ำซ้อนกันของข้อมูลอีกด้วย
ให้ผลตอบแทนจากการลงทุนที่สูง ถึงแม้ว่าจะมีการลงทุนที่ต่ำก็ตาม
เนื่องจากมีการให้ให้ผลตอบแทนจากการลงทุนที่สูง จึงสามารถทำให้องค์กรเกิดความได้เปรียบคู่แข่งขันในแง่ของการได้รับข้อมูลและสารสนเทศก่อนคู่แข่งขันเสมอ จึงทำให้สามารถวิเคราะห์ข้อมูลเหล่านั้นเพื่อทำการกำหนดเป็นกลยุทธ์ และกำหนดทิศทางในการดำเนินงานได้ก่อนคู่แข่งขัน เช่น พฤติกรรมของผู้บริโภค ความต้องการทางตลาด และแนวโน้มความต้องการของผู้บริโภค
เพิ่มประสิทธิภาพในการตัดสินใจของผู้ตัดสินใจ เนื่องจากคลังข้อมูลได้รับการให้ข้อมูลที่รับมาจากแหล่งข้อมูลที่แตกต่างกัน มีความสอดคล้องกัน และวิเคราะห์ตามประเด็นที่ผู้ตัดสินใจต้องการ อีกทั้งข้อมูลที่มีอยู่ในคลังข้อมูลก็มีปริมาณมากทั้งข้อมูลในอดีตและปัจจุบัน จึงทำให้การตัดสินใจมีประสิทธิภาพมากขึ้นอีกด้วย ทำให้สะดวกและรวดเร็วในการค้นหาข้อมูลต่างๆ และลดความซ้ำซ้อนกันของข้อมูลอีกด้วย
3. Database และ Data werehouse แตกต่างกันอย่างไร
Database นั้นในปัจจุบันไม่ว่าจะค่ายไหนไม่ว่าจะเป็น open source (ฟรี) หรือ commercial (ธุรกิจ) ต่างก๋จะใช้โครงสร้างข้อมูลที่เป็นแบบ Relational คือลักษณะเป็นแบบตารางที่ประกอบไปด้วย fieldโดย field หมายถึงข้อมูลดิบหนึ่งชุดโดยธรรมชาติจะไม่ได้อยู่เดี่ยวๆแต่จะนำมันรวมกันเป็นกลุ่มข้อมูลซึ่งข้อมูลที่เรียงกันเราจะเรียกว่า 1 recordโดยแต่ละหนึ่ง record นั้นจะถูกนำมารวมกันไว้ในที่เดียวเรียกว่า Table ..........ซึ่งจะเห็นว่าข้อมูลนั้นจะถูกเก็บอยู่ในลักษณะ 2 มิติซึ่งการเก็บลักษณะนี้เหมาะสำหรับการเก็บข้อมูลที่ไม่เยอะมากเพราะว่าเมื่อมีข้อมูลเยอะมากๆแล้วการทำการค้นหาข้อมูลก็จะยิ่งยากขึ้นแต่ว่าใน ฐานข้อมูล ที่มีชื่อเสียงนั้นก็จะมีวิธีการที่ทำให้การเข้าถึงข้อมูลเร็วขึ้นคือการแบ่ง table (partition table) คือจะแบ่งข้อมูลออกมาเป็นชิ้นเพื่อให้เวลาค้นหานั้นทำได้ง่ายขึ้นโดย เช่น เราอาจจะตั้งให้ table ของเรานั้นแบ่งข้อมูลตามเดือนโดยพอครบหนึ่งเดือนแล้วเราอาจจะสั่งให้เก็บลงในตารางเสมือนที่สร้างขึ้นมาเพื่อเก็บข้อมูลในเดือนใหม่เข้าเพื่อที่จะแบ่งแยกข้อมูลเพื่อให้เวลาค้นหาข้อมูลได้เร็วขึ้น ซึ่งที่บอกว่ามันเป็นตารางเสมือนนั้นเพราะว่าผู้ใช้ไม่จะมองเห็น table ที่ทำการแบ่ง partition นั้นเป็นเหมือนแค่ 1 table โดยหน้าที่ในการแบ่งจะให้ database เป็นผู้ทำเองแต่ว่าการแบ่ง table นั้นนอกจากจะแบ่งตามระยะเวลาอาจจะแบ่งตามประเภทได้ด้วย เช่น ประเภทของลูกค้า, ประเภทของผู้ให้บริการ เป็นต้นในตัวอย่างนี้เรายก table Order มาดูกันโดย Order(การสั่งซื้อ) โดยในเดือนเดือนนึงนั้นสมมติว่ามีการสั่งซื้อเข้ามาเยอะดังนั้นประสิทธิภาพของ table จะแปรผันกับข้อมูลที่อยู่ใน table ยิ่งข้อมูลใน table ยิ่งเยอะจะทำให้ประสิทธิภาพลดลงเพราะว่าเวลาในการค้นหาข้อมูลหรือการจัดการข้อมูลก็จะนานขึ้น แต่ว่าถ้าเรามีการจัดการ table โดยการทำ partition table นั้นจะทำให้เราสามารถเข้าถึงข้อมูลในวงที่แคบลงในกรณีที่เราค้นหาข้อมูลหรือจัดการข้อมูลโดยการค้นหาโดยใช้วันที่ แต่เนื่องจากว่าถ้าหากเราต้องการนำข้อมูลใน table Order นี้ไปสรุปรายเดือนซึ่งอาจจะต้องแยกกันไปตามทวีปที่มีการสั่งซื้อดังนั้นเราอาจจะแบ่งย่อยอีกได้ตามทวีปเพื่อเพิ่มประสิทธิภาพมากขึ้นการแบ่ง partition table นั้นไม่ได้มีเพียงเท่านี้ใน database ของ oracle สามารถแบ่ง partition ไปยังในหน่วยความจำได้เช่น table space หรือแม้กระทั่ง datafile เพื่อช่วยเพิ่มประสิทธิภาพมากยิ่งขึ้นและใน oracle 11g นั้นการ query จะทำได้เร็วยิ่งขึ้นเพราะว่าทุกครั้งที่มีการ query จะมีการเก็บผลลัพธ์ในการ query ในครั้งนั้นๆไว้ใน RAM ซึ่งถ้าหากมีการ query ข้อมูลเดิมอีกก็ไม่จำเป็นต้องดึงจาก harddisk แล้วดึงมาได้เลย แต่ว่า RAM ก็หดหายไปเรื่อยๆดังนั้นจึงต้องมีการ set ไว้ด้วยว่าให้ใช้ได้เท่าไร (ปกติก็กิน RAM อยู่แล้วแบบนี้ยิ่งแล้วใหญ่ดิ )แต่ถ้าถามว่าเพียงพอแล้วหรือยังคำตอบคือยังเพราะว่าถ้ามีข้อมูลมากกว่านี้หละก็ต่อให้ทำการแบ่งตารางแล้วอาจจะยังไม่พอทำ จึงต้องมีการนำข้อมูลที่ไม่ใช้นั้นเป็นเข้าไปอยู่ที่มีความสามารถในการจุมากกว่า database นั้นคือ data warehose ซึ่งการจะให้คำนิยามของ data warehouse นั้นสั้นๆง่ายๆ คือ เป็นที่รวมข้อมูลทุกๆอย่างไม่ว่าแหล่งข้อมูลนั้นจะมาจากแหล่งไหนๆ โดยคำว่า "ไม่ว่าแหล่งข้อมูลนั้นจะมาจากแหล่งไหนๆ" นั้นหมายถึงแหล่งข้อมูลที่มาจากที่ต่างๆไม่ว่าจะเป็น database (database ในที่นี้ไม่จำกัดทุกยี่ห้อสามารถนำลง data warehouse เดียวกันได้หมดโดยผ่านมาตรฐานกลางคือ SQL) หรือแม้กระทั่งมาจาก text, xml หรือ excel ดังนั้นเมื่อถึงระยะเวลาหนึ่ง database ก็จะถ่ายโอนข้อมูลเก่าๆนั้นเก็บลงใน Data warehouse เพื่อไม่ให้ database นั้นมีความเทอะทะเกินไปอาจส่งผลต่อความเร็วในการจัดการหรือค้นหาข้อมูลและถ้าถามว่า data warehouse มีประโยชน์แค่นี้หรอคำตอบคือไม่เพราะว่าข้อมูลเหล่านั้นที่ถูกเก็บไว้ไม่ได้ถูกเก็บไว้เฉยๆแต่จะถูกนำมาใช้ในการวางแผนธุรกิจซึ่งในการวางแผนนั้นจำเป็นที่ต้องใช้ข้อมูลเก่าๆที่เก็บไว้ย้อนหลังเป็น 4 หรือ 5 ปีเป็นอย่างน้อยในการวางแผนซึ่งเราเรียกระบบนี้ว่า BI (Business Inteligence)และจะมีคำถามตามมาว่าข้อมูลที่เก็บไว้หลายๆปีนั้นมันต้องเยอะมาเวลาค้นหาหรือจัดการซักทีนั้นจะไม่ช้าหรอคำตอบคือไม่ช้าครับ เพราะว่า data warehouse นั้นมี algorithm ที่ไม่เหมือน database โดย database นั้นจะมีโครงสร้างข้อมูลที่เป็นแบบ relational ซึ่งเป็นการเก็บข้อมูล 2 มิติ dimension คือถ้าจะเปรียบง่ายๆ relational นั้นเป็น สี่เหลี่ยมธรรมดา ที่มีมุมมองอยู่ที่ 2 มิติ กว้างกับยาวแต่ data warehouse นั้นจะมีลักษณะโครงสร้างที่เรียกว่า multi-dimensional คือจะมีมิติเพิ่มขึ้นมาอีกหนึ่งมิติซึ่งเปรียบเหมือน สี่เหลี่ยมลูกบาศก์ (cubic) ที่เราชอบบิดไปบิดมานั้นแหละ โดยจะเห็นว่ามิติที่เพิ่มขึ้นมานั้นก็คือความลึกนั้นเองซึ่งเวลาค้นหาข้อมูลที่มีอยู่เยอะๆนั้น เพื่อเพิ่มความเร็วข้อมูลนั้น โครงสร้างข้อมูลที่เรามองเสมือนเป็น cubic ก็จะถูกบิดไปบิดมาเพื่อที่จะทำให้ข้อมูลที่ต้องการค้นหาหรือจัดการนั้นค้นหาได้เร็วขึ้น และนี่คือความลับว่าทำไมข้อมูลที่กองอยู่ใน data warehouse จนฝุ่นจับนั้นสามารถ จัดการหรือค้นหาได้รวดเร็วทันใจซึ่งลักษณะโครงสร้างที่เรียกว่า multi-dimensional ใน oracle เค้าจะเรียกว่า OLAPซึ่ง data warehouse ของ oracle ที่ใหญ่ที่สุดในโลกนี้เก็บข้อมูลที่ใหญ่ถึง 300 TB โดย vendor ที่เก็บข้อมูลได้เยอะขนาดนี้คือ amazon นั้นเองและนอกจากตารางจะสามารถทำการแบ่งตารางได้แล้ว data warehouse ยังสามารถทำ partition OLAP ได้ด้วยเพื่อเพิ่มความเร็วในการค้นหานอกจากการเพิ่มประสิทธิภาพ database โดยใช้วิธี partition แล้วยังมีอีกวิธีคือ RAC (Real Application Cluster) เนื่องจากว่า oracle นั้นเป็นตัวที่กินทรัพยากรมากดังนั้นจึงมีข้อเสนอว่าจะจะเอาหลายๆเครื่องมารวมกันเพื่อเพิ่มประสิทธิให้กับ ระบบ เพื่อรองรับ กับการกินทรัพยากรของ oracle หรือว่าต้องการให้ระบบเราเร็วขึ้นแต่บังเอิญว่าเครื่อง server นั้นเก่าไปเพิ่ม RAM ก็ไม่ได้ harddisk ไม่ได้ดังนั้นแทนที่จะซื้อเครื่องใหม่แล้วโยก DB ตัวดิมไปเครื่งใหม่ซึ่งถือว่ายุ่งยากมากก็ให้นำเครื่องใหม่มาเพิ่มแล้วทำ cluster ทำให้มองเห็นว่าเครื่อง database มีเครื่องเดียวและ share ทรัพยากรกันทำให้ได้ประสิทธิภาพมาขึ้นสรุป database นั้นเป็นแหล่งเก็บข้อมูลสำหรับการทำ transaction ส่วน data warehouse เป็นที่เก็บข้อมูลที่ไม่มการเรียกใช้บ่อยแต่จะเรียกใช้ในกรณีที่มีความต้องการนำข้อมูลย้อนหลังมาวางแผนหรือทำราบงานสรุป
ที่มา citec.us/forum/Database-Data-warehouse
ไม่มีความคิดเห็น:
แสดงความคิดเห็น