สรุปสิ่งสำคัญๆของการติดตั้ง Cloudera Big Data Platform แบบ Enterprise

Posted on Leave a commentPosted in BigData

        ด้วยความที่ครึ่งปีหลังนี้เรามีภาระกิจต้องไปช่วยบริษัท ZyGen ที่เป็นผู้ให้บริการอิมพลีเมนท์ SAP Solution และ BI บน SAP และ Power BI รวมถึงการสนับสนุนผู้เชี่ยวชาญด้าน SAP ไปช่วยงานลูกค้าองค์ที่สำนักงานลูกค้า         สำหรับภาระกิจนี้คือการสร้าง Data Science Team ทั้งส่วนของงาน Big Data Engineer  และ Data Scientist และ รวมถึงทำภาพงานฝั่ง Business ที่จะกลั่นเป็นบริการใหม่ในด้าน Big Data พร้อมกับการไปช่วยทีม Sale ในการเข้าเสนอโซลูชั่นของงานให้กับลูกค้า .       ดังนั้นกลิ่นของงานฝั่ง Build Team ก็จะเป็นเรื่องการเป็น ผู้สอนและพี่เลี้ยง สำหรับการสอนทีม ทั้งทีม Big Data […]

การติดตั้ง Hadoop แบบ Multi-Node ( Hadoop Cluster Installation )

Posted on Posted in BigData

          หลังจากที่เราได้โอกาสไปเป็นวิทยากรอบรม Big Data with Hadoop ที่เป็นโครงการพัฒนาบุคลากรด้านผู้พัฒนา ผู้ผลิต สนับสนุนโครงการโดย สำนักงานส่งเสริมเศรษฐกิจดิจิทัล (DEPA) แล้วติดค้างการติดตั้ง Hadoop Cluster ไว้เพราะว่าเวลาในชั้นอบรมไม่พอเนื่องจากต้องเรียนกันให้ครอบคลุมถึง Software ตัวอื่นใน Ecosystem  เราก็เลยต้องมาตามชดใช้กันใน Blog นี้กันนะ          เอาล่ะเราเริ่มด้วยความต่อเนื่องจาก Blog ก่อนหน้าที่เราผ่านการติดตั้ง Hadoop แบบ Pesudo Distributed กันมาแล้วในบทความ การติดตั้ง Hadoop แบบ Step-by-Step สำหรับก้าวแรกของ Big Data Engineering แต่ละคนที่ลองเล่นตาม รวมถึงในชั้นอบรม Big Data with Hadoop ก็น่าจะคล่องกันแล้วในการใช้งาน  ดังนั้นใน Blog เราจะมาสรุปขั้นตอนที่สำคัญในการทำให้ Hadoop […]

เรามาใช้ Oracle SQL Develper เรียกข้อมูลจาก Apache Hive ในกระบวนทำ Data Processing กัน

Posted on Leave a commentPosted in BigData

                        การใช้งาน Big Data / Hadoop Technology ด้วย Apache Hive ในการวิเคราะห์ข้อมูล   การเรียกข้อมูล ( Query ) ด้วยคำสั่ง Query เพื่อตรวจสอบข้อมูลบางอย่าง หรือ ทดสอบคำสั่ง Query เพื่อดูผลลัพธ์ว่าถูกต้องตามลอจิกที่กำหนดไว้หรือไม่ก่อนที่จะนำไปอิมพลีเมนท์จริงๆในกระบวนอัตโนมัติของ Data Integration Tool เป็นสิ่งที่จำเป็น           ความต้องการปฏิบัติงานลักษณะนี้โดยปกติสำหรับการใช้งาน Hadoop Ecosystem แบบ Open Source หรือ Distribution ต่างๆ เราอาจจะใช้งานผ่าน CLI ของ Apache Beeline  สำหรับคนที่ใช้ Open Source Hadoop Ecosystem มาติดตั้งซึ่งยังไม่มีเครื่องมือชั้นดีให้มาใช้งาน หรือ การใช้งานเครื่องมือชั้นดีเช่น HUE ( Hadoop User Experience )    […]

ทำความเข้าใจ Apache Hive Table สำหรับการทำ Big Data Analytic กันสักหน่อย

Posted on Leave a commentPosted in BigData

“ทำความเข้าใจ Apache Hive Table สำหรับการทำ Big Data Analytic กันสักหน่อย”       เราผ่านการทดลองเล่นข้อมูลกับ Hive กันมาบ้างแล้วทั้งจากบทความก่อนหน้านี้ หรือ บางคนอาจจะเคยลองเล่นตามบทความของต่างประเทศ  สำหรับการสร้าง Hive DB การโหลดข้อมูลเข้า Hive Table หรือ การทดลองเรียกข้อมูลด้วย HQL  เรามาบันทึกคุณสมบัติของ Hive Table เพื่อสรุปความเข้าใจใน Hive Table สำหรับการใช้งานด้าน Big Data Analytic กันสักหน่อย   การสร้าง Table ของ Hive คืออะไร ? การสร้าง Table ของ Hive DB นั้นทำได้เช่นเดียวกันกับ Table ของ RDBMS และจำเป็นต้องกำหนด Scheme ของ Table ซึ่งบอกรายละเอียดของ […]

นักวิทยาศาสตร์ข้อมูลจะจัดกระบวนท่าเพื่อเริ่มต้นเล่น Big Data Processing ด้วย Apache Hive กันอย่างไรดี

Posted on Leave a commentPosted in BigData

“นักวิทยาศาสตร์ข้อมูลจะจัดกระบวนท่าเพื่อเริ่มต้นเล่น Big Data Processing ด้วย Apache Hive กันอย่างไรดี”             เราเริ่มได้ยินกันบ่อยขึ้นเรื่องของการนำ Apache Hive ไปใช้งานงานกับการจัดการข้อมูลขนาดใหญ่ทั้งทางด้านของเครื่องมือวิเคราะห์ข้อมูล ( Data Analytic ) ที่เล่นกับข้อมูลได้ด้วยภาษาที่ใช้เรียกข้อมูลที่คล้ายภาษา SQL               หลังจากที่เราเข้าไปศึกษา Hive กันลึกๆแล้วก็พบว่าปัจจุบัน ( 5 พ.ย. 2559 ) Hive มีการพัฒนาการไปเยอะมากกว่าการเป็นตัวกลางในการใช้งาน HDFS สำหรับเก็บข้อมูลและเรียกข้อมูลให้เป็นโครงสร้างแบบตารางแบบ RDBMS ที่จัดการกับข้อมูลด้วยรูปแบบภาษา SQL             ปัจจุบัน Hive กำลังก้าวไปถึงการเป็น NoSQL ในอีกรูปแบบหนึ่งที่มีโครงสร้างระบบไฟล์ข้อมูลแบบ Columnar  มีโหมดการจัดการ Transaction Control  มีการทำ Index ข้อมูล และ มีการ Optimize Join Table ให้ได้ประสิทธิภาพการประมวลผลข้อมูลขนาดใหญ่มากๆๆได้เร็วขึ้นอีกด้วย […]

การใช้งานและการติดตั้ง Apache Hive สำหรับ Big Data Processing

Posted on Leave a commentPosted in BigData

           โลกของ Big Data เราจะเจอกับลักษณะของข้อมูลที่นำเข้าระบบเก็บและประมวลผลข้อมูลของ Big Data ที่หลากหลายลักษณะทั้งข้อมูลแบบมีโครงสร้างมาแต่ต้นขณะที่นำเข้าข้อมูลเช่นมาจากข้อมูลระบบปฏิบัติงานของระบบงานต่างๆ( Operation Data ) ซึ่งอยู่ในรูปแบบตารางข้อมูล 2 มิติ หรือ ข้อมูลที่ไม่มีโครงสร้างตายตัวเช่นข้อมูลเนื้อหาจากเว็บไซด์ต่างๆ ไฟล์ข้อมูลในรูปแบบต่างๆ รูปภาพ  เสียง วีดีโอ  หรือ ผสมกันมา             การจัดเก็บข้อมูล Big Data ด้วย Hadoop Technology โดยพื้นฐานตัวข้อมูลจะเป็นแบบไฟล์ข้อมูลภายใต้การจัดการ HDFS และ การเข้าถึงข้อมูลแบบไฟล์จะเป็นแบบ Sequential Access หรือ เข้าถึงตามลำดับบรรทัดของไฟล์ เพื่อประมวลผลข้อมูลเช่นการนับจำนวนคำหรือประโยคที่สนใจเพื่อนำไปสรุปรวมเป็นตัวเลขเชิงสถิติสำหรับระบบการประมวลผลภาษาธรรมชาติ             แต่ในโลกการประมวลผลข้อมูลโดยทั่วไปที่ต้องการพึ่งพาอาศัยประสิทธิภาพของ Hadoop ที่ต้องความเร็วในการประมวลข้อมูลปริมาณมาก ด้วยการย้าย Operation Data เป็นปริมาณมากๆในระดับ 100 ล้านรายการมาเก็บใน Hadoop เพื่อการประมวลผลแบบสรุปข้อมูลเชิงสถิติแล้วส่งคืนกลับไปให้ที่เก็บข้อมูลหลักของ Operation Data ให้ใช้ในเงื่อนไขการตัดสินใจของระบบซอฟต์แวร์หลักที่ประมวลผลทางธุรกิจ หรือ ส่งต่อไปให้ระบบข้อมูลเพื่อการแสดงผลแบบ […]

แบ่งปัน VM Image สำเร็จรูป สำหรับ Big Data Processing ด้วย Apache Hive ครับ

Posted on Leave a commentPosted in BigData

     ตะลุย Big Data กันต่อที่ Data Processing ด้วย Apache Hive  ก็เลยลงมือทำติดตั้งลงบน VirtualBox ที่ติดตั้งไว้ให้แล้วทั้ง Hadoop & Hive พร้อมให้เล่นทันที ก่อนที่จะปล่อยบทความการติดตั้งและใช้งาน Apache Hive  ดาวน์โหลดที่แชร์ไว้ด้านด้านนี้ได้เลยครับ OS:  user:auoychai / password:123456 ขั้นตอนการ Start-Stop Hadoop หรือ การติดตั้ง  ตามรายละเอียด ฟรี!เรียนติดตั้ง Hadoop บน AWS Step-by-Step ด้านล่างนี้เช่นกันจ้าา.. ตัว Hive ที่ติดตั้งไว้แล้วเป็น Hive2 ที่จัดการ Table metadata หรือ Metastore ติดตั้งไว้กับ MySQL ครับ VM Image แชร์ไว้ให้ที่นี่นะครับ : VM Image […]

เริ่มต้น Big Data ด้วย การติดตั้ง Hadoop แบบ Step-by-Step กัน

Posted on Leave a commentPosted in BigData

      บทความกลุ่มการศึกษาเรื่องของ Big Data ด้วยการใช้งาน Hadoop นี้เกิดจากความตั้งใจที่อยากให้ท่านที่กำลังสนใจอยากใช้งาน Hadoop ได้เข้าใจการทำงาน Hadoop เพื่อการติดตั้ง Hadoop เป็นอย่างแท้จริง และ รวมถึงมีแนวทางการแก้ปัญหากรณีที่องค์กรนำ Hadoop Distribution ตัวใดตัวหนึ่งมาใช้งานแล้วเกิดปัญหาในการติดตั้ง       รายละเอียดในบทความนี้ เราจะเริ่มจากการเห็นภาพเชิงระบบนิเวศน์(Ecosystem)ของ Big Data และ Hadoop Enterprise เพื่อสรุปให้เห็นว่าถ้าจะอิมพลีเมนท์ในองค์กรจะต้องจัดองค์ประกอบซอฟต์แวร์ ตามบทบาทหน้าที่อย่างไรบ้าง และ        เราจะได้รู้หลัการทำงานของ Hadoop ว่า Hadoop ทำงานอย่างไรเพื่อจะได้เห็นภาพทั้งการควบคุมการจัดเก็บข้อมูลและภาพหน่วยประมวลผลข้อมูลที่ทำงานร่วมกันกับ Hadoop  และ       สุดท้าย เราจะได้ความเข้าใจในการกระบวนการติดตั้ง Hadoop ด้วยการเรียนรู้การติดตั้ง Hadoop แบบดิบๆโดยใช้ Apache Hadoop เพื่อจะได้เห็นภาพไฟล์ที่ควบคุมการทำงานของ Hadoop ที่เป็น Configuration ไฟล์ว่าแต่ละไฟล์ควบคุมการทำงาน Hadoop อย่างไร สำหรับส่งต่อก้าวถัดไปการนำ Hadoop […]

การติดตั้ง Hadoop แบบ Step-by-Step สำหรับก้าวแรกของ Big Data Engineering

Posted on Leave a commentPosted in BigData

      เราผ่านการทำความเข้าใจกับ Hadoop Architecture มาแล้ว จากบทความ “เรียนรู้ Hadoop และ การติดตั้ง Hadoop แบบ Step-by-Step กัน” จากนี้ไปเราจะเริ่มทำการติดตั้ง Apache Hadoop แบบ Cluster กัน  เพื่อให้ทุกคนมีกำลังใจว่าเราเริ่มทำได้แล้วและเป็นการฝึกแบบง่ายๆไปสู่สิ่งที่ยากขึ้น เราจะทำกัน 2 ขั้นตอนคือ 1). ทำแบบ Single Node ที่ใช้เครื่องเดียว  และ 2). ติดตั้งแบบ Multi Node แบบ 3 เครื่อง   ถ้าหาเราสามารถติดตั้งแบบ Single Node ได้แล้วปรับ Parameter ใน Configuration file อีกนิดหน่อยก็จะสามารถ Run Hadoop Multi Node ได้แล้ว       ดั้งนั้นขั้นตอนการเตรียมการติดตั้งจากนี้จะใช้ได้สำหรับการติดตั้งทั้ง 2 แบบ […]

เปิดบริการเครื่องคอมพิวเตอร์บน AWS เตรียมไว้สำหรับเล่น Hadoop กัน

Posted on Leave a commentPosted in BigData

        ตัวบริการหนึ่งของ AWS ที่เยี่ยมมากๆสำหรับการใช้เป็น Environment สำหรับการฝึก Big Data คือ  EC2 บทความนี้เราจะมาเรียนรู้การบริการ EC2  การสร้าง Virtual Server แบบ Linux OS  สำหรับใช้ติดตั้ง Hadoop และ ทบทวนคำสั่งของ Linux ที่จำเป็นสัก 2-3 คำสั่ง    โดยทั้งหมดจากนี้เราจะหาคำตอบและวิธีการเพื่อให้มี Environment สำหรับการฝึกปฏิบัติ Big Data ในประเด็นต่างๆเหล่านี้กัน EC2 คืออะไร ฟังก์ชั่นสำคัญของ EC2 สำหรับสร้าง Virtual Server (VS) และ การเชื่อมต่อกับ VS ของ AWS ขั้นตอนสร้าง VS ของ EC2 ทำอย่างไร การเชื่อมต่อ Terminal จากเครื่องคอมพิวเตอร์ปฏิบัติงานไปยัง Virtual […]