สรุปสิ่งสำคัญๆของการติดตั้ง Cloudera Big Data Platform แบบ Enterprise

Posted on Leave a commentPosted in Big Data, Hadoop

        ด้วยความที่ครึ่งปีหลังนี้เรามีภาระกิจต้องไปช่วยบริษัท ZyGen ที่เป็นผู้ให้บริการอิมพลีเมนท์ SAP Solution และ BI บน SAP และ Power BI รวมถึงการสนับสนุนผู้เชี่ยวชาญด้าน SAP ไปช่วยงานลูกค้าองค์ที่สำนักงานลูกค้า         สำหรับภาระกิจนี้คือการสร้าง Data Science Team ทั้งส่วนของงาน Big Data Engineer  และ Data Scientist และ รวมถึงทำภาพงานฝั่ง Business ที่จะกลั่นเป็นบริการใหม่ในด้าน Big Data พร้อมกับการไปช่วยทีม Sale ในการเข้าเสนอโซลูชั่นของงานให้กับลูกค้า .       ดังนั้นกลิ่นของงานฝั่ง Build Team ก็จะเป็นเรื่องการเป็น ผู้สอนและพี่เลี้ยง สำหรับการสอนทีม ทั้งทีม Big Data […]

การติดตั้ง Java 8 ใน Ubuntu 14

Posted on Leave a commentPosted in iNoteBlog

การติดตั้ง Java 8 ลงใน Ubuntu 14          ความไม่สมบูรณ์หนึ่งของ repository ของ apt เวลาที่เราใช้งานกับ Ubuntu 14 คือ ไม่มี Java 8 มาให้  ดังนั้นหากเราต้องการใช้งานก็ต้องทำการ update repository เพิ่มเติมให้รู้จักกับ Java 8   ขั้นตอนสั้นๆสำหรับการติดตั้งตามคำสั่งด้านล่างนี้เลยครับ sudo add-apt-repository ppa:openjdk-r/ppa sudo apt-get update sudo apt-get install openjdk-8-jdk sudo update-alternatives –config java sudo update-alternatives –config javac   Ref. https://askubuntu.com/questions/464755/how-to-install-openjdk-8-on-14-04-lts   Our Services Big Data […]

ทำความรู้จัก Python library สำหรับงาน Data Analytic , ML และ AI นะ

Posted on Leave a commentPosted in iNoteBlog

ทำความรู้จัก Python library สำหรับงาน Data Analytic , ML และ AI นะ      การเริ่มเดินไปสู่ Data Analytic , ML หรือ AI ด้วย Python  การทำความรู้จักว่า library ใน module ไหนบ้าง ทำหน้าที่ใดที่สอดคล้องกับเรื่องที่เราจะทำก็เป็นสิ่งที่จำเป็นเหมือนกัน  Referal Blog นี้ สรุปไว้ให้เราหมดแล้วเช่นกัน แนะนำและสรุปPython Library          Our Services Big Data Engineering ติดตั้ง Cloudera Enterprise Hadoop , อิมพลีเมนท์การเอาข้อมูลเข้า HDFS , Hive , HBase , […]

สอนไพธอน Python 3: การติดตั้งไพธอนด้วย Anaconda

Posted on Leave a commentPosted in iNoteBlog

สอนไพธอน Python 3: การติดตั้งไพธอนด้วย Anaconda      เตรียมความพร้อมสำหรับสถานีถัดไปเกี่ยวกับ Big Data Analytic สำหรับคนสาย Dev. Python เป็นอีกทางเลือกที่น่าสนใจ การเริ่มต้นด้วยการหาเครื่องมือการเขียน Python เป็นก้าวแรกที่สำคัญครับ VDO นี้ให้แนวทางที่ดีครับ   การแก้ปัญหาการใช้งาน IPython กรณี ไม่ Show Graph : <matplotlib.axes.AxesSubplot at 0x109253410> Setting the iPython notebook %matplotlib magic command here is what you need to display the plot. Basically, that command tells the notebook which backend to use when plotting […]

ลองเล่นกันแบบได้เข้าใจในวิธีการ NN ด้วย Python กันนะ

Posted on Leave a commentPosted in iNoteBlog

ลองเล่นกันแบบได้เข้าใจในวิธีการ NN ด้วย Python กันนะ       หลังลองค้นหาข้อมูลที่จะทำให้เราเริ่มต้นศึกษา ML แบบง่ายๆๆ เราก็ไปเจอ Blog นี้  ลองตามเข้าไปเล่น Neural Network แบบเข้าใจหลักการและการอิมพลีเมนท์ด้วย Python ผ่าน Blog นี้กันครับ How to build a simple neural network in 9 lines of Python code Our Services Big Data Engineering ติดตั้ง Cloudera Enterprise Hadoop , อิมพลีเมนท์การเอาข้อมูลเข้า HDFS , Hive , HBase , Elasticsearch ผ่าน Talend  ETL […]

การติดตั้ง Hadoop แบบ Multi-Node ( Hadoop Cluster Installation )

Posted on Posted in Big Data, Hadoop

          หลังจากที่เราได้โอกาสไปเป็นวิทยากรอบรม Big Data with Hadoop ที่เป็นโครงการพัฒนาบุคลากรด้านผู้พัฒนา ผู้ผลิต สนับสนุนโครงการโดย สำนักงานส่งเสริมเศรษฐกิจดิจิทัล (DEPA) แล้วติดค้างการติดตั้ง Hadoop Cluster ไว้เพราะว่าเวลาในชั้นอบรมไม่พอเนื่องจากต้องเรียนกันให้ครอบคลุมถึง Software ตัวอื่นใน Ecosystem  เราก็เลยต้องมาตามชดใช้กันใน Blog นี้กันนะ          เอาล่ะเราเริ่มด้วยความต่อเนื่องจาก Blog ก่อนหน้าที่เราผ่านการติดตั้ง Hadoop แบบ Pesudo Distributed กันมาแล้วในบทความ การติดตั้ง Hadoop แบบ Step-by-Step สำหรับก้าวแรกของ Big Data Engineering แต่ละคนที่ลองเล่นตาม รวมถึงในชั้นอบรม Big Data with Hadoop ก็น่าจะคล่องกันแล้วในการใช้งาน  ดังนั้นใน Blog เราจะมาสรุปขั้นตอนที่สำคัญในการทำให้ Hadoop […]

เรามาใช้ Oracle SQL Develper เรียกข้อมูลจาก Apache Hive ในกระบวนทำ Data Processing กัน

Posted on Leave a commentPosted in Big Data, Hive

                        การใช้งาน Big Data / Hadoop Technology ด้วย Apache Hive ในการวิเคราะห์ข้อมูล   การเรียกข้อมูล ( Query ) ด้วยคำสั่ง Query เพื่อตรวจสอบข้อมูลบางอย่าง หรือ ทดสอบคำสั่ง Query เพื่อดูผลลัพธ์ว่าถูกต้องตามลอจิกที่กำหนดไว้หรือไม่ก่อนที่จะนำไปอิมพลีเมนท์จริงๆในกระบวนอัตโนมัติของ Data Integration Tool เป็นสิ่งที่จำเป็น           ความต้องการปฏิบัติงานลักษณะนี้โดยปกติสำหรับการใช้งาน Hadoop Ecosystem แบบ Open Source หรือ Distribution ต่างๆ เราอาจจะใช้งานผ่าน CLI ของ Apache Beeline  สำหรับคนที่ใช้ Open Source Hadoop Ecosystem มาติดตั้งซึ่งยังไม่มีเครื่องมือชั้นดีให้มาใช้งาน หรือ การใช้งานเครื่องมือชั้นดีเช่น HUE ( Hadoop User Experience )    […]

ทำความเข้าใจ Apache Hive Table สำหรับการทำ Big Data Analytic กันสักหน่อย

Posted on Leave a commentPosted in Big Data, Hive

“ทำความเข้าใจ Apache Hive Table สำหรับการทำ Big Data Analytic กันสักหน่อย”       เราผ่านการทดลองเล่นข้อมูลกับ Hive กันมาบ้างแล้วทั้งจากบทความก่อนหน้านี้ หรือ บางคนอาจจะเคยลองเล่นตามบทความของต่างประเทศ  สำหรับการสร้าง Hive DB การโหลดข้อมูลเข้า Hive Table หรือ การทดลองเรียกข้อมูลด้วย HQL  เรามาบันทึกคุณสมบัติของ Hive Table เพื่อสรุปความเข้าใจใน Hive Table สำหรับการใช้งานด้าน Big Data Analytic กันสักหน่อย   การสร้าง Table ของ Hive คืออะไร ? การสร้าง Table ของ Hive DB นั้นทำได้เช่นเดียวกันกับ Table ของ RDBMS และจำเป็นต้องกำหนด Scheme ของ Table ซึ่งบอกรายละเอียดของ […]

นักวิทยาศาสตร์ข้อมูลจะจัดกระบวนท่าเพื่อเริ่มต้นเล่น Big Data Processing ด้วย Apache Hive กันอย่างไรดี

Posted on Leave a commentPosted in Big Data

“นักวิทยาศาสตร์ข้อมูลจะจัดกระบวนท่าเพื่อเริ่มต้นเล่น Big Data Processing ด้วย Apache Hive กันอย่างไรดี”             เราเริ่มได้ยินกันบ่อยขึ้นเรื่องของการนำ Apache Hive ไปใช้งานงานกับการจัดการข้อมูลขนาดใหญ่ทั้งทางด้านของเครื่องมือวิเคราะห์ข้อมูล ( Data Analytic ) ที่เล่นกับข้อมูลได้ด้วยภาษาที่ใช้เรียกข้อมูลที่คล้ายภาษา SQL               หลังจากที่เราเข้าไปศึกษา Hive กันลึกๆแล้วก็พบว่าปัจจุบัน ( 5 พ.ย. 2559 ) Hive มีการพัฒนาการไปเยอะมากกว่าการเป็นตัวกลางในการใช้งาน HDFS สำหรับเก็บข้อมูลและเรียกข้อมูลให้เป็นโครงสร้างแบบตารางแบบ RDBMS ที่จัดการกับข้อมูลด้วยรูปแบบภาษา SQL             ปัจจุบัน Hive กำลังก้าวไปถึงการเป็น NoSQL ในอีกรูปแบบหนึ่งที่มีโครงสร้างระบบไฟล์ข้อมูลแบบ Columnar  มีโหมดการจัดการ Transaction Control  มีการทำ Index ข้อมูล และ มีการ Optimize Join Table ให้ได้ประสิทธิภาพการประมวลผลข้อมูลขนาดใหญ่มากๆๆได้เร็วขึ้นอีกด้วย […]

การใช้งานและการติดตั้ง Apache Hive สำหรับ Big Data Processing

Posted on Leave a commentPosted in Big Data

           โลกของ Big Data เราจะเจอกับลักษณะของข้อมูลที่นำเข้าระบบเก็บและประมวลผลข้อมูลของ Big Data ที่หลากหลายลักษณะทั้งข้อมูลแบบมีโครงสร้างมาแต่ต้นขณะที่นำเข้าข้อมูลเช่นมาจากข้อมูลระบบปฏิบัติงานของระบบงานต่างๆ( Operation Data ) ซึ่งอยู่ในรูปแบบตารางข้อมูล 2 มิติ หรือ ข้อมูลที่ไม่มีโครงสร้างตายตัวเช่นข้อมูลเนื้อหาจากเว็บไซด์ต่างๆ ไฟล์ข้อมูลในรูปแบบต่างๆ รูปภาพ  เสียง วีดีโอ  หรือ ผสมกันมา             การจัดเก็บข้อมูล Big Data ด้วย Hadoop Technology โดยพื้นฐานตัวข้อมูลจะเป็นแบบไฟล์ข้อมูลภายใต้การจัดการ HDFS และ การเข้าถึงข้อมูลแบบไฟล์จะเป็นแบบ Sequential Access หรือ เข้าถึงตามลำดับบรรทัดของไฟล์ เพื่อประมวลผลข้อมูลเช่นการนับจำนวนคำหรือประโยคที่สนใจเพื่อนำไปสรุปรวมเป็นตัวเลขเชิงสถิติสำหรับระบบการประมวลผลภาษาธรรมชาติ             แต่ในโลกการประมวลผลข้อมูลโดยทั่วไปที่ต้องการพึ่งพาอาศัยประสิทธิภาพของ Hadoop ที่ต้องความเร็วในการประมวลข้อมูลปริมาณมาก ด้วยการย้าย Operation Data เป็นปริมาณมากๆในระดับ 100 ล้านรายการมาเก็บใน Hadoop เพื่อการประมวลผลแบบสรุปข้อมูลเชิงสถิติแล้วส่งคืนกลับไปให้ที่เก็บข้อมูลหลักของ Operation Data ให้ใช้ในเงื่อนไขการตัดสินใจของระบบซอฟต์แวร์หลักที่ประมวลผลทางธุรกิจ หรือ ส่งต่อไปให้ระบบข้อมูลเพื่อการแสดงผลแบบ […]