มหกรรมการแข่งขันฟุตบอลโลก
2018 ได้เวียนมาบรรจบอีกครั้ง
โดนในครั้งนี้ประเทศรัสเซียรับหน้าที่เป็นเจ้าภาพจัดการแข่งขัน
นอกจากความสนุกในการชมเกมการแข่งขันในแต่ละนัดแล้ว ฟุตบอลโลกยังมักสร้างความสนุกทางวิชาการแก่นักวิเคราะห์ทางสถิติอยู่เสมอในการนำแบบจำลองทางเศรษฐศาสตร์
(การเงิน) มาใช้ในการพยากรณ์ผล ยกตัวอย่างเช่นในครั้งปี 2010 บริษัท JP Morgan
ได้ใช้แบบจำลองทางคณิตศาสตร์การเงินในการพยากรณ์พร้อมฟันธงว่า 3 ทีมที่น่าจะได้เป็นแชมป์ฟุตบอลโลก
2010 ได้แก่ อังกฤษ ในขณะที่ในครั้งปี 2014 บริษัท Goldman Sachs ก็ได้ใช้วิธีการที่ซับซ้อนขึ้นด้วยการสร้างแบบจำลองสถานการณ์แบบมอนติคาร์โล
(Monte Carlo Simulation) ถึง 10,000 ครั้งและฟันธงว่าบราซิลจะเป็นทีมที่จะได้เป็นแชมป์ในการแข่งขันฟุตบอลโลกในครั้งก่อนด้วยความน่าจำเป็นที่สูงถึงร้อยละ
48
อย่างไรก็ดี ถึงวันนี้เราคงทราบกันดีแล้วว่า
ผลของการพยากรณ์ทั้งสองครั้งดังกล่าวนั้น "ไม่แม่นยำเท่าใดนัก"
เพราะแชมป์ของการแข่งขันในปี 2010 ได้แก่ประเทศสเปน ในขณะที่แชมป์ของการแข่งขันในปี
2014 กลับตกเป็นของประเทศเยอรมัน
นั่นแสดงว่าแบบจำลองที่ใช้พยากรณ์ดังกล่าวยังไม่แม่นยำเท่าที่ควร
และยังมีข้อผิดพลาด (Errors)
อยู่มาก
ในฟุตบอลโลกครั้งที่ก็เช่นกัน
นักวิทยาศาสตร์ข้อมูล (Data Scientist) อย่าง Andreas Groll และทีมวิจัยของเขาจาก Technical
University of Dortmund ของประเทศเยอรมนี ได้ยกระดับการพยากรณ์ผลฟุตบอลโลกขึ้นอีกขั้นโดยผสมผสานการพยากรณ์ด้วยสถิติแบบดั้งเดิม
(Conventional Statistics) ร่วมกับการใช้ Machine Learning ด้วยวิธีการที่ชื่อว่า
"Random Forest Approach" ซึ่งเหมาะสมในการนำมาวิเคราะห์ข้อมูลที่มีขนาดใหญ่
(Big Data) และทำการสร้าง "ต้นไม่ตัดสินใจ (Decision
Tree) เพื่อพยากรณ์ว่าทีมใดจะมีความน่าจำเป็นที่จะเป็นผู้ชนะในการแข่งขันฟุตบอลโลกในครั้งนี้
ด้วยวิธีการนี้จะมีข้อดีอยู่ตรงที่จะเป็นกระบวนการคำนวณผลลัพธ์แบบสุ่มในหลายๆ
ครั้ง ซึ่งผลลัพธ์ที่ได้จะมากจากค่าเฉลี่ยของแต่ละทางเลือกแบบสุ่มของ Decision
Tree เหล่านั้น
โดยวิธีการนี้มีข้อดีตรงที่การหาปัจจัยที่สำคัญที่สุดที่จะส่งผลต่อผลลัพธ์ของการแข่งขันในแต่ละแมช
และขจัดปัจจัยที่จะไม่ส่งผลต่อผลลัพธ์เหล่านั้นออกไปได้
โดยในขั้นตอนแรก นักวิจัยได้เอาปัจจัยที่น่าจะส่งผลต่อการแพ้/ชนะมาคิดหลากหลายปัจจัยไม่ว่าจะเป็นปัจจัยทางเศรษฐกิจ
(เช่นรายได้ประชาชาติ จำนวนประชากร), อันดับของแต่ละทีมทั้งจากการจัดอันดับของ FIFA และอันดับจากเวปไซต์พนันออนไลน์อย่าง Bookmakers,
รวมไปถึงคุณลักษณะของแต่ละทีม เช่นอายุของผู้เล่น
ประสบการณ์แข่งขันของผู้เล่นในระดับ Champion League,
อายุและสัญชาติของโค้ช และอื่นๆ
โดยหลังจากได้ใส่ตัวแปรเหล่านี้เข้าไปในแบบจำลองและทำการทดลองถึง
100,000 ครั้ง ผลที่ได้พบว่า "อันดับใน FIFA"
เป็นปัจจัยที่สำคัญที่สุดต่อการชนะ/แพ้ นอกจากนี้ยังพบว่า รายได้ประชาชาติ (GDP)
และจำนวนผู้เล่นในระดับ Champion League ยังเป็นอีกปัจจัยที่ส่งผลต่อการชนะ/แพ้ด้วยเช่นกัน
ในขณะที่ยังมีปัจจัยที่ไม่ส่งผลอีกจำนวนหนึ่งเช่น จำนวนประชากรของประเทศ
และสัญชาติของโค้ชในแต่ละทีม เป็นต้น
ผลของการพยากรณ์ด้วยวิธี
Random Forest Approach นี้ได้เลือกให้
"ทีมชาติสเปน" จะเป็นทีมที่มีโอกาสคว้าแชมป์ในการแข่งขันฟุตบอลโลกครั้งนี้สูงที่สุด
ด้วยความน่าจำเป็นที่ร้อยละ 17.8
โดยประเทศที่มีโอกาสเข้าชิงได้แก่ประเทศเยอรมนี (ซึ่งมีโอกาสที่จะเข้ารอบ Quarter
Final อยู่ที่ร้อยละ 58) และประเทศสเปน (ซึ่งมีโอกาสที่จะเข้ารอบ Quarter
Final อยู่ที่ร้อยละ 73)
อย่างไรก็ดี ผลของการพยากรณ์นี้ไม่ได้ฟันธงว่าทีมสเปนจะเก่งกว่าทีมเยอรมัน
แต่ที่เลือกให้ทีมสเปนมีโอกาสเป็นแชมป์มากกว่าก็เพราะว่าทีมเยอรมันอยู่ในสายที่แข็งกว่า
และมีโอกาสที่จะเข้ารอบน้อยกว่านั่นเอง
ในระหว่างที่กำลังเขียนบทความนี้
ตัวผมเองก็ไม่ทราบว่าวิธีการใหม่ที่ใช้ Machine Learning นี้จะมีความแม่นยำเพียงใด
เพราะผลการพยากรณ์นี้ไม่สามารถเอาข้อมูลในปัจจัยบันที่ระหว่างทำการแข่งขันจริงๆ
รวมถึงยังไม่สามารถนำปัจจัยการเตรียมทีมของแต่ละทีมมาวิเคราะห์ได้
ยกตัวอย่างจากการพยากรณ์ในครั้งที่แล้ว (ปี 2014)
ที่ฟันธงให้ประเทศบราซิลน่าจะเป็นแชมป์
แต่ในการแข่งจริงบราซิลกลับแพ้ให้กับทีมเยอรมีถึง 7 ประตูต่อ 1
โดยสาเหตุสำคัญมากการที่ทีมเยอรมนีได้เก็บรวบรวมและนำฐานข้อมูลขนาดใหญ่ (Big
Data) มาทำการวิเคราะห์ถึง 2 ปีเพื่อปรับปรุงรูปแบบการเล่น
รวมไปถึงการคำนวณหาวิธีการเล่นที่จะชนะคู่แข่งในแต่ละทีม (โดยเฉพาะทีมบราซิล) และด้วยความสามารถในการวิเคราะห์ข้อมูลดังกล่าวทำให้ทีมเยอรมันสามารถทำได้จริง
และได้เป็นแชมป์ในปี 2014 ไปในที่สุด
ซึ่งผลที่พบนี้สรุปได้ว่า
สุดท้าย"ทีมที่มีโอกาสจะชนะฟุตบอลโลกมากที่สุด
อาจจะต้องเป็นทีมที่มีความพร้อมในการวิเคราะห์ข้อมูลขนาดใหญ่เหล่านั้นมากที่สุดก่อนก็เป็นได้
และถ้าแบบจำลองยังไม่มีความน่าเชื่อถือพอ
ก็คงเป็นหน้าที่ของแฟนบอลอย่างเราที่ต้องเฝ้ารอชมจากหน้าจอต่อไป
