BBCThai.com
 
ปรับปรุงล่าสุด: 02 ตุลาคม 2004 เผยแพร่เมื่อ 14:38 GMT
 
อีเมล์ต่อให้เพื่อน สั่งพิมพ์ข้อความ
สคริปต์รายการ 'กลไกไขหน้าเว็บ' ของบีบีซี
 
สารคดีชุด "กลไกไขหน้าเว็บ"
สิมันต์ ประคุณวิทย์ จัดทำ


ตอนแรก
รู้จัก Search Engine (เสิร์ช เอนจิน) หรือเครื่องมือที่ใช้ในการสืบค้นหาข้อมูลในอินเทอร์เน็ตว่าเสิร์ชเอนจินคืออะไร มีประโยชน์อย่างไร และเกี่ยวพันกับข้อมูลข่าวสารบนเว็บบนอินเทอร์เน็ตอย่างไร

ห้องทำงานที่เต็มไปด้วยคอมพิวเตอร์
คอมพิวเตอร์และอินเทอร์เน็ตกลายเป็นส่วนหนึ่งของชีวิตการทำงานประจำวันไปแล้ว

คนที่ใช้อินเทอร์เน็ตคงจะทราบดีว่า เว็บไซต์นั้นมีจำนวนมากมายมหาศาลนับพัน ๆ ล้านไซต์ บรรจุข้อมูลข่าวสารมากมาย แต่เมื่อมีข้อมูลท่วมท้นขนาดนั้น เราจะสืบค้นหาข้อมูลที่เราต้องการจริง ๆ ได้อย่างไรเพราะถ้ารู้ที่อยู่หรือแอดเดรสของเว็บไซต์ที่มีข้อมูลที่ต้องการก็แล้วไป

แต่ถ้าไม่รู้ แล้วจะไปลองแอดเดรส แล้วเปิดดูทีละหน้าสุ่มไปเรื่อย ๆ ก็อาจจะใช้เวลานานทีเดียวกว่าจะเจอข้อมูลที่ต้องการ เท่ากับว่าไม่มีประโยชน์คือมีข้อมูลทุกอย่างอยู่บนเว็บ แต่เอาออกมาใช้ไม่ได้

ด้วยเหตุนี้ จึงมีคนคิดค้นเทคโนโลยีขึ้นมาช่วยให้ผู้ที่ใช้อินเทอร์เน็ตหาพบข้อมูลที่ต้องการ เทคโนโลยีนี้เรียกว่า search engine

เว็บไซต์เช่น google.com หรือ yahoo.com คือเว็บไซต์ที่ให้บริการ search engine หรือที่ภาษาไทยอย่างเป็นทางการเรียกว่า “โปรแกรมค้นหา” เว็บไซต์เหล่านี้ทำให้สามารถเข้าไปใช้ค้นหาข้อมูลที่ต้องการได้โดยวันหนึ่ง ๆ มีคนเข้าไปใช้บริการนับร้อย ๆ ล้านคน

แต่ก่อนที่จะไปรู้จักกับตัวเทคโนโลยี search engine กันอย่างละเอียดนั้น คงจะต้องมาเกริ่นทำความเข้าใจกันก่อนว่าเวลาที่คนทั่วไปพูดกันว่าจะสืบค้นดูในอินเทอร์เน็ตนั้น จริง ๆ แล้วตัวอินเทอร์เน็ตไม่มีข้อมูลให้เข้าไปค้นหาแต่อย่างใด สิ่งที่ค้นหาคือข้อมูลที่อยู่ในเว็บไซต์ต่าง ๆ หรือ worldwide web

ศาสตราจารย์ ไมเคิล แจ็คสัน แห่งกลุ่มวิจัยด้านการประเมินและพัฒนา search engine ที่มหาวิทยาลัย Wolverhampton ในประเทศอังกฤษ อธิบายให้ฟังว่า

"ผมคิดว่าเราต้องแยกให้ออกระหว่างอินเทอร์เน็ตกับ worldwide web อินเทอร์เน็ตนั้นจริง ๆ แล้วก็คือตัวเครือข่ายที่เชื่อมโยงคอมพิวเตอร์เข้าด้วยกัน มีมานานประมาณ 30 ปีแล้ว ส่วนเว็บนั้น จะประกอบไปด้วยตัวอักษรรูปภาพเป็นหน้า ๆไปที่เราสามารถเข้าไปอ่านได้"

สัญญลักษณ์ของกูเกิล
กูเกิลและยาฮูเป็นเว็บไซต์ที่ให้บริการโปรแกรมค้นหาที่คนนิยมใช้กันมาก

จากคำอธิบายนี้ ก็อาจจะเปรียบได้ว่า worldwide web เป็นเหมือนห้องสมุดหลาย ๆ แห่งกระจายกันอยู่ทั่วโลก แต่ละแห่งก็เป็นคือเว็บไซต์อันหนึ่ง ประกอบไปด้วยเว็บเพจหลาย ๆ หน้าที่บรรจุข้อมูลข่าวสารเอาไว้ในรูปของตัวอักษร รูปภาพ เสียง เป็นต้น

ส่วนตัวอินเตอร์เน็ตก็เป็นเหมือนกับเครือข่ายถนนที่ทำให้ผู้ใช้เดินทางไปสู่ห้องสมุดแต่ละแห่งได้ตามต้องการ ไปอ่านข้อความ ดูรูปภาพ หรือฟังเสียงในเว็ปไซต์หรือห้องสมุดแต่ละแห่งได้ และในความเป็นจริงห้องสมุดแต่ละแห่งนั้นก็คือคอมพิวเตอร์ที่เรียกว่า Server ทำหน้าที่เก็บหน้าทุก ๆ หน้าของเว็บไซต์ไว้

เวลาต้องการจะอ่านข้อมูลจากเว็บไซต์ไหน ก็ต้องรู้ที่อยู่ของเว็บไซต์หรือ server ตัวนั้น ซึ่งที่อยู่นี้เรียกว่า URL หรือ Universal Resource Locator ที่ปรากฏอยู่ในช่อง address ของเว็บบราวเซอร์ที่เราเห็นกัน เช่น URL ของบีบีซีก็คือ www.bbc.co.uk เป็นต้น ก็เหมือนกับว่าต้องรู้ที่อยู่ของห้องสมุดที่ต้องการไปก่อน ไม่งั้นก็ไปไม่ถูก คงไปหลงอยู่ในเครือข่ายถนนอินเทอร์เน็ต

เมื่อรู้ที่อยู่แล้ว จะไปหาข้อมูลมาอ่าน ก็ต้องบอกคอมพิวเตอร์ว่าที่อยู่นั้นคืออะไร คอมพิวเตอร์ก็จะไปก็อปปี้เว็บเพจเหล่านั้นจาก server นั้นผ่านทางอินเทอร์เน็ต กลับมาให้ดูบนจอคอมพิวเตอร์ได้

ที่ใช้คำว่าก็อปปี้ก็เพราะว่า ตัวเว็บเพจต้นฉบับนั้นก็ยังคงอยู่บน server ไม่ได้เคลื่อนย้ายไปไหน สิ่งเห็นบนจอคอมพิวเตอร์เป็นฉบับถ่ายสำเนา ซึ่งก็เหมือนกับไปถ่ายเอกสารหนังสือที่ต้องการจากห้องสมุดกลับไปนั่งอ่านที่บ้าน ไม่ได้เอาตัวหนังสือต้นฉบับจริง ๆ ออกมาด้วย

บุคคลสำคัญที่คิดค้นเทคโนโลยีเว็บขึ้นมา คือ เซอร์ทิม เบอร์เนอร์ส ลี นักวิทยาศาสตร์ชาวอังกฤษ ที่ตอนนี้ได้ชื่อว่าเป็นบิดาแห่งเว็บไปแล้ว เซอร์ทิม คิดค้นเทคโนโลยีนี้ขึ้นมาเมื่อประมาณ 10 ปีมาแล้วตอนที่เขาทำงานอยู่ที่ศูนย์วิจัยทางด้านฟิสิกส์อานุภาคของสหภาพยุโรป หรือที่เรียกว่า CERN ในนครเจนีวา ประเทศสวิสเซอร์แลนด์

 เทคโนโลยีการสืบค้นนี่มีมานานแล้ว มีมาก่อนที่จะมีเว็บเสียอีก แต่ในสมัยก่อนนั้น เทคโนโลยีตัวนี้ใช้ในการค้นหาข้อมูลหรือคำที่เราต้องการในฐานข้อมูลอย่างบทคัดย่อของบทความทางวิทยาศาสตร์เป็นต้นเท่านั้น
 
ศาสตราจารย์สตีเฟน โรเบิร์ตสัน

เมื่อเซอร์ทิมคิดค้นเว็บขึ้นมาใหม่ ๆ นั้น เว็บไซต์ต่าง ๆ ยังไม่ได้มีมากมายอย่างทุกวันนี้ แต่หลังจากนั้นเว็บก็เติบโตเพิ่มจำนวนขึ้นอย่างรวดเร็ว มาจนถึงวันนี้ก็มีจำนวนมหาศาลเป็นร้อย ๆ ล้านไซต์

ด้วยเหตุนี้เองทำให้ต้องคิดค้นเครื่องมือหรือโปรแกรมคอมพิวเตอร์ขึ้นมาเพื่อทำหน้าที่แทนมนุษย์ในการขุดคุ้ยค้นหาสิ่งที่ต้องการในมหาสมุทรข้อมูลอันกว้างใหญ่ไพศาลนี้ สิ่งนั้นคือ search engine ที่ใช้อยู่ในปัจจุบันนี้

อย่างไรก็ตาม ศาสตราจารย์ สตีเฟน โรเบิร์ตสัน แห่ง Microsoft Research Lab เมืองเคมบริดจ์ในอังกฤษ บอกว่าตัวเทคโนโลยีสำหรับการสืบค้นนี้ ไม่ใช่ของใหม่

"เทคโนโลยีการสืบค้นนี่มีมานานแล้ว มีมาก่อนที่จะมีเว็บเสียอีก แต่ในสมัยก่อนนั้น เทคโนโลยีตัวนี้ใช้ในการค้นหาข้อมูลหรือคำที่เราต้องการในฐานข้อมูลอย่างบทคัดย่อของบทความทางวิทยาศาสตร์เป็นต้นแค่นั้น search engine ในสมัยนั้น เราเรียกอย่างเป็นทางการว่า information retrieval system แต่ความจริงระบบนี้ไม่ใช่อยู่ ๆ ก็ไปค้นหาคำที่เราต้องการในฐานข้อมูลที่กำหนดไว้ได้ทันที คุณต้องทำดัชนีของข้อมูลที่คุณต้องการสืบค้นก่อน แล้วระบบนี้ก็ไปค้นจากดัชที่ทำไว้อีกทีหนึ่ง"

ช่วงประมาณคริสต์ทศวรรษที่ 1980 ที่มีอินเทอร์เน็ตแล้ว แต่ยังไม่มี worldwide web
ก็มีโปรแกรมอย่าง Gopher Archie หรือ Veronica ใช้สำหรับสืบค้นไฟล์บนคอมพิวเตอร์เซอร์เวอร์ที่ต่อกับอินเทอร์เน็ตโดยตรง โปรแกรมเหล่านี้จะจัดทำดัชนีของชื่อไฟล์ต่าง ๆ บนเซอร์เวอร์ ทำให้ผู้ใช้ค้นหาไฟล์ได้ทันที ไม่ต้องล็อกอินไปที่เซอร์เวอร์ที่ละแห่งจนกว่าจะเจอไฟล์ที่ต้องการ


ตอนสอง
การทำงานของเสิร์ชเอนจิน

จะว่าไปแล้ว search engine ส่วนใหญ่ก็ทำหน้าที่เหมือนกับบรรณารักษ์ห้องสมุด คือถ้าเปรียบ worldwide web เสมือนเป็นห้องสมุดขนาดมหึมา บรรจุหน้าสือหรือเว็บเพจเป็นจำนวนมหาศาล ก่อนจะหาอะไรเจอ บรรณารักษ์ก็ต้องจัดทำบัญชีรายชื่อของหนังสือ จัดหมวดหมู่ให้รู้ว่าหนังสือประเภทนี้หรือข้อมูลประเภทนั้นจัดเก็บอยู่ที่ไหน จะไปหาเจอได้อย่างไร

แป้นคอมพิวเตอร์
เสิร์ชเอนจินต้องใช้เครื่องทุ่นแรงคือใช้โปรแกรมอัตโนมัติที่เรียกว่า spider ออกไปท่องอินเทอร์เน็ต

เสิร์ชเอนจินก็เช่นเดียวกันคือต้องไปจัดหมวดหมู่ทำแคตตาลอกข้อมูลต่าง ๆ บนเว็บให้เรียบร้อยเสียก่อนจึงจะหาเจอได้ อย่างที่ศาสตราจารย์สตีเฟ่น โรเบิร์ตสัน แห่งห้องปฏิบัติการวิจัยไมโครซอฟต์ ในเมืองเคมบริดจ์ ประเทศอังกฤษบอกว่า

"เสิร์ชเอนจินนี่ก็มีอยู่ด้วยกันหลายประเภทนะครับ แต่พูดคร่าวๆแล้ว กลไกการทำงานก็ค่อนข้างจะเหมือนกัน เสิร์ชเอนจินต้องท่องอินเตอร์เน็ตไปเรื่อย ๆ เข้าไปในเว็บไซต์แต่ละแห่ง เข้าไปสำรวจเว็บเพจในไซต์นั้น ๆ แล้วก็จัดทำดัชนี จัดทำบัญชีรายชื่อ จัดแบ่งหมวดหมู่ด้วยวิธีการหรือข้อกำหนดต่าง ๆ กันไป"

การเข้าไปสำรวจค้นหาข้อมูลในเว็บไซต์เป็นจำนวนนับล้าน ๆ ไซต์นั้นไม่ใช่เรื่องง่ายโดยเสิร์ชเอ็นจินต้องใช้เครื่องทุ่นแรงคือใช้โปรแกรมโรบอตหรือโปรแกรมอัตโนมัติที่เรียกว่า spider ออกไปท่องอินเทอร์เน็ต เข้าไปสำรวจตรวจตราเว็บไซต์ต่าง ๆ เพื่อสร้างดัชนีของคำศัพท์ที่พบในเว็บเพจเหล่านั้น

กระบวนการที่ spider ออกไปเยี่ยมเว็บเพจต่าง ๆ แล้วทำดัชนีคำศัพท์ที่พบไว้นี้ มีศัพท์เฉพาะเรียกว่า web crawling ซึ่งอาจจะเปรียบเทียบได้ว่าโปรแกรม spider คือบรรณารักษ์สัญจรที่ถูกส่งออกไปเดินทางตามถนนอินเทอร์เน็ต ไปแวะเยี่ยมห้องสมุดไปเรื่อย ๆ

หลายคนอาจจะสงสัยว่าบรรณารักษ์สัญจรตัวนี้ จะออกเดินทางไปอย่างสุ่มสี่สุ่มห้า พบเว็บไหนก็แวะเข้าไปเลยหรือมียุทธวิธีในการวางแผนการเดินทางอย่างไรหรือไม่ คำตอบคือมีการวางแผนเหมือนกันโดยโปรแกรม spider จะเริ่มต้นจากบรรดาเว็บไซต์ยอดนิยมที่มีสถิติผู้เข้าไปใช้สูงก่อน แล้วก็จะดูว่าในเว็บเพจในไซต์นั้น ๆ เชื่อมโยงไปยังเว็บไซต์อื่น ๆ ที่ไหนบ้าง โปรแกรม spider ก็จะตามไปเยี่ยมเยียนเว็บไซต์นั้น ๆ ต่อไปเรื่อย ๆ ทำดัชนีของในส่วนของเว็บที่มีคนใช้มากได้อย่างรวดเร็วก่อนที่จะเคลื่อนที่ไปยังส่วนอื่น ๆ ที่มีคนใช้น้อยต่อไป

อย่างไรก็ตาม ไม่ใช่ว่าเว็บไซต์ทุกแห่งจะต้อนรับโปรแกรม spider เสมอเพราะในแต่ละเว็บเพจจะมีส่วนที่เรียกว่า Meta Tag ซึ่งเป็นส่วนที่ให้เจ้าของเว็บเพจสามารถแสดงคำอธิบายคร่าว ๆ ของเว็บเพจนั้น ๆ เอาไว้ และในส่วนนี้เอง เจ้าของสามารถกำหนดได้ว่าจะต้อนรับโปรแกรม spider หรือไม่

เมื่อโปรแกรม spider ไปถึงเว็บไซต์ไหน spider ก็จะจดชื่อเสียงเรียงนามและที่อยู่ไว้ เสร็จแล้วก็จะเข้าไปสำรวจหนังสือหรือข้อมูลในห้องสมุดนั้น จัดการสร้างและบันทึกดัชนีของหนังสือหรือข้อมูลที่เจอ เมื่อทำเสร็จ ก็จะส่งบันทึกรายละเอียดนั้นกลับมาให้สำนักงานใหญ่คือตัวเสิร์ชเอ็นจินเก็บไว้ แล้วก็ออกเดินทางไปยังห้องสมุดอื่น ๆ ต่อไป

เวลาที่มีคนใช้ต้องการค้นหาข้อมูลนี้ เสิร์ชเอ็นจินก็ไปค้นรายละเอียดจากบันทึกข้อมูลที่โปรแกรม spider ส่งเข้ามาเก็บไว้แล้ว ทำให้บอกผู้ใช้บริการได้ว่าข้อมูลที่ต้องการนั้นอยู่ที่เว็บไซต์ไหนบ้าง วิธีนี้ทำให้เสิร์ชเอ็นจินทำงานได้อย่างรวดเร็วเพราะค้นหาจากข้อมูลที่เก็บไว้แล้ว ไม่ใช่จะหาทีละครั้ง ๆ เมื่อมีคนต้องการ

 เสิร์ชเอนจินก็ต้องสร้างดัชนีของเว็บเพจ ต่าง ๆ ไว้ก่อน และวิธีที่ใช้กันอย่างแพร่หลายในเสิร์ชเอนจินก็คือทำดัชนีของคำทุกคำในเว็บทุกๆหน้าเลย เมื่อคุณค้นหาคำนั้น เสิร์ชเอนจิน ก็จะแสดงเว็บเพจทั้งหมดที่มีคำเหล่านั้นปรากฏอยู่
 
ศาสตราจารย์ไมเคิล แจ็คสัน

Sergey Brin และ Lawrence Page ผู้ก่อตั้ง Google อธิบายโดยยกตัวอย่างง่ายๆว่า ถ้าใช้โปรแกรม spider สี่โปรแกรมปล่อยให้ทำงานพร้อมกัน จะสามารถไปเยี่ยมเว็บเพจได้ถึงวินาทีละ 100 หน้า ส่งข้อมูลเข้ามาประมาณวินาทีละ 600 กิโลไบต์ และถ้าเป็นระบบที่มีประสิทธิภาพสูงในปัจจุบันนี้ ข้อมูลที่ได้นั้นจะเพิ่มขึ้น

การที่เข้าไปทำดัชนีหรือจัดหมวดหมู่ของเว็บเพจในเว็บไซต์แต่ละแห่งนั้นทำได้หลายวิธีศาสตราจารย์ไมเคิล แจ็คสัน แห่งกลุ่มวิจัยด้านการประเมินและพัฒนา search engine ที่มหาวิทยาลัย Wolverhampton ในประเทศอังกฤษ อธิบายให้ฟังว่า

"การทำดัชนีหรือจำแนกแยกแยะประเภทของเว็บเพจนี่ก็ทำได้หลายวิธีด้วยกันนะครับ เพราะบางครั้งคุณต้องการจะหาเว็บเพจที่คุณรู้จักแต่ชื่อ หรือไม่คุณก็อาจจะรู้แค่คร่าว ๆ เท่านั้นว่าคุณอยากจะหาเว็บเพจเกี่ยวกับเรื่องอะไรที่คุณสนใจแต่ไม่รู้รายละเอียดและคุณต้องการให้เสิร์จเอนจินหาเว็บเพจที่เหมาะสมที่สุดมาให้คุณ เสิร์ชเอนจินก็ต้องสร้างดัชนีของเว็บเพจต่าง ๆ ไว้ก่อนและวิธีที่ใช้กันอย่างแพร่หลายในเสิร์ชเอนจินก็คือทำดัชนีของคำทุกคำในเว็บทุก ๆ หน้าเลย เมื่อคุณค้นหาคำนั้น เสิร์ชเอนจินก็จะแสดงเว็บเพจทั้งหมดที่มีคำเหล่านั้นปรากฏอยู่"

ป้ายชื่อบริษัทยาฮู
ยาฮูและกูเกิลเป็นเว็บไซต์ที่ให้บริการค้นหาที่คนนิยมใช้มาก

การทำดัชนีของคำในเว็บเพจนั้นแตกต่างกันไปแล้วแต่เสิร์ชเอนจิน เช่นของ Google เวลาจะทำดัชนี ตัว spider จะให้ความสำคัญไม่เฉพาะตัวคำในเว็บเพจเท่านั้น แต่จะดูถึงตำแหน่งของคำนั้น ๆ ด้วย คือดูว่าคำนั้นปรากฏอยู่ที่ใด อยู่ในหัวข้อเรื่อง หัวข้อย่อย หรืออยู่ในตำแหน่งอื่น ๆ ควรจะมีความสำคัญมากน้อยแค่ไหน แล้วนำข้อมูลเหล่านี้มาใช้ประกอบค้นหาด้วย

นอกจากนี้ สไปเดอร์ของกูเกิลยังดัชนีเฉพาะคำที่มีความหมายเท่านั้น ไม่รวมพวกคำนำหน้านามอย่าง a, an หรือ the เข้าไว้ด้วย ซึ่งแตกต่างจาก spider ของ AltaVista ที่ทำดัชนีของทุก ๆ คำที่ปรากฏอยู่บนหน้าเว็บเลยไม่เว้นแม้แต่คำนำหน้านามเหล่านั้น ทั้งนี้เพื่อให้ได้ดัชนีที่สมบูรณ์ที่สุด ส่วนเสิร์ชเอ็นจินของ Lycos จะพิจารณาตำแหน่งของคำและนำคำที่ปรากฏอยู่บนเว็บเพจนั้นบ่อยที่สุดหนึ่งร้อยคำมาทำเป็นดัชนี รวมกับทุก ๆ คำที่ปรากฏอยู่ในยี่สิบบรรทัดแรกของเว็บเพจ เป็นต้น

นอกจากการทำดัชนีแล้ว การแยกแยะประเภทของเว็บเพจก็ถือเป็นเรื่องสำคัญ คล้ายกับในหนังสือทั่วไปที่นอกจากจะมีดัชนีอยู่ท้ายเล่มแล้ว บรรณารักษ์ยังต้องมาจัดหมวดหมู่ของหนังสือว่าเป็นประเภทไหนหรือควรจะอยู่กลุ่มไหนด้วย เป็นต้น

อย่างไรก็ตาม เรื่องนี้เป็นเรื่องยากกว่าทำดัชนีธรรมดา คือเสิร์ชเอนจินบางตัวพบว่า การที่จะใช้โปรแกรมอัตโนมัติทำหน้าที่แยกแยะประเภทของเว็บเพจที่เจอนั้น จะไม่ค่อยได้ผลและผิดพลาดมากมาย


ตอนสาม
อนาคตของเสิร์ชเอนจิน

มือเคาะแป้นคอมพิวเตอร์
ข้อมูลในอินเทอร์เน็ตมีมากมายจนหลายครั้ง การค้นหาต้องใช้เวลานานมาก

ผู้ที่ต้องการค้นหาข้อมูลในอินเทอร์เน็ตอาจจะประสบปัญหามาบ้างแล้วเวลาต้องการใช้เสิร์ชเอนจินค้นหาข้อมูลบนเว็บและพิมพ์คำที่ต้องการเข้าไป ปรากฏว่าเสิร์ชเอนจินค้นหาเว็บเพจตามคำที่ต้องการและแสดงออกมาให้ดูเป็นพัน ๆ หน้า ทำให้ต้องใช้เวลานานมากกว่าจะหาหน้าที่ต้องการพบ

วิธียอดนิยมที่ใช้แก้ปัญหานี้ในปัจจุบันคือพยายามจำเพาะเจาะจงเรื่องคำที่พยายามจะหา แล้วใช้ Boolean Operators หรือตัวดำเนินการบูลีน ซึ่งใช้ทางตรรกศาสตร์มาช่วย คือแทนที่จะค้นหาโดยใช้คำ ๆ เดียว ก็ใช้กลุ่มคำเข้ามาช่วยเป็นการจำกัดขอบเขตของการสืบค้นลงโดยกลุ่มคำเหล่านี้จะเชื่อมต่อกันโดยใช้ Boolean Operators เช่น and, or ซึ่งก็คือ และ หรือ เป็นต้น

ยกตัวอย่างเช่นถ้าต้องการค้นหาข้อมูลเกี่ยวกับ Enigma ที่เป็นเครื่องถอดรหัสลับของนาซีในสมัยสงครามโลกครั้งที่สอง ปกติถ้าพิมพ์คำ Enigma เข้าไป จะมีหน้าเว็บปรากฏออกมามากมายซึ่งหลายหน้าไม่ได้เกี่ยวข้องกับ Enigma ในความหมายที่ต้องการ

ดังนั้น แทนที่จะพิมพ์คำว่า Enigma อย่างเดียว ก็อาจจะระบุว่า Enigma and coding and Nazi and Second World War คือใส่ทั้งตัวชื่อเครื่อง ใส่ว่าเป็นเครื่องสำหรับเข้ารหัสและใส่ว่าเกี่ยวกับนาซีและสงครามโลกครั้งที่สองด้วย เมื่อใช้วิธีนี้ แทนที่จะพบสองล้านเจ็ดหมื่นหน้า ก็พบเพียงหนึ่งหมื่นสองพันสี่ร้อยหน้าและส่วนใหญ่ก็เกี่ยวกับเครื่อง Enigma ที่ต้องการทั้งนั้น

แต่ถึงอย่างนั้นก็ตาม การใช้ Boolean Operators กับเสิร์ชเอนจินในการค้นหาข้อมูลนั้นยังมีข้อบกพร่องอยู่มากเพราะเป็นการเสิร์ชแบบตรง ๆ เลย คือดูที่คำหรือกลุ่มคำที่พิมพ์เข้าไป แล้วเอาไปเปรียบเทียบกับดัชนีที่มีอยู่ตรง ๆ

แต่ปัญหามีว่าคำบางคำนั้นมีหลายความหมาย เช่นคำว่า bed ในภาษาอังกฤษ อาจจะแปลได้ว่าเตียงนอน ที่นอน ร่องดอกไม้ หรือที่ปลาวางไข่ยังได้ ถ้าผู้ค้นหาสนใจในความหมายหนึ่งความหมายใดเท่านั้น ก็คงไม่ต้องการเว็บเพจที่เกี่ยวกับความหมายอื่นด้วย

แม่กับลูกนั่งหน้าจอคอมพิวเตอร์
พ่อแม่อาจจำเป็นต้องติดตามว่าบุตรหลานใช้คอมพิวเตอร์ค้นหาข้อมูลอะไรบ้าง

นอกจากนี้ปัญหาใหญ่สำหรับการค้นหาแบบนี้คือถ้าคำหรือกลุ่มคำที่ใช้ ไม่ตรงตัวจริง ๆก็จะหาไม่เจอหรือแค่รู้ว่าอยากจะหาข้อมูลเกี่ยวกับเรื่องอย่างนี้ แต่ไม่รู้จะใช้คำเฉพาะอะไรดีสำหรับป้อนให้เสิร์ชเอนจิน ก็ใช้วิธีนี้ค้นหาไม่ได้ ด้วยเหตุนี้ จึงกำลังมีการคิดค้นพัฒนาเสิร์ชเอนจินที่ฉลาดขึ้น สามารถค้นหาเว็บเพจที่ต้องการจริง ๆ ได้ถึงแม้ผู้ค้นหาจะไม่รู้คำเฉพาะสำหรับเรื่องนั้น ๆ ก็ตาม

เทคโนโลยีหนึ่งที่กำลังพัฒนาอยู่ในอังกฤษขณะนี้ เป็นเทคโนโลยีที่มีต้นตอมาจากอดีตหน่วยสืบราชการลับของรัสเซียหรือ KGB เป็นระบบที่คิดค้นขึ้นหลังจากสงครามเย็น ระบบนี้เรียกว่าระบบ InfoTame ซึ่งปัจจุบันนี้ใช้สำหรับค้นหาข้อมูลในฐานข้อมูล แต่กำลังพัฒนาให้สามารถค้นหาข้อมูลใน Worldwide Web ได้ด้วย

วิธีที่ใช้ค้นหาข้อมูลก็แตกต่าง ๆ ไปจากกูเกิล เพราะสามารถให้ค้นหาคำยอดนิยมหรือแนวความคิดจากเอกสารต่าง ๆ เอง โดยที่ไม่ต้องกำหนดคำเฉพาะในการค้นหาเลย

พอล เชิง ผู้อำนวยการของ InfoTame บอกว่า

"ถ้าเราพิมพ์คำว่า แบรนสัน ลงไปในระบบใหม่นี้นะครับ เพียงไม่กี่วินาทีเราก็จะได้ผลลัพธ์เป็นรายการของแนวคิดที่สำคัญ คำ ชื่อ และสถานที่สำคัญที่เกี่ยวข้องกับคำว่า แบรนสันที่เราป้อนเข้าไป รายการที่ปรากฏขึ้นนี้ทำให้เราสามารถค้นคว้าเกี่ยวกับแนวความคิดหรือข้อมูลที่เกี่ยวข้องกับคำที่เราต้องการหาได้อย่างมีประสิทธิภาพมากยิ่งขึ้น"

วิธีนี้ทำให้สะดวกขึ้นในการค้นหาข้อมูลที่ต้องการ แต่การที่เสิร์ชเอนจินเดาใจคนใช้บริการได้แบบนี้ บางครั้งก็ไม่ค่อยดีเพราะถ้าเดาใจได้ แต่เดาใจได้ไม่ทะลุปรุโปร่งหรือเดาใจผิด ก็อาจจะทำให้ผลที่ได้จากเสิร์ชเอนจินนั้นจำกัดเกินไป ไม่ครอบคลุมผลที่ควรได้ทั้งหมดและจะตัดข้อมูลที่คอมพิวเตอร์เดาว่าอยู่นอกเหนือความสนใจของบุคคลนั้นออกไปโดยอัตโนมัติ

อีกวิธีการหนึ่งที่ทำให้การค้นหาข้อมูลโดยใช้เสิร์ชเอนจินได้สะดวกคือทำให้เสิร์ชเอนจิน เหมือนมนุษย์มากขึ้น กล่าวคือแทนที่จะต้องพิมพ์คำเฉพาะเข้าไป ก็ใช้วิธีพิมพ์คำถามภาษาธรรมดาที่ใช้พูดกับเพื่อนมนุษย์ด้วยกัน ไม่จำเป็นต้องไปคิดผสมคำโดยใช้ Boolean Operators สร้างกลุ่มคำอันสลับซับซ้อนขึ้นมาเพื่อให้ได้คำตอบที่ดีที่สุด

ปัจจุบันนี้ เว็บไซต์ที่ให้บริการเสิร์ชเอนจินอย่าง AskJeeves.com ก็ใช้วิธีนี้ในการค้นหาข้อมูลที่ผู้ใช้ต้องการ แต่ก็ยังเป็นขั้นเริ่มต้นเท่านั้นคือสามารถรับประโยคคำถามที่ง่าย ๆ เท่านั้น

เรื่องการทำให้คอมพิวเตอร์สามารถเข้าใจประโยคที่เป็นภาษามนุษย์ธรรมดาได้เป็นเรื่องที่นักวิจัยทางด้านปัญญาประดิษฐ์ให้ความสำคัญมากเรื่องหนึ่ง ตอนนี้หลายกลุ่มหลายบริษัทกำลังแข่งขันกันเพื่อทำให้เสิร์จเอนจินของตนสามารถรับและเข้าใจคำถามภาษามนุษย์ที่สลับซับซ้อนได้

นอกจากข้อมูลที่เป็นตัวหนังสือหรือที่อยู่ในรูปของหนังสือแล้ว ใน worldwide web ยังเต็มไปด้วยข้อมูลที่อยู่ในรูปแบบอื่น ๆ ด้วย เช่นรูปภาพหรือเสียง เป็นต้น ปัจจุบันนี้ ส่วนใหญ่เวลาจะหารูปภาพหรือเสียง เสิร์ชเอนจินก็จะไปดูที่ชื่อของภาพ ชื่อของไฟล์เสียงนั้น หรือไม่ก็ดูที่คำบรรยายที่เป็นตัวหนังสือของไฟล์นั้น ๆ ไม่ได้ไปพิจารณาที่ตัวภาพ หรือเสียงนั้นจริง ๆ ยกตัวอย่าง ถ้าใครมีภาพทะเลทรายแล้วนำเอาใส่ไว้บนเว็บเพจ แต่กลับไปตั้งชื่อภาพหรือไฟล์นั้นว่า "ป่าดงดิบ" เวลาเสิร์ชเอนจินค้นหาภาพป่าดงดิบ ก็จะไปคว้าภาพทะเลทรายมาให้แทน เรื่องนี้ยักษ์ใหญ่อย่างกูเกิลก็ไม่ได้นิ่งนอนใจ กำลังก้มหน้าก้มตาสร้างเสิร์ชเอนจินรุ่นใหม่ที่สามารถเข้าไปพิจารณาค้นหาตัวภาพและเสียงได้

 
 
ลิงค์ภายในบีบีซี
 
 
ข่าวล่าสุด
 
 
อีเมล์ต่อให้เพื่อน สั่งพิมพ์ข้อความ
 
 
 
 
BBC ©
 
^^ กลับไปข้างบน
  คลังของเก่า | เรียนภาษาอังกฤษ
 
  BBC News >> | BBC Sport >> | BBC Weather >> | BBC World Service >> | BBC Languages >>