รีวิวจาก Softonic
WebMCP: เซิร์ฟเวอร์ MCP ที่เปิดใช้งานการเข้าถึงเว็บสดสำหรับตัวแทน AI
WebMCP ซึ่งสร้างโดย Jason McGhee เป็นเซิร์ฟเวอร์ Model Context Protocol (MCP) ที่ให้เอเจนต์ AI มีความสามารถในการท่องเว็บและโต้ตอบแบบสด เครื่องมือนี้ช่วยให้โมเดลสามารถเยี่ยมชมหน้าเว็บ ดำเนินการ และส่งคืนข้อมูลแบบเรียลไทม์เพื่อให้เอเจนต์สามารถทำงานตามข้อมูลเว็บปัจจุบันได้ มันเปิดเผยการรวมการค้นหาและตัวเลือกโหมดเบราว์เซอร์สำหรับเซสชันอัตโนมัติ นักพัฒนาและนักวิจัย AI ที่สร้างเอเจนต์ที่เข้ากันได้กับ MCP จะได้รับสะพานเชื่อมโปรแกรมได้ระหว่างโมเดลที่คงที่และเว็บสด
มันเชื่อมต่อกับการทำงานของตัวแทนอย่างไร
WebMCP ทำงานเป็นเซิร์ฟเวอร์ MCP ที่ต้องการโฮสต์ MCP (เช่น Claude Desktop) และสภาพแวดล้อม Node.js โดยแนะนำให้ใช้ Node.js v18 หรือสูงกว่า เส้นทางการติดตั้งรวมถึงการรันผ่าน npx หรือการเพิ่มแพ็คเกจเป็นการพึ่งพาในไฟล์การกำหนดค่า MCP ซึ่งสนับสนุนการทดลองใช้งานอย่างรวดเร็วและการฝังตัวในสแต็กของตัวแทนที่มีอยู่ ความต้องการด้านเซิร์ฟเวอร์หมายความว่าการตั้งค่าจะเกิดขึ้นบนเครื่องที่คุณควบคุมแทนที่จะอยู่ภายในตัวแทนเอง
ความน่าเชื่อถือในการท่องเว็บบนหน้าเว็บสมัยใหม่เป็นอย่างไร
เครื่องมือใช้เส้นทางการเรนเดอร์เบราว์เซอร์จริงเพื่อโต้ตอบกับไซต์ โดยพึ่งพา Chromium ผ่านห้องสมุดการทำงานอัตโนมัติเพื่อเรนเดอร์หน้าอย่างถูกต้อง สถาปัตยกรรมดังกล่าวช่วยให้สามารถนำทางการเปลี่ยนเส้นทาง ดำเนินการ JavaScript ของหน้า และโต้ตอบกับแอปพลิเคชันแบบหน้าเดียว ดังนั้นการกระทำและการอ่าน DOM จะประสบความสำเร็จในไซต์ที่มี JavaScript หนาแน่นซึ่งการดึงข้อมูล HTTP แบบง่ายจะล้มเหลว การใช้เครื่องยนต์เบราว์เซอร์จริงช่วยเพิ่มความถูกต้องของการจับภาพสถานะภาพและ DOM
ผลลัพธ์และจุดบูรณาการที่มันให้ไว้
WebMCP เปิดเผยผลลัพธ์ที่มีโครงสร้างเช่น แหล่งที่มาของ HTML ข้อความภายใน และข้อมูลขององค์ประกอบ DOM ที่กำหนดเป้าหมาย และให้ภาพหน้าจอของหน้าในความละเอียดสูงเพื่อให้บริบททางภาพ ตัวแทนยังสามารถดำเนินการทำงานหลายขั้นตอนโดยการคลิก พิมพ์ข้อความ และส่งแบบฟอร์มโดยโปรแกรม เซิร์ฟเวอร์มีอินเทอร์เฟซที่ได้มาตรฐานสำหรับลำดับเหล่านั้น ทำให้โค้ดที่อยู่ด้านล่างสามารถใช้ข้อมูลระดับองค์ประกอบและภาพหน้าจอเป็นวัตถุที่แยกต่างหากได้
ตัวเลือกที่ใช้งานได้จริงและมุ่งเน้นนักพัฒนาพร้อมการสนับสนุนจากชุมชน
WebMCP เป็นตัวเลือกที่ใช้งานได้จริงสำหรับนักพัฒนาและนักวิจัยที่ต้องการการเข้าถึงระดับตัวแทนไปยังเว็บสด ซึ่งได้รับการสนับสนุนจากการออกแบบแบบโอเพนซอร์สและการตอบรับเชิงบวกในชุมชนพัฒนาของ MCP จุดแข็งของมันเหมาะกับกระบวนการวิศวกรรมที่ยอมรับส่วนประกอบ MCP ที่โฮสต์ไว้ ข้อควรระวังในการดำเนินงาน: การรวมกับผู้ให้บริการค้นหาบางรายต้องการตัวแปรสภาพแวดล้อมสำหรับคีย์ API ดังนั้นโปรดวางแผนการทดสอบการรวมเข้าด้วยกันให้เหมาะสม
ข้อดี
- MCP-native interface สำหรับการกระทำเว็บที่ขับเคลื่อนโดยตัวแทน
- ใช้การเรนเดอร์ Chromium สำหรับการจัดการหน้าเว็บที่มี JavaScript หนักอย่างเชื่อถือได้
- สร้าง HTML, การดึงข้อมูล DOM, และภาพหน้าจอความละเอียดสูง
- การรันอย่างรวดเร็วผ่าน npx สำหรับการทดลองอย่างรวดเร็ว
ข้อเสีย
- ต้องการโฮสต์ MCP และสภาพแวดล้อม Node.js เพื่อทำงาน
- การรวมผู้ให้บริการการค้นหาอาจต้องการตัวแปรสภาพแวดล้อม
- มุ่งเป้าไปที่นักพัฒนามากกว่าผู้ใช้ที่ไม่ใช่เทคนิค