MS, 차세대 브라우저 에이전트 ‘파라1.5’ 공개…오픈AI·구글 성능 추월

핵심 요약

마이크로소프트(MS)는 2026년 5월 21일(현지시간) 웹 브라우저를 직접 제어해 사용자를 대신해 온라인 작업을 수행하는 차세대 AI 에이전트 모델 ‘파라1.5(Fara1.5)’를 공개했다. 이 모델은 픽셀 기반 입력을 받아 마우스·키보드 동작을 생성하는 방식으로 동작하며, 일부 벤치마크에서 오픈AI·구글의 최신 에이전트들을 앞서는 성능을 보였다. 파라1.5는 4B·9B·27B 등 3개 크기로 발표됐고, 최상위 모델은 벤치마크 성공률 72%를 기록했다. MS는 안전성·감사 가능성 강화와 함께 향후 데스크톱·기업 소프트웨어 제어로 적용 범위를 넓힌다고 밝혔다.

핵심 사실

  • 공개일: 2026년 5월 21일(현지시간), 발표 주체는 마이크로소프트(MS).
  • 모델명·구성: 파라1.5(4B, 9B, 27B) — 최고 등급은 파라1.5-27B.
  • 주요 벤치마크: ‘온라인-마인드2웹’에서 파라1.5-27B는 작업 성공률 72%를 기록.
  • 경쟁 성능 비교: 같은 벤치마크에서 오픈AI 오퍼레이터 58.3%, 구글 제미나이 2.5 CUA 57.3%, 유토리 네비게이터 n1 64.7%로 보고됨.
  • 중간급 성능: 파라1.5-9B는 온라인-마인드2웹에서 63.4%를 기록, 이전 세대 파라-7B(34.1%)보다 약 두 배 개선.
  • 웹 브라우징 벤치마크 ‘웹보이저’에서는 27B가 88.6%, 9B가 86.6%로 동급 공개 모델을 상회.
  • 학습·데이터: 약 200만 개 샘플로 학습했으며 이 중 60%는 실제 웹 탐색 경로 기반 데이터.
  • 안전·환경: 로그인·이메일 발송 같은 민감 작업은 합성 환경 ‘파라엔브스(FaraEnvs)’에서 생성된 데이터로 학습, 행동 기록·감사 기능과 샌드박스 분리 설계 적용.

사건 배경

웹을 직접 제어하는 ‘에이전트형’ AI는 지난 몇 년간 연구·상용화가 빠르게 진행됐다. 단순 텍스트 생성 모델을 넘어 실제 브라우저나 애플리케이션을 조작하는 기술은 사용자 편의성을 크게 높이는 장점이 있지만, 동시에 보안·프라이버시·비가역적 작업 리스크를 동반한다. 기업들은 이 균형을 맞추기 위해 합성 환경에서의 안전 학습, 감사 가능성 확보, 사용자 승인 프로세스 등을 연구·적용해 왔다.

MS 역시 이전 세대 모델을 통해 웹 작업 자동화 가능성을 실험해 왔고, 이번 파라1.5는 그 연장선에 있다. 경쟁사인 오픈AI와 구글도 유사한 브라우저 제어 에이전트를 개발·공개해 왔으며, 벤치마크 경쟁은 에이전트 신뢰성·정확성 지표를 중심으로 치열하게 전개되고 있다. 시장 관측통들은 실사용 환경에서의 안전성과 실제 서비스 연동 가능성이 향후 채택을 좌우할 핵심 변수라고 본다.

주요 사건

MS는 파라1.5를 자사 샌드박스 브라우저 인터페이스 ‘마젠틱라이트(MagenticLite)’와 통합해 발표했다. 모델은 브라우저 화면을 스크린샷 형태로 받아들여 최근 3장의 화면과 대화 기록을 고려, 관찰-사고-행동(observe-think-act) 루프를 통해 다음 행동을 예측하고 실행한다. 이 과정에서 단순 클릭·타이핑을 넘는 ‘메타 액션’ 기능을 제공, 필요한 개인정보가 부족할 때 사용자에게 질의하거나 중요한 비가역 작업 시 승인을 요구하도록 설계됐다.

학습 파이프라인에는 합성 환경 ‘파라엔브스’가 활용됐다. 파라엔브스는 메일·캘린더·스트리밍·예약 등 6개 가상 웹 환경을 갖춰, 이메일 전송·예약 완료처럼 실제 인터넷에서 수행하기 위험한 행동을 안전히 학습하게 한다. 이 환경은 깃허브 코파일럿 CLI와 사람의 검수를 조합해 구축됐고, 각 환경은 실서비스와 유사한 UI·DB 구조를 모사한다.

데이터 생성 과정에서는 다른 AI 모델도 사용됐다. MS는 교사 모델(데이터 생성용 솔버)로 GPT-5.4를 활용해 파라1.5와 동일한 행동 공간에서 시연 데이터를 생성했고, 이 솔버는 온라인-마인드2웹에서 83% 성능을 보였다고 공개했다. MS는 또한 행동 로그를 모두 기록해 감사 가능하도록 하고, 브라우저와 사용자 시스템을 샌드박스로 분리해 보안 리스크를 낮췄다.

분석 및 의미

벤치마크 상 파라1.5의 우수한 성적은 모델 설계(픽셀 투 액션), 대규모의 실탐색 기반 데이터, 합성 환경을 통한 안전 학습의 결합 효과로 해석된다. 특히 27B 모델의 온라인-마인드2웹 72% 성공률은 동종 과제에서 기존 공개 모델 대비 유의미한 격차를 만들었다. 다만 벤치마크는 통제된 평가 조건을 전제로 하므로 실사용 환경의 복잡성·악의적 입력·예상치 못한 UI 변화에 대한 강건성은 별도 검증이 필요하다.

기업용·소비자용 적용 관점에서 파라1.5는 업무 자동화의 범위를 넓힐 잠재력을 가진다. 상품비교·예약·이메일 처리 같은 반복 업무를 대체하면 생산성 향상이 가능하지만, 인증·결제·민감정보 처리 상황에서의 책임 소재·안전장치가 관건이다. MS가 사용자 승인을 의무화하고 샌드박스·감사 로그를 도입한 것은 이러한 리스크를 줄이기 위한 설계 선택으로 보인다.

국내외 파급효과는 기술 확산 속도 및 규제 대응에 좌우될 전망이다. 규제 당국은 자동화 에이전트의 권한 범위, 개인정보 처리 방식, 비가역적 작업의 승인 요건 등에 관해 명확한 가이드라인을 요구할 가능성이 크다. 기업 고객은 자체 보안 정책과 외부 규제를 동시에 충족시키는 통합 솔루션 도입을 검토할 필요가 있다.

비교 및 데이터

모델 온라인-마인드2웹 성공률 웹보이저 점수
파라1.5-27B 72.0% 88.6%
파라1.5-9B 63.4% 86.6%
파라-7B (이전 세대) 34.1%
오픈AI 오퍼레이터 58.3%
구글 제미나이 2.5 CUA 57.3%
유토리 네비게이터 n1 64.7%
GPT-5.4 솔버(데이터 생성용) 83.0% (솔버 성능)

위 표는 MS가 공개한 벤치마크 수치를 바탕으로 재구성한 비교표다. 벤치마크 간 평가 조건과 데이터 세트가 상이할 수 있어 절대적 순위 판단에는 주의가 필요하다. 특히 웹보이저와 온라인-마인드2웹은 측정 대상·작업 정의·환경 차이로 직접 비교 시 해석 오류가 발생할 수 있다.

반응 및 인용

“MagenticLite를 위한 새 UI와 함께 파라1.5는 소형 모델에서 새로운 성능 기준을 제시한다.”

Microsoft AI Frontiers (공식 트윗·발표 요지)

MS 공식 채널은 파라1.5와 마젠틱라이트의 결합을 통해 작은 모델에서도 에이전트형 경험을 구현할 수 있다고 설명했다. 발표문과 트윗은 모델의 성능뿐 아니라 안전성 설계(사용자 승인·감사 로그)를 강조했다.

“합성 환경을 통한 비가역적 작업 학습은 실제 인터넷에서 발생할 위험을 줄이는 실용적 대안이다.”

MS 발표 자료(공식 기술문서 요지)

MS는 파라엔브스와 사람 검수를 결합한 데이터 생성 워크플로를 공개하며, 실제 서비스와 유사한 환경에서 안전하게 학습했다고 설명했다. 이는 특히 이메일·예약 등 민감 작업의 처리 학습에 초점을 맞췄다.

불확실한 부분

  • 실환경 일반화: 벤치마크 점수가 실제 사용자 환경의 모든 변수(예: 비표준 UI, 동적 콘텐츠, 악의적 조작)에 대해 동일한 강건성을 보장하는지는 확인되지 않았다.
  • 민감 작업의 실제 실행: 파라엔브스에서 학습한 정책이 실제 인터넷 서비스와 연동될 때 보안·법적 문제가 어떻게 관리될지는 추가 검증이 필요하다.
  • GPT-5.4 역할 범위: 교사 모델로서 GPT-5.4가 생성한 데이터의 구체적 검수 기준과 편향·오류 통제 방식에 대한 상세 설명은 공개 자료만으로는 완전히 파악되지 않는다.

총평

파라1.5 공개는 에이전트형 AI의 성능 경쟁에서 MS가 유의미한 발걸음을 내디뎠음을 보여준다. 벤치마크 수치는 모델·데이터·환경 설계의 조합이 성능 향상에 직결함을 시사하지만, 통제된 테스트와 실사용 조건 사이의 간극을 좁히는 것이 향후 관건이다.

기업·개발자는 파라1.5가 제공하는 자동화 이점을 평가하는 동시에 인증·보안·감사 체계를 강화해야 한다. 규제와 사용자 신뢰 측면에서 MS의 샌드박스·승인 절차는 긍정적이지만, 실제 배포 전 광범위한 필드 테스트와 외부 평가가 필요하다.

출처

댓글 남기기