AI 개발 평가 : 퍼즐 솔루션 벤치 마크를 넘어서
AI 벤치 마크는 오랫동안 AI의 발전을 측정하는 표준이되어 시스템 기능을 평가하고 비교할 수있는 실질적인 방법을 제공했습니다. 그러나이 접근법이 실제로 AI 시스템을 평가하는 가장 좋은 방법입니까? Andrej Karpathy는 최근 X 플랫폼의 기사 에서이 접근법의 적절성에 의문을 제기했습니다. AI 시스템은 사전 정의 된 문제를 해결하는 데 능숙 해지지만 더 넓은 유용성과 적응성은 불확실합니다. 이것은 중요한 질문을 제기합니다. 우리는 퍼즐 해결 벤치 마크에만 집중하고있어 AI의 진정한 잠재력을 방해하고 있습니까?
나는 개인적 으로이 작은 퍼즐 벤치 마크에 대해 감기에 걸리지 않으며 아타리 시대에 돌아온 것처럼 느낍니다. 내가 더 집중하고있는 벤치 마크는 AI 제품의 총 연간 수익 (ARR)의 합계에 더 가깝지만 대부분의 상황을 포착하는 더 간단한/공공 지표가 있는지 확실하지 않습니다. 나는이 농담이 Nvidia를 언급한다는 것을 알고 있습니다.
- Andrej Karpathy (@karpathy) 2024 년 12 월 23 일
MMLU 및 접착제와 같은 LLM 벤치 마크는 의심 할 여지없이 NLP 및 딥 러닝에서 상당한 발전을 주도합니다. 그러나 이러한 벤치 마크는 종종 명확한 목표와 평가 기준으로 잘 정의 된 도전에 대한 복잡한 실제 문제를 줄입니다. 이 단순화는 연구에 실현 가능하지만 사회에 의미있는 영향을 미치는 데 필요한 더 깊은 능력을 가릴 수 있습니다.
Karpathy의 기사는 근본적인 문제를 강조합니다.“벤치 마크는 점점 더 퍼즐 게임이되고 있습니다. 많은 의견 제시 자들은 새로운 정의되지 않은 작업에 일반화하고 적응하는 능력이 좁게 정의 된 벤치 마크에서 잘 수행하는 것보다 훨씬 중요하다고 강조합니다.
또한 읽으십시오 : LLMS (Lange Models)를 평가하는 방법?
지표에 지나치게 적합합니다
AI 시스템은 특정 데이터 세트 또는 작업에서 잘 수행하도록 최적화되어 과적으로 적합합니다. 훈련 중에 벤치 마크 데이터 세트를 명시 적으로 사용하지 않더라도 데이터 유출이 발생할 수있어 모델이 실수로 벤치 마크 특정 패턴을 학습하게됩니다. 이는 더 넓은 범위의 실제 응용 프로그램에서 성능을 방해 할 수 있습니다. AI 시스템은 특정 데이터 세트 또는 작업에서 잘 수행하도록 최적화되어 과적으로 적합합니다. 그러나 이것이 반드시 실제 유틸리티로 해석되는 것은 아닙니다.
일반화 능력의 부족
벤치마킹 작업을 해결한다고해서 AI가 비슷한 약간 다른 문제를 처리 할 수 있다고 보장하지는 않습니다. 예를 들어, 이미지 자막 자막으로 훈련 된 시스템은 교육 데이터 외부에서 자막 설명을 처리하는 데 어려움이있을 수 있습니다.
좁은 작업 정의
벤치 마크는 일반적으로 분류, 번역 또는 요약과 같은 작업에 중점을 둡니다. 이러한 작업은 추론, 창의성 또는 윤리적 의사 결정과 같은 더 넓은 범위의 능력을 테스트하지 않습니다.
퍼즐 해결 벤치 마크의 한계는 AI를 평가하는 방식을 변경해야합니다. AI 벤치 마크를 재정의하는 몇 가지 권장 방법은 다음과 같습니다.
벤치 마크는 AI 시스템이 변화 조건에 적응 해야하는 정적 데이터 세트 대신 역동적 인 실제 환경을 취할 수 있습니다. 예를 들어, Google은 이미 세계의 대규모 모델 인 Genie 2와 같은 이니셔티브를 통해 이미 작업했습니다. 자세한 내용은 Deepmind 블로그 및 Analytics Vidhya의 기사에서 찾을 수 있습니다.
벤치 마크는 AI의 장기 계획 및 추론이 필요한 작업을 수행하는 능력을 테스트해야합니다. 예를 들어:
AI 시스템이 인간과 점점 더 상호 작용함에 따라 벤치 마크는 윤리적 추론과 사회적 이해를 측정해야합니다. 여기에는 AI 시스템의 책임있는 사용을 보장하기 위해 보안 조치 및 규제 보호 조치가 포함됩니다. 최근의 RED 팀 평가는 민감한 응용 프로그램에서 AI의 보안 및 신뢰성을 테스트하기위한 포괄적 인 프레임 워크를 제공합니다. 벤치 마크는 또한 AI 시스템이 민감한 데이터와 관련된 시나리오에서 공정하고 공정한 결정을 내리고 비전문가에게 투명하게 결정을 해석하도록해야합니다. 보안 조치 및 규제 보호 조치를 구현하면 AI 응용 프로그램에 대한 신뢰를 향상시키는 동시에 위험을 줄일 수 있습니다. 비 경험적.
벤치 마크는 AI가 여러 관련없는 작업에서 일반화 할 수있는 능력을 테스트해야합니다. 예를 들어, 단일 AI 시스템은 각 필드에 대한 특수 미세 조정이 필요없이 언어 이해, 이미지 인식 및 로봇 공학에서 잘 수행됩니다.
AI 필드가 계속 발전함에 따라 벤치 마크도 개발해야합니다. 퍼즐 해결 벤치 마크를 넘어서는 것은 실제 요구와 가치를 충족시키는 벤치 마크를 설계하기 위해 연구원, 실무자 및 정책 입안자 간의 협력이 필요합니다. 이러한 벤치 마크는 다음을 강조해야합니다.
Karpathy의 관찰로 인해 AI 벤치 마크의 목적과 디자인을 다시 생각하게되었습니다. 퍼즐 해결 벤치 마크는 놀라운 발전을 이끌어 냈지만 이제는 더 넓고 영향력있는 AI 시스템을 구현하는 것을 방해 할 수 있습니다. AI 커뮤니티는 AI의 진정한 잠재력을 잠금 해제하기 위해 테스트 테스트 적응성, 일반화 기능 및 실제 유틸리티를 벤치마킹해야합니다.
앞으로 나아가는 길은 쉽지 않지만 강력 할뿐만 아니라 진정으로 혁신적인 AI 시스템의 보상은 노력할 가치가 있습니다.
이것에 대해 어떻게 생각하십니까? 아래 의견 섹션에서 알려주십시오!
위 내용은 퍼즐 해결 벤치 마크에 대한 Andrej Karpathy의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!