VLM Run Hub: 간소화된 시각적 데이터 추출을 위한 사전 정의된 Pydantic 스키마

2025-02-20

VLM Run Hub는 이미지, 비디오, 문서와 같은 비정형 시각적 영역에서 구조화된 데이터를 추출하기 위한 사전 정의된 Pydantic 스키마의 포괄적인 저장소입니다. 비전 언어 모델(VLM)을 위해 설계되었으며 실제 사용 사례에 맞게 최적화되어 시각적 ETL을 워크플로에 통합하는 것을 간소화합니다. 청구서 메타데이터를 추출하기 위한 청구서 스키마 등 다양한 사전 정의된 스키마를 제공하며, OpenAI의 GPT-4o 및 Anthropic의 Claude Vision 등 여러 VLM을 지원합니다. Pydantic 스키마를 사용하면 정확하고 신뢰할 수 있는 데이터 추출이 보장되고 후속 워크플로가 간소화됩니다.

(github.com)

개발

대량 해고 이후 US DOGE 서비스 데이터 과학 책임자 사임

혁신적인 알고리즘: '도서관 정렬 문제' 해결