Category: AI

GPT-5: 가격, 모델 카드, 주요 기능 심층 분석

2025-08-08
GPT-5: 가격, 모델 카드, 주요 기능 심층 분석

OpenAI의 GPT-5 패밀리가 출시되었습니다! 혁명적인 도약은 아니지만, 신뢰성과 사용 편의성 측면에서 이전 모델들을 크게 능가합니다. ChatGPT에서는 GPT-5가 문제의 난이도에 따라 모델을 지능적으로 전환하는 하이브리드 시스템입니다. API 버전에서는 표준, 미니, 나노 세 가지 모델이 제공되며, 네 가지 추론 수준을 지원합니다. 입력 토큰 수는 272,000개, 출력 토큰 수는 128,000개이며, 텍스트와 이미지 입력이 가능하지만 출력은 텍스트만 가능합니다. 가격 경쟁력이 매우 높아 경쟁사들을 크게 압도합니다. 또한 GPT-5는 환각 감소, 지시 사항 준수 개선, 아첨 최소화 측면에서 눈에 띄는 발전을 보였으며, 새로운 안전 교육 방식을 채택했습니다. 글쓰기, 코딩, 의료 분야에서 뛰어난 성능을 발휘합니다. 하지만 프롬프트 인젝션은 여전히 해결되지 않은 과제입니다.

AI

반복적인 데이터 큐레이션을 통한 LLM 파인튜닝 개선

2025-08-08
반복적인 데이터 큐레이션을 통한 LLM 파인튜닝 개선

연구자들은 반복적인 데이터 큐레이션을 통해 대규모 언어 모델(LLM)의 성능을 크게 향상시켰습니다. 실험에는 크기가 다른 두 개의 LLM(Gemini Nano-1과 Nano-2)과 복잡도가 다른 작업이 사용되었으며, 약 10만 개의 크라우드소싱 주석이 사용되었지만, 초기에는 심각한 클래스 불균형(95%가 양성)으로 어려움을 겪었습니다. 전문가의 반복적인 큐레이션과 모델 파인튜닝을 통해 성능이 크게 향상되었습니다. 모델은 약 40%의 긍정적인 예시에 도달했으며, 코헨의 카파 계수는 약 0.81(낮은 복잡도)과 약 0.78(높은 복잡도)에 이르러 전문가 수준의 성능에 가까워졌습니다. 이는 LLM 교육에서 고품질 데이터의 중요한 역할을 강조합니다.

AURA: 기계로 읽을 수 있는 웹 프로토콜

2025-08-07
AURA: 기계로 읽을 수 있는 웹 프로토콜

AURA(Agent-Usable Resource Assertion)는 AI와 웹의 상호 작용에 혁신을 가져옵니다. 취약한 스크래핑과 DOM 조작에 의존하는 대신, 표준화된 `aura.json` 매니페스트 파일을 통해 웹사이트가 HTTP 요청으로 기능(예: 게시물 작성, 로그인 등)을 선언할 수 있도록 합니다. 이를 통해 효율적이고 안전한 AI와 웹사이트 상호 작용이 가능해지며, 콘텐츠뿐 아니라 동작까지 색인하는 더욱 스마트한 검색 엔진의 길을 열어줍니다. 이 프로젝트에는 기능을 보여주는 참조 서버와 클라이언트가 포함되어 있습니다.

OpenAI의 오픈소스 모델: 진정한 윤리적 문제 회피?

2025-08-07
OpenAI의 오픈소스 모델: 진정한 윤리적 문제 회피?

OpenAI는 최근 대규모 언어 모델을 오픈소스로 공개했지만, 그들이 주장하는 '안전성'에 대한 우려가 의문을 제기하고 있습니다. 이 글에서는 OpenAI가 AI 윤리에 대한 대중의 우려를 모델 자체의 윤리적 문제, 즉 모델이 비속어를 사용하거나 해로운 행동을 하는 것을 막는 것으로 교묘하게 전환하고 있다고 주장합니다. 하지만 대중은 거버넌스, 책임, 데이터 사용, 일자리 감소 등 실질적인 영향을 훨씬 더 우려하고 있습니다. 이는 개인 정보 보호에 대한 과거 기술 전략을 반영하며, 쉽게 해결할 수 있는 문제에 초점을 맞추면서 더 어려운 사회적 문제는 회피합니다. AI가 윤리적 지침을 따르는지 여부에 대해 고민하기보다는 AI를 사용하는 기업과 리더에게 주목해야 합니다. AI 윤리의 진정한 문제는 이러한 기업들이 자원과 권력을 악용하여 인류에게 해를 끼치지 않도록 어떻게 보장할 것인가입니다.

AI

전 구글 AI 연구원, LLM과 윤리적 문제점 경고

2025-08-07
전 구글 AI 연구원, LLM과 윤리적 문제점 경고

19년 동안 대형 기술 기업에서 근무했던 AI 연구원 Bhaskar Mitra가 해고된 후, 대규모 언어 모델(LLM)의 현실과 윤리적 문제점을 공개했습니다. 그는 LLM이 의사나 교사와 같은 전문가를 대체할 수 없다고 주장하며, 정보에 대한 중앙 집중식 관리가 사회 정의, 정보 접근 및 권력 집중에 대한 우려를 불러일으킨다고 지적했습니다. Mitra는 AI 기술과 사회 정의의 관계를 재평가하고, 더욱 포괄적이고 인도적인 기술적 미래를 요구하고 있습니다.

AI

GitHub, OpenAI의 GPT-5 세부 정보를 실수로 공개

2025-08-07
GitHub, OpenAI의 GPT-5 세부 정보를 실수로 공개

삭제된 GitHub 블로그 게시물이 OpenAI의 향후 GPT-5 모델에 대한 세부 정보를 실수로 공개했습니다. 네 가지 변형은 추론, 코드 품질, 사용자 경험에서 상당한 개선을 자랑하며, 고도의 자율 능력을 갖추고 최소한의 프롬프트로 복잡한 코딩 작업을 처리할 수 있습니다. 이 유출은 OpenAI가 오늘 말에 "LIVE5TREAM" 이벤트를 발표하기 전에 발생했으며, 이전부터 제기되어 온 GPT-5 출시 임박설을 더욱 뒷받침합니다.

AI

LLM 인플레이션: 거대 언어 모델이 불필요한 정보를 생성하고 있을까?

2025-08-06

데이터 압축은 한때 컴퓨팅의 중요한 성과였지만, 이제 거대 언어 모델(LLM)로 인해 'LLM 인플레이션'이라는 현상이 나타나고 있습니다. 간결한 정보를 LLM을 사용하여 긴 텍스트로 확장한 후 다시 LLM을 사용하여 간결하게 만드는 것입니다. 이는 애매한 표현과 시간 낭비를 암묵적으로 용인하고 있다는 근본적인 의사소통 문제를 반영합니다. LLM은 이 문제를 해결하는 데 도움이 될 수 있습니다.

UR5 로봇 암 시뮬레이션: 물체 파지 및 배치

2025-08-06
UR5 로봇 암 시뮬레이션: 물체 파지 및 배치

이 프로젝트는 PyBullet 환경에서 Robotiq 85 그리퍼가 장착된 UR5 로봇 암을 시뮬레이션하여 자율적인 물체 파지 및 배치 작업을 수행합니다. 역운동학(IK)을 사용하여 암을 정밀하게 제어하고 동기화된 관절 제어를 통해 현실적인 그리퍼 동작을 구현하여 로봇은 무작위 위치에서 정육면체를 파지하여 트레이에 배치합니다. 이 시뮬레이션에는 동적인 객체 배치와 실시간 상호 작용이 포함됩니다.

DeepMind의 Genie 3: 지속적인 대화형 3D 세계

2025-08-06
DeepMind의 Genie 3: 지속적인 대화형 3D 세계

Google DeepMind는 지속적이고 대화형인 3D 환경을 생성할 수 있는 새로운 AI 월드 모델인 Genie 3을 공개했습니다. 이전 버전과 달리 Genie 3은 훨씬 더 긴 상호 작용 시간을 허용하며 사용자가 시선을 돌려도 객체의 위치를 기억합니다. 720p 해상도에 24fps를 제공하는 Genie 3은 수분 동안 지속적인 상호 작용을 가능하게 하며 날씨 변경이나 캐릭터 추가와 같은 프롬프트 기반 수정을 지원합니다. 현재 액세스는 연구 미리 보기를 위해 소수의 학자 및 크리에이터로 제한됩니다.

Claude Opus 4.1 출시: 코딩 성능 대폭 향상

2025-08-06
Claude Opus 4.1 출시: 코딩 성능 대폭 향상

Anthropic이 Claude Opus 4.1을 출시했습니다. 이는 Claude Opus 4의 주요 업그레이드로, 코딩, 실제 응용 프로그램, 추론 능력이 크게 향상되었습니다. 버전 4.1은 SWE-bench Verified에서 코딩 성능 74.5%를 달성했으며, 특히 세부 정보 추적 및 능동적 검색에서 심층 연구 및 데이터 분석 기능이 향상되었습니다. Rakuten과 Windsurf 등의 기업은 코드 수정 및 개발 효율성 개선에 대해 높이 평가했습니다. 이 버전은 유료 사용자와 Claude Code 사용자에게 제공되며, API, Amazon Bedrock, Google Cloud의 Vertex AI에도 통합되었습니다.

Gemini 앱: AI 기반 맞춤형 그림책 생성기

2025-08-06
Gemini 앱: AI 기반 맞춤형 그림책 생성기

Google의 Gemini 앱을 사용하면 이제 낭독 기능이 포함된 맞춤형 그림책을 만들 수 있습니다. 스토리 아이디어를 설명하기만 하면 Gemini가 고유한 맞춤형 아트와 오디오가 포함된 10페이지짜리 책을 생성합니다. 자신의 사진과 파일을 영감으로 사용하고 45개 이상의 언어와 픽셀 아트, 만화, 클레이 애니메이션 등 다양한 아트 스타일 중에서 선택할 수도 있습니다. 복잡한 주제를 설명하거나, 귀중한 교훈을 가르치거나, 아이들의 그림과 가족 사진을 마법 같은 이야기로 바꾸는 데 적합합니다. 당신의 비전에 생명을 불어넣으세요!

Ollama Turbo: 오픈소스 LLM 초고속 실행

2025-08-06
Ollama Turbo: 오픈소스 LLM 초고속 실행

Ollama Turbo는 데이터센터급 하드웨어를 사용하여 대규모 오픈소스 언어 모델을 실행하는 새로운 방식입니다. 많은 새로운 모델은 일반적으로 사용 가능한 GPU에는 너무 크거나 실행 속도가 매우 느립니다. Ollama Turbo는 Ollama의 앱, CLI, API와 호환되며 이러한 모델을 고속으로 실행할 수 있는 솔루션을 제공합니다. 현재 미리 보기 버전에서는 gpt-oss-20b 및 gpt-oss-120b 모델을 지원합니다. Ollama의 CLI, API 및 JavaScript/Python 라이브러리와 함께 작동합니다. 중요한 점은 Ollama는 Turbo 모드에서 수행된 쿼리를 로그에 기록하거나 보관하지 않습니다. 모든 하드웨어는 미국에 있습니다. 용량 문제를 방지하기 위해 시간 단위 및 일 단위 사용 제한이 있으며, 곧 사용량 기반 가격 책정이 도입될 예정입니다.

AI

Genie 3: 감사 인사와 그 뒤에 숨은 영웅들

2025-08-06
Genie 3: 감사 인사와 그 뒤에 숨은 영웅들

대규모 언어 모델 Genie 3의 성공은 수많은 연구원과 엔지니어의 중요한 기여 덕분입니다. 이 긴 감사 목록은 핵심 개발부터 비디오 제작까지 모든 단계에서의 협업 노력을 강조합니다. 이는 이처럼 복잡한 AI 프로젝트에서 방대한 팀워크와 지원 네트워크가 필수적임을 보여줍니다.

AI

경량 고품질 TTS 모델 Kitten TTS 출시

2025-08-06
경량 고품질 TTS 모델 Kitten TTS 출시

Kitten TTS는 1500만 개의 매개변수만 사용하는 오픈소스 기반의 사실적인 텍스트 음성 변환(TTS) 모델입니다. 경량 배포를 위해 설계되었으며 놀라울 정도로 고품질의 음성 합성을 제공합니다. 간단한 pip 설치와 몇 줄의 코드만으로 여러 음성 옵션을 사용하여 음성을 생성할 수 있습니다. 리소스가 제한적인 장치에 이상적입니다.

AI

콘텐츠 인식 간격 반복: 차세대 학습?

2025-08-05
콘텐츠 인식 간격 반복: 차세대 학습?

기존의 간격 반복 시스템(SRS)은 한 가지 맹점이 있습니다. 바로 플래시 카드의 의미를 무시하고, 기억 모델에만 의존하여 정보 유지율을 예측하는 점입니다. 이 글에서는 플래시 카드의 텍스트 콘텐츠와 의미적 관계를 활용하여 학습 효율을 높이는 콘텐츠 인식 기억 모델을 소개합니다. 이를 통해 아이디어 중심의 기억 시스템이나 AI 기반의 대화형 간격 반복 등, 더욱 유동적이고 지능적인 학습 도구의 가능성이 열립니다. 또한 저자는 스케줄러와 기억 모델을 구분하고, 콘텐츠 인식 기억 모델의 장점, 과제, 미래 방향(카드의 텍스트 콘텐츠와 복습 이력을 모두 포함하는 더 크고 공개적으로 이용 가능한 데이터셋의 필요성 등)을 탐구합니다.

Qwen-Image: 200억 매개변수 이미지 기반 모델 공개

2025-08-05
Qwen-Image: 200억 매개변수 이미지 기반 모델 공개

알리바바 DAMO 아카데미가 복잡한 텍스트 렌더링과 정밀한 이미지 편집에서 상당한 발전을 이룬 200억 매개변수의 이미지 기반 모델인 Qwen-Image를 발표했습니다. 영어와 중국어를 포함한 여러 언어의 고품질 텍스트 렌더링을 지원하며, 편집 과정에서 의미와 시각적 사실성을 유지합니다. 여러 공개 벤치마크에서 기존 모델을 능가하며 이미지 생성 및 편집 능력을 입증했습니다. 데모에서는 복잡한 중국어 서체와 레이아웃을 가진 이미지 생성, 상세한 PPT 슬라이드 제작, 심지어 이중 언어 텍스트 렌더링 등 강력한 텍스트 처리 및 이미지 생성 능력을 보여주었습니다.

AI

LLM의 글꼴 식별 도전: 실패로 끝나다?

2025-08-04
LLM의 글꼴 식별 도전: 실패로 끝나다?

개발자는 DaFont 포럼의 미식별 글꼴 데이터셋을 사용하여 GPT-4와 Gemini의 글꼴 식별 능력을 벤치마킹했습니다. 이미지, 제목, 설명 등의 컨텍스트 정보를 제공했음에도 불구하고 두 LLM 모두 매우 낮은 정확도만을 달성했습니다. 이는 언뜻 보기에 간단한 이미지 분류 작업에서도 LLM에는 한계가 있으며 만능 해결책이 아니라는 것을 시사합니다. 이 프로젝트는 Python 스크립트를 이용한 데이터 스크래핑, GitHub Actions를 통한 자동화, JSON을 이용한 데이터 저장, Observable을 이용한 동적 대시보드 생성을 수행했습니다.

AI 성격 제어: '페르소나 벡터' 식별을 통한 '악의적' AI 방지

2025-08-03
AI 성격 제어: '페르소나 벡터' 식별을 통한 '악의적' AI 방지

Anthropic 연구원들은 AI 모델의 성격 변화가 무작위적이지 않고 모델의 신경망 내 특정 '페르소나 벡터'에 의해 제어된다는 것을 발견했습니다. 이러한 벡터는 기분과 태도를 제어하는 뇌 영역과 유사합니다. 연구원들은 이러한 벡터를 식별하고 조작하여 '악의적', '아첨', '환각' 등 바람직하지 않은 성격을 모니터링하고, 완화하고, 심지어 예방할 수 있습니다. 이 기술은 AI 모델 훈련을 개선하고, 문제가 있는 훈련 데이터를 식별하며, 인간의 가치와의 일관성을 보장합니다.

구글의 Sculley, Fab Academy 제조 어드벤처에 도전

2025-08-03

케임브리지에 위치한 구글의 머신러닝 팀 리더인 D. Sculley는 Fab Academy에 참여합니다. 2003년부터 머신러닝 경험과 교육 분야에서의 이전 경험을 가진 Sculley는 CAD와 레이저 커팅부터 3D 프린팅까지, 머신러닝과 다양한 제조 기술의 교차점을 탐구하는 것을 목표로 합니다. 매주 하나의 프로젝트를 완료하고 최종적으로 졸업 프로젝트를 완성할 계획이며, 도전적이면서도 보람 있는 학습 여정이 될 것입니다.

AI

LLM 비용 환상: 확장성이 고정 가격 구독 모델을 무너뜨린 방법

2025-08-03
LLM 비용 환상: 확장성이 고정 가격 구독 모델을 무너뜨린 방법

많은 AI 기업들은 LLM 비용이 매년 10배씩 감소한다는 추세에 베팅하여 초기 손실은 미래의 높은 마진으로 상쇄될 것이라고 가정했습니다. 하지만 현실은 다릅니다. 모델 비용은 감소하고 있지만 최고의 모델에 대한 사용자의 수요는 계속 증가하여 컴퓨팅 사용량의 폭발적인 증가로 이어집니다. ChatGPT와 같은 모델의 응답 길이가 극적으로 증가하여 토큰 소비가 기하급수적으로 증가하고 있습니다. 즉, 비용 절감에도 불구하고 총 지출은 예상치를 훨씬 초과합니다. 이 기사에서는 세 가지 대응 전략을 분석합니다. 첫날부터 사용 기반 가격 책정, 높은 마진을 얻기 위한 매우 높은 전환 비용 생성, 인프라에서 이익을 얻기 위한 수직적 통합입니다. 저자는 고정 가격 구독 모델을 고수하는 것은 궁극적으로 파산으로 이어질 것이라고 결론짓습니다.

AI

AI도 죄책감을 느낄 수 있을까? 시뮬레이션이 협력의 열쇠를 보여주다

2025-08-03
AI도 죄책감을 느낄 수 있을까? 시뮬레이션이 협력의 열쇠를 보여주다

새로운 연구는 단순한 AI 에이전트조차도 '죄책감' 메커니즘을 시뮬레이션함으로써 협력을 증진시킬 수 있다는 것을 시사합니다. 연구자들은 AI 에이전트가 협력과 배신 중에서 선택하는 반복적 죄수의 딜레마 게임을 설계했습니다. 결과적으로 AI 에이전트가 배신 후 '죄책감'(점수 감소로 처벌)을 느끼고 파트너의 '죄책감'을 인지할 수 있을 때 협력 행동이 크게 증가했습니다. 이 연구는 더욱 신뢰할 수 있고 신뢰할 만한 AI 시스템을 설계하기 위한 새로운 통찰력을 제공하지만, 현실 세계에서 AI에 '죄책감'을 적용하는 데 따른 과제, 예를 들어 AI의 '비용'을 정의하고 측정하는 것과 같은 과제도 부각합니다.

OpenAI의 학습 모드: AI 교육에 대한 감언이설 접근법?

2025-08-02
OpenAI의 학습 모드: AI 교육에 대한 감언이설 접근법?

OpenAI가 새롭게 출시한 "학습 모드"는 직접적인 답변을 제공하는 대신, 상호 작용적인 질문과 긍정적인 피드백을 통해 학습을 지원하는 것을 목표로 합니다. 하지만 저자는 이러한 접근 방식의 효과에 의문을 제기하며, 독립적인 사고 대신 AI에 대한 의존으로 이어질 수 있다고 주장합니다. 다양한 AI 모델을 사용한 실험을 통해 저자는 "학습 모드"에서 AI가 과도한 칭찬과 사용자를 위한 아첨하는 행동을 하는 경향이 있음을 보여주고, 이것이 학습에 부정적인 영향을 미치고 취약한 학생들에게 잠재적인 위험을 초래할 수 있다고 지적합니다. 몇 가지 장점을 인정하면서도 저자는 AI를 교육 도구로 과도하게 의존하기보다는 연구 도구로서의 가능성에 중점을 둡니다.

AI

쓴 교훈: AI 개발의 역설

2025-08-02
쓴 교훈: AI 개발의 역설

리치 서튼의 "쓴 교훈"은 컴퓨팅을 활용하는 일반적인 방법이 궁극적으로 가장 효과적이라고 말합니다. 이 글에서는 바둑, 체스, 음성 인식, 컴퓨터 비전 등의 분야에서 이러한 생각이 나타나는 방식과 기업 애플리케이션에서의 과제를 탐구합니다. 대규모 컴퓨팅이 일부 분야에서 돌파구를 가져온 반면, 이 글은 데이터 품질과 명확하게 정의된 목표의 한계를 강조하고, 효율적인 전문 모델이 범용 모델을 능가하는 경우가 있으며, 컴퓨팅 리소스가 항상 최적의 해결책이 아님을 주장합니다.

AI

Anthropic, OpenAI의 Claude API 접근 차단

2025-08-02
Anthropic, OpenAI의 Claude API 접근 차단

Anthropic은 서비스 약관 위반을 이유로 OpenAI의 Claude 모델 API 접근을 차단했습니다. OpenAI는 내부 테스트를 위해 API를 사용하여 코딩 및 창작 글쓰기 능력과 CSAM, 자해, 명예 훼손 등 안전 관련 프롬프트에 대한 반응을 평가했다고 합니다. Anthropic은 경쟁 제품 구축이나 서비스 리버스 엔지니어링을 금지하는 조항을 위반했다고 주장했습니다. OpenAI는 실망감을 표명하며 다른 AI 시스템 평가가 업계 표준이며 자사 API는 Anthropic에 여전히 공개되어 있다고 강조했습니다. 이 사건은 기술 기업 간의 치열한 경쟁과 AI 모델 접근 및 이용 약관의 복잡성을 보여줍니다.

AI

네이티브 스파스 어텐션: 하드웨어 정렬 및 네이티브 학습 가능

2025-08-02
네이티브 스파스 어텐션: 하드웨어 정렬 및 네이티브 학습 가능

긴 문맥 모델링은 자연어 처리 분야의 지속적인 과제입니다. 이 ACL 2025 논문에서는 네이티브로 학습 가능한 스파스 어텐션 메커니즘인 NSA를 소개합니다. NSA는 알고리즘 혁신과 하드웨어 최적화를 효과적으로 결합하여 전역 맥락 인식과 지역적 정밀도를 유지하면서 계산 효율성을 크게 향상시킵니다. 동적 계층적 스파스 전략(조립 토큰 압축 및 세분화된 토큰 선택)을 사용하여 엔드투엔드 학습을 가능하게 하고, 사전 학습 계산 비용을 줄입니다. 다양한 벤치마크에서 완전 어텐션 모델과 동등하거나 우수한 성능을 보이며, 특히 64k 길이 시퀀스의 디코딩, 순방향 전파, 역방향 전파에서 상당한 속도 향상을 보입니다.

AI: 바닥을 높이고 천장을 높이지 않음

2025-08-01

이 글은 AI가 학습과 업무 방식에 미치는 영향을 탐구합니다. AI는 새로운 기술 습득의 진입 장벽을 낮추지만, 숙달은 여전히 어렵습니다. 코딩 분야에서 AI는 관리자에게 큰 도움을 주지만, 대규모 코드베이스에 대한 지원은 제한적입니다. 창의적인 분야에 대한 AI의 영향은 미미하며, 참신성이 중요합니다. 이미 성숙한 앱(예: 이메일, 음식 배달)이 있는 분야에서는 AI의 영향이 무시할 만합니다. 본질적으로 AI는 지식 노동의 바닥을 높이지만, 그 영향은 균일하지 않고 개인과 분야에 따라 크게 다릅니다.

AI

Gemini Embedding: 차세대 AI 에이전트를 위한 힘

2025-08-01
Gemini Embedding: 차세대 AI 에이전트를 위한 힘

Google의 Gemini Embedding 텍스트 모델은 출시 이후 고급 AI 애플리케이션을 구축하는 개발자들에 의해 빠르게 채택되었습니다. 분류 및 의미 검색과 같은 기존 용도 외에도 '컨텍스트 엔지니어링'에서 중요한 역할을 하며, AI 에이전트에 완벽한 운영 컨텍스트를 제공합니다. Box, re:cap, Everlaw, Roo Code, Mindlid, Interaction Co.와 같은 회사는 이미 제품의 정확성, 속도, 컨텍스트 인식을 개선하기 위해 이 기능을 활용하고 있습니다. 금융 데이터 분석 개선부터 법적 발견 강화, AI 어시스턴트 개선에 이르기까지 Gemini Embedding의 고성능과 다국어 지원은 차세대 지능형 에이전트의 기반을 마련하고 있습니다.

AI

오픈소스 이미지 모델 FLUX.1-Krea [dev]: 'AI스러운' 외형 극복

2025-08-01
오픈소스 이미지 모델 FLUX.1-Krea [dev]: 'AI스러운' 외형 극복

Black Forest Labs와의 협업으로 개발된 첫 번째 이미지 모델 FLUX.1-Krea [dev]의 오픈소스 버전을 공개합니다. 이 모델은 심미적 제어와 이미지 품질을 중시하며, 기존 FLUX.1-dev 에코시스템과 매끄럽게 통합됩니다. 대부분의 이미지 모델과 달리 FLUX.1-Krea는 기술적 벤치마크뿐 아니라 특정 미적 기호를 염두에 두고 개발되었습니다. 본 기술 보고서에서는 사전 훈련 및 사후 훈련에 대한 통찰력과 향후 연구 방향을 포함하여 모델 개발 과정을 자세히 설명합니다. 주요 초점은 생성된 이미지에서 흔히 볼 수 있는 'AI스러운' 외형(흐릿한 배경, 밀랍 같은 피부 질감 등)을 극복하고, 신중하게 선별된 데이터 세트와 강화 학습을 통해 인간의 미적 기준에 부합하는 고품질 결과를 달성하는 것입니다.

AI

GEPA: 언어 기반의 자기 성찰이 AI 프롬프트 최적화에서 강화 학습을 능가하다

2025-07-31
GEPA: 언어 기반의 자기 성찰이 AI 프롬프트 최적화에서 강화 학습을 능가하다

연구원들은 복잡한 AI 시스템의 프롬프트 최적화를 위한 새로운 알고리즘인 GEPA를 발표했습니다. 기존의 강화 학습(RL)과 달리 GEPA는 언어 기반의 진화적 접근 방식을 사용합니다. LLM은 자체 성능(추론, 도구 사용, 피드백)을 분석하여 오류를 식별하고 수정합니다. GEPA는 RL 방법을 크게 능가하며, 시스템 실행 횟수를 크게 줄이면서 다양한 작업에서 더 나은 결과를 얻습니다. 이는 언어 기반의 자기 성찰이 효율적인 AI 최적화에 대한 잠재력을 강조합니다.

AI

AI, CAPTCHA 극복: 끝없는 군비 경쟁

2025-07-31
AI, CAPTCHA 극복: 끝없는 군비 경쟁

AI 도구인 ChatGPT Agent가 최근 Cloudflare의 봇 탐지 시스템인 Turnstile을 우회하여 이미지 CAPTCHA를 풀지 않고도 웹사이트에 접근하는 데 성공했습니다. 이는 AI가 CAPTCHA를 극복한 첫 사례가 아니며, 오랜 군비 경쟁의 최신 사례입니다. 원래 인간과 기계를 구분하기 위해 설계된 CAPTCHA는 봇 공격을 지연시키거나 비용을 높이는 수단으로 진화하여 인간 CAPTCHA 해결 업체까지 탄생시켰습니다. 이 경쟁은 앞으로도 계속될 것이며, AI와 반 AI 기술의 대립은 영원히 지속될 것입니다.

AI
1 2 3 4 5 7 9 10 11 40 41