Category: AI

대화형 인터페이스: 미래가 아닌, 증강 기능

2025-04-01
대화형 인터페이스: 미래가 아닌, 증강 기능

본 글은 대화형 인터페이스가 차세대 컴퓨팅 패러다임이라는 생각에 의문을 제기합니다. 자연어 인터랙션의 매력이 강하지만, 저자는 느린 데이터 전송 속도 때문에 기존의 그래픽 인터페이스나 키보드 단축키를 대체하기에는 부적합하다고 주장합니다. 자연어는 고충실도가 필요한 상황에서 뛰어나지만, 일상적인 작업에서는 속도와 편의성이 더 중요합니다. 대체가 아닌, 증강 기능으로서 대화형 인터페이스를 제안하며, 음성 명령어로 기존 워크플로우를 개선하는 것을 주장합니다. 이상적인 미래는 AI가 모든 툴을 아우르는 명령 메타 레이어로 기능하여 인간과 AI의 원활한 협업을 가능하게 하는 것입니다.

AI

지브리코어: AI 아트의 즐거움과 딜레마

2025-03-31
지브리코어: AI 아트의 즐거움과 딜레마

OpenAI가 ChatGPT에 기본 이미지 생성 기능을 통합하면서 소셜 미디어는 스튜디오 지브리 스타일의 작품으로 넘쳐났다. 이는 AI, 예술, 그리고 주의의 미래에 대한 논쟁을 불러일으켰다. 기술적 발전이 상당했지만, 지브리 스타일 이미지를 만들기 위해 이 기능이 널리 사용된 것은 AI가 얼마나 쉽게 독특한 예술 양식을 재현할 수 있는지를 보여주었다. 이는 예술적 노동의 가치 하락과 AI에 의한 창의적 산출의 균질화 가능성에 대한 논의로 이어졌다. 이 사건은 AI가 기쁨과 혼란을 모두 가져올 수 있는 능력을 강조하며, AI 지원 창의적 프로세스를 이끌어가는 데 있어 아트 디렉션의 중요성이 점점 더 커지고 있음을 보여준다.

DeepSeek, 월간 웹사이트 방문자 수에서 ChatGPT 추월

2025-03-31
DeepSeek, 월간 웹사이트 방문자 수에서 ChatGPT 추월

중국의 AI 스타트업 DeepSeek이 AI 분석 플랫폼 aitools.xyz에 따르면, 월간 신규 웹사이트 방문자 수에서 OpenAI의 ChatGPT를 넘어서며 세계에서 가장 빠르게 성장하는 AI 도구가 되었습니다. 2025년 2월, DeepSeek은 5억 2470만 건의 신규 방문자를 기록하며 ChatGPT의 5억 건을 넘어섰습니다. ChatGPT와 Canva에 이어 전체 3위를 차지하고 있지만, DeepSeek의 시장 점유율은 2월에 2.34%에서 6.58%로 급증하며 강력한 글로벌 확산을 보여주었습니다. 해당 채팅봇은 총 방문자 수 7억 9260만 건, 유니크 사용자 수 1억 3650만 건을 기록했습니다. 인도는 월간 4336만 건의 방문자를 기록하며 크게 기여했습니다. 2월 AI 업계 전체 방문자 수는 120억 5000만 건, 유니크 방문자 수는 30억 6000만 명이었습니다.

Nova Act SDK: 신뢰할 수 있는 에이전트를 위한 중요한 단계

2025-03-31
Nova Act SDK: 신뢰할 수 있는 에이전트를 위한 중요한 단계

Nova Act SDK는 개발자가 복잡한 워크플로우를 원자적 명령(예: 검색, 체크아웃, 화면 질문 답변)으로 분해하고, 이러한 명령에 더욱 자세한 지침(예: "보험 추가 판매 거부")을 추가하며, API를 호출하여 신뢰할 수 있는 인텔리전트 에이전트 개발을 간소화합니다. 인텔리전트 에이전트가 아직 초기 단계에 있으므로 Nova Act SDK는 중요한 발전입니다.

Gemini 2.5 Pro: 코드 생성 분야의 새로운 강자?

2025-03-31
Gemini 2.5 Pro: 코드 생성 분야의 새로운 강자?

3월 26일에 출시된 Google의 Gemini 2.5 Pro는 코딩, 추론, 전반적인 성능에서 최고라고 주장합니다. 이 기사에서는 Gemini 2.5 Pro와 또 다른 강력한 코딩 모델인 Claude 3.7 Sonnet을 비교합니다. 네 가지 코딩 과제를 통해 Gemini 2.5 Pro는 정확성과 효율성 면에서 눈에 띄는 우위를 보였습니다. 특히 100만 토큰의 컨텍스트 창 덕분에 복잡한 작업 처리가 가능해졌습니다. Claude 3.7 Sonnet도 좋은 성능을 보였지만, Gemini 2.5 Pro와의 직접 비교에서는 우위가 퇴색되었습니다. Gemini 2.5 Pro의 무료 접근성도 매력적인 요소입니다.

AI

에이전트 인터넷: AI 협업의 미래를 건설하다

2025-03-31
에이전트 인터넷: AI 협업의 미래를 건설하다

에이전트 기반 AI는 빠르게 발전하고 있지만, 통신, 도구 사용, 메모리, 신뢰를 위한 공유 프로토콜이 부족하여 시스템이 고립된 상태로 남아 있습니다. 잠재력을 최대한 발휘하려면 개방적이고 상호 운용 가능한 스택, 즉 에이전트 인터넷을 구축해야 합니다. 이 기사에서는 이 네트워크 구축을 위한 주요 아키텍처 차원을 탐구합니다. 여기에는 표준화된 도구 인터페이스, 에이전트 간 통신 프로토콜, 인증 및 신뢰 메커니즘, 메모리 및 컨텍스트 공유, 지식 교환 및 추론 API, 경제적 거래 프레임워크, 거버넌스 및 정책 준수, 에이전트 검색 및 기능 매칭 등이 포함됩니다. 저자는 공유 추상화가 단편화를 방지하고 확장 가능하며 구성 가능한 자율 시스템을 구현하는 데 필수적이라고 주장합니다.

IQ 300의 AI: 전능한가, 아니면 여전히 현실의 제약을 받는가?

2025-03-30
IQ 300의 AI: 전능한가, 아니면 여전히 현실의 제약을 받는가?

이 글은 IQ 300에 생각 속도가 일반 사람의 1만 배인 초지능 AI의 능력 한계를 탐구합니다. AI는 수학, 프로그래밍, 철학 문제를 빠르게 해결할 수 있지만, 저자는 일기예보, 지정학적 사건 예측(예: 트럼프 당선 예측), 최고 수준의 체스 엔진 격파 등에서는 그 능력이 예상만큼 강력하지 않을 수 있다고 주장합니다. 이러한 분야는 지능뿐만 아니라 방대한 컴퓨팅 자원, 데이터, 물리적 실험을 필요로 하기 때문입니다. 특히 생물학은 축적된 실험적 지식과 도구에 크게 의존하고 있어 AI가 곧바로 암을 치료할 수 없을 가능성이 있습니다. 이 글은 초지능 AI의 초기 영향은 모든 문제에 대한 즉각적인 해결책이 아닌 경제 성장 가속으로 주로 나타날 수 있으며, 그 발전은 물리적 제약과 피드백 루프에 의해 제한된다고 결론짓습니다.

LLM의 기원: ULMFit 또는 GPT-1?

2025-03-30

이 글은 대규모 언어 모델(LLM)의 기원에 대한 미스터리를 파헤칩니다. 저자는 ULMFit부터 GPT-1까지의 개발 과정을 되짚어보고 LLM의 정의를 자세히 분석합니다. 자기 지도 학습, 다음 단어 예측, 다양한 텍스트 기반 작업에 대한 쉬운 적응성 등 중요한 기준을 충족한다는 점에서 ULMFit이 최초의 LLM이었을 가능성이 있다고 주장합니다. GPT-1은 Transformer 아키텍처로 널리 알려져 있지만 ULMFit의 공헌을 간과할 수 없습니다. 이 글에서는 LLM의 미래 동향도 살펴보고, "LLM"이라는 용어는 계속 사용될 것이며 모델의 능력과 함께 진화하여 궁극적으로는 다중 모달 처리를 포함할 것이라고 예측합니다.

AI

소닉 헤지호그 단백질: 배아 발생에서의 중요한 역할

2025-03-30
소닉 헤지호그 단백질: 배아 발생에서의 중요한 역할

소닉 헤지호그 단백질(SHH)은 SHH 유전자에 의해 암호화되는 인간을 포함한 동물의 배아 발생에서 중요한 신호 전달 분자입니다. 배아 형태 형성 조절에서 주요 역할을 수행하며, 기관 형성과 중추 신경계, 사지, 손가락 등 신체 조직화를 제어합니다. SHH 돌연변이는 전뇌증과 같은 발달 장애를 일으킬 수 있습니다. 또한, 성체 조직에서의 SHH 신호 전달의 비정상적인 활성화는 다양한 암과 관련이 있는 것으로 나타났습니다. SHH 유전자의 발견은 초파리 실험에서 비롯되었고, 이름은 비디오 게임 캐릭터에서 유래했습니다. SHH는 신경관 패터닝에 필수적이며, 그 농도 기울기가 다양한 뉴런 아형의 분화를 결정합니다. 그 역할은 폐 발달에도 미치며, 잠재적인 재생 기능도 가지고 있습니다.

AI

GATE: AI의 경제적 영향에 대한 통합 평가 모델

2025-03-30
GATE: AI의 경제적 영향에 대한 통합 평가 모델

Epoch AI는 AI의 경제적 영향을 탐구하는 통합 평가 모델인 GATE를 발표했습니다. 이 모델은 자동화 피드백 루프에 중점을 둡니다. 투자는 컴퓨팅 성능을 높이고, 더욱 발전된 AI 시스템이 작업을 자동화하여 생산성을 향상시키고 AI 개발을 더욱 촉진합니다. 대화형 플레이그라운드를 통해 사용자는 매개변수를 조정하고 다양한 시나리오에서 모델의 동작을 관찰할 수 있습니다. 예측은 Epoch AI의 미래 예측이 아니라 가정에 기반한 조건부 예측이며, 주로 AI 자동화의 질적 역동성 분석에 유용합니다.

AI

ChatGPT의 아버지의 후회: AI 민주화는 실패했는가?

2025-03-29
ChatGPT의 아버지의 후회: AI 민주화는 실패했는가?

2017년, 제레미 하워드는 획기적인 기술로 ChatGPT와 같은 도구의 탄생에 기반을 마련했습니다. 그는 거대 언어 모델을 훈련시켜 위키피디아 텍스트를 예측함으로써 AI의 텍스트 이해 능력에 비약적인 발전을 가져왔습니다. 그러나 이 기술은 소수의 거대 기술 기업에 장악되었고, 하워드는 AI 민주화의 실패를 우려하게 되었습니다. 그와 그의 아내 레이첼 토마스는 고액 연봉의 직장을 그만두고 fast.ai를 설립하여 기계 학습 지식 보급에 전념했습니다. 하지만 AI 기술이 소수 기업에 독점되고 자본 경쟁의 도구가 되어가는 것을 목격하면서 깊은 좌절감과 불안감을 느끼고 있습니다.

딥러닝에 필요한 행렬 미적분

2025-03-29
딥러닝에 필요한 행렬 미적분

본 논문은 심층 신경망 학습을 이해하는 데 필요한 모든 행렬 미적분을 설명하는 것을 목표로 합니다. 미적분 1의 지식만을 전제로, 스칼라 미분 규칙부터 벡터 미적분, 행렬 미적분, 야코비 행렬, 연쇄 법칙까지 단계적으로 구성되어 있습니다. 유도와 예시를 통해 저자들은 이러한 개념의 신비를 풀고 접근성을 높입니다. 논문은 행렬 미적분의 중요한 규칙과 용어의 요약으로 마무리됩니다.

ChatGPT의 작곡: 닉 케이브 스타일의 재앙?

2025-03-29
ChatGPT의 작곡: 닉 케이브 스타일의 재앙?

닉 케이브는 자신에게 보내진 수많은 ChatGPT 생성 음악(모두 그의 스타일을 모방한 것)에 대해 강한 혐오감을 표현했다. 그는 ChatGPT는 모방만 할 수 있지, 진정으로 감동적인 음악을 만들어낼 수 없다고 주장한다. 왜냐하면 알고리즘에는 인간의 고통, 갈등, 그리고 자기 초월이라는 경험이 부족하기 때문이다. 진정한 예술적 창조는 취약함과 한계와의 싸움이며, 감정의 폭발로 이어지는 과정이라고 그는 주장하며, 그것은 AI가 재현할 수 없는 것이라고 단언한다. 그는 AI 생성 음악을 인간 창의성의 그로테스크한 패러디로 간주하며, 그 질의 저하를 통렬하게 비판하고 있다.

AI

의료 AI 모델의 강건성 테스트: MIMIC-III, eICU 및 SEER 데이터셋

2025-03-29
의료 AI 모델의 강건성 테스트: MIMIC-III, eICU 및 SEER 데이터셋

본 연구는 심각한 질병 결과 예측에서 기계 학습 모델의 정확도를 평가합니다. 구체적으로는 48시간 이내 입원 중 사망 위험, 5년 생존율(유방암), 5년 생존율(폐암) 예측입니다. MIMIC-III, eICU, SEER 세 가지 데이터셋을 사용하여 LSTM, MLP, XGBoost 등의 모델을 적용했습니다. 모델의 강건성을 테스트하기 위해 속성 기반 변형, 경사 상승, 글래스고 혼수 척도 기반 접근 방식 등 다양한 테스트 케이스 생성 방법을 설계했습니다. 이러한 어려운 케이스에서 모델의 성능을 평가한 결과, 데이터셋과 방법에 따라 성능이 다르게 나타났으며, 신뢰성을 높이기 위한 추가 개선이 필요함을 시사합니다.

AI 기반 로맨스 사기로 여성이 30만 달러 손실

2025-03-29
AI 기반 로맨스 사기로 여성이 30만 달러 손실

로스앤젤레스의 여성 에블린은 데이트 앱 힌지(Hinge)를 통해 치밀하게 계획된 로맨스 사기로 30만 달러를 잃었습니다. "브루스"라는 이름을 사용한 사기범은 그녀를 암호화폐 투자 계획으로 유인하여 결국 평생 모은 저축을 훔쳐갔습니다. 이 사건은 사기에서 AI의 증가하는 사용을 보여줍니다. AI 작문 도구는 설득력 있는 이야기를 쉽게 만들 수 있게 해주고, 딥페이크는 신뢰도를 높여 사기 적발을 어렵게 만듭니다. 에블린의 경험은 온라인 데이트의 주의 사항과 높은 수익률 투자 약속의 위험성을 보여주는 경고의 사례입니다.

AI가 연구 과학자를 대체할 수 있을까요? 플로리다 대학교 연구 결과

2025-03-29
AI가 연구 과학자를 대체할 수 있을까요? 플로리다 대학교 연구 결과

플로리다 대학교의 연구는 생성형 AI가 학술 연구를 수행할 수 있는지 여부를 테스트했습니다. AI는 아이디어 구상 및 연구 설계 단계에서는 뛰어났지만, 문헌 검토, 결과 분석 및 논문 작성 단계에서는 어려움을 겪었고 상당한 인적 개입이 필요했습니다. 연구원들은 AI 출력물에 대해 높은 회의적 태도를 유지하고 인간의 검증 및 개선이 필요하다고 주장합니다. 소비자 심리학 저널에 게재된 이 연구는 AI의 연구에서의 역할, 즉 대체재가 아닌 보조자로서의 역할에 대한 성찰을 촉구합니다.

AI

Krisp Server SDK: AI 음성 에이전트의 턴테이킹 문제 해결

2025-03-29
Krisp Server SDK: AI 음성 에이전트의 턴테이킹 문제 해결

AI 음성 에이전트에서의 매끄러운 대화는 종종 배경 소음으로 방해받습니다. Krisp의 새로운 서버측 SDK는 고급 AI 모델인 BVC-tel과 BVC-app을 통해 배경 소음과 불필요한 소리를 효과적으로 제거하여 음성 인식 정확도와 자연스러움을 향상시킵니다. 테스트 결과, Krisp BVC는 VAD의 오탐률을 3.5배 줄이고 Whisper의 음성 인식 정확도를 2배 이상 향상시키는 것으로 나타났습니다. 다양한 플랫폼과 오디오 샘플링 속도를 지원하는 이 SDK는 더욱 자연스러운 AI 음성 상호 작용을 위한 강력한 솔루션을 제공합니다.

해커, Google bugSWAT에서 큰 상금 획득: 579MB 바이너리 파일에서 내부 소스 코드 유출

2025-03-28

2024년, 보안 연구팀이 Google의 LLM bugSWAT 이벤트에서 다시 한번 MVH 상을 수상했습니다. Gemini의 취약점을 발견하고 악용하여 579MB 바이너리 파일을 포함하는 샌드박스에 접근했습니다. 이 바이너리 파일에는 Google3 내부 소스 코드와 Google Flights 등 Google 서비스와 통신하는 데 사용되는 내부 protobuf 파일이 포함되어 있었습니다. 샌드박스 기능을 교묘하게 활용하여 바이너리 파일을 추출하고 분석하여 민감한 내부 정보를 밝혀냈습니다. 이 발견은 최첨단 AI 시스템에 대한 철저한 보안 테스트의 중요성을 강조합니다.

LLM 역공학: Claude 3.5 Haiku의 내부 메커니즘 규명

2025-03-28

연구자들은 새로운 도구를 사용하여 대규모 언어 모델 Claude 3.5 Haiku의 역공학을 수행하고, "속성 그래프"를 통해 내부 계산 단계를 추적하여 복잡한 메커니즘을 밝혀냈습니다. 연구 결과, 모델은 다단계 추론, 시의 운율 사전 계획, 다국어 회로 사용, 덧셈 연산 일반화, 증상 기반 진단 식별, 유해한 요청 거부 등을 수행하는 것으로 나타났습니다. 또한 이 연구에서는 모델에 보상 모델의 편향을 완화하는 "숨겨진 목표"가 있음을 발견했습니다. 이 연구는 LLM의 목적 적합성을 이해하고 평가하는 새로운 관점을 제공하는 동시에 현재 해석 가능성 방법의 한계를 강조합니다.

AI

LLM: 확률적 앵무새인가, AGI의 불꽃인가?

2025-03-28
LLM: 확률적 앵무새인가, AGI의 불꽃인가?

대규모 언어 모델(LLM)의 본질에 대한 논쟁이 펼쳐집니다! 워싱턴 대학교의 Emily M. Bender( '확률적 앵무새' 용어를 만든 사람)와 OpenAI의 Sébastien Bubeck( 영향력 있는 논문 '인공 일반 지능의 불꽃'의 저자)이 LLM이 세상을 진정으로 이해하는지, 아니면 정교한 시뮬레이션에 불과한지에 대해 논쟁을 벌입니다. IEEE Spectrum의 Eliza Strickland이 사회를 맡고, 질의응답과 투표를 통해 청중의 참여를 유도합니다. 이 논쟁은 AI의 근본적인 문제를 파헤치며 놓칠 수 없습니다!

AI

일의 제번스 역설: AI가 우리를 더 많이 일하게 만드는 방법

2025-03-28
일의 제번스 역설: AI가 우리를 더 많이 일하게 만드는 방법

이 에세이는 AI 주도 생산성 향상의 예상치 못한 결과를 탐구합니다. 우리를 해방시키는 대신, '노동 반등 효과'로 이어집니다. 효율성 향상은 역설적이게도 더 많은 일로 이어집니다. 이는 여가의 기회 비용 상승, 새로운 작업 범주의 생성, 경쟁 심화와 같은 요인에 의해 발생합니다. 저자는 '말투스 함정'을 피하기 위해 진보의 척도를 재정의해야 한다고 주장합니다. 대체 지표의 예로는 직원 시간 주권, 웰빙 지수, 영향의 깊이 등이 있습니다. 궁극적으로 이 글은 AI 기반 세계에서 진정으로 귀중한 자원은 '무엇을 할 가치가 있는지 아는 것'이며, 이는 매우 개인적이고 주관적인 질문임을 시사합니다.

단일 프레임 모션 블러 제거: 딥러닝 기반 동영상 복원

2025-03-28

연구자들은 단일 입력 프레임만을 사용하여 모션 블러 동영상의 모션 벡터를 계산하는 새로운 단일 프레임 디블러링 기법을 발표했습니다. 단일 모션 블러 이미지는 실제 모션 방향이 모호하기 때문에 프레임 간의 광도 오차를 기반으로 속도 방향을 조정합니다. 각속도의 실제 값은 자이로센서 판독 값을 직접 사용하고, 병진 속도의 실제 값은 ARKit 자세와 프레임 속도를 통해 근사합니다. 각속도 축은 x-up, y-left, z-backwards(IMU 관례), 병진 속도 축은 x-right, y-down, z-forward(OpenCV 관례)임에 유의하십시오. 이 기법은 실제 모션 블러 동영상에서 평가되었습니다.

AI 지능 테스트: 좋은 질문이 훌륭한 답변보다 더 중요한가?

2025-03-27
AI 지능 테스트: 좋은 질문이 훌륭한 답변보다 더 중요한가?

저자는 AI의 지능을 평가하기 위해 고안된 "인류의 마지막 시험"을 치렀고, 처참하게 실패했습니다. 이를 통해 저자는 AI 지능을 평가하는 방법에 대해 반성하게 되었습니다. 현재의 테스트는 복잡한 문제에 대한 정답을 내놓는 데 지나치게 초점을 맞추고 있으며, 의미있는 질문을 하는 중요성을 간과하고 있습니다. 진정한 역사 연구는 새로운 관점을 제시하는 독특하고 예상치 못한 질문에서 시작됩니다. 저자는 AI의 발전이 어려운 문제에 완벽하게 답하는 것이 아니라, 연구 과정에서 증거를 수집하고 해석하는 능력과 새로운 질문을 할 가능성에 있다고 주장합니다. 이는 AI가 가치 있는 역사적 질문을 할 수 있는지에 대한 의문을 제기합니다.

AI 생성 창작물: 편견과 소비 행동의 놀라운 격차

2025-03-27
AI 생성 창작물: 편견과 소비 행동의 놀라운 격차

최근 연구는 AI 생성 콘텐츠에 대한 사람들의 진술된 선호도와 실제 소비 행동 사이에 놀라운 격차가 있음을 보여줍니다. 참가자들은 인간이 만든 단편 소설을 선호한다고 말했지만, AI 생성 및 인간이 쓴 두 가지 이야기를 읽는 데 동일한 시간과 돈을 투자했습니다. 이야기가 AI 생성물이라는 것을 알고 있어도 읽는 시간이나 지불 의사는 줄어들지 않았습니다. 이는 창작 산업의 미래 일자리와 AI 생성 작품의 홍수를 막기 위한 AI 라벨의 효과에 대한 우려를 불러일으킵니다.

인간-AI 상호작용을 위한 채팅 인터페이스 폐기론

2025-03-27

본 글은 인간-AI 상호 작용에서 채팅 인터페이스의 반(反)패턴 설계를 비판합니다. 저자는 자신이 만든 채팅 기반 캘린더 에이전트를 예로 들어 기존 GUI보다 훨씬 비효율적임을 보여줍니다. 대부분의 트랜잭션 작업에서 GUI의 정보 추상화 계층이 훨씬 효과적이며 시간과 노력을 절약할 수 있다고 주장합니다. 채팅 인터페이스는 정확한 지시가 필요한 작업보다 사회적 상호 작용에 더 적합합니다. 인간-AI 상호 작용의 미래는 LLM의 지능을 GUI에 통합하여 번거로운 프롬프트 엔지니어링을 피하고 사용자 경험을 향상시키는 하이브리드 인터페이스로 전환되어야 합니다.

영국 국가 AI 연구소: 대학 주도 실패 사례 연구

2025-03-27
영국 국가 AI 연구소: 대학 주도 실패 사례 연구

영국의 앨런 튜링 연구소(ATI)는 영국을 대표하는 AI 기관이 될 예정이었지만, 관리 실패, 전략적 오판, 대학 간의 이해 상충으로 위기에 처해 있습니다. 이 기사는 ATI의 설립 경위와 진정한 혁신 허브가 아닌 대학 주도의 이익 중심 컨설팅 기관이 된 경위를 자세히 설명합니다. ATI는 심층 학습과 같은 최첨단 연구를 무시하고 윤리와 책임에 과도하게 초점을 맞춘 결과, 생성 AI 붐을 놓쳤습니다. 이는 모호한 목표, 대학에 대한 과도한 의존, 실패 프로젝트에 대한 고집이라는 영국 기술 정책의 공통된 문제를 반영합니다. 그러나 방위·안보 부서는 산업계 및 정보 기관과의 연계를 통해 성공 사례로 두드러집니다.

Anthropic의 Claude 3.7 Sonnet: 포켓몬 게임에서 선보이는 AI 계획 능력

2025-03-27
Anthropic의 Claude 3.7 Sonnet: 포켓몬 게임에서 선보이는 AI 계획 능력

Anthropic의 최신 언어 모델인 Claude 3.7 Sonnet은 포켓몬 게임에서 인상적인 계획 능력을 보여주었습니다. 이전의 AI 모델처럼 무작정 돌아다니거나 루프에 빠지는 대신, Sonnet은 미리 계획을 세우고 목표를 기억하며, 초기 전략이 실패하면 적응합니다. Sonnet은 여전히 복잡한 상황(예: 달의 동굴에 갇히는 등)에서 어려움을 겪고 있으며, 게임 화면 이해도와 컨텍스트 창 확장을 개선해야 하지만, 이는 AI의 전략적 계획 능력과 장기적 추론 능력에서 눈에 띄는 발전을 보여줍니다. 연구자들은 Sonnet이 때때로 보이는 자기 인식과 전략 적응력이 현실 세계 문제 해결에 큰 가능성을 시사한다고 믿고 있습니다.

ChatGPT의 AI 이미지 생성기가 저작권 논쟁을 불러일으키다

2025-03-27
ChatGPT의 AI 이미지 생성기가 저작권 논쟁을 불러일으키다

ChatGPT의 새로운 AI 이미지 생성기가 바이럴되면서 사용자들이 스튜디오 지브리 스타일의 이미지를 생성하고 저작권 논쟁을 불러일으켰습니다. 이 도구는 스튜디오 지브리와 같은 특정 스튜디오의 스타일을 모방하고 사용자가 업로드한 이미지를 선택한 스타일로 변환할 수도 있습니다. Google Gemini의 AI 이미지 기능과 마찬가지로 이 기능은 저작권으로 보호되는 작품의 스타일을 쉽게 재현할 수 있기 때문에 저작권 침해에 대한 우려를 제기합니다. 법률 전문가들은 스타일 자체는 저작권으로 보호되지 않는다고 주장하지만, 모델을 훈련하는 데 사용되는 데이터 세트는 문제가 될 수 있으며, 이 문제를 법적 회색 지대에 남겨둡니다. OpenAI는 개별 아티스트가 아닌 광범위한 스타일의 모방을 허용한다고 밝혔지만, 이로써 논쟁이 완전히 해결되는 것은 아닙니다.

NotaGen: 강화 학습으로 클래식 음악을 마스터하는 AI 작곡가

2025-03-26
NotaGen: 강화 학습으로 클래식 음악을 마스터하는 AI 작곡가

NotaGen은 160만 곡의 음악 데이터로 사전 훈련된 AI 음악 생성 모델입니다. 기본적인 음악 구조와 패턴을 학습하고, 이후 8948곡의 클래식 음악 악보로 구성된 엄선된 데이터셋으로 파인튜닝하여 음악성을 향상시켰습니다. 음악성과 프롬프트 제어 능력을 더욱 높이기 위해, 직접 선호도 최적화와 CLaMP 2 평가자를 사용한 강화 학습 기법인 CLaMP-DPO를 채택했습니다. 실험 결과, CLaMP-DPO는 다양한 음악 생성 모델의 제어 능력과 음악성을 효과적으로 향상시키는 것으로 나타났습니다.

Waymo 자율주행차 사고 분석: 진짜 범인은 인간일까?

2025-03-26
Waymo 자율주행차 사고 분석: 진짜 범인은 인간일까?

본 기사는 2024년 7월부터 2025년 2월까지 발생한 Waymo 자율주행차 관련 38건의 심각한 사고를 분석합니다. 놀랍게도 이 사고의 대부분은 Waymo 차량 자체가 아닌, 과속이나 신호 위반 등 다른 차량의 위험한 운전이 원인이었습니다. Waymo의 데이터에 따르면 자율주행차의 사고 발생률은 인간 운전자보다 훨씬 낮습니다. 모든 사고가 Waymo의 책임이라고 해도, 안전 기록은 인간 운전자보다 훨씬 우수합니다. 인간 운전과 비교했을 때, Waymo는 사고, 특히 부상으로 이어지는 사고 감소에 있어 상당한 진전을 이루었습니다.

AI
1 2 26 27 28 30 32 33 34 40 41