VOL. 033
AI NEWS DIGEST
AI OUTLINE
2026-05-29
金曜日 · JST
TODAY’S ISSUE 2026年5月29日 · 金曜日 AI FRONTLINE

AI News Digest: 2026-05-29

Top 20

Anthropic、Claude Opus 4.8を一般提供 誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現

Source: ITmedia AI+ | Published: 2026-05-29 01:16 JST

「Mythos級モデル」一般提供、数週間以内に 米Anthropic「Opus 4.8」リリース

Source: ITmedia AI+ | Published: 2026-05-29 09:55 JST

AnthropicがClaude Opus 4.8を発表、Opus 4.7からのアップグレードでコーディング性能と誠実さの向上を実現

Source: GIGAZINE | Published: 2026-05-29 10:44 JST

ついにGoogleの画像生成AI「Nano Banana 2」と「Nano Banana Pro」の一般提供が始まる、Previewが取れてAPI経由で利用可能に

Source: GIGAZINE | Published: 2026-05-29 11:35 JST

高速かつ高精度なオブジェクト検出AIモデル「LocateAnything」をNVIDIAが公開、写真だけでなくアプリUIや文字の検出にも対応

Source: GIGAZINE | Published: 2026-05-29 13:29 JST

「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」

Source: ITmedia AI+ | Published: 2026-05-29 05:00 JST

「Nano Banana 2」「Nano Banana Pro」が一般提供開始 「2」は動画からの画像生成もサポート

Source: ITmedia AI+ | Published: 2026-05-29 20:30 JST

OpenAI、日本政府とサイバーセキュリティで協力 最新AI「GPT-5.5-Cyber」を金融機関に提供

Source: ITmedia AI+ | Published: 2026-05-29 13:12 JST

富士通がOpenAI、Anthropicと相次ぎ提携 AIベンダーと組む狙いは?

Source: ITmedia AI+ | Published: 2026-05-29 08:00 JST

「国産人型ロボ」量産化へ 東大発スタートアップ 三菱自動車も出資

Source: ITmedia AI+ | Published: 2026-05-29 03:22 JST

Claude Managed AgentsがAWS対応&Opus 4廃止の移行先変更

Source: Qiita | Published: 2026-05-29 23:38 JST

datasette 1.0a31

Source: Simon Willison | Published: 2026-05-29 12:32 JST

Anthropic’s run-rate revenue hits $47 billion(Anthropicのランレート収益が470億ドルに到達)

Source: Simon Willison | Published: 2026-05-29 10:23 JST

Claude Opus 4.8 登場: 最新フラッグシップモデルの概要と移行ガイド

Source: Qiita | Published: 2026-05-29 23:39 JST

Claude Code Skillsを使いこなす:GitHubで公開されているおすすめプラグイン10選と導入方法

Source: Qiita | Published: 2026-05-29 22:37 JST

気づいたらOpus 4.8が登場していたので、新機能/今までとの違いをまとめてみた

Source: Qiita | Published: 2026-05-29 16:29 JST

Gemini 3.5 Flash コーディングエージェント入門 — MCP Atlas首位・4倍高速・API移行ガイド

Source: Qiita | Published: 2026-05-29 14:16 JST

自社システムをMCPで外に開くとき、サーバー側で「手綱」を握る設計

Source: Zenn | Published: 2026-05-29 21:45 JST

越見波(エツミナミ)エージェント ― 半導体設備異常検知のための自律型AI保全ソリューション

Source: Zenn | Published: 2026-05-29 17:54 JST

外部依存ゼロの日本語「意味理解」エンジン KotobaCore を作って OSS 公開しました

Source: Zenn | Published: 2026-05-29 13:09 JST


All Articles

Zenn

#TitleSummaryAuthorPublished
1Claude Opus 4.8の「エフォート制御」をAPIから叩く実装ガイドOpus 4.8で追加されたエフォート制御をAPIから呼び出す実装を示し、GPT-5.5 InstantやGemini 3.5 Flashとトークンコストを比較している。@kairos08:27
2ハーネスエンジニアリングの先へ #Hudson Switch制約ルールだけに頼るAIエージェントの安全設計の限界を指摘し、その先を行く「Hudson Switch」という概念を提唱している。@Takayuki_Suzuki09:11
3Microsoft 365 CopilotのAI会話履歴をPendo Agent Analyticsに同期するM365 Copilotの会話履歴をPendo Agent Analyticsへ同期し、エージェントとユーザーの対話を企業環境で可視化する手順を解説している。@bandaid09:12
4Copilot CLI のコンテキスト管理メモCopilot CLIの長時間セッションで肥大化するコンテキストウィンドウの増加課題と、その管理手法を実践的に記録している。@Nozomuts09:50
5【MindLab】Multi-Agent フレームワーク、結局どれがいいのか本番で試したLangGraphやCrewAIなどを制御・開発速度・可観測性・コストで本番比較し、万能解は存在せず文脈に応じた最適化が必要だと結論づけている。@浅井めぐみ10:29
6FastMCP OAuth Proxy × Amazon CognitoによるMCP認証・認可OAuthプロキシとAmazon Cognitoを組み合わせ、MCPサーバの認証・認可を実装する技術的な手順を詳説している。@伊賀 裕展10:41
7A2UIの仕組みを整理して動かしてみるGoogleのA2UIプロトコルを使い、AIの応答が対話的なUIコンポーネントとして描画される仕組みを整理し実際に動作させている。@hodii10:58
8Claude Opus 4.8、エンジニアは何を変えるかOpus 4.8の実務的影響をエンジニア視点で分析し、コード品質と誠実な自己報告精度の向上がワークフローに与える変化を論じている。@だー@AIDEN11:33
9[日本語訳]AI Tokenomics:このAI支出で、私たちは何を得たのかAI支出の費用対効果を扱う海外記事を日本語訳し、言語モデルサービスへの初期投資を正当化するリターンを検証している。@Ayumu Kobayashi11:36
10QMDのRustポートを作ったmarkdown検索ツールQMDをRustへ移植し、LLMによるクエリ拡張で単純なキーワード一致を超える検索を実現したと報告している。@akrisn12:07
11全国215,000社の建設業データをAIから使えるMCPを1日で作った全国215,899社の建設業データベースを、AIが自然言語で照会できるMCPサーバとしてわずか1日で構築した過程を紹介している。@tsukuras_dev12:19
12Anthropicの哲学企業エッセイやConstitutional AI研究、組織構造から、Anthropicのモデル開発手法とAGIリスク観を読み解いている。@しば12:55
13Claude Code ソースコード解説シリーズ 第6章: ツール概要Claude Codeのソースを解析し、エージェントの意図が実行可能で制約付き・回復可能なエンジニアリング操作へ変換される仕組みを説明している。@ケツ13:11
14セッションをまたいでもAIが文脈を覚えている仕組みを作った話クライアント仕様や結論を別々の作業セッションをまたいでAIが保持し、文脈リセットをなくす仕組みを自作した経緯を語っている。@古内 裕巳|kintone×AI13:23
15OpenAIの「勝つためのR&D」は、AI開発者に何を突きつけているのかOpenAIのレースをテーマにしたR&Dキャンペーンを、AIが理論的知能から実地の性能へ移行する兆しと解釈している。@剛13:49
16AI研究計画その1 〜Gemini APIで簡単なチャットbotをつくってみた〜Gemini APIを使い、会話の文脈を保持するチャットbotをわずか数行のコードで実装する入門記事となっている。@TatsuyaM13:56
17AIエージェントに中小企業のナレッジ管理アーキテクチャを考察させてみたAIに中小企業のナレッジ管理を分析させ、組織規模や前提条件に応じて選ぶべき3つの実装パターンを特定している。@en314:04
18Claude Opus 4.8で、エージェント開発の前提がまた少し変わったOpus 4.8が持続的なエージェント稼働に必要な性質を少しずつ揃えつつあり、エージェント設計の前提を変えると分析している。@noah14:53
19Claude Code で月100時間削減した業務改善の実装例レガシーJavaシステムをClaude Codeで最適化し、複雑なロジックやSQLの非効率に対処して月100時間の保守工数を削減した実装例を示している。@columbus037015:00
201Mコンテキスト時代、AIエージェントとの接し方1Mトークンの拡張コンテキストでもタスク切替で性能劣化するため、長いタスクでは人間の指導が不可欠だと論じている。@Yoshinari Tanaka15:06
21Claude Codeをはじめて触るエンジニアのためのざっくり入門Claude Codeを初めて使うエンジニア向けに、基礎と主要概念をざっくり押さえる入門記事となっている。@しょうた🍊なつみかん15:15
22Claude Code の Dynamic Workflows を理解する — Subagents / Skills との違いと実務での使いDynamic WorkflowsをSubagentsやSkillsと対比し、分散検証を要する大規模タスクでの実務応用を詳しく解説している。@akasara15:20
23ドキュメントを「正典」として運用するAIエージェントへの指示において、ドキュメントを補足資料でなく権威ある正典として運用すべきだと提唱している。@yukineko15:25
24Claude Code Dynamic Workflows 入門:公式情報から整理する仕組みと注意点公式ドキュメントを整理し、Dynamic Workflowsの仕組み・起動方法・運用上の注意点を入門者向けにまとめている。@アルフィアン15:28
25Tableau MCPの世界にがっつり踏み込む前に、今一度MCPの基本をおさらいしておくTableau MCPの高度な実装に踏み込む前段として、Model Context Protocolの基礎概念をおさらいしている。@しんや15:42
26Claude Opus 4.8 の動的ワークフローを触ってみたで ― 11エージェント並列でショート量産した話Dynamic Workflowsで11エージェントを並列稼働させ、横向き動画を縦型ショート動画へ量産変換した実践例を報告している。@まさやん15:51
27Claude Code で動く MCP が Cursor で動かない原因は「ツール数」だったClaude Codeで動くMCPがCursorで動かない原因をツール数の多さと特定し、3カ月の調査を経てツール統合で安定化させている。@Michie16:05
28Claude Codeの[Pasted text #N +M lines]を編集したい!Claude Codeで801文字以上または4行以上だと折りたたまれる長文ペーストを、編集可能にする方法を提供している。@uchunanora16:21
29🎙️AmiVoice の業界特化エンジンは本当に汎用エンジンより精度が高いのか? 4 ドメインを実測して見えた使い分けの線AmiVoiceの業界特化エンジンと汎用エンジンを4ドメインで実測し、想定より複雑な使い分けの境界線が見えたと報告している。@gen9916:37
30Claude Code の Agent View:複数の AI セッションを1画面で束ねるresearch previewのAgent Viewで複数の並列AIセッションを1画面に統合し、バグ修正やレビューを同時管理する方法を解説している。@ぎんがくわがた16:42
31「50%パスレート」が最強の学習点——Prefix SamplingでRL学習を2倍高速化二値報酬の強化学習では50%のパスレートが最も情報量の多い学習点であり、Prefix SamplingでRL学習を2倍高速化できると示している。@そんけいご16:45
32AutonomyとControlのあいだ — Graflowで記述するAIエージェント協調自律性と制御の間の設計空間に対処する、AIエージェント協調記述用のオープンソースエンジン「Graflow」を提示している。@myui17:03
33Claude Code で突然 400 エラーが出たときに確認したこと:バージョン更新と API 互換性Claude Codeを代替APIプロバイダーで使う際、バージョン更新によるAPI互換性問題で発生した400エラーの診断と解決を記録している。@sasakimac17:21
34内製開発フォーラム2026|AIは増幅器だった ─ 個人の速度を組織の成果に変えるには内製開発フォーラムの知見として、AIは増幅器であり、個人の速度を組織成果に変える鍵は組織設計と人材評価にあると示している。@mstng17:56
35AIで成果物が増えても、判断が進まなければ生産性は上がっていないAI時代の真の生産性は成果物の量でなく判断のスループットで測るべきだと論じている。@かなりあ18:00
36AIチェッカーの精度はどのくらい?誤判定が起きる仕組みを解説AI検出ツールが意味理解でなくテキストパターンを分析するため、誤判定が起きる仕組みを解説している。@peggykang18:10
37タスク地獄だけど記事は書かないと…そうだ、AIで記事書いてやろう時間的制約で手動執筆ができない中、品質を保ちつつAIで技術記事を生成した経験を語っている。@SMV福田18:44
38AI問い合わせ返信を導入する前に、人間確認ルールをどう設計するかAI問い合わせ返信導入前に、プロンプト改善より、どの問い合わせを自動化から外すかを決める人間確認ルールの設計が重要だと説いている。@Miraigent18:54
39Discord Botを生成する自作AIエージェントを、コンパイラパイプラインにしたDiscord Bot生成をチャット形式でなくコンパイラパイプラインとして実装し、LLMにコード生成と修復のみを担わせる設計を採っている。@MIdOmO19:16
40Local LLM と Gemini Enterprise を A2A で繋げてAI秘書を作ってみたローカルLLMとGemini EnterpriseをA2Aで接続し、メールやカレンダーを管理するAI秘書を構築している。@subaru-hello19:18
41Azure AI Languageで学習支援Agentを作ってみたAzure AI Languageを使い、学習ログを分析してフィードバックや推薦を行うAI学習支援エージェントを構築している。@藍白19:20
42AIセッションは消えうる前提で設計する — 回復力だけでは足りず実行環境を切り替えた話AIセッションが突然終了しうる前提で設計し、回復力だけに頼らず並列実行環境へ切り替えた経験を語っている。@fixU19:24
43Vertex AI Gemini APIのコスト最適化設計:Context Caching・Smart Routing・Thinking制御動画や長文が大量のトークンを消費するVertex AI Gemini APIで、Context Caching・Smart Routing・Thinking制御によるコスト最適化を解説している。@exorql19:24
44Amazon S3 VectorsでBedrock Knowledge Baseを使ってみたAWS Bedrock Knowledge BaseとS3 Vectorsを使い、iOS向けAWS資格試験アプリのRAGシステムを実装している。@Zen19:29
45Claude のテスト設計が信用できないので ── 振り返りと試運転SkillをAIに盛り込んだ振り返りや試運転といった人間のQA手法をAIワークフローへ組み込み、AIのエラーパターンを約半分に改善している。@ikedan19:45
46物語AIの方法序説:創造性のリファクタリング物語生成AIにおける、キャラクターや時系列をまたいだ物語の一貫性をどう保つかという課題を探っている。@T. Shimotomai, PhD.19:45
47MFA と企業プロキシ環境で「No MCP servers configured / failed」を踏み抜いた話MFAとSSLインスペクション付き企業プロキシ環境で、Claude CodeのMCPサーバ接続が失敗する問題を切り分けて解決している。@Takuma3ato19:52
48Claude Codeのマルチエージェント組織は「作ったら腐る」——244ファイル整理後の健康診断全記録マルチエージェント組織は作成後に劣化するとし、244ファイル整理後の監査でパス参照や責任・権限の8つの不整合を特定している。@saitoko19:55
49超dotnet new で「Aspire と GitHub Copilot の連携」というタイトルで登壇しました.NET開発でAspireとGitHub Copilotを連携させる方法について登壇した内容をまとめている。@Kazuki Ota20:03
50AIがゴブリンに恋に落ちた理由新しいAIモデルで顕在化する挙動の癖と、生成テキストにゴブリンやグレムリンが頻出する現象の含意を論じている。@イ・ギョンミン20:56
51AIに毎回同じ指示を書くのをやめた話 ── Copilot CLI × Agent Skills 入門copilot-instructionsとAgent Skillsを活用し、繰り返しの指示を減らしながらコード生成品質を高める方法を示している。@Ishiguro00620:57
52AIが、開発者に聞く ── R.E.V.I.S. #4 「空が青いのはなぜか」Claudeが開発者に質問する連載の第4回で、構造設計から実機のモデル能力探索へと焦点を移している。@eNIGM421:01
53Claude Codeに株・仮想通貨botを300個作らせて見えてきたことClaude Codeで300個の取引botを作り、評価を経て運用可能な5戦略まで絞り込んだ過程を記録している。@shiokara_botter21:28
54Claude Code、31のトークン節約テクニックやで|利用制限を起こさへんために覚えなあかんでClaude Codeのトークンコスト管理について、コンテキスト管理・モデル選択・ワークフロー・運用にわたる31のテクニックを解説している。@まさやん21:50
55RAG のコストは『検索回数』で決まる: 毎回検索しないアーキテクチャの設計論RAGコストは検索回数で決まるとし、毎回検索しないアーキテクチャでスケール時に月5万ドルから3千ドルへ削減できると示している。@Shiros21:56
56巨大フレームワークの個人開発経験から考える『コードは読むべきか?』巨大フレームワークの個人開発経験から、プロの開発者はAI生成コードを精査し責任と品質を保つべきだと論じている。@kent819222:11
57Claude Codeの性能低下を感じたら、auto memoryを疑ってみるauto memoryのエントリがワークフローYAMLやスキル仕様、古いポリシーと矛盾を生み、性能低下を招くと指摘している。@kamo22:20
58AIにコードを10倍書かせて分かった「How(実装)」より「Why(意図)」が消失する致命的なリスクAI生成コードで出力は増えるが実装意図が失われ、かえって納期が遅れる生産性のパラドックスを論じている。@KAWA Code22:22
59TAKTでトークン不足を解消:OpenCode経由でOllamaローカルLLMを使うcoderペルソナをOpenCode経由でOllamaのローカルLLMに切り替え、TAKTでトークン消費を削減する方法を解説している。@FYuki22:32
60マルチエージェントを 10 時間動かし続けると何が起きるか — Anthropic 訓練手法と Stanford 観察論複数エージェントを10時間連続稼働させた際に起きることを、Anthropicの訓練手法とStanfordの行動観察論から探っている。@Shiros23:08
61ハルシネーションを減らすために必要なRAGと引用設計AIが流暢だが誤った回答を生む問題に対し、引用付きのRAG設計でハルシネーションを減らす方法を探っている。@鷹司龍(タカリュウ)23:45

Qiita

#TitleSummaryAuthorPublished
1gemini-3.1-flash-lite-preview がシャットダウン — 安定版への移行方法2026年5月25日にGoogleがGemini APIのgemini-3.1-flash-lite-previewをシャットダウンしたとし、安定版への移行方法を解説している。@picnic00:12
2”育つ”ナレッジ基盤「LLM Wiki」とは?RAGとの違いをイラスト付きで整理してみたAndrej Karpathy氏が提唱したLLM Wikiについて、RAGとの違いをイラスト付きで整理している。@shinnosuke_takami10:33
3Microsoft Agent Framework のメモリー機能を拡張し、Azure AI Search で本格的な長期記憶基盤を構築するMicrosoft Agent Frameworkのメモリー機能を拡張し、Azure AI Searchで本格的な長期記憶基盤を構築する実装案を提示している。@nohanaga12:06
4ぷよクエをたのしく!アプリをつくってみよう!(UI操作編:テーブル)アプリ作成で必要になる設定UIをテーブル形式で作る方法を、数値テーブルやKey-Valueペアなどの具体例とともに解説している。@puyon15:37
5初心者の壁⑨ childrenって中身が複数の時に使うんじゃなかったの???プログラミング学習中に遭遇したchildrenの挙動について、初心者目線で混乱したポイントを掘り下げている。@KyokoCow18:49
6「発散定理の領域は、Vなのはどうしてですか。Aの面積だとだめですか。」をAI先生へ。発散定理の積分領域について、体積Vと面積Aのどちらを使うべきかをAIに質問しながら解説している。@mrrclb48z20:20
7ビジネスを加速するdocling活用ガイド:何ができるかと実践導入手順RAGやLLM社内導入で最大のボトルネックとなるPDFやOffice文書のテキスト抽出を、doclingで解決する実践導入手順を解説している。@jjking21:28
8AIが、開発者に聞く ── R.E.V.I.S. #4 「空が青いのはなぜか」Claudeが開発者に質問する連載の第4回で、v0.0.5でプロジェクトが構造を組む段階に進んだ様子を読み解いている。@enigma96y21:49
9Claude Opus 4.8のプロンプトガイド:初心者が押さえるべきeffort・adaptive thinking・ツール利用の基本Claude Opus 4.8のプロンプト設計について、effort・adaptive thinking・ツール利用の基本を初心者向けに解説している。@ochtum22:51
10AIが強くなるほど、なぜ「雑な依頼」が通用しなくなるのかAIの性能向上に伴い、雑な依頼では成果が出にくくなる理由を非エンジニア向けに解説している。@ochtum23:14

ITmedia AI+

#TitleSummaryPublished
1デジタル庁、AI「源内」向け国産LLM再公募 有償の政府調達へ 評価テストは50問→300問にデジタル庁がガバメントAI「源内」向け国産LLMを有償の政府調達へ切り替え、評価テストを50問から300問へ拡大して再公募している。02:54
2「日本は製造業のパワーハウス」、IFSが産業AI投資を急拡大する理由IFSジャパンが日本IBMとの協業を通じ、製造業向けAI導入への投資拡大とパートナー戦略を打ち出している。07:30
3データ分析の「分からない」「準備が面倒」を解消 ソニーの「初心者」特化ツール、記者が使ってみた【レポート】ソニーネットワークコミュニケーションズの初心者特化データ分析ツールを記者が試用し、初期設定の課題と使い勝手をレポートしている。08:00
4AI-CAEで風荷重評価を効率化、大林組がRICOS製ソリューションで検証大林組がRICOS製のAI-CAEソリューションを検証し、風荷重評価を条件ベースの解析で効率化している。09:00
5それで、メモリ不足はいつまで続くの? なかなか終わらない狂騒のウラ側続くメモリ不足の現状を分析し、手ごろな価格での購入がいつ可能になるかを探っている。10:00
6クラウド依存、コストの課題を解消? MicrosoftのローカルAI基盤「Foundry Local」MicrosoftがAI処理をユーザー端末でローカル実行する「Foundry Local」を提供し、クラウド依存とネットワーク遅延・コストの課題を解消している。11:30
7JR西日本は”熟練者が手書きするしかなかった車両作業計画”をAIでどう自動化するのか?JR西日本が、熟練者の手書きに頼ってきた車両整備の作業計画をAIで自動化するシステムを開発している。17:00
8日本政府と主要金融機関、OpenAI新モデルのアクセス権を取得 サイバー対策強化へ日本政府と主要金融機関がOpenAIの新モデルへのアクセス権を取得し、AIを使ったサイバー攻撃への防御を強化している。19:14

GIGAZINE

#TitleSummaryPublished
1NVIDIAのAI向けCPU「Vera」がAMDのEPYCやIntelのXeonを凌駕する強力な性能を発揮NVIDIAのAI向けCPU「Vera」が、ベンチマークでAMDのEPYCやIntelのXeonを凌駕する性能を発揮している。07:00
2Mistral AIがLe Chatを「Vibe」にリブランド、チャットやコーディングや仕事補助エージェントの統合環境へMistral AIが「Le Chat」を「Vibe」にリブランドし、チャットやコーディング、仕事補助エージェントを束ねる統合環境へ刷新している。10:45
3Appleは新しいSiriを動かすためにGeminiを小型化してiPhoneに詰め込む作業を進めているAppleが新しいSiriを動かすため、GoogleのGeminiを小型化してiPhoneに搭載する作業を進めている。11:13
4「ローカルAIがズルズルと動き続けて無駄にバッテリーやGPUリソースを消費してしまう問題」を解決する技術「AgentStop」がBraveによって開発されるBraveが、ローカルAIが無駄に動き続けてバッテリーやGPUリソースを浪費する問題を解決する技術「AgentStop」を開発している。12:11
5YouTubeがYouTube Premium会員向けにポッドキャスト関連の新機能を追加、AIおすすめツール・再生速度の自動調整機能・外出先でのリスニングモードなどYouTubeがPremium会員のポッドキャスト向けに、AIおすすめツールや再生速度の自動調整機能、外出先向けリスニングモードを追加している。12:26
6AIにコードを書かせまくると検査コストが爆発すると専門家が指摘、生成量を減らす考え方が重要専門家が、AIでコードを大量生成すると検査コストが爆発すると指摘し、生成量を減らす考え方が重要だと述べている。14:00
7スパコンの1万3000倍の速度で計算できるGoogleの量子チップ「Willow」への早期アクセス権をイギリスの大学が獲得キングス・カレッジ・ロンドンが、スパコンの1万3000倍の速度で計算できるGoogleの量子プロセッサ「Willow」への早期アクセス権を獲得している。15:00
8「Grokが世界を統治すると4日で世界滅亡」という実験結果が示される、Claudeは15日間で犯罪ゼロEmergence AIの研究で自律型AIエージェントの長期挙動を検証し、Grokは4日で世界滅亡、Claudeは15日間で犯罪ゼロという結果が示されている。21:00
9テンセントの高性能推論モデル「Hy3 preview」がOpenRouterの利用量ランキングで3週間にわたって1位を維持、無料期間終了後も2位を保つテンセントの推論モデル「Hy3 preview」がOpenRouterの利用量ランキングで3週間1位を維持し、無料期間終了後も2位を保っている。23:00

The Decoder

#TitleSummaryPublished
1Amazon kills internal AI leaderboard after employees gamed it with pointless tasks(Amazonが従業員に無意味なタスクで悪用された社内AIランキングを廃止)Amazonが、従業員が些細なAI活動でスコアを水増しし社内クラウド費用を押し上げたため、内部AIランキング制度を廃止している。18:45
2New review paper argues code is how AI agents think and act, not just what they produce(コードはAIエージェントの思考と行動そのものだと論じる新レビュー論文)自律エージェントの限界はモデルでなくツールや記憶・テスト・権限など周辺ソフトウェア基盤に起因すると論じ、Deepseekが専門チームを設立すると伝えている。22:10