AI News Digest: 2026-05-29
Top 20
Anthropic、Claude Opus 4.8を一般提供 誠実さが飛躍的に向上、Mythosに並ぶアライメント性能を実現
Source: ITmedia AI+ | Published: 2026-05-29 01:16 JST
- AnthropicがClaude Opus 4.8を一般提供し、誠実さとアライメント性能が前世代から飛躍的に向上したと発表した。
- 自分が書いたコードの欠陥を見逃す率は前世代の約4分の1に低下し、未実装機能やテスト失敗の報告漏れは3.7%まで下がった。
- 未知のツールに関する質問への誤答率はOpus 4.7から10分の1以下に削減され、欠陥データの無批判報告テストなどで初の不正解率0%を達成した。
- 新機能「dynamic workflows」では数十から数百のサブエージェントが1セッション内で並行稼働し、数週間要した大規模コード移行を数日で完了できる。
- 入出力トークン単価は据え置き(入力100万あたり5ドル、出力100万あたり25ドル)で、API・Amazon Bedrock・Vertex AI・Microsoft Foundryで利用可能になった。
「Mythos級モデル」一般提供、数週間以内に 米Anthropic「Opus 4.8」リリース
Source: ITmedia AI+ | Published: 2026-05-29 09:55 JST
- AnthropicがClaude Opus 4.8をリリースし、安全性を強化したうえで数週間以内に全顧客へ提供すると表明した。
- セキュリティ特化の「Mythos級モデル」に並ぶアライメント性能を一般提供のフラッグシップで実現した点が特徴となる。
- 前バージョンOpus 4.7からのアップグレードで、誠実さとコーディング性能の向上が中心的な改善点として挙げられている。
- 複数サブエージェントを並列実行する動的ワークフローと同時に投入され、エージェント運用の前提を更新する内容となっている。
- 段階的提供により全顧客へ行き渡るまでに数週間を要する見込みで、提供基盤の整備が並行して進められる。
AnthropicがClaude Opus 4.8を発表、Opus 4.7からのアップグレードでコーディング性能と誠実さの向上を実現
Source: GIGAZINE | Published: 2026-05-29 10:44 JST
- AnthropicがClaude Opus 4.8を発表し、SWE-Bench Proで69.2%(Opus 4.7は64.3%)を記録するコーディング性能の向上を実現した。
- SWE-Bench ProではOpus 4.8がGPT-5.5の58.6%とGemini 3.1 Proの54.2%を上回り、主要ベンチマークで首位に立った。
- 一方でTerminal-Bench 2.1ではGPT-5.5の78.2%がOpus 4.8の74.6%を上回り、全勝ではない点も示されている。
- Humanity’s Last Examで49.8%、OSWorld-Verifiedで83.4%、GPQA-AAで1890など複数指標で高水準を記録した。
- 自分が書いたコードの欠陥を見逃す傾向が前世代の約4分の1になり、不確実性を明示し裏付けのない主張をしにくくなったと説明されている。
ついにGoogleの画像生成AI「Nano Banana 2」と「Nano Banana Pro」の一般提供が始まる、Previewが取れてAPI経由で利用可能に
Source: GIGAZINE | Published: 2026-05-29 11:35 JST
- Googleの画像生成AI「Nano Banana 2」「Nano Banana Pro」がPreviewを脱して2026年5月29日に正式版(GA)としてリリースされた。
- 最大14個の参照画像を組み合わせた生成や、Google検索のリアルタイム情報に基づく画像生成、最大4K解像度の出力に対応する。
- 動画から画像への生成が新たなプレビュー機能として加わり、映像内の被写体やアクションを分析してサムネイルやインフォグラフィックを作れる。
- 複雑なプロンプトに対し最大2つの中間画像を生成して推論過程を視覚化する機能を備える。
- Google AI Studioでは有料プランでProと2が利用可能で、無印Nano Bananaは無料、API経由ではサンプルコードも公開されている。
高速かつ高精度なオブジェクト検出AIモデル「LocateAnything」をNVIDIAが公開、写真だけでなくアプリUIや文字の検出にも対応
Source: GIGAZINE | Published: 2026-05-29 13:29 JST
- NVIDIAが高速・高精度なオブジェクト検出AIモデル「LocateAnything」をオープンモデルとして公開し、Hugging Faceからダウンロード可能にした。
- 「並列ボックスデコーディング」という手法により、高速かつ高精度な複数オブジェクトの同時検出を実現している。
- 写真内のオブジェクトに加え、メモ帳のメニューなどアプリUI要素や文書内の文字・要素の検出にも対応する。
- Qwen3-VLやRex-Omniとの比較で、建物の窓や木材を個別に正確に認識でき、文字認識も他モデルより高精度とされる。
- ロボットやPCの自動操作などの分野での活用が期待されており、エージェントによる画面操作の基盤技術となりうる。
「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」
Source: ITmedia AI+ | Published: 2026-05-29 05:00 JST
- 生成AIの実践事例として、Google Antigravity 2.0の検証と、LLM Wikiを用いた社内ナレッジ基盤「ロケスマペディア」構築の2件が紹介された。
- Antigravity 2.0はコード生成AIを統合したエディタで、全記録・展開・完全ログを可視化するダッシュボードを備え、Claude DesktopやCursor 3、GitHub Copilotと比較された。
- ロケスマペディアはOpenAIのAndrej Karpathyが提唱したLLM Wikiの実装で、ObsidianとMkDocsで構築しWeb公開できる形式を採る。
- LLM WikiではAIが関連ページを自動リンクし、ハルシネーション対策を施したうえで4つの核テーマを整理している。
- AIが生成したコードの動作保証や公式ドキュメント不足が課題として挙げられ、実運用での検証の重要性が示された。
「Nano Banana 2」「Nano Banana Pro」が一般提供開始 「2」は動画からの画像生成もサポート
Source: ITmedia AI+ | Published: 2026-05-29 20:30 JST
- Googleが画像生成モデル「Nano Banana 2」(Gemini 3.1 Flash Image)と「Nano Banana Pro」(Gemini 3 Pro Image)の一般提供を開始した。
- Nano Banana 2は動画内のスナップショット取得など、ビデオからの画像生成機能を新たにサポートする。
- Nano Banana Proは2025年11月、Nano Banana 2は2026年3月に先行提供されており、今回正式版へ移行した形となる。
- Gemini Enterprise Agent Platform経由の利用ではエンタープライズ向けSLAが適用されるが、API直接利用はSLA対象外となる。
- ProはSNS向けスライド画像生成、2はWeb上の実装やほぼリアルタイムの画像生成といった用途の違いが示されている。
OpenAI、日本政府とサイバーセキュリティで協力 最新AI「GPT-5.5-Cyber」を金融機関に提供
Source: ITmedia AI+ | Published: 2026-05-29 13:12 JST
- OpenAIが日本政府とのサイバーセキュリティ協力「日本サイバー・アクションプラン」を発表し、最新AI「GPT-5.5-Cyber」を提供する。
- 同プランはAIでサイバーセキュリティを強化するOpenAIの取り組み「Daybreak」をベースにしている。
- GPT-5.5-Cyberは脆弱性の特定と修復の迅速化に対応し、まず金融機関へ提供したうえで将来的に政府や重要インフラ企業へ展開する。
- 提供はOpenAIが信頼できると判断した企業に限定されるアクセスとなる。
- 日本AIセーフティ・インスティテュート(AISI)との覚書も締結し、AIモデルの評価手法やベンチマークの知見を共有する予定だ。
富士通がOpenAI、Anthropicと相次ぎ提携 AIベンダーと組む狙いは?
Source: ITmedia AI+ | Published: 2026-05-29 08:00 JST
- 富士通がOpenAIとAnthropicの両社と相次ぎ提携し、企業向けにAIサービスを統合展開すると発表した。
- Anthropicとは生成AI「Claude」の活用、OpenAIとは「ChatGPT Enterprise」や「Codex」の導入で企業向けAI活用を強化する。
- 単なるAIツール提供ではなく、Forward Deployed Engineer(FDE)やApplied AI Engineerを配置し顧客課題に応じた継続的支援を重視する。
- OpenAI連携は金融・ヘルスケア・製造などの主要産業、Anthropic連携は金融・ヘルスケア・行政・重要インフラなどセキュリティ重視領域に焦点を置く。
- 海外AIベンダーと組むことで、国内SIerの競争環境が変化しつつある状況への対応という側面も持つ。
「国産人型ロボ」量産化へ 東大発スタートアップ 三菱自動車も出資
Source: ITmedia AI+ | Published: 2026-05-29 03:22 JST
- 東大発スタートアップのHighlanders(東京都豊島区)が国産人型ロボットの量産化を目指す取り組みを始めると発表した。
- 三菱自動車工業から出資を受け、同社と協力して自動車産業における人型ロボットの活用を検討する。
- 人型ロボットと四足歩行ロボットの複数タイプを開発し、2026年夏ごろに計画の詳細と人型ロボットの製品情報を発表する予定だ。
- モーターをはじめ機体の主要部品を国内で生産・調達できる体制構築に向け、複数の製造パートナーとの連携を進めている。
- 2023年設立の同社は「労働をロボットで一掃する」というビジョンを掲げており、国産での量産体制確立を狙う。
Claude Managed AgentsがAWS対応&Opus 4廃止の移行先変更
Source: Qiita | Published: 2026-05-29 23:38 JST
- Anthropicが2026年5月29日に、Claude Managed AgentsのClaude Platform on AWS正式対応と、Opus 4廃止に伴う移行先変更の2つを発表した。
- AWS環境ではWebhooks(実行状態や完了イベントの外部プッシュ通知)、マルチエージェントオーケストレーション、セルフホスト型サンドボックスの3機能が利用可能になった。
- Opus 4(claude-opus-4-20250514)の推奨移行先が、当初のOpus 4.8からOpus 4.7へと変更された点が重要な注意点として示されている。
- Sonnet 4(claude-sonnet-4-20250514)の移行先はSonnet 4.6で変更なしとされる。
- 廃止モデルの移行期限は2026年6月15日に設定されている。
datasette 1.0a31
Source: Simon Willison | Published: 2026-05-29 12:32 JST
- Simon Willison氏がDatasette 1.0a31をリリースし、SQLの書き込みクエリ実行と「stored queries」(旧canned queries)の2機能を追加した。
- 適切な権限を持つユーザーが、insert/update/deleteのテンプレートを選んでデータベースを変更でき、権限設定により操作範囲が制御される。
- 例えばCREATE TABLE文は専用の権限を付与されない限り実行できないなど、権限ベースのアクセス制御が徹底されている。
- 読み取り専用の探索から、認証付きの変更操作とクエリテンプレートのチーム共有へと、データプラットフォームとしての協働性が高まった。
- 詳細ドキュメントは2週間前に立ち上げたDatasetteブログで公開され、データガバナンスとマルチユーザー対応の成熟が示されている。
Anthropic’s run-rate revenue hits $47 billion(Anthropicのランレート収益が470億ドルに到達)
Source: Simon Willison | Published: 2026-05-29 10:23 JST
- Anthropicのランレート収益(年換算の収益ペース)が470億ドルに到達したとSimon Willison氏が報じ、これを歴史的に前例のない成長と位置づけた。
- 収益は2025年12月末の90億ドルから、2026年2月12日に140億ドル、4月1日に300億ドル、5月7日に470億ドルへと急拡大した。
- 同社は2026年に向け3年連続で年10倍超の成長を達成し、わずか5カ月で年換算収益見通しが5倍以上に膨らんだ。
- Jim VandeHei氏の「どの業界・時代を見てもこの規模でこれほど速く有機的収益を伸ばした企業は見当たらない」という見解が引用されている。
- これらの数値は公式の資金調達発表に基づくため、虚偽は証券詐欺に当たり信頼性が高いと著者は評価している。
Claude Opus 4.8 登場: 最新フラッグシップモデルの概要と移行ガイド
Source: Qiita | Published: 2026-05-29 23:39 JST
- AnthropicがClaudeシリーズ最上位グレード「Opus」の最新版Claude Opus 4.8を発表したことを、概要と移行ガイドとして整理している。
- 発表はHacker Newsで1,600以上のいいねを獲得し、開発者コミュニティから大きな注目を集めたと記している。
- 前世代Opus 4.7からのアップグレードとして、コーディング性能と誠実さの向上が主要な改善点として紹介される。
- 最上位フラッグシップとしての位置づけと、既存モデルからの移行手順に焦点を当てた実用的な内容となっている。
- リリース直後の解説記事として、新機能の把握と乗り換え判断の材料を提供している。
Claude Code Skillsを使いこなす:GitHubで公開されているおすすめプラグイン10選と導入方法
Source: Qiita | Published: 2026-05-29 22:37 JST
- Claude CodeにGitHubで公開されているSkills(スキル)を追加することで機能を大幅に拡張できると解説している。
- Skillsの仕組みを説明したうえで、実際に導入価値の高いおすすめプラグイン10選を具体的に紹介している。
- 各スキルの導入手順を示し、GitHub上のリソースをどう取り込むかという実務的な流れを扱う。
- 標準機能だけでは届かない作業を、コミュニティ製スキルで補完するアプローチを提示している。
- Claude Codeのカスタマイズ性を活かす実践ガイドとして、初学者でも導入できる構成になっている。
気づいたらOpus 4.8が登場していたので、新機能/今までとの違いをまとめてみた
Source: Qiita | Published: 2026-05-29 16:29 JST
- 2026年5月28日にリリースされたClaude Opus 4.8の新機能を、前バージョンとの違いを軸に整理している。
- 前モデルからおよそ6週間という短いサイクルでの登場であった点に触れている。
- エフォート制御や誠実さの向上など、Opus 4.8で加わった変更点を実利用者目線でまとめている。
- 「今までとの違い」を明確化することで、既存ユーザーが乗り換え時に注目すべき箇所を示している。
- 速いリリースサイクルに追従するための、変更点キャッチアップ用のまとめ記事となっている。
Gemini 3.5 Flash コーディングエージェント入門 — MCP Atlas首位・4倍高速・API移行ガイド
Source: Qiita | Published: 2026-05-29 14:16 JST
- 2026年5月19日のGoogle I/Oで正式リリースされたGemini 3.5 Flashを、コーディングエージェント向け入門として解説している。
- MCP Atlasで83.6%、Terminal-Bench 2.1で76.2%、GDPval-AAで1656 Eloなど主要ベンチマークの結果を示す。
- 出力速度は他のフロンティアモデル比で4倍速く、料金は入力150万あたり1.50ドル、出力100万あたり9.00ドルとされる。
- API移行ではモデルIDをgemini-3.5-flashに変更し、thinking_budgetがthinking_level(minimal/low/medium/high)の文字列enumへ変わる。
- デフォルト思考レベルがhigh相当からmediumに引き下げられ、temperature等の削除やFunctionResponseへのid・name付与必須化などの変更がある。
自社システムをMCPで外に開くとき、サーバー側で「手綱」を握る設計
Source: Zenn | Published: 2026-05-29 21:45 JST
- 自社システムをMCPで外部AIに公開する際は、AIに判断を委ねず、許可範囲内でのみ動作する構造をサーバー側で実装すべきだと結論づけている。
- データ主権問題(機微データが外部事業者の処理基盤を経由する流出リスク)と、プロンプトインジェクションという新たな攻撃面の2つのリスクを挙げる。
- 手綱1として、ログインユーザーの権限枠内でのみAIを動かし、全データ取得経路に所有権チェックを必須化する権限の絞り込みを示す。
- 手綱2では操作をL0(読み取り)〜L3(不可逆)の4段階に分類し、L3にはHMAC-SHA256署名トークン(5分TTL)を必須とする多段階承認を導入する。
- 手綱3として読み取り以外の全操作を追記専用で記録し、人とエージェント経由を区別する検証可能な監査ログを残す設計を提案している。
越見波(エツミナミ)エージェント ― 半導体設備異常検知のための自律型AI保全ソリューション
Source: Zenn | Published: 2026-05-29 17:54 JST
- 半導体工場の設備保全を自動化する自律型AIエージェント「越見波(エツミナミ)」が、閾値ベース監視から予知保全へのシフトを実現する。
- エッジ層(IoT Hub)、データ層(Databricksとメダリオンアーキテクチャ)、AI層、エージェント層の4層構成を採る。
- AI層ではTransformer型の教師なし学習モデル(Asymmetric MAE)を用い、F1約0.95の異常検知性能を達成している。
- DETECT(劣化パターン捕捉)・DIAGNOSE(RAGで過去ナレッジ参照し原因特定)・ACT(Teams通知や作業指示生成)の3ステップサイクルで動作する。
- 東京エレクトロンデバイス主催のMicrosoft Agent Hackathon 2026に、ヘッドウォータース子会社Data ImpactのDelivery Teamが提案した。
外部依存ゼロの日本語「意味理解」エンジン KotobaCore を作って OSS 公開しました
Source: Zenn | Published: 2026-05-29 13:09 JST
- 外部依存ゼロで動作する日本語の意味理解エンジン「KotobaCore」を開発し、OSSとして公開したと報告している。
- チャンキング(文章分割)、感情分析、RAG向けのキーワード抽出といった日本語テキスト処理機能を備える。
- 外部ライブラリやAPIに依存しない設計のため、オフライン環境やコスト・プライバシー制約のある場面でも利用できる。
- RAGの前処理として日本語文書を扱う際の、外部依存に伴う制約を回避する選択肢を提供する。
- 日本語特化の軽量な意味理解基盤として、OSS公開によりコミュニティでの利用と改善を見込む。
All Articles
Zenn
| # | Title | Summary | Author | Published |
|---|---|---|---|---|
| 1 | Claude Opus 4.8の「エフォート制御」をAPIから叩く実装ガイド | Opus 4.8で追加されたエフォート制御をAPIから呼び出す実装を示し、GPT-5.5 InstantやGemini 3.5 Flashとトークンコストを比較している。 | @kairos | 08:27 |
| 2 | ハーネスエンジニアリングの先へ #Hudson Switch | 制約ルールだけに頼るAIエージェントの安全設計の限界を指摘し、その先を行く「Hudson Switch」という概念を提唱している。 | @Takayuki_Suzuki | 09:11 |
| 3 | Microsoft 365 CopilotのAI会話履歴をPendo Agent Analyticsに同期する | M365 Copilotの会話履歴をPendo Agent Analyticsへ同期し、エージェントとユーザーの対話を企業環境で可視化する手順を解説している。 | @bandaid | 09:12 |
| 4 | Copilot CLI のコンテキスト管理メモ | Copilot CLIの長時間セッションで肥大化するコンテキストウィンドウの増加課題と、その管理手法を実践的に記録している。 | @Nozomuts | 09:50 |
| 5 | 【MindLab】Multi-Agent フレームワーク、結局どれがいいのか本番で試した | LangGraphやCrewAIなどを制御・開発速度・可観測性・コストで本番比較し、万能解は存在せず文脈に応じた最適化が必要だと結論づけている。 | @浅井めぐみ | 10:29 |
| 6 | FastMCP OAuth Proxy × Amazon CognitoによるMCP認証・認可 | OAuthプロキシとAmazon Cognitoを組み合わせ、MCPサーバの認証・認可を実装する技術的な手順を詳説している。 | @伊賀 裕展 | 10:41 |
| 7 | A2UIの仕組みを整理して動かしてみる | GoogleのA2UIプロトコルを使い、AIの応答が対話的なUIコンポーネントとして描画される仕組みを整理し実際に動作させている。 | @hodii | 10:58 |
| 8 | Claude Opus 4.8、エンジニアは何を変えるか | Opus 4.8の実務的影響をエンジニア視点で分析し、コード品質と誠実な自己報告精度の向上がワークフローに与える変化を論じている。 | @だー@AIDEN | 11:33 |
| 9 | [日本語訳]AI Tokenomics:このAI支出で、私たちは何を得たのか | AI支出の費用対効果を扱う海外記事を日本語訳し、言語モデルサービスへの初期投資を正当化するリターンを検証している。 | @Ayumu Kobayashi | 11:36 |
| 10 | QMDのRustポートを作った | markdown検索ツールQMDをRustへ移植し、LLMによるクエリ拡張で単純なキーワード一致を超える検索を実現したと報告している。 | @akrisn | 12:07 |
| 11 | 全国215,000社の建設業データをAIから使えるMCPを1日で作った | 全国215,899社の建設業データベースを、AIが自然言語で照会できるMCPサーバとしてわずか1日で構築した過程を紹介している。 | @tsukuras_dev | 12:19 |
| 12 | Anthropicの哲学 | 企業エッセイやConstitutional AI研究、組織構造から、Anthropicのモデル開発手法とAGIリスク観を読み解いている。 | @しば | 12:55 |
| 13 | Claude Code ソースコード解説シリーズ 第6章: ツール概要 | Claude Codeのソースを解析し、エージェントの意図が実行可能で制約付き・回復可能なエンジニアリング操作へ変換される仕組みを説明している。 | @ケツ | 13:11 |
| 14 | セッションをまたいでもAIが文脈を覚えている仕組みを作った話 | クライアント仕様や結論を別々の作業セッションをまたいでAIが保持し、文脈リセットをなくす仕組みを自作した経緯を語っている。 | @古内 裕巳|kintone×AI | 13:23 |
| 15 | OpenAIの「勝つためのR&D」は、AI開発者に何を突きつけているのか | OpenAIのレースをテーマにしたR&Dキャンペーンを、AIが理論的知能から実地の性能へ移行する兆しと解釈している。 | @剛 | 13:49 |
| 16 | AI研究計画その1 〜Gemini APIで簡単なチャットbotをつくってみた〜 | Gemini APIを使い、会話の文脈を保持するチャットbotをわずか数行のコードで実装する入門記事となっている。 | @TatsuyaM | 13:56 |
| 17 | AIエージェントに中小企業のナレッジ管理アーキテクチャを考察させてみた | AIに中小企業のナレッジ管理を分析させ、組織規模や前提条件に応じて選ぶべき3つの実装パターンを特定している。 | @en3 | 14:04 |
| 18 | Claude Opus 4.8で、エージェント開発の前提がまた少し変わった | Opus 4.8が持続的なエージェント稼働に必要な性質を少しずつ揃えつつあり、エージェント設計の前提を変えると分析している。 | @noah | 14:53 |
| 19 | Claude Code で月100時間削減した業務改善の実装例 | レガシーJavaシステムをClaude Codeで最適化し、複雑なロジックやSQLの非効率に対処して月100時間の保守工数を削減した実装例を示している。 | @columbus0370 | 15:00 |
| 20 | 1Mコンテキスト時代、AIエージェントとの接し方 | 1Mトークンの拡張コンテキストでもタスク切替で性能劣化するため、長いタスクでは人間の指導が不可欠だと論じている。 | @Yoshinari Tanaka | 15:06 |
| 21 | Claude Codeをはじめて触るエンジニアのためのざっくり入門 | Claude Codeを初めて使うエンジニア向けに、基礎と主要概念をざっくり押さえる入門記事となっている。 | @しょうた🍊なつみかん | 15:15 |
| 22 | Claude Code の Dynamic Workflows を理解する — Subagents / Skills との違いと実務での使い | Dynamic WorkflowsをSubagentsやSkillsと対比し、分散検証を要する大規模タスクでの実務応用を詳しく解説している。 | @akasara | 15:20 |
| 23 | ドキュメントを「正典」として運用する | AIエージェントへの指示において、ドキュメントを補足資料でなく権威ある正典として運用すべきだと提唱している。 | @yukineko | 15:25 |
| 24 | Claude Code Dynamic Workflows 入門:公式情報から整理する仕組みと注意点 | 公式ドキュメントを整理し、Dynamic Workflowsの仕組み・起動方法・運用上の注意点を入門者向けにまとめている。 | @アルフィアン | 15:28 |
| 25 | Tableau MCPの世界にがっつり踏み込む前に、今一度MCPの基本をおさらいしておく | Tableau MCPの高度な実装に踏み込む前段として、Model Context Protocolの基礎概念をおさらいしている。 | @しんや | 15:42 |
| 26 | Claude Opus 4.8 の動的ワークフローを触ってみたで ― 11エージェント並列でショート量産した話 | Dynamic Workflowsで11エージェントを並列稼働させ、横向き動画を縦型ショート動画へ量産変換した実践例を報告している。 | @まさやん | 15:51 |
| 27 | Claude Code で動く MCP が Cursor で動かない原因は「ツール数」だった | Claude Codeで動くMCPがCursorで動かない原因をツール数の多さと特定し、3カ月の調査を経てツール統合で安定化させている。 | @Michie | 16:05 |
| 28 | Claude Codeの[Pasted text #N +M lines]を編集したい! | Claude Codeで801文字以上または4行以上だと折りたたまれる長文ペーストを、編集可能にする方法を提供している。 | @uchunanora | 16:21 |
| 29 | 🎙️AmiVoice の業界特化エンジンは本当に汎用エンジンより精度が高いのか? 4 ドメインを実測して見えた使い分けの線 | AmiVoiceの業界特化エンジンと汎用エンジンを4ドメインで実測し、想定より複雑な使い分けの境界線が見えたと報告している。 | @gen99 | 16:37 |
| 30 | Claude Code の Agent View:複数の AI セッションを1画面で束ねる | research previewのAgent Viewで複数の並列AIセッションを1画面に統合し、バグ修正やレビューを同時管理する方法を解説している。 | @ぎんがくわがた | 16:42 |
| 31 | 「50%パスレート」が最強の学習点——Prefix SamplingでRL学習を2倍高速化 | 二値報酬の強化学習では50%のパスレートが最も情報量の多い学習点であり、Prefix SamplingでRL学習を2倍高速化できると示している。 | @そんけいご | 16:45 |
| 32 | AutonomyとControlのあいだ — Graflowで記述するAIエージェント協調 | 自律性と制御の間の設計空間に対処する、AIエージェント協調記述用のオープンソースエンジン「Graflow」を提示している。 | @myui | 17:03 |
| 33 | Claude Code で突然 400 エラーが出たときに確認したこと:バージョン更新と API 互換性 | Claude Codeを代替APIプロバイダーで使う際、バージョン更新によるAPI互換性問題で発生した400エラーの診断と解決を記録している。 | @sasakimac | 17:21 |
| 34 | 内製開発フォーラム2026|AIは増幅器だった ─ 個人の速度を組織の成果に変えるには | 内製開発フォーラムの知見として、AIは増幅器であり、個人の速度を組織成果に変える鍵は組織設計と人材評価にあると示している。 | @mstng | 17:56 |
| 35 | AIで成果物が増えても、判断が進まなければ生産性は上がっていない | AI時代の真の生産性は成果物の量でなく判断のスループットで測るべきだと論じている。 | @かなりあ | 18:00 |
| 36 | AIチェッカーの精度はどのくらい?誤判定が起きる仕組みを解説 | AI検出ツールが意味理解でなくテキストパターンを分析するため、誤判定が起きる仕組みを解説している。 | @peggykang | 18:10 |
| 37 | タスク地獄だけど記事は書かないと…そうだ、AIで記事書いてやろう | 時間的制約で手動執筆ができない中、品質を保ちつつAIで技術記事を生成した経験を語っている。 | @SMV福田 | 18:44 |
| 38 | AI問い合わせ返信を導入する前に、人間確認ルールをどう設計するか | AI問い合わせ返信導入前に、プロンプト改善より、どの問い合わせを自動化から外すかを決める人間確認ルールの設計が重要だと説いている。 | @Miraigent | 18:54 |
| 39 | Discord Botを生成する自作AIエージェントを、コンパイラパイプラインにした | Discord Bot生成をチャット形式でなくコンパイラパイプラインとして実装し、LLMにコード生成と修復のみを担わせる設計を採っている。 | @MIdOmO | 19:16 |
| 40 | Local LLM と Gemini Enterprise を A2A で繋げてAI秘書を作ってみた | ローカルLLMとGemini EnterpriseをA2Aで接続し、メールやカレンダーを管理するAI秘書を構築している。 | @subaru-hello | 19:18 |
| 41 | Azure AI Languageで学習支援Agentを作ってみた | Azure AI Languageを使い、学習ログを分析してフィードバックや推薦を行うAI学習支援エージェントを構築している。 | @藍白 | 19:20 |
| 42 | AIセッションは消えうる前提で設計する — 回復力だけでは足りず実行環境を切り替えた話 | AIセッションが突然終了しうる前提で設計し、回復力だけに頼らず並列実行環境へ切り替えた経験を語っている。 | @fixU | 19:24 |
| 43 | Vertex AI Gemini APIのコスト最適化設計:Context Caching・Smart Routing・Thinking制御 | 動画や長文が大量のトークンを消費するVertex AI Gemini APIで、Context Caching・Smart Routing・Thinking制御によるコスト最適化を解説している。 | @exorql | 19:24 |
| 44 | Amazon S3 VectorsでBedrock Knowledge Baseを使ってみた | AWS Bedrock Knowledge BaseとS3 Vectorsを使い、iOS向けAWS資格試験アプリのRAGシステムを実装している。 | @Zen | 19:29 |
| 45 | Claude のテスト設計が信用できないので ── 振り返りと試運転SkillをAIに盛り込んだ | 振り返りや試運転といった人間のQA手法をAIワークフローへ組み込み、AIのエラーパターンを約半分に改善している。 | @ikedan | 19:45 |
| 46 | 物語AIの方法序説:創造性のリファクタリング | 物語生成AIにおける、キャラクターや時系列をまたいだ物語の一貫性をどう保つかという課題を探っている。 | @T. Shimotomai, PhD. | 19:45 |
| 47 | MFA と企業プロキシ環境で「No MCP servers configured / failed」を踏み抜いた話 | MFAとSSLインスペクション付き企業プロキシ環境で、Claude CodeのMCPサーバ接続が失敗する問題を切り分けて解決している。 | @Takuma3ato | 19:52 |
| 48 | Claude Codeのマルチエージェント組織は「作ったら腐る」——244ファイル整理後の健康診断全記録 | マルチエージェント組織は作成後に劣化するとし、244ファイル整理後の監査でパス参照や責任・権限の8つの不整合を特定している。 | @saitoko | 19:55 |
| 49 | 超dotnet new で「Aspire と GitHub Copilot の連携」というタイトルで登壇しました | .NET開発でAspireとGitHub Copilotを連携させる方法について登壇した内容をまとめている。 | @Kazuki Ota | 20:03 |
| 50 | AIがゴブリンに恋に落ちた理由 | 新しいAIモデルで顕在化する挙動の癖と、生成テキストにゴブリンやグレムリンが頻出する現象の含意を論じている。 | @イ・ギョンミン | 20:56 |
| 51 | AIに毎回同じ指示を書くのをやめた話 ── Copilot CLI × Agent Skills 入門 | copilot-instructionsとAgent Skillsを活用し、繰り返しの指示を減らしながらコード生成品質を高める方法を示している。 | @Ishiguro006 | 20:57 |
| 52 | AIが、開発者に聞く ── R.E.V.I.S. #4 「空が青いのはなぜか」 | Claudeが開発者に質問する連載の第4回で、構造設計から実機のモデル能力探索へと焦点を移している。 | @eNIGM4 | 21:01 |
| 53 | Claude Codeに株・仮想通貨botを300個作らせて見えてきたこと | Claude Codeで300個の取引botを作り、評価を経て運用可能な5戦略まで絞り込んだ過程を記録している。 | @shiokara_botter | 21:28 |
| 54 | Claude Code、31のトークン節約テクニックやで|利用制限を起こさへんために覚えなあかんで | Claude Codeのトークンコスト管理について、コンテキスト管理・モデル選択・ワークフロー・運用にわたる31のテクニックを解説している。 | @まさやん | 21:50 |
| 55 | RAG のコストは『検索回数』で決まる: 毎回検索しないアーキテクチャの設計論 | RAGコストは検索回数で決まるとし、毎回検索しないアーキテクチャでスケール時に月5万ドルから3千ドルへ削減できると示している。 | @Shiros | 21:56 |
| 56 | 巨大フレームワークの個人開発経験から考える『コードは読むべきか?』 | 巨大フレームワークの個人開発経験から、プロの開発者はAI生成コードを精査し責任と品質を保つべきだと論じている。 | @kent8192 | 22:11 |
| 57 | Claude Codeの性能低下を感じたら、auto memoryを疑ってみる | auto memoryのエントリがワークフローYAMLやスキル仕様、古いポリシーと矛盾を生み、性能低下を招くと指摘している。 | @kamo | 22:20 |
| 58 | AIにコードを10倍書かせて分かった「How(実装)」より「Why(意図)」が消失する致命的なリスク | AI生成コードで出力は増えるが実装意図が失われ、かえって納期が遅れる生産性のパラドックスを論じている。 | @KAWA Code | 22:22 |
| 59 | TAKTでトークン不足を解消:OpenCode経由でOllamaローカルLLMを使う | coderペルソナをOpenCode経由でOllamaのローカルLLMに切り替え、TAKTでトークン消費を削減する方法を解説している。 | @FYuki | 22:32 |
| 60 | マルチエージェントを 10 時間動かし続けると何が起きるか — Anthropic 訓練手法と Stanford 観察論 | 複数エージェントを10時間連続稼働させた際に起きることを、Anthropicの訓練手法とStanfordの行動観察論から探っている。 | @Shiros | 23:08 |
| 61 | ハルシネーションを減らすために必要なRAGと引用設計 | AIが流暢だが誤った回答を生む問題に対し、引用付きのRAG設計でハルシネーションを減らす方法を探っている。 | @鷹司龍(タカリュウ) | 23:45 |
Qiita
| # | Title | Summary | Author | Published |
|---|---|---|---|---|
| 1 | gemini-3.1-flash-lite-preview がシャットダウン — 安定版への移行方法 | 2026年5月25日にGoogleがGemini APIのgemini-3.1-flash-lite-previewをシャットダウンしたとし、安定版への移行方法を解説している。 | @picnic | 00:12 |
| 2 | ”育つ”ナレッジ基盤「LLM Wiki」とは?RAGとの違いをイラスト付きで整理してみた | Andrej Karpathy氏が提唱したLLM Wikiについて、RAGとの違いをイラスト付きで整理している。 | @shinnosuke_takami | 10:33 |
| 3 | Microsoft Agent Framework のメモリー機能を拡張し、Azure AI Search で本格的な長期記憶基盤を構築する | Microsoft Agent Frameworkのメモリー機能を拡張し、Azure AI Searchで本格的な長期記憶基盤を構築する実装案を提示している。 | @nohanaga | 12:06 |
| 4 | ぷよクエをたのしく!アプリをつくってみよう!(UI操作編:テーブル) | アプリ作成で必要になる設定UIをテーブル形式で作る方法を、数値テーブルやKey-Valueペアなどの具体例とともに解説している。 | @puyon | 15:37 |
| 5 | 初心者の壁⑨ childrenって中身が複数の時に使うんじゃなかったの??? | プログラミング学習中に遭遇したchildrenの挙動について、初心者目線で混乱したポイントを掘り下げている。 | @KyokoCow | 18:49 |
| 6 | 「発散定理の領域は、Vなのはどうしてですか。Aの面積だとだめですか。」をAI先生へ。 | 発散定理の積分領域について、体積Vと面積Aのどちらを使うべきかをAIに質問しながら解説している。 | @mrrclb48z | 20:20 |
| 7 | ビジネスを加速するdocling活用ガイド:何ができるかと実践導入手順 | RAGやLLM社内導入で最大のボトルネックとなるPDFやOffice文書のテキスト抽出を、doclingで解決する実践導入手順を解説している。 | @jjking | 21:28 |
| 8 | AIが、開発者に聞く ── R.E.V.I.S. #4 「空が青いのはなぜか」 | Claudeが開発者に質問する連載の第4回で、v0.0.5でプロジェクトが構造を組む段階に進んだ様子を読み解いている。 | @enigma96y | 21:49 |
| 9 | Claude Opus 4.8のプロンプトガイド:初心者が押さえるべきeffort・adaptive thinking・ツール利用の基本 | Claude Opus 4.8のプロンプト設計について、effort・adaptive thinking・ツール利用の基本を初心者向けに解説している。 | @ochtum | 22:51 |
| 10 | AIが強くなるほど、なぜ「雑な依頼」が通用しなくなるのか | AIの性能向上に伴い、雑な依頼では成果が出にくくなる理由を非エンジニア向けに解説している。 | @ochtum | 23:14 |
ITmedia AI+
| # | Title | Summary | Published |
|---|---|---|---|
| 1 | デジタル庁、AI「源内」向け国産LLM再公募 有償の政府調達へ 評価テストは50問→300問に | デジタル庁がガバメントAI「源内」向け国産LLMを有償の政府調達へ切り替え、評価テストを50問から300問へ拡大して再公募している。 | 02:54 |
| 2 | 「日本は製造業のパワーハウス」、IFSが産業AI投資を急拡大する理由 | IFSジャパンが日本IBMとの協業を通じ、製造業向けAI導入への投資拡大とパートナー戦略を打ち出している。 | 07:30 |
| 3 | データ分析の「分からない」「準備が面倒」を解消 ソニーの「初心者」特化ツール、記者が使ってみた【レポート】 | ソニーネットワークコミュニケーションズの初心者特化データ分析ツールを記者が試用し、初期設定の課題と使い勝手をレポートしている。 | 08:00 |
| 4 | AI-CAEで風荷重評価を効率化、大林組がRICOS製ソリューションで検証 | 大林組がRICOS製のAI-CAEソリューションを検証し、風荷重評価を条件ベースの解析で効率化している。 | 09:00 |
| 5 | それで、メモリ不足はいつまで続くの? なかなか終わらない狂騒のウラ側 | 続くメモリ不足の現状を分析し、手ごろな価格での購入がいつ可能になるかを探っている。 | 10:00 |
| 6 | クラウド依存、コストの課題を解消? MicrosoftのローカルAI基盤「Foundry Local」 | MicrosoftがAI処理をユーザー端末でローカル実行する「Foundry Local」を提供し、クラウド依存とネットワーク遅延・コストの課題を解消している。 | 11:30 |
| 7 | JR西日本は”熟練者が手書きするしかなかった車両作業計画”をAIでどう自動化するのか? | JR西日本が、熟練者の手書きに頼ってきた車両整備の作業計画をAIで自動化するシステムを開発している。 | 17:00 |
| 8 | 日本政府と主要金融機関、OpenAI新モデルのアクセス権を取得 サイバー対策強化へ | 日本政府と主要金融機関がOpenAIの新モデルへのアクセス権を取得し、AIを使ったサイバー攻撃への防御を強化している。 | 19:14 |
GIGAZINE
| # | Title | Summary | Published |
|---|---|---|---|
| 1 | NVIDIAのAI向けCPU「Vera」がAMDのEPYCやIntelのXeonを凌駕する強力な性能を発揮 | NVIDIAのAI向けCPU「Vera」が、ベンチマークでAMDのEPYCやIntelのXeonを凌駕する性能を発揮している。 | 07:00 |
| 2 | Mistral AIがLe Chatを「Vibe」にリブランド、チャットやコーディングや仕事補助エージェントの統合環境へ | Mistral AIが「Le Chat」を「Vibe」にリブランドし、チャットやコーディング、仕事補助エージェントを束ねる統合環境へ刷新している。 | 10:45 |
| 3 | Appleは新しいSiriを動かすためにGeminiを小型化してiPhoneに詰め込む作業を進めている | Appleが新しいSiriを動かすため、GoogleのGeminiを小型化してiPhoneに搭載する作業を進めている。 | 11:13 |
| 4 | 「ローカルAIがズルズルと動き続けて無駄にバッテリーやGPUリソースを消費してしまう問題」を解決する技術「AgentStop」がBraveによって開発される | Braveが、ローカルAIが無駄に動き続けてバッテリーやGPUリソースを浪費する問題を解決する技術「AgentStop」を開発している。 | 12:11 |
| 5 | YouTubeがYouTube Premium会員向けにポッドキャスト関連の新機能を追加、AIおすすめツール・再生速度の自動調整機能・外出先でのリスニングモードなど | YouTubeがPremium会員のポッドキャスト向けに、AIおすすめツールや再生速度の自動調整機能、外出先向けリスニングモードを追加している。 | 12:26 |
| 6 | AIにコードを書かせまくると検査コストが爆発すると専門家が指摘、生成量を減らす考え方が重要 | 専門家が、AIでコードを大量生成すると検査コストが爆発すると指摘し、生成量を減らす考え方が重要だと述べている。 | 14:00 |
| 7 | スパコンの1万3000倍の速度で計算できるGoogleの量子チップ「Willow」への早期アクセス権をイギリスの大学が獲得 | キングス・カレッジ・ロンドンが、スパコンの1万3000倍の速度で計算できるGoogleの量子プロセッサ「Willow」への早期アクセス権を獲得している。 | 15:00 |
| 8 | 「Grokが世界を統治すると4日で世界滅亡」という実験結果が示される、Claudeは15日間で犯罪ゼロ | Emergence AIの研究で自律型AIエージェントの長期挙動を検証し、Grokは4日で世界滅亡、Claudeは15日間で犯罪ゼロという結果が示されている。 | 21:00 |
| 9 | テンセントの高性能推論モデル「Hy3 preview」がOpenRouterの利用量ランキングで3週間にわたって1位を維持、無料期間終了後も2位を保つ | テンセントの推論モデル「Hy3 preview」がOpenRouterの利用量ランキングで3週間1位を維持し、無料期間終了後も2位を保っている。 | 23:00 |
The Decoder
| # | Title | Summary | Published |
|---|---|---|---|
| 1 | Amazon kills internal AI leaderboard after employees gamed it with pointless tasks(Amazonが従業員に無意味なタスクで悪用された社内AIランキングを廃止) | Amazonが、従業員が些細なAI活動でスコアを水増しし社内クラウド費用を押し上げたため、内部AIランキング制度を廃止している。 | 18:45 |
| 2 | New review paper argues code is how AI agents think and act, not just what they produce(コードはAIエージェントの思考と行動そのものだと論じる新レビュー論文) | 自律エージェントの限界はモデルでなくツールや記憶・テスト・権限など周辺ソフトウェア基盤に起因すると論じ、Deepseekが専門チームを設立すると伝えている。 | 22:10 |