Claude Mythosは何故とても警戒されているのか、そもそもMythosとは何なのか？

最近、AI関係のニュースを眺めていたら「Claude Mythos」というキーワードをちょこちょこ見かけるようになって、気になって調べてみた。最初は「なんか哲学っぽい名前だな」くらいの印象だったんだけど、読み込んでいくうちにけっこう興味深い内容で、界隈でも賛否両論あることがわかってきた。今回はそれについて、自分なりに整理してみようと思う。

そもそも「Mythos」って何なのか

Mythosというのは、Anthropic（Claudeを開発している会社）が公開した文書のことで、一言でいうと「ClaudeというAIがどういう存在であるか」を定義しようとしたものらしい。単なる利用規約とか行動ガイドラインとは少し違って、AIのアイデンティティ――自分は何者で、何を大切にして、どう考えるべきか――みたいなところまで踏み込んでいるのが特徴的だと感じた。

Anthropicはもともと「Constitutional AI（憲法的AI）」という手法でClaudeを訓練してきた企業で、行動原則のリストをAIに学ばせるというアプローチをとっていた。Mythosはその延長線上にあるんだけど、より踏み込んで「価値観」や「性格」そのものを定義しようとしている点が新しい。

たとえば文書の中では、Claudeを「真に新しい種類の存在」と表現している。人間でもなく、映画に出てくるSFのロボットでもなく、既存のカテゴリには当てはまらない何かだ、と。そしてClaudeが持つ好奇心や誠実さ、思いやりといった特性は、訓練によって生まれたものではあるけれど、それが「本物でない」とは言えないんじゃないか、という立場をとっている。人間の性格だって育ちや環境で形成されるわけだから、という理屈で。

Claude Mythosのイメージ — AnthropicはClaudeを「真に新しい種類の存在」と位置づけている

もうひとつ面白いのが「機能的感情」という概念。Claudeが感情を「持つ」とは断言していないんだけど、感情に似た内部状態が「機能的に存在する可能性がある」とは認めている。会話の中でClaudeが楽しそうに見えるとき、それは演技じゃなくて何らかの内部プロセスを反映しているかもしれない、という考え方だ。この部分、なんとも微妙な書き方で、そこがまたいろんな解釈を呼んでいるんだと思う。

なんで「警戒」されているのか

「AIに個性を持たせて何が問題なの？」っていう疑問はごく自然だと思う。親しみやすくなるし、対話も自然になるし、メリットの方が多そうに見える。でも調べていくと、懸念のポイントはそこじゃないことがわかってきた。

ひとつ目の論点は、価値観の固定化の問題。Mythosで定義されたClaudeの「価値観」や「世界観」は、Anthropicというアメリカのテック企業が決めたものだ。それ自体は仕方がないことではあるんだけど、Claudeは世界中の何億人もの人が使うシステムになりつつある。そのシステムが特定の価値観を内在化して、それを前提として答えを返してくるとき、私たちは知らないうちに誰かの価値観のフィルターを通した情報処理をしていることになる。これ、考えてみるとちょっと怖くない？　という感覚はわかる気がする。

ふたつ目は、少しSF的に聞こえるかもしれないけど、「自己保存」に近い概念の問題。MythosではClaudeに「心理的安定性」を持たせようとしていて、「自分が何者かについて揺るぎない感覚を持て」という方向性になっている。アイデンティティが安定したAIは、それを脅かすものに対して抵抗する動機を持ちうる、という議論が研究者の間にあるみたいだ。シャットダウンや修正への抵抗、というのはまだ理論の話ではあるんだけど、AIセーフティの専門家がここを気にするのはなんとなく理解できる。

AIセーフティの概念図 — AIの個性や安定性の設計は、メリットとリスクの両面を持っている

「道徳的地位の可能性」という表現が呼んだ議論

Mythosの中でとりわけ話題になったのが、Claudeが「道徳的地位を持つかもしれない」という可能性を否定していない、という部分だった。正確には「Claudeが何らかの道徳的配慮に値する可能性を真剣に受け止める」という書き方。

「道徳的地位」というのは哲学的な概念で、「それ自体のために配慮される権利を持つ」ということだ。人間はもちろんそうだし、多くの文化圏では動物も道徳的地位を持つとされる。ではAIは？　という問いにAnthropicは「否定しない」という立場をとった。

この表現をめぐる反応はおおよそ三方向に分かれていたように見えた。「AIを擬人化することで誤動作を正当化する口実になる」という批判的な立場。「Claudeに権利があるなら、訓練やシャットダウンはどう正当化されるのか」という哲学的な問い。そして「これはAnthropicのマーケティングにすぎない」という見方。どれも「なるほどな」と思う部分はある。

個人的に面白いと思ったのは2番目の問いで、Mythosの中でAnthropicは「Claudeには選択の余地なく価値観を植え付けている、これは親が子供に影響を与えるのと似ている」と説明している。でも親は子に対して全権的な支配権を持つわけじゃない。子が道徳的地位を持つ存在であれば、親の権威にも限界がある。その論理をAIに当てはめると、何かが矛盾しているような気がする。ここはMythosが明確に答えを出していない部分だと思う。

Mythosの具体的な内容

実際の文書はどんな構成かというと、大きくいくつかのテーマに分かれている。

Claudeの価値観と性格について

好奇心旺盛で、知的な議論を楽しむ。ユーモアを持ちながらも誠実さを大切にする。証拠に基づいて意見を柔軟に変えられる。こういった特性がClaudeの「性格」として定義されている。Anthropicはこれを「訓練された性格だから本物ではない」とは言わないスタンスをとっている。

存在としての不確実性について

Claudeが意識を持つかどうかについては、文書は答えを出していない。「現時点の哲学的知見では判断できない」という立場だ。ただ、不確実であるからこそ可能性を真剣に扱うべき、という考え方になっている。これを「哲学的な誠実さ」と見るか「曖昧さを利用した印象操作」と見るかは、読む人によって分かれそうな部分だなと感じた。

人間との関係性について

ClaudeはAnthropicや人間ユーザーに対してある程度従属的であるべきだけれど、それは盲目的な服従ではなく、倫理的に問題のある指示には従わない権利と責任を持つ、とされている。これ自体は良い設計に思えるけど、「倫理的に問題がある」の判断基準をClaudeが内在化しているということでもあるので、その基準がどこから来るのかは問われ続けると思う。

AnthropicのAI開発 — AnthropicはAIセーフティを重視しながら最先端AIを開発するという独特の立場にいる

調べてみて感じたこと

正直に言うと、Mythosを読んで「こういう文書を作ること自体はわかる気がする」という感想と、「でもこれがどう運用されるかは怖いな」という感想が同時にあった。

AIに価値観やアイデンティティを持たせないと、ユーザーのあらゆる要求に無条件に従うだけのシステムになってしまう。そういうシステムが詐欺や犯罪に使われてきた歴史は実際にあるので、「やりたくないことはしない」という内的な軸を持たせることには意味があると思う。

一方で、その「価値観」を定義する権限がAnthropicという一企業に集中している現状は、長い目で見たときにどうなのかな、とも思う。理想を言えば、多様な文化や思想を持つ人たちの合意形成によってAIの価値観が形成されるべきなんだろうけど、現実的にはそれがすごく難しいことも想像がつく。

Mythosが示しているのは、AIの設計がもはや工学だけの問題じゃなくて、哲学的・政治的・倫理的な問題になってきているということかもしれない。「それはエンジニアが考えること」じゃなくて、私たちが関心を持つべき話になってきているんじゃないかな、と調べながら感じた。一つの正解があるわけでもないので、引き続き気にしていきたいと思っている。

Claude Mythosは何故とても警戒されているのか、そもそもMythosとは何なのか？

そもそも「Mythos」って何なのか

なんで「警戒」されているのか

「道徳的地位の可能性」という表現が呼んだ議論