生成AIにおける人間(人力)のキュレーター(Human curator)の役割の神髄を明確化した新論文の意義

　昨今、生成AIの功罪を巡る議論が高まる中で、消費者保護から見たマーケティング活動の問題に関し重要と考える点を例示する。

(1)テレビ番組等のサプリメント等スポンサー広告の多過ぎ、またインフルエンサー広告は全く無意味、(2)ネット広告・ターゲット広告のしつこさ(場合によっては詐欺広告類似)、(3)なりすまし詐欺メールの氾濫、(4)かつて一般に利用出来た商品テスト(注1)は皆無である。

　このようなマーケィングの在り方に加えて、AI技術の普及は消費者にとってメリットはますます後退している。(3月29日付け読売新聞１面連載特集「情報偏食：AIが回答「多様性減少」第6部　求められる規範五最終回参照)

ところで、ブロガー（コンテンツ・クリエイター）である筆者は、最近AIにおける人間のキュレーター(Human curator)の役割の神髄を明確に指摘した海外レポートを読んだ。具体的にはジョーン・ウェステンバーグ(Joan Westenberg　)氏のblog「キュレーション(人力で情報を収集、整理、要約、公開（共有）すること)は知的な会話における最後の望みである」およびグレグ.・ブックレス(Greg Buckles)氏(注2)の eDiscovery Journal への最新投稿「キュレーション： AI の事実の背後にある人間の意味(Curation – the Human Meaning behind the AI Facts)」のうち、今回は内容から見て目から鱗が落ちるといえる前者のみ取り上げる。また、RSSの再評価などもわが国では珍しい点で特記事項にあたる。

Greg Buckles 氏

　さらに、AIに関しコンテンツ・キューレーターやコンテンツ・アグリゲーターの役割等につき、わが国で詳しく解説したものは皆無である。今回のブログの後半でまとめた。

　なお、後段で説明するコンテンツ・アグリゲーターの例について、筆者はこの例示には異論がある。【私見】として長年の筆者の法律ブロガーの経験から補追する。

Ⅰ．「AIキュレーションは、知的な会話(discourse)における最後の望みである」

　Joan Westenberg氏のレポートを仮訳する。なお、注書き、リンクおよび太字部は筆者の判断と責任で行った。

Joan Westenberg　氏

　ChatGPT のようなツールを使用すると、誰でも、いくつかのプロンプト(コンピューターがユーザーに対して入力を促す記号)を表示するだけで、書き直された Wikipedia の記事、エッセイ、規範(code )、詩などを思いつくことができる。コンテンツ作成のこの「民主化」は、これまで聞かれなかった声に力を与えるという偉大な約束として宣伝されている。しかし、ここでいう「民主化」という言葉は間違いなく誤った呼び名といえる。

　これは、コンテンツ作成の力関係における平等主義的な変化を示唆しており、より多様な声を聞くことが可能になるとされている。この視点は、よく言えば盲目的に理想主義的で、悪く言えば冷笑的に操作的であるが、AI が支配するインターネットの根底にある複雑さと潜在的な落とし穴を認識していない。

　これは、さまざまな層にわたってこれらのテクノロジーに平等にアクセスし、理解していることを前提としているが、これは現実とはかけ離れている。デジタル格差(digital divide)は依然として大きな障壁となっており、これらのツールへの公平なアクセスを妨げている。これらの AI テクノロジーの管理と開発は少数の大手企業や機関に集中しており、(必然的に) 情報のゲートキーピング(門番)、偏見、情報の商業化につながる。

　AI によって生成されたコンテンツが無差別に拡散しても、過小評価されている人々に力を与えることも、知識創造を民主化することもできない。むしろ、一般に公開されている情報の信頼性と信頼性がさらに薄まり、ますます断片化することになる。

AI の過剰利用により、誤った情報や低品質のコンテンツの問題が大幅に悪化している。

　AI テクノロジーの現状には、AI テクノロジーが生成するコンテンツの正確性と完全性を確保するために必要な微妙な理解と倫理的判断が欠けている。この能力のギャップにより、誤った情報が野放しに拡散し、言説を分断し、分断を深め、意思決定を妨げる水門が開かれる。

　これは結局、以下の1 点に集約される。 人間によるキュレーションは、現在これまで以上に重要になっている。アルゴリズムが精度や品質の程度に応じて膨大な量の情報を量産する中、人間のキュレーターの洞察力のある判断が、誤った情報と平凡さの潮流に対する唯一の防御手段となり、 人間のキュレーターは、(1)微妙な理解、(2)状況認識、(3)倫理的判断をそのテーブルに乗せるが、これらの性質は、現在の状態では AI が基本的に再現することができないものである。

　人間のキュレーターは、アルゴリズムではできない方法で、微妙な議論を区別し、文化的な微妙さを認識し、情報源の信頼性を評価することができる。この人間味は、情報エコシステムの完全性を維持するために不可欠である。これは、品質のフィルターとしてだけでなく、AI システムによって生成される圧倒的なノイズの中で、意味のある信頼できるコンテンツを示す信号としても機能する。

　人間のキュレーターの役割は、コンテンツを選択して提示するだけではなく、人間の洞察力だけが提供できる信頼性と信頼性の感覚をデジタル環境に吹き込むことでもある。テクノロジーが容易に誤解を与えたり、圧倒したりする時代においては、人間によるキュレーションを信頼することは優先事項ではなく、世界の理解を形作る情報の質を維持するために必須なものとなっている。

　フェディバース(Fediverse)(注3)内外で、尊敬される声が分散型SNSであるマストドン(Mastodon)やその Web サイトなどのプラットフォームを活用して、POSSE モデルに従って個人的に精査されたリンク、分析、創作物を共有している。つまり、自分のサイトで公開し、他の場所でシンジケートする。これらの人間キュレーターは、高品質で人間中心のコンテンツをソーシャル・ネットワークに配信する前に、独自の洞察力のレンズを通して渡すことで、出所が疑わしい機械生成コンテンツの海の中に正気の島を作り出す。さらに、彼らのフォロワーは、これらの洞察の価値ある情報(nuggets)をソーシャル・ウェブ上でさらにシンジケートし、一元化され、アルゴリズムによって強化されたフィードに代わる手段を提供する。

　この分散型分散モデル(distributed, decentralised model)は、Web 自体のアーキテクチャ、つまりネットワーク内のネットワーク、信頼と認識された権限に基づいて他のサイトにリンクするサイトに従う。これは、利益主導の巨大企業によって後押しされた、いわゆる「インフルエンサー」だけにたよるコンテンツ生成だけでなく、読者の積極的な参加と批判的思考を中心とした情報民主主義の再考である。我々キュレーター全員には、自分の注意を注意深く管理し、共有や推奨を通じて広めるコンテンツに対して責任がある。声が増えるとノイズも増えるが、識別力を高めれば真実の信号を見つける機会も増えるのである。

　この POSSE モデル(注4)は RSS(Rich Site Summary)(注5) と見事に連携しており、加入者は中央プラットフォームによって完全に検閲されていないオープン標準フィードを介して、信頼できる Web サイト、ブログ、ポッドキャストをフォローできるようになる。 RSS は、ソーシャル・メディアの消防ホースの時代にはほとんど忘れられていたが、壁に囲まれた庭園内のアルゴリズム・フィードからの重要な出口を提供する。これにより、読者が自分自身の情報ダイエットを決定できるという主体性が戻り、クリエイターにはサードパーティのネットワークを介するのではなく、視聴者との直接的な関係が与えられる。

　またRSS は、テクノロジー・エッセイストのヴェンカテシュ・ラオ(注6)氏が「コモンシズム(commonsism」と呼ぶものを可能にする。これは、記事全文を含む Web サイトからの簡単な時系列の更新を通じて、読者が再び自分自身の注意を向けることができるようにするものである。RSS を使用すると、コンテンツ・ストリームが再び民主的になり、各人が中央のゲートキーパーにフィードを送信するのではなく、さまざまなサイトからフィードを厳選するようになる。これは、情報民主主義を文脈に基づいて再考するものであり、読者が自分の興味や価値観に沿って情報摂取量を決定することにつき信頼を増す。

　RSS と POSSE の復活は、初期のブログ時代に繁栄した個人 Web サイトのエコシステムの復活を示しています。作家、研究者、技術者などが、公開ノートと洞察を共有するチャネルの両方として、フィードを備えた独立したホームページを再起動している。個人の Web サイトは、オンライン上の究極の主権領域であり、クリエイターが独自の条件でコンテンツを共有できるようになる。これらのサイトは、外部情報をフィルタリングして知恵と視点を養いながら、アイデアをデジタル公共広場にエクスポートする。これらは、サイト所有者の行程に基づいて時間の経過とともに進化する、まさに拡張可能な生きたドキュメントである。

　Large Language Grift (大文字詐欺商法)の時代には、情報源の出所と信頼性のシグナルをさらに可視化する必要がある。クリエイターの個人サイトでは、明確な情報起源のストーリーと背景を通じてこれを提供する。我われは物語の作者が誰であるかを正確に知っており、それに応じて評価することができる。これらの個人は、個人サイトからリンクし、ソーシャル・チャネルを介してシンジケートすることによって、信頼できるノードを備えたネットワークにシード値を与える。クリエーターの拠点は、過剰生成による作戦基地や要塞となり、慎重な検討に基づいて、彼らが高い信号とみなしたものだけを情報発信することになる。

　自然界の生態系が繁栄するには、動植物間の注意深いバランスが必要である。同様に、私たちのAI情報環境も、編集者、著者、記者、アナリスト、熱心な市民など、デジタル公共広場全体にわたる洞察のノードを管理する思慮深い人間の管理者に依存している。注意と洞察力があれば、人間中心のコンテンツを向上させることができ、情報民主主義を、計算上の法定ではなく、信頼できる人間の判断に基づいた共有の協力的なプロセスとして再考することができる。

　一部の企業は、完全な自動化といくつかのプラットフォームの統合を支持し続け、それが増加や拡大する唯一の方法であると信じている。しかし、それは視点の独占を生み出し、モノカルチャーが連鎖的な失敗や濫用により脆弱になる危険を冒すことにつながる。我われは、主権者の声がより広範な知識生態系に貢献できるようにする相互運用可能なプロトコルを必要としている。生成アルゴリズム(Generative algorithms)は、既存の厳選された洞察を完全に置き換えるのではなく、強化するように指示できる。我々は、オンラインと自然内のネットワーク間の健全な接続が、どのノードをも超える反脆弱性と集合知にどのように貢献するかを見てきた。

　生態系の多様性がこれらの大規模なAI言語モデル自体に関係している可能性があるという初期の兆候がある。 Anthropic 社の「憲法 AI (Constitutional AI)」(注7)のようなツールは、自動出力で既存のコーパス(corpora)(注8)を上書きするのではなく、既存のコーパスを尊重するように設計されている。本質的に慎重で支援的なシステムは、人間が厳選したノードと調和して動作し、編集の完全性を損なうことなく増幅を提供できる。人間と機械のハイブリッド・キュレーションを念頭に置いて慎重に構築されたこれらのテクノロジーは、たとえ私が AI 仲間についてどれほど不満や不平を言ったとしても、前向きな力になることができる。

　多くの点で、我われの情報ダイエットのキュレーションを、我われの利益と一致しない遠く離れたプラットフォームに委託してきた。知識ネットワークをナビゲートする際にたとえ部分的な主体性を取り戻すことは、セルフケアの行為である。独自の RSS フィードを設定し、個人サイトにリンクし、インスピレーションを与える声を高めることは、健全な情報民主主義の基礎である。単に無限に生成することではなく、信頼できるガイドを介して思慮深い情報の刈込剪定、編集、文脈設定によって定義されるものである。

　どの庭園でも、成長の季節には、栽培、剪定、さらには土壌を補充するための休閑期間など、手入れの季節が必要であると同様に、単に情報を支配したりコントロールしたりしようとするのみではなく、情報の豊饒のサイクルを私たちが受け入れられるべきで形態にすべきである。

Ⅱ．コンテンツのキュレーターとコンテンツ アグリゲーターの違いの明確化

　TechTargetジャパン(IT製品／サービスの導入・購買に役立つ情報を提供する無料の会員制メディア)の解説から抜粋、仮訳する。

１．コンテンツ・アグリゲーターとは何か?

　コンテンツ・アグリゲーターは、再利用のためにさまざまなオンライン・ソースから Web コンテンツとアプリケーションを収集する個人、組織、またはツールをいう。 コンテンツ・アグリゲーターは、独自のオリジナルコンテンツを作成しない。

　コンテンツ・アグリゲーターには 2 つのタイプがある。(1)内部使用のために表示するコンテンツを収集するものと、(2)顧客に配布するためにコンテンツを収集するものである。後者のアプローチはシンジケーションとも呼ばれる。アグリゲーターは、ブログ、ニュース、ソーシャル・メディア投稿など、さまざまな種類のコンテンツを収集する場合がある。

　コンテンツの集約は、インターネット上の膨大な量のコンテンツと情報を整理し、それによって情報過多と戦う方法である。これは、コンテンツ作成者、消費者、マーケティング担当者にとって役立ち、エンタープライズ・コンテンツ管理 (ECM) 戦略のコンポーネントでもある。

２．コンテンツ・アグリゲーターはどのように機能するか?

　コンテンツ・アグリゲーターは、インターネット上の複数のソースからデータを収集し、単一のリポジトリに入れる。アグリゲーターは、公開される新しいコンテンツを継続的に収集する。多くの場合、コンテンツ・アグリゲーターは RSS フィードを使用してこの機能を自動化したり、特定のトピックを中心としたコンテンツや特定のキーワードを含むコンテンツを検索したりする場合がある。

　一部のコンテンツ・アグリゲーターは、人工知能 (AI) を使用してコンテンツを検索、フィルタリング、収集する、より高度なツールに依存している。たとえば、AI ツールを使用するニュース・アグリゲーターは、ウェブ上の何千もの記事を自動的に読み取り、最も洞察力のある記事を決定したり、次のような定義された基準に基づいて優先順位を付けたりするアルゴリズムを備えている。

①特定のキーワード

②ハッシュタグ

③トレンド

④トピック

⑤類似のコンテンツ

　類似したコンテンツの場合、ユーザーは、類似したコンテンツを見つけるためのモデルとして機能するコンテンツをコンテンツ・アグリゲーターにフィードできる。ユーザーは、どの結果が役に立ったかについて AI アグリゲーターにフィードバックを送信できる。 AI ツールは入力を使用して将来のコンテンツを選択する。

　集約プログラムは多くの場合、アプリケーション・プログラミング・インターフェイスを使用して他の Web アプリケーションに接続する Web アプリケーションである。

３．コンテンツのキュレーションとアグリゲーション

　コンテンツのキュレーションとアグリゲーションは、既存のコンテンツを収集して再公開するプロセスの以下の 2 つの別個の部分である。

(1)コンテンツの集約

　集約とは、バックエンドでのデータとコンテンツの収集と編成を指す。多くの場合、集計は自動化されたプロセスである。アグリゲータは、コンテンツ内の特定の特徴 (キーワードなど) を自動的に検索することにより、Web からソースを取得する。アグリゲーターはコンテンツを頻繁に投稿することで、検索エンジンの最適化にプラスの効果をもたらす。

(2)コンテンツのキュレーション

　キュレーションとは、コンテンツに簡単にアクセスして使用できるようにコンテンツを編成、配置、表示することである。キュレーターは個人または企業の場合があり、キュレーションは通常、手動のプロセスである。

　コンテンツ・キュレーターは、さまざまなコンテンツを取得できる複数のソースにアクセスできる必要がある。理論的には、個人はコンテンツ集約ツールを使用してコンテンツを自動的にまとめ、その後手動でそのコンテンツを調べて、最適なものを選択してキュレートすることができる。キュレーションを成功させるには、エンドユーザーのニーズに関する洞察を活用し、コミュニケーション・チャネルを通じて戦略的にコンテンツを共有するかどうかにかかっている。

　コンテンツ・キュレーションの例としては、Twitter や YouTube などのソーシャル・サイトが機械学習を使用して有害なコンテンツを検出して削除する場合等がある。

４．コンテンツ・アグリゲーターを使用する理由は何か?

　コンテンツ・アグリゲーションの主な利点は、特定のトピックや重点領域に関連する多数のコンテンツが 1 つにまとめられることである。通常、アグリゲータは情報を効率的に整理し、コンテンツをすばやく見つけられるようにする。

　人々や組織がコンテンツ・アグリゲーションやコンテンツ・アグリゲータを使用する理由には、次のようなものがある。

①消費者は、他の方法では見ることのできないさまざまなコンテンツにアクセスできるようになる。これにより、既存の興味に関する新しいコンテンツを常に把握し、新しい興味を発見することができる。

②コンテンツ・クリエイターは、コンテンツ・アグリゲーションを使用して、自分の作品をより広範なコミュニティまたは新しいコミュニティに公開し、コンテンツの認知度を高める。

③デジタルマーケティング担当者は、コンテンツ・アグリゲーターを使用して、コンテンツを複数のプラットフォームに配信してより幅広い視聴者に公開することで、デジタル・コンテンツ・マーケティング戦略を改善できる。また、アグリゲーターを使用して、さまざまなプラットフォームで誰が自社のコンテンツに関与しているかを確認することもできる。

５．コンテンツ・アグリゲーターの種類

　アグリゲーターは、扱うコンテンツの種類とコンテンツの収集元によって異なる。アグリゲーターは 1 つのソースからコンテンツを収集し、それを 1 か所に整理してキュレーションを容易にすることができる。たとえば、企業は内部コンテンツを整理するために集計ツールを使用する場合がある。

　アグリゲーターが使用されるコンテンツの種類には、次の 6 つが含まれる。

①ブログ： ブログ・アグリゲーターは、複数のソースからニッチなブログ投稿を収集し、中央サイトに表示する。 Blog Engage はブログ・アグリゲーターの一例である。

②ニュース： これらのアグリゲーターは複数の情報源からニュースを収集します。例としては、Google ニュースや Apple ニュースなどがある。

③ソーシャルメディア： Curator などのソーシャルメディア・アグリゲーターは、Facebook や Twitter などのさまざまなソーシャル・メデイア・サイトから情報を取得し、その情報をライブ映像として表示する。

④Research：リサーチ・アグリゲーターは、専門家からの質問に答えたり、さまざまな業界の動向を把握したりするために、研究ジャーナルから情報を収集する。 Feedly は研究論文を集約するために使用できる。

⑤サービス： サービス・アグリゲーターは複数のサービス・プロバイダーを収集し、ユーザーが選択肢を参照して 1 つ選択しやすいように分類する。たとえば、Airbnb は、特定の場所でユーザーが滞在できる可能性のあるすべての宿泊場所を表示する。

➅ビデオ：ビデオ・アグリゲータは、特定のトピックに関する最近公開されたビデオをさまざまなサイトから集める。 YouTube はビデオ・アグリゲーターの一例である。

６．コンテンツ・アグリゲーターの例

　コンテンツ・アグリゲータは通常、Web ベースのツールまたはアプリケーションである。一部のツールはさまざまなコンテンツタイプを集約でき、多くの場合、ユーザーが特定のタイプのコンテンツに集中できるようにカスタマイズ可能である。

　コンテンツ集約ツールの例には、次のものがある。

① AllTopはニュースアグリゲーター。

② Apple Podcasts はポッドキャストを集約。

③ Blog Engageはブログ・アグリゲーター。

④ Curatorはソーシャル・メディア・アグリゲーター。

⑤ Google ニュースはニュースコンテンツを集約。

➅ Feedlyは、あらゆる種類のコンテンツを対象とした AI を活用したアグリゲーター。

⑦ Flipboard は、カスタマイズ可能なフィードを備えたブログ・アグリゲーター。

⑧Information and Content Exchange (ICE) は、財務データと市場データを集約。

⑨ Pandaはニュース・アグリゲーター。

⑩ Rotten Tomatoesは映画レビューを集約。

⑪ Reddit は、ニュースおよびソーシャル・コンテンツのアグリゲーター。

⑫ Science News は科学関連のコンテンツを集約。

⑬ travel blogger communityは、旅行関連のコンテンツが集約。

⑭ Taggboxは、マーケターが自分について投稿している人を確認するために使用するソーシャル・メディア・アグリゲーター。

Ⅲ．コンテンツ・キュレーションの取組みから見た新たな提言

　Ⅱ．の内容の最後にコンテンツ集約アグリゲーター・ツールの例を挙げた。しかし、筆者が約18年間かけて築いてきた海外情報ブログ、特に法律、個人情報保護、情報セキュリティにつき原データを正確に理解し、翻訳、追加説明を行うには、コンテンツ集約アグリゲーターのみに頼ることは極めて危険ある。

　すなわち、例えば法律の立法や裁判情報　正確に読むには、まず収集力や執筆陣が優れたロースクールや多くの国際的拠点や異なる言語に習熟した人材をかかえる大手ローファームからの第一次情報の入手が必須である。具体的なこれらの情報源のついてはこれまでの筆者のブログを読まれれば明らかであろう。

**************************************************************************

(注1)世界的なオーストラリアの商品テスト機関である消費者保護団体“CHOICE”については、筆者ブログ「オーストラリアの消費者擁護団体やACCCが行った水に流せる使い捨てシートによる下水施設の「ファットバーグ」の原因追及と製造企業の広報活動の在り方をめぐる告発の動向」を参照。

(注2) Greg Buckles 氏は、 eDiscovery(電子情報開示)と Infographic solutionsに重点を置いた独立系コンサルタント。

＊米国の民事訴訟においては、当事者は、事件に関連する全情報の開示が求められる。これをディスカバリー（Discovery＝証拠開示）制度という。この制度により、訴訟の当事者は、相手の有する証拠と成り得る情報を有利不利に関わらず、広範に取得することができる。

ディスカバリーの方法には

質問書（Interrogatories）
文書提出要請（Request for Production）
デポジション：証言録取（Deposition）

などがある。

このうち電子データに関わるものがeディスカバリー（eDiscovery）である。正式にはElectronic Discovery（電子情報開示）といい、米国では2006年12月の連邦民事訴訟規則（FRCP）改定によって義務付けられた。

これにより企業は、原告被告のどちらもが、法的要求に応じてコンピュータなどに保存されているすべての関連データを証拠として期限内に提出する責を負う。日本企業の場合には、日本に保存されているデータも対象となり、情報は膨大な量になる。開示対象となるべき情報を、その保存場所が発見できずに提示できないなどの場合には、厳しい制裁措置を受けたり敗訴に至る事例が多々あり、注意が必要である。(解説から引用)

(注3) Fediverse （「federation（連合）」と「universe（世界）」の合成語）は、SNS・ミニブログ・ブログ等を含むWebサイトの公開やファイルホスティングを行う、独立性を保ったまま相互接続されたサーバー群のことを指す。異なるサーバー（インスタンス）それぞれにおいてユーザーがアカウントを作成し、異なるサーバーに属するアカウント同士が各サーバー上のソフトウェアが実装するオープン標準の通信プロトコルを通して通信できることが特徴である。(Wikipedia から抜粋)

(注4)「Posse モデル」は学生と大学キャンパスの両方で機能し、慎重に選ばれ訓練された少数の多様な才能のある学生グループ、つまり Posse が個人とコミュニティの発展の触媒として機能できるという信念に基づいています。米国がますます多文化社会になるにつれ、21 世紀のリーダーはこの国の豊かな人口構成を反映する必要があるとPosseは考えている。我が国の有望な未来の鍵は、複雑な社会問題に対して合意に達した解決策を開発する、多様な背景を持つ強力なリーダーの能力にかかっている。 Posse の主な目的は、こうした明日のリーダーを育成することである(解説から抜粋、仮訳)

(注5) RSS（アール・エス・エス：Rich Site Summary）とは、ウェブサイトの要約や記事の見出しなどを配信するためのXMLベースのデータフォーマット。

RSSリーダーと呼ばれるソフトウェアやRSSに対応したブラウザを使用することで、総務省に掲載された新着情報を素早く入手して、興味のある記事を簡単に閲覧することができる。(総務省の解説から抜粋)

(注6) Venkatesh Rao氏は2007年の“ribbonfarm”の創設者でかつチーフ編集者である。

(注7) Anthropic と集合知プロジェクトは最近、AI システムの憲法草案を作成するために、約 1,000 人のアメリカ人が参加する公開入力プロセスを実行した。これは、民主的なプロセスが AI 開発にどのような影響を与えるかを調査するために行った。実験の結果、社内の体質に共感できる部分と、好みが異なる部分が分かれた。この投稿では、その結果として得られた公的に入手された憲法と、憲法 AI を使用して憲法に対して新しい AI システムをトレーニングしたときに何が起こったかを共有する。

憲法 AI (CAI) は、憲法に書かれた高レベルの規範原則を遵守するように汎用言語モデルを調整するために Anthropic が開発した手法である。 Anthropic の言語モデル“Claude” は現在、Anthropic の従業員が厳選した憲法に依存している。この憲法は、国連世界人権宣言などの外部情報源と、言語モデルをより有益で無害にするために言語モデルを操作したわれわれ自身の直接の経験からインスピレーションを得ている。

憲法 AI は、AI システムの規範的価値をより透明にするのに役立つが、これらの価値を選択する際に開発者としての私たちが果たす大きな役割も強調している。結局のところ、我われは憲法を自分たちで書いたのである。そのため、この研究では、Anthropic で働いていない多くの人々の好みを使用して憲法を作成することに熱心であった。われわれの研究は、一般の人々がオンラインの審議プロセスを通じて言語モデルの動作を集団的に指示した最初の例の 1 つである可能性があると信じている。われわれのごく初期の取り組みと発見を共有することで、他の人が私たちの成功と失敗から学び、この取り組みをさらに発展させるのに役立つことを願っている。(Anthropic社のサイト3/26(54)を仮訳)

　筆者は別の「憲法AI」の解説文を読んだ、参考として以下、仮訳、引用する。(WIREDの解説も併読されたい)

憲法 AI: 基本ガイド

急速に進化する人工知能 (AI) の分野では、倫理とセキュリティが全面的に重視される傾向がますます高まっている。この状況から浮かび上がってくる顕著なコンセプトが「憲法AI」である。 AI システムが司法、統治、政策立案などの重要な分野で足場を築くにつれて、憲法遵守の要求が最重要になっている。本解説では、Constitutional AI の世界を明らかにし、AI セキュリティに関心のある技術的に鋭い読者に合わせた包括的な理解を提供する。

(1)「憲法AI」とは何か？憲法上の AI の定義

本質的に、憲法 AI は、法的枠組み、特に憲法原則と AI システムを融合させたものである。その目標は、AI の運用を国の憲法やその他の基本的な法的文書に謳われている法的および倫理的原則に組み込んで確実に整合させることである。これは、社会契約の中心にある権利、特権、価値観を認識するだけでなく、尊重する AI システムを構築することを意味する。

(2)なぜ憲法AIなのか？

①倫理的保護:AI が人命に影響を与える意思決定を行う中、憲法を認識した AI は潜在的な倫理上の落とし穴に対する防波堤として機能し、基本的権利の保護を確実にすることができる。

②法令遵守：特に司法や政策決定などの分野における AI の決定の法的影響を考慮すると、憲法ガイドラインの遵守は交渉の余地がない。

③大衆の信頼の強化:AI を広く導入するには信頼が極めて重要である。 AI システムが基本的な社会原則に準拠していることを一般の人々が知ると、受け入れと信頼が強化される。

(3)憲法AIの仕組み

①ルールベースのシステム:1 つのアプローチは、憲法上の原則が明示的なルールとしてエンコードされる、ルールベースの AI モデルを構築することである。この方法は明確性を提供するが、あいまいなシナリオでは柔軟性に欠ける可能性がある。

②トレーニングデータの拡張:憲法上の原則は、AI トレーニング・データセットに組み込むことができる。これにより、機械学習プロセス中に AI システムがこれらの原則を確実に内部化する。

③憲法検証レイヤー:事後検証レイヤーを統合でき、最終的な決定が下される前に AI 出力が憲法上の原則に照らして相互検証される。

④法律専門家とのフィードバック・ループ:AI モデルの継続的な改良は、法律専門家からのフィードバックを統合することで実現でき、憲法の微妙な違いを尊重しながらシステムを確実に進化させることができる。(解説から抜粋、仮訳)

(注8) 「コーパス（Corpus）」とは、自然言語の文章や使い方を大規模に収集し、コンピュータで検索できるよう整理されたデータベースのこと。日本語では「言語全集」などとも呼ばれる。AIが自然言語を扱うためには、膨大な量のデータ学習が必要である。人間が外国語を学ぶときと同じように、AIにも単語の意味や文法上の扱い、用例などを記した辞書のようなデータベースが欠かせない。

コーパスでは、新聞や雑誌、本で使われる文章や、文字化した話し言葉、インターネット上のテキストなどの自然言語を大量に集め、構造化している。辞書を引きながら外国語を読むように、AIはコーパスを参照しながら構造化されていない文章を読むことが可能である。(AIsmiley解説から抜粋)

**************************************************************************