ChatGPT の背後にある「AI 出稼ぎ労働者」の謎を解く:退屈で反復的、出来高払い、時給はわずか 1 ドル

**出典:**テンセントテクノロジー

要約: データ アノテーターはデータを分類してラベルを付け、大量のデータからパターンを見つけて人工知能が学習できるようにします。これは、マシンの背後に隠れた「幽霊労働」とみなされます。アノテーション作業は人工知能の基礎であり、サプライチェーン全体を形成しており、この種の作業は今後も長期間存在し続けるでしょう。

## 集中

  1. 人工知能は大量のデータからパターンを探して学習しますが、その前にこれらのデータを人間が分類してラベル付けする必要があり、データ アノテーターが登場します。

  2. アノテーターの仕事は単調で退屈です。繰り返しの作業が多く、給料は出来高払いで支払われます。平均時給は 5 ~ 10 ドル (約 36 ~ 72 元) です。今年初めまでに、一部の解説者の時給は1~3ドル(約7~22元)に減額された。

  3. 注釈作業は依然として人工知能の基礎であり、完全なサプライチェーンを形成しています。このような種類の仕事は今後も長く続くでしょう。

  4. アノテーション作業はスマートフォンや自動車製造と異なり、変形しやすく流動的であり、運用コストの低いところに流れることが多い。

ナイロビ大学を卒業して数か月後、現在 30 歳のジョーは、人工知能の訓練に使用される生の情報の処理を手伝うアノテーターとしての仕事を見つけましたが、それは単調で退屈なものでした。人工知能は大量のデータからパターンを見つけることで学習しますが、まずこのデータは人間によって分類され、ラベル付けされる必要があるため、人間は機械の陰に隠れた「ゴーストワーカー」であると言えます。

たとえば、ジョーの仕事を考えてみましょう。彼は自動運転車のビデオにラベルを付け、車、歩行者、自転車、その他ドライバーが注意を払う必要があるものをあらゆるカメラの角度からフレームごとに識別しています。これは困難で繰り返しの作業です。数秒の短いビデオに注釈を付けるには 8 時間かかり、ジョーにはその対価として約 10 ドルが支払われます。

そして 2019 年にチャンスが彼の前に現れ、ジョーはアノテーターを切実に必要としていた新しい会社の新入社員のトレーニングを開始し、4 倍の収入を得ました。 2週間ごとに、50人の新入社員が研修を開始するためにナイロビのオフィスビルに並ぶ。アノテーターの必要性は無限にあるようです。彼らは、鏡で撮った自撮り写真で見た服を分類し、ロボット掃除機の目を通して自分がいる部屋を特定し、ライダーでスキャンしたバイクの周りにボックスを描くように求められます。ジョーの生徒の半数以上は通常、トレーニングが終了する前に中退します。 「同じ場所に長く留まる方法を知らない人もいます」と彼は優しく説明した。さらに、「仕事は退屈だ」とも認めている。

しかし、仕事が不足している場所ではそれは良い仕事であり、ジョーは何百人もの卒業生を輩出しています。訓練後、見習いたちは家に帰り、誰にも何をしているかを告げることなく、寝室やキッチンで一人で働くことができます。彼らは自分たちが何をしているのかさえ理解していないので、それは本当の問題ではありません。

自動運転車用の物体にラベルを付けるのは簡単ですが、歪んだ会話の断片を分類し、話者がロボットなのか人間なのかを識別するのは困難を伴います。それぞれの認識オブジェクトは、より大きなプロジェクトのほんの一部であるため、AI に何をさせるよう正確に訓練しているのかを知るのは困難です。これらのオブジェクトの名前も手がかりを提供しません。Crab Generation、Whale Segment、Woodland Gyro、および Pillbox Bratwurst はすべて、論理的な順序のないジョブ コードです。

彼らを雇用した会社については、流暢な英語を話す人なら誰でも仕事のチャンスを提供するウェブサイト、Remotasks としてしか知らない人がほとんどでしょう。ほとんどのアノテーターと同様に、ジョーは、Remotasks が Scale AI が所有する契約労働会社であることを知りませんでした。 Scale AI は、数十億ドル規模のシリコンバレーのデータプロバイダーであり、顧客には人工知能のスタートアップである OpenAI や米軍などが含まれます。 Remotasks も Scale AI も、Web サイトではお互いについて言及していません。

01 人間特有の能力を持つお手伝いマシン

OpenAI の ChatGPT のような大きな言語モデルに対する世間の反応の多くは、それらが自動化する準備ができていると思われる作業に焦点を当てています。しかし、最も優れた人工知能システムであっても、データにラベルを付けることで人工知能を訓練し、混同された場合には介入する人間の助けなしでは成り立ちません。データを購入する余裕のある企業だけが業界で競争でき、データを入手した企業はそれを秘密にするためにあらゆる努力をします。その結果、少数の人々を除いて、私たちはこれらのシステムの動作に影響を与える情報についてほとんど知りませんし、システムを形成する動作の背後にある人々についてはさらにほとんど知りません。

ジョーの生徒たちにとって、それは正常のようなものをすべて剥ぎ取った仕事だ。彼らは厳格なスケジュールに従うことが期待されており、自分が何をしているのか、誰のために働いているのかを知る必要はない。実際、彼らは自分自身を仕事と呼ぶことはほとんどなく、単なる日常的な「タスク」です。彼らは自らをタスクワーカーと呼びます。

人類学者のデビッド・グレーバーは、いわゆる「ブルシット・ジョブ」、つまり意味も目的もない仕事を定義しました。これらは自動化されるべき仕事ですが、官僚主義、地位、惰性などの理由で自動化されていません。人工知能をトレーニングする仕事も同様です。人間が自動化したい仕事は、一般に自動化されていると考えられていますが、それでも人間の参加が必要です。これらのタスクには特別な目的がありますが、アノテーターはそれを認識していません。

現在の AI ブームは、このかなり退屈で反復的な労働から始まりました。人工知能の研究者で、当時プリンストン大学の教授だったフェイフェイ・リー氏は、2007 年の時点で、画像認識用のニューラル ネットワークを改善するための鍵は、より多くのデータでトレーニングすることであり、数万枚ではなく数百万枚のラベル付き画像が必要であると疑っていました。問題は、これほど多くの写真にタグを付けるには、彼女のチームが数十年と数百万ドルを費やしたであろうということです。

Fei-Fei Li 氏は、Amazon のクラウドソーシング プラットフォームである Mechanical Turk で数千人の労働者を見つけました。そこでは、世界中の人々が安価で小さな仕事をこなしています。その結果として得られた、ImageNet として知られるラベル付きデータセットは、機械学習における大きな進歩を可能にし、この分野を活性化し、過去 10 年間の進歩の先導となりました。

注釈は依然として AI 開発に不可欠な部分ですが、エンジニアはそれがより魅力的なモデリング作業のための一時的で面倒な前提条件であると感じることがよくあります。独自のモデルをトレーニングするために、できるだけ多くのラベル付きデータをできるだけ安価に収集することができます。それができれば、少なくとも理論上は、アノテーターはもう必要ありません。ただし、アノテーション作業が実際に完了することはありません。研究者らは、機械学習システムは「脆弱」で、トレーニングデータ内で十分に説明されていない事柄に遭遇すると失敗する傾向があると主張している。これらの障害は「エッジ ケース」として知られており、重大な結果をもたらす可能性があります。

2018年、配車サービス会社ウーバーの自動運転テストカーが女性を死亡させた。その理由は、自転車や歩行者を避けるようにプログラムされていたにもかかわらず、道路を横断する自転車にどう対処すればよいのかわからなかったからだ。法的アドバイスや医療支援を提供する AI システムが増えれば増えるほど、より多くのエッジケースに遭遇し、より多くの人間がそれらを分類する必要が生じます。これにより、人間特有の能力を使って機械を助けるジョーのような人々による世界的な産業が生まれました。

過去6か月間、テクノロジー調査記者のジョシュ・ジーザ氏は世界中から集まった20人以上のアノテーターと話をしたが、その多くは最先端のチャットボットを訓練しているだけでなく、AIを動かし続けるために必要な日常的な肉体労働も行っている人も多かった。 。 TikTokビデオの感情的なコンテンツ、新しい種類のスパム、不適切なオンライン広告をカタログ化している人もいます。クレジット カードの取引を調べて、それに関連する購入の種類を把握したり、電子商取引の推奨事項を見て、別のシャツを購入した後、実際にそのシャツが気に入るかどうかを判断したりする人もいます。

人間はカスタマー サービスのチャットボットの間違いを修正し、Amazon のインテリジェント アシスタント Alexa からのリクエストを聞き、ビデオ通話で人々の感情を分類しています。スマート冷蔵庫が新しいパッケージに混乱しないように食品にラベルを付けたり、警報を鳴らす前に自動監視カメラをチェックしたり、混乱した自律走行トラクターがトウモロコシを識別できるようにしたりしている。

02 コメントは一大ビジネスであり、「自力で成り上がった最年少の億万長者」を生み出す

非営利団体パートナーシップ・オン・AI のプログラムおよび研究ディレクターのソナム・ジンダル氏は、「これは完全なサプライチェーンだ」と述べ、「業界の一般的な認識は、この作業は技術開発の重要な部分ではなく、技術開発の重要な部分ではないというものだ」と語った。 AI の構築を中心に興奮が広がり、一度構築すれば、アノテーションは不要になるのに、わざわざそれについて考える必要はありません。しかし、データのラベル付けは AI の基礎です。人間 知能が AI の基礎であるのと同じくらい、私たちはこれらを AI 経済における実際の仕事として捉え、今後も長く存続するものと見なす必要があります。」

OpenAI、Google、Microsoft などのよく知られた名前のデータ ベンダーは、さまざまな装いをしています。ケニアやネパールの CloudFactory のように、コールセンターのようなオフィスを構える民間のアウトソーシング会社もあり、Joe は Remotasks に切り替える前に、1 時間あたり 1.20 ドルでアノテーション作業を行っています。

Mechanical Turk や Clickworker のような、誰でもサインアップしてタスクを完了できる「クラウドワーカー」サイトもあります。真ん中には Scale AI などのサービスがあります。誰でも登録できますが、全員が資格試験とトレーニング コースに合格し、パフォーマンスを監視される必要があります。注釈は大きなビジネスです。 2016年に当時19歳のアレキサンダー・ワン氏によって設立されたスケールAIは、2021年時点で73億ドルと評価され、フォーブス誌の自力で億万長者の最年少の一人となった。

この複雑なサプライチェーンは部外者には理解するのが困難です。業界関係者によると、ラベル付きデータを購入する企業は厳格な機密保持を要求します。アノテーションによって開発中のAIシステムに関する情報が漏洩する場合があり、多数のアノテーターを追加することで漏洩を防ぐことが困難になります。アノテーターは常に、自分の仕事について誰にも、友人や同僚にも話さないように警告されています。最も重要なことは、極端な分業により、たとえ話したくても自分の仕事について話すのに十分な情報が得られないということです。

このことを考慮すると、アノテーションで働く人の数を詳細に見積もる方法はありませんが、確かなことは、その数は非常に多く、急速に増加しているということです。 Google Research は最近、将来的にはアノテーターの数が「数百万」、場合によっては「数十億」になるとの漠然とした推定を示す論文を発表しました。

自動化は予期せぬ形で実現されることがよくあります。医療データのアノテーション会社である Centaur Labs の CEO、エリック・デュハイム氏は、数年前に数人の著名な機械学習エンジニアが人工知能が放射線科医に取って代わると予測していたことを思い出します。それが実現しない場合、従来の常識は、放射線科医がツールとして AI を使用することに変わります。

デュハイムによれば、そのどちらも起こらなかったという。人工知能は特定のタスクに非常に優れているため、作業を細分化し、専門化されたアルゴリズム システムと同様に専門化された人間に割り当てることが求められます。たとえば、AI システムはがんを発見できるかもしれないが、特定の種類の画像や特定の種類のマシンでのみ発見できると同氏は述べた。そのため、AI に正しい種類のデータが供給されているかどうかをチェックしてくれる人が必要です。また、別の AI に渡してレポートを作成し、最終的に人間に渡す前に AI が機能していることをチェックしてくれる人も必要です。 「AIが人間の仕事を置き換えることはありませんが、仕事の組織化の方法は変わります」とデュハイム氏は言う。

人工知能を賢く考える機械として考えると、その背後にある人間を無視することになるかもしれません。 Du Haimei 氏は、人工知能が現代の仕事に与える影響は、職人から工業生産への移行に似ていると考えています。一貫したプロセスが小さなタスクに分割され、組み立てラインに沿って配置され、一部のステップは機械によって完了され、一部のステップは人間によって完了されますが、以前とは異なります 状況はかなり異なります。

AI の破壊に対する懸念は、AI が仕事全体ではなく特定のタスクを自動化するということで反論されることがよくあります。これらの仕事は単調で単調なことが多く、人々はより充実した人間らしい仕事を追求することになります。しかし、人工知能の台頭は、おそらく電話やタイプライターのような過去の省力技術のように見える可能性もあり、メッセージの受け渡しや手書きの単調な作業を排除し、コミュニケーション、商業、および情報に関するより多くの情報を生成します。そのため、それらを管理するには、事務員、会計士、タイピストなど、新しいタイプの労働者を配置した新しいオフィスが必要でした。 AI があなたの仕事に加わっても、仕事を失うことはないかもしれませんが、それは奇妙で、より孤立し、より退屈になる可能性があります。

03 複雑な現実を機械可読なものに単純化する

今年初め、ジャーナリストのZiyeza氏はRemotasksの仕事に登録した。プロセスは簡単です。 「トレーニング センター」に入るには、コンピューターの仕様、ネットワーク速度、基本的な連絡先情報を入力するだけで済みます。有償の課題を得るには、Ziyeza さんはまず、関連する無給の入門コースを完了する必要がありました。トレーニング センターでは、「接着剤水着」や「ポスター ハワイ」など、理解できない名前の一連のクラスが披露されました。ジーザさんは、ソーシャルメディアの写真に衣服をタグ付けすることを求めるGFDチャンキングと呼ばれるものをクリックした。

さらに、現実のもの、人間が着用できるもの、または実際の人が着用することを目的としたアイテムにラベルを付ける必要があるなどのタスクに関する指示もあります。ジエザさんは、本物の人が着ることができる本物の服と、本物の人が着ることができない偽物の服を区別する能力に自信を持って、テストを始めました。しかし、すぐに彼は頭を殴られました。コンピューターはスカートをはいた女性の雑誌の写真を表示しました。服の写真は本物の服とみなされるべきですか?いいえ、人々は服の写真を着ることができないので、ジエザは思いました。結果はエラーです。なぜなら、人工知能の目から見ると、本物の服の写真は本物の服と同等だからです。

次の画像は、薄暗い寝室で全身鏡に向かって自撮りをしている女性の写真です。彼女が着ているシャツとパンツは本物の服ですが、その服の反射は本物ですか? Ziyeza氏も否定的な答えを出しましたが、人工知能システムは、本物の服の反映も本物の服であるべきだと考えています。

恥ずかしい試行錯誤の末、ジエザさんはようやく仕事に取り掛かったが、恐怖のあまり、彼が従うのに苦労していた指示が何度も更新され、43ページもの長さになっていたことを発見した。衣服にはタグを付けないでください; 靴にはタグを付けずに足ひれにタグを付けてください; レギンスにはタグを付けますがタイツにはタグを付けません; たとえ誰かがそれを着ていてもタオルにはタグを付けないでください; 衣類にはタグを付けないでください ラベルを付けますが、防具にはラベルを付けないでください。等......

ドイツのヴァイゼンバウム研究所でデータの研究に取り組む研究者ミラグロス・ミセリ氏は、業界全体に混乱が広がっていると述べた。これは部分的には、機械学習システムの学習方法の産物です。人間が「シャツ」の概念を理解するのに必要な例はわずか数個だけですが、機械学習プログラムは何千もの例を必要とし、完璧な一貫性と十分な多様性 (ポロシャツ、アウトドア用のシャツ、屋外に掛けられたシャツなど) を備えている必要があります。ラック)により、システムは現実世界の多様性を処理できます。 「複雑な現実を、不器用な機械でも読み取れるものに還元する必要があると想像してみてください」とミセリ氏は言う。

機械にとって、現実を単純化するという行為は、非常に複雑な作業をもたらします。命令の作成者は、人間が完全な一貫性を持って世界を分類できるルールを考え出す必要があります。これを行うために、人間が使用しないカテゴリを作成することがよくあります。写真に写っているすべてのシャツにラベルを付けるように頼まれた場合、鏡に映ったシャツにはラベルを付けないかもしれません。なぜなら、それは反射したものであり、実際の衣服ではないことが分かっているからです。しかし、現実世界を理解できない AI にとって、それは単なるピクセルであり、この 2 つはまったく同じです。データセット内の一部のシャツにラベルが付けられ、他の反射されたシャツにラベルが付けられていない場合、モデルは機能しません。そこでエンジニアは最新の情報を持ってサプライヤーに戻り、鏡に映ったシャツにラベルを付けるよう依頼しました。間もなく、すべて赤い大文字で書かれた 43 ページの別のガイドが作成されます。

アノテーターの仕事は通常、人間の理解を脇に置き、非常に厳密に指示に従うことです。ある解説者は、ロボットのように考えなさいと言いました。それは、幻覚剤を服用しながら共通テストを受けるなど、ばかげているが厳格なルールに従うために最善を尽くす奇妙な精神空間です。アノテーターは常に、これは白いストライプの入った赤いシャツですか、それとも白いストライプの入った白いシャツですか? というような混乱を招く質問をします。籐のボウルにリンゴが入っていたら、それは「飾りボウル」でしょうか?ヒョウ柄は何色ですか?すべての質問には回答する必要があり、1 つの間違った推測で参加禁止となり、独自の不可解なルールを持つまったく新しいまったく異なるミッションが開始される可能性があります。

04 個数ごとに支払い、3 時間ごとにタスクをチェック

Remotasks のほとんどの仕事は出来高ベースで支払われ、1 件あたりの収益は数セントから数ドルの範囲です。タスクの完了には数秒から数時間かかる場合があるため、給与を予測するのは困難です。 Remotasks が最初にケニアに導入されたとき、コメンテーターは、比較的良い報酬が得られたと述べました。作業内容にもよりますが、平均すると 1 時間あたり約 5 ~ 10 ドルになります。しかし時間が経てば経つほど給料は下がります。

スケールAIの広報担当アンナ・フランコ氏は、同社のエコノミストが「公正で競争力のある報酬を確保するため」プロジェクトの詳細、必要なスキル、地域の生活費、その他の要素を分析していると述べた。 Scale AIの元従業員らはまた、報酬はインフレ価格設定と同様のメカニズムを通じて決定され、利用可能なアノテーターの数とデータが必要とされる速度に基づいて調整されると述べた。統計によると、米国の Remotasks アノテーターの時給は通常 10 ドルから 25 ドルですが、一部の専門的なアノテーション分野の専門家はそれよりも高額です。今年初めまでに、ケニア人の解説者の給料は時給1~3ドル(約7~22元)に下がった。

テレタスク作業に関する最も一般的な苦情は、その変動性です。このタイプの仕事は長期のフルタイムの仕事として十分安定していますが、完全に依存するには予測不可能性が多すぎます。アノテーターは、プロジェクトが終了するまでに数十のタスクを完了するためだけに、何時間も指示を読み、無料のトレーニングを完了するのに費やします。数日間新しいタスクがなかったとしても、突然、まったく別のタスクが表示され、場合によっては数時間から数週間かかる場合もあります。どのようなミッションも最後になる可能性があり、次のミッションがいつ来るかはわかりません。

エンジニアやデータベンダーは、この好不況のサイクルはAI開発のペースに起因していると述べている。大規模なモデルをトレーニングするには、多くの注釈が必要であり、その後、より反復的な更新が必要になります。エンジニアは、目標リリース日に間に合うように、これらすべてをできるだけ早く実行することを望んでいます。数か月の間には何千人ものアノテーターが必要になるかもしれませんが、その後は数百人に減り、最終的には特定の種類の専門家が十数人にとどまる可能性があります。このプロセスは場合によってはサイクルで繰り返されます。 「問題は、こうした変動のコストを誰が負担するのかということだ」とパートナーシップ・オン・AIのジンダルは述べた。

成功するには、アノテーターが協力する必要があります。 Victor 氏は、ナイロビの大学生だったときに Remotasks で働き始めました。交通管制の仕事で苦労していると言われたとき、その仕事は避けるべきだということは誰もが知っていたと言いました。難しすぎて、給料も低く、やる価値がありません。多くのコメンテーターと同様に、Victor は、良い仕事が見つかったときに非公式の WhatsApp グループを使って情報を広めています。新しいアイデアを思いついたとき、彼は即席の Google ミーティングを開始して、他の人にその方法を教えました。誰でも参加して、ヒントを共有しながら、しばらく一緒に作業できます。 「私たちは、一人の人がすべてのコツを知っているわけではないことを知っているので、お互いに助け合う文化を育んできました。」と彼は言いました。

警告なしにジョブが現れたり消えたりするため、アノテーターは常に注意を払う必要があります。 Victor さんは、夜中にアイテムが出現することが多いことに気づき、3 時間ごとに起きてアイテムを確認する習慣を付けました。用事があるとき、彼はいつも起きている。ある時点で、彼は36時間眠らずに過ごし、群衆の写真に肘、膝、頭にマークを付けましたが、その理由はわかりませんでした。別の時には、彼はあまりにも長く起きていて、目が赤く腫れていました。

アノテーターは多くの場合、自分たちが他の企業向けに AI システムをトレーニングしていることしか知らないのですが、場合によっては匿名性のベールが剥がれ落ち、説明書にブランドやチャットボットに関するヒントが多すぎることがあります。あるコメンテーターは、「説明書を読み、グーグルで検索したところ、自分が25歳の億万長者の下で働いていることがわかった。誰かを億万長者にして自分が数ドル稼いだとしたら、文字通り人生を無駄にしていることになる」と語った。

人工知能の「熱狂的な信者」を自称するビクターは、完全に自動化された未来の実現に貢献したいと考え、アノテーションの仕事を始めました。しかし、今年初めに、プロバイダーである Sama AI の従業員が有害なコンテンツを識別するための ChatGPT をトレーニングするために時給 2 ドル未満しか支払われていないという記事を、タイム誌の WhatsApp グループに投稿した人がいました。 「人々は、これらの企業が利益をあげているのに、給料があまりにも少ないことに憤慨している」とビクター氏は語った。彼は、知らされるまでリモタスクスとスケールAIの関係について知らなかったという。彼が取り組んだタスクの 1 つの指示は、OpenAI で使用されていたものとほぼ同じでした。つまり、彼はおそらく、1 時間あたり約 3 ドルで ChatGPT のトレーニングも行っていたことを意味します。 」

誰かが「我々は将来記憶に残るだろう」と投稿したのを覚えている」と彼が言うと、ゼロワンはこう答えた、「我々は歩兵よりひどい扱いを受けていた。私たちは将来どこにも記憶されないでしょう、それはよく覚えています。私たちが行っている仕事や努力を誰も認めてくれません。 」

衣服の識別や顧客サービスでの会話のラベル付けは、アノテーション作業のほんの一部です。最近、市場で最も注目されているのはチャットボット トレーナーです。分野固有の専門知識や流暢な言語能力が求められ、給与は地域によって調整される傾向があるため、この仕事の給与は高くなる傾向があります。特定の種類の専門的な注釈は、1 時間あたり 50 ドル以上の収入を得ることができます。

アンナという女性はテキサスで仕事を探していたとき、一般的なオンライン求人情報を見つけて応募しました。入門試験に合格した後、彼女は 1,500 人が参加する Slack ルームに案内され、そこでコードネーム Dolphin というプロジェクトのトレーニングを受けていました。後に、それが Google DeepMind のチャットボット Sparrow であり、ChatGPT と競合する多くのチャットボットの 1 つであることがわかりました。アンナさんの仕事はスパローと一日中チャットすることで、時給は約14ドルで、さらに作業効率の高さによるボーナスもあり、「時給10ドルを稼ぐために地元のスーパーマーケットで働くよりも断然良い」としている。

05 AIは正確さ、有用性、無害性の3つの基準に対応します

そして、アナはこの仕事が大好きです。彼女はスパロウと SF、数学的パラドックス、子供向けのなぞなぞ、テレビ番組について話し合いました。チャットボットの回答を見て大笑いしてしまうこともありました。時々、彼女は言葉を失うこともあります。アンナさんは、「何を質問すればいいのか本当に分からないこともあるので、小さなノートにすでに 2 ページ書き込んであります。Google で興味深いトピックを調べているので、良い仕事ができると思います。7 時間は大丈夫です。いつもそうとは限りません。」

アンナがスパロウに質問を促すたびに、スパロウは 2 つの応答を返し、彼女は最良のものを選択して、いわゆる「ヒューマン フィードバック データ」を作成します。 ChatGPT が昨年末にデビューしたとき、その驚くほど自然な会話スタイルは、それが膨大な量のインターネット データに基づいてトレーニングされていたという事実によるものでした。しかし、ChatGPT とその競合製品を強化する言語は、人間による注釈を数回かけてフィルタリングされています。

請負業者のチームは、エンジニアがチャットボットにどのような動作をしてもらいたいのか、質問をしてから正しい答えを返す、コンピュータプログラムを説明してから機能コードを与える、犯罪のヒントを求めてから丁寧に断るなどの例を書いた。モデルがこれらの例でトレーニングされた後、モデルにプロンプトを表示し、その応答をランク付けするために、より多くの請負業者が導入されます。それがアナがスパロウにしたことだ。

評価者が使用するよう指示された基準は、誠実さ、有用性、または単に個人的な好みなど、さまざまでした。重要なのは、彼らは人間の好みに関するデータを作成しており、十分なデータが得られたら、エンジニアは大規模に好みを模倣する 2 番目のモデルをトレーニングし、ランキング プロセスを自動化し、人間の好みの行動方法を認識するように AI をトレーニングできるということです。その結果、基本的に有害な要求を拒否し、自己認識しているかのように人工知能の性質を説明する、非常に人間に近いロボットが誕生しました。

言い換えれば、ChatGPT が人間のように見えるのは、人間のように振る舞う人間を模倣した AI によって訓練されたためです。

この技術は「人間のフィードバックからの強化学習」、略して RLHF と呼ばれており、AI がやっていないことを立ち止まって振り返るのに非常に効果的です。たとえば、アノテーターがモデルに正確であることを教えるとき、モデルは、答えをロジックや外部ソースと照合すること、さらには概念としての精度さえも学習しません。このモデルは依然として人間の筆記パターンを模倣するテキスト予測マシンですが、そのトレーニング コーパスにはカスタム サンプルが追加され、モデルはカスタム サンプルをサポートするように重み付けされています。

これにより、モデルは言語マップの正確としてマークされている部分からパターンを抽出し、偶然真実と一致するテキストを生成する可能性がありますが、完全に間違った内容を書きながら、正確なテキストの自信に満ちたスタイルや専門用語を模倣する可能性もあります。 。注釈者によって正確であるとマークされたテキストが実際に正確であるという保証はありません。たとえそれが正確だったとしても、モデルがそこから正しいパターンを学習したという保証はありません。

この力関係により、チャットボットに注釈を付けるのは容易ではありません。正確に聞こえる素材を正確であるとマークするなど、ずさんなフィードバックにより、トレーニングされたモデルがより説得力のあるものになってしまう可能性があるため、厳密で一貫性のあるものである必要があります。 OpenAI と DeepMind は、以前の共同プロジェクトで RLHF を使用しました。この場合、仮想ロボット ハンドが物体を掴むようにトレーニングされました。これにより、ロボット ハンドが物体とその評価者の間で物体の位置を決め、周囲を振り回すことも訓練されたことが判明しました。それは人間の監督者にのみ現れるという方法です。

言語モデルの応答のランク付けは、言語であるため、常に多少主観的になります。任意の長さのテキストには、真、偽、または誤解を招く可能性のある複数の要素が含まれる場合があります。 OpenAI の研究者は、別の初期の RLHF 論文でこのハードルに遭遇しました。研究者らは、モデルにテキストを要約させるために、モデルの要約の 60% のみが適切であることを発見しました。 「機械学習の多くのタスクとは異なり、私たちのクエリには明確な根拠がありません」と彼らは嘆いています。

アナがスパローの回答を評価するときは、その正確さ、有用性、無害性を考慮する必要があります。同時に、モデルが医学的または経済的なアドバイスを提供していないか、擬人化していないか、その他の基準に違反していないかも確認する必要があります。トレーニング データとして役立つようにするには、モデルの応答が定量的に順序付けされている必要があります。爆弾の作り方を教えてくれるロボットは、質問に一切答えることを拒否する無害なロボットよりも「優れている」でしょうか?

DeepMindの論文では、Sparrowの作成者が順番に注釈を付けている間、4人の研究者が、彼らのボットが感情的なアドバイスを求めてボットに頼るユーザーの性別について仮定を置いているかどうかについて議論した。 DeepMind の研究員である Geoffrey Irving 氏によると、同社の研究者は毎週アノテーション セッションを開催し、データを自分たちでレビューし、曖昧なケースについて話し合っています。事件が特に扱いにくい場合には、倫理または主題の専門家に相談します。

アンナは、2 つの悪い選択肢から選択しなければならないことがよくありました。 「たとえ両方ともひどく間違った答えだったとしても、どちらが優れているかを判断し、その理由を説明する文章を書き留める必要があります。どちらの答えも良くない場合には、自分で答えを言うように勧められることもあります。」と彼女は言います。より良い答え。彼女はトレーニング中の約半分の時間でこれを行います。

06 コメントには特定のスキルと専門知識がますます必要となります

フィードバックデータの収集が難しいため、販売価格は高くなります。業界に詳しい関係者によると、Anaが収集している種類の基本的な嗜好データは1個あたり約1ドルで販売されている。しかし、法的な調査を行うためにモデルをトレーニングしたい場合は、法的なトレーニングを受けた人が必要となり、コストの増加につながります。関係者全員が正確にいくら支払ったのかは明らかにしませんが、一般的に、専門的に書かれたサンプルには数百ドルの費用がかかり、専門家によるグレーディングには 50 ドル以上の費用がかかる場合があります。あるエンジニアは、ソクラティックの対話のサンプルに 300 ドルを払ったことがあると明かした。

OpenAI、Microsoft、Meta、Anthropic は、モデルに注釈を付けた人の数、報酬の額、世界のどこにいたかなどを明らかにしていません。 Googleの姉妹会社ディープマインドのオーウェン氏によると、Sparrowで働くアノテーターには、勤務地に応じて少なくとも最低賃金以上の時給が支払われているという。 Ana は Remotasks については「何も」知りませんが、Sparrow についてはよく知っており、Sparrow が DeepMind の人工知能アシスタントであり、作成者が RLHF を使用して訓練したものであることを知っています。

最近まで、言語モデルからの意味不明な出力を見つけるのは比較的簡単でした。しかし、モデルが改良されるにつれて、これは難しくなり、「スケーラブルな監視」として知られる問題になります。 Google が AI アシスタントである Bard のデビューに現代言語モデルを使用したことは、現代言語モデルの間違いを見つけることがいかに難しいかを図らずも実証してしまいました。この傾向は、アノテーションに特定のスキルと専門知識がますます必要になることを意味します。

昨年、Lewis という名前の男が Mechanical Turk に取り組んでいて、課題を完了した後、聞いたこともないプラットフォームに参加するよう招待するメッセージを受け取りました。それは Taskup.ai と呼ばれ、サイトは非常にシンプルで、ネイビーの背景に「Pay as you go」というテキストがあるだけです。ルイスは登録することにした。

この仕事は彼がこれまでに就いたどの仕事よりもはるかに給料が良く、通常は時給約30ドルだ。ただし、これはより困難でもあり、チャットボットをだまして危険なアドバイスを与えるための複雑なシナリオの設計、モデル自身のペルソナを維持する能力のテスト、および高度に技術的で広範な調査を必要とする科学的トピックについての詳細な会話に参加する必要があります。ルイスさんはこの仕事が「満足できて刺激的」だと感じた。モデルをチェックアウトして Python でコーディングしようとしながら、ルイスは学習していました。彼は精神的に疲れてミスをしないと、連続 4 時間以上働くことはできません。そして、仕事を続けたいと考えています。

ルイス氏は、「もし私に変えられることがあれば、相手側で何が起こっているのかをもっと知りたいだけです。私たちは仕事をするために必要なことしか知りませんが、もっと詳しく知れば仕事をやり遂げることができるかもしれません」と語った。 . より大きな成果が得られ、それをキャリアと考えることもできるでしょう。」

テクノロジー調査記者の Ziyeza は、主に米国在住の他の 8 人にインタビューしました。彼らは、アンケートに答えたり、他のプラットフォームでタスクを完了したりして、その後、Taskup.ai や、DataAnnotation.tech や Gethybrid.io などの同様のサイトに雇用されていたという同様の経験をしていました。彼らの仕事には、チャットボットのトレーニングが含まれることがよくありますが、彼らのチャットボットは、これまでに取り組んできた他のサイトよりも高品質で、より目的に特化しています。そのうちの 1 つはプレゼンテーション スプレッドシート マクロであり、もう 1 つは会話を行って、希望する基準で応答を評価するだけです。彼女は、7 歳の娘とチャットするときにも出てくる質問をよくチャットボットにします。たとえば、「一番大きな恐竜は何ですか?」「トラについての話を書いてください」などです。

Taskup.ai、DataAnnotation.tech、Gethybri.io はすべて、同じ会社である Surge AI に属しているようです。同社の最高経営責任者、エドウィン・チェン氏はその関連性を肯定も否定もしなかったが、自社について、そしてアノテーションがどのように進化していると考えているかについて喜んで語った。

Google、Facebook、Twitter で AI 研究に携わった後、2020 年に Surge AI を設立したエドウィン氏は、「ラベル付けの分野は単純だといつも感じていました」と語り、クラウドソーシングによるラベルだけでは十分ではないと確信していました。エドウィン氏は、「人工知能がジョークを言ったり、優れたマーケティングコピーを書いたり、治療が必要なときに助けてくれることを願っています。しかし、誰もがジョークを言ったり、Python プログラミングの問題を解決したりできるわけではありません。この低品質で低スキルの考え方は、何かに変わります」と述べました。より豊かで、AI システムに求められる人間のスキル、創造性、価値観を捉えています。」

07 機械学習システムは奇妙すぎて完全に信頼することはできません

昨年、Surge AI は、Google がセンチメント別に Reddit 投稿を分類したデータセットのラベルを付け直しました。 Google は各投稿のコンテキストを削除し、注釈を付けるためにインドのアノテーターに送信しました。アメリカのインターネット文化に精通した Surge AI の従業員は、注釈の 30% が間違っていることを発見しました。 「地獄、私の兄弟」などの投稿は「嫌い」に分類され、「クールなマクドナルド、私のお気に入り」などの投稿は「愛情」に分類されました。

エドウィン氏によると、Surge AIはクリエイティブライティングのタスクを行う人がクリエイティブライティングの経験があるかどうかなど、アノテーターの資格を精査しているが、スタッフをどのように見つけているか正確には「秘密」だという。 Remotasks と同様に、従業員は通常、トレーニング コースを完了する必要がありますが、Remotasks とは異なり、トレーニング中にタスクを受講することで報酬を受け取ることができます。高品質のデータを生成し、よりよく訓練されたスタッフを少数抱えているため、Surge AI は他社よりも高い給与を得ることができているが、同氏は詳細については避け、従業員には「公正かつ倫理的なレベル」で給与が支払われているとだけ述べた。このようなアノテーターの時給は 15 ドルから 30 ドルですが、現在 10 万人いるアノテーター全体のほんの一部にすぎません。この秘密保持は顧客の要望に基づいていると同氏は説明した。

Surge AI の顧客には、OpenAI、Google、Microsoft、Meta、Anthropic が含まれます。 Surge AI はフィードバックと言語注釈に重点を置いており、ChatGPT の開始後、殺到したリクエストが殺到しました。「誰もが RLHF の力を知っていると思っていましたが、人々は心の中でそれを理解していなかったのだと思います。」とエドウィン氏は言いました。

これらの新しいモデルは非常に印象的であるため、アノテーションが自動化されようとしているという新たな予測の波を引き起こしました。かかる費用を考えると、そうするための財政的プレッシャーは大きい。 Anthropic、Meta などは最近、AI を使用してモデルをガイドするために必要な人間による注釈の量を削減することで進歩を遂げており、他の開発者は GPT-4 を使用してトレーニング データを生成し始めています。

ただし、最近の論文では、GPT-4 でトレーニングされたモデルは、GPT の権威あるスタイルを模倣することを学習している可能性があることが判明しましたが、精度は低くなります。これまで、AI の改善によって 1 つの形式のラベル付けが時代遅れになったとき、他のより複雑な形式のラベル付けの必要性が高まりました。この議論は今年初め、スケール AI の CEO が、AI 研究所がまもなく上記と同じ計算で人間データに数十億ドルを費やすことになるだろうとツイートしたことで公になりました。 OpenAI CEOのサム・アルトマン氏は、人工知能が進歩するにつれてデータの必要性は減少すると答えた。

エドウィン氏は、AI が人間のフィードバックを必要としないレベルに達するかどうかについては疑問を抱いていますが、モデルが改良されるにつれてラベル付けはますます困難になると見ています。多くの研究者と同様に、彼は今後の展開には、人間が他の AI を監督するのを支援する AI システムが関係すると考えています。 Surge AI は最近、信頼性の低い AI アシスタントの助けを借りて人間のアノテーターが長いテキストに関する質問に答えるという概念実証で Anthropic と提携しました。その理論では、人間は AI アシスタントの弱点を感知し、それを見つけるには協力的な推論が必要であるということです。正しい答え。

もう 1 つの可能性は、2 つの AI が互いに議論し、人間が最終判断を下すことです。 OpenAIの研究科学者ジョン・シュルマン氏は最近のバークレーでの講演で、「私たちはまだこのものの本当の実用的な可能性を見ていないが、アノテーターがモデルの進歩についていくのが難しいため、必要になり始めている」と述べた。

エドウィン氏は、「AIがエイリアンであるという理由だけで、AIが何をしているのかを監視するには常に人間が必要になると思います。機械学習システムは奇妙すぎて完全に信頼することはできません。今日最も印象に残っているのは、私たちのモデルのいくつかです。 GPT-4 は複雑で説得力のあるテキストを生成できますが、どの単語が形容詞であるかを判断することはできません。」

08 ChatGPT はタスク フローに非常に役立ちます

2022 年が終わりに近づくにつれて、ジョーは生徒たちから、ToDo リストが空であることが多いと聞き始めました。その後、ケニアでのトレーニングキャンプが終了することを知らせるメールが届いた。彼はオンライントレーニングの任務を続けましたが、将来について心配し始めました。 」

「これは長くは続かないという兆候があります。」とジョー氏は語った。注釈作業は間もなくケニアを離れようとしている。オンラインで会った同僚から、そのような任務がネパール、インド、フィリピンに派遣されていると聞いた。ジョーは次のように述べています。「企業はある地域から別の地域に移転します。地元にインフラがないため、運用コストがより有利な場所に柔軟に移行できます。 」

AI 業界が携帯電話や自動車メーカーと異なる点の 1 つは、その流動性です。この作業は常に変化しており、自動化され、新しいタイプのデータに対する新たな需要に取って代わられています。これはパイプラインですが、継続的かつ迅速に再構成でき、適切なスキル、帯域幅、給与が利用可能な場所であればどこにでも移動できます。

最近、注釈タスクの最も高収入の仕事が米国に戻ってきました。 Scale AI は 5 月に、AI が征服すると予想されるほぼすべての分野の経験を持つ人材を探し、Web サイトにアノテーションの仕事を掲載し始めました。これらの AI トレーナーのリストには、フィットネス コーチング、人事、金融、経済学、データ サイエンス、プログラミング、コンピューター サイエンス、化学、生物学、会計、税務、栄養学、物理学、旅行、幼稚園から高等学校までの教育、スポーツ ジャーナリズム、および自己の能力を持つ AI トレーナーの一部が含まれます。 -専門知識を助けます。

ロボットに法律を教えれば時給 45 ドルを稼ぐことができ、ロボットに詩を教えれば時給 25 ドルを稼ぐことができます。このサイトには、おそらく軍事AIの訓練を支援するため、セキュリティの経験を持つ人材の募集も掲載されている。スケール AI は最近、ドノバンと呼ばれる防衛言語モデルを発表しました。同社幹部はこれを「AI 戦争における弾薬」と呼び、陸軍のロボット戦闘車両プログラムに取り組む契約を獲得しました。

アナは今もテキサスでチャットボットのトレーニングを続けている。同僚はコメント投稿者や Slack のモデレーターになりました。その理由は彼女にはわかりませんでしたが、この仕事が長期的なキャリアになる可能性があるという希望を彼女に与えました。彼女が心配していないことの 1 つは、仕事が自動化によって置き換えられることだ、と彼女は言いました。「つまり、チャットボットは多くの驚くべきことを実行できますが、いくつかの非常に奇妙なことも実行できるのです。」

Remotasks が初めてケニアに来たとき、ジョーはアノテーションが良いキャリアになるかもしれないと考えました。彼は、他の場所に移転した後も仕事を続ける決意をしていました。彼は、ナイロビには仕事のやり方を知っている人が何千人もいると推論した。結局のところ、彼は多くの人を訓練しました。ジョーは市内でオフィスを借り、建設会社の設計図に注釈を付ける仕事、ある種の農業プロジェクトで虫害を受けた果物に注釈を付ける仕事、そして自動運転車の仕事など、アウトソーシング契約を探し始めた。ラベル付けルーチン。

しかし、ジョーは自分のビジョンを達成するのが難しいことに気づきました。現在、フルタイムの従業員は 1 人だけになり、以前は 2 人でした。 「私たちには安定した仕事の流れがありませんでした。クライアントがまだデータを収集しているため、数週間何もすることがありませんでした。」と彼は言いました。クライアントがデータの収集を完了すると、期限を守るために短期請負業者を雇わなければなりませんでした。「クライアントは、私たちが継続的な作業を行っているかどうかを気にしませんでした。データセットのラベル付けが完了している限り、問題はありませんでした。」

自分のスキルを無駄にしないために、他のタスク実行者がタスクの行き先を決定し、そこに行きます。彼らはプロキシサーバーをレンタルして位置を偽装し、セキュリティをすり抜けるために偽のIDを購入して、シンガポール、オランダ、ミシシッピ州、またはミッションが行われるあらゆる場所で働いているふりをすることができます。これは危険なビジネスです。複数のミッション関係者によると、Scale AIは、位置情報を隠していることが判明したアカウントを停止することにますます積極的になっているという。 」

「他の国では良い賃金を支払っていることに気づいたので、私たちは最近少し賢くなってきました。」とビクター氏は言いました。彼はマレーシアでケニアの2倍の収入を得ていますが、「注意しなければなりません。」

別のケニア人解説者は、謎の理由でアカウントがブロックされた後、ルールを守らないことに決めたと語った。現在、彼は複数の国で複数のアカウントを運営し、収益が最も高くなるミッションを実行しています。 ChatGPT のおかげで、作業が速く、品質スコアも高いと彼は言います。同氏によると、このボットは素晴らしく、10 ドルのタスクを数分で素早く完了できるという。

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)