Hatebaseは世界のヘイトスピーチをリアルタイムでカタログ化するため、ユーザーは必要ありません– TechCrunch


ヘイトスピーチのポリシングは、ほぼすべてのオンラインコミュニケーションプラットフォームが苦労している問題です。それを取り締まるために、あなたはそれを検出しなければなりません。そして、それを検出するには、それを理解する必要があります。 Hatebaseは、ヘイトスピーチを理解することを主要な使命としている企業であり、その理解をサービスとして提供しています。

基本的に、HatebaseはWebでの言語使用を分析し、結果のデータを構造化およびコンテキスト化し、これを行う専門知識を持っていない企業や研究者に結果のデータベースを販売(または提供)します。

小規模だが成長しているカナダの会社は、紛争地域で使用されている言語の分析に基づいて残虐行為を予測および防止するためのセンチネルプロジェクトの研究から生まれました。

「センチネルが発見したことは、ヘイトスピーチはこれらの紛争の拡大に先行する傾向があるということです」と、Hatebaseの創設者兼CEOのティモシー・クインは説明しました。 「私は彼らと提携して、Hatebaseをパイロットプロジェクトとして構築しました。基本的には、多言語のヘイトスピーチの用語集です。私たちを驚かせたのは、他の多くのNGOが [non-governmental organizations] 同じ目的でデータを使用し始めました。その後、データを使用して多くの商用エンティティを取得し始めました。そこで昨年、私たちはスタートアップとしてそれをスピンアウトすることを決めました。」

「少数の民族的な中傷や嫌悪感のあるフレーズを検出するのは何が難しいのでしょうか?」と思うかもしれません。スピーチを嫌うのは、ほんの数個のい言葉だけではありません。それはスラングの全ジャンルであり、単一の言語のスラングが辞書を埋めます。すべての言語のスラングはどうですか?

シフトするレキシコン

Victor HugoがLes Miserablesで指摘したように、スラング(またはフランス語で "argot")は、どの言語でも最も変更可能な部分です。これらの言葉は「孤独で、野barで、時には恐ろしい言葉です…腐敗のイディオムであるArgotは、簡単に腐敗します。さらに、それが理解されたと認識するとすぐに変装を常に求めているため、変身します。」

スラングや大嫌いな言葉遣いだけでなく、常に変化しています。そのため、カタログ化のタスクは継続的です。

Hatebaseは、人間と自動化されたプロセスの組み合わせを使用して、憎悪関連の用語を使用するために公開Webをスクレイピングします。 「私たちは多くの情報源に出かけます-ご想像のとおり、最大のものはTwitterです-それをすべて取り込み、それをHatebrainに引き渡します。投稿を通過して、true、false、またはunknownを返す自然言語プログラムです。」

真実とは、ヘイトスピーチがかなり確実であることを意味します。想像できるように、この例はたくさんあります。 Falseはもちろん、いいえを意味します。そして、不明は、それが確信できないことを意味します。たぶんそれは皮肉、フレーズに関するアカデミックなおしゃべり、またはグループに属し、それを取り戻すか、それを使用する他人を非難しようとしている単語を使用している人です。これらはAPIを介して出力される値であり、ユーザーは場所、頻度、攻撃レベルなど、より大きなデータベースでより多くの情報またはコンテキストを検索することを選択できます。この種のデータを使用すると、世界的な傾向を理解したり、アクティビティを他のイベントと相関させたり、単に動きの速いエスニックスラーの世界に遅れずについていくことができます。

世界中で憎悪のスピーチがフラグを立てられています。これらは、それらが由来するIPの緯度と経度とともに、今日検出された少数です。

しかし、クインは、そのプロセスが魔法的または完璧なふりをするわけではありません。 「ハテブレインから出てくる100パーセントは非常に少ない」と彼は説明した。 「他の人が使用する機械学習のアプローチとは少し異なります。 MLは、明確なトレーニングセットがある場合に優れていますが、人間のスピーチとヘイトスピーチ(非常に微妙な場合があります)を使用すると、バイアスが浮かび上がります。ヘイトスピーチの巨大なコーパスはありませんヘイトスピーチとは何かに同意できます。」

これは、Google、Twitter、Facebookなどの企業が直面する問題の一部です。自動的に理解できないものを自動化することはできません。

幸いなことに、ハテブレインは、より曖昧なデータポイントを認証、判断、および集約するボランティアとパートナーの集団という形で、人間の知能も活用しています。

「私たちは世界中の言語的に多様な地域で私たちと提携しているたくさんのNGOを持っています、そして私たちは私たちの会社のボランティアアームである「市民言語学者」プログラムを立ち上げました。クインは言った。 「私たちは提供するデータに高度な信頼性を置いています。」

そのローカルな視点は、単語の文脈を理解するために重要です。彼はナイジェリアの単語の例を挙げました。それは、あるグループのメンバー間で使われたときは友人を意味しますが、そのグループが他の誰かを指すために使われたときは無知を意味します。ナイジェリア人以外は誰にも言えないでしょう。現在、Hatebaseは200か国の95の言語に対応しており、常に追加されています。

さらに、「インテンシファイア」、それ自体は不快ではないが、誰かがスラーまたはフレーズを強調しているかどうかを示すのに役立つ単語またはフレーズがあります。他の要因もそれに関与し、自然言語エンジンはそれらに関するデータが非常に少ないために認識できない場合があります。そのため、定義を最新の状態に保つことに加えて、チームは、スピーチのHatebrainの遭遇を分類するために使用されるパラメーターの改善に絶えず取り組んでいます。

科学と利益のためのより良いデータベースの構築

このシステムは、100万番目のヘイトスピーチ目撃情報(多くのフレーズが評価されたおそらく数十倍)を取り込みました。インターネット上のスピーチのボリュームが非常に大きいため、ヘイトスピーチを構成するわずかな割合でも数百万に達すると予想されるためです。

しかし、他の誰もこのサイズと品質のデータベースを作成していないため、それはたくさんあります。ヘイトスピーチまたはヘイトスピーチでないと分類された、吟味された100万データポイントの単語とフレーズのセットは、それ自体が価値のある商品です。そのため、Hatebaseは人道的または科学的な目的で使用する研究者や機関に無料で提供しています。

しかし、中程度の目的でヘイトスピーチ検出をアウトソーシングしようとする企業や大規模な組織は、ライセンス料を支払います。これにより、ライトが点灯し続け、無料利用枠が存在できるようになります。

「データを引き出す世界最大のソーシャルネットワークの4つを持っていると思います。私たちは、紛争地域で活動している国連、データ、NGO、ハイパーローカルなデータを集めています。ここ数年、LAPDのデータを取得しています。そして、私たちはますます政府部門と話をしています」とクインは言いました。

彼らは多くの商用クライアントを持ち、その多くはNDAのもとにありますが、最近参加したのは公的にそうでした。それがTikTokです。ご想像のとおり、そのような人気のあるプラットフォームには、迅速で正確なモデレーションが強く求められています。

実際、問題のコンテンツをすぐに削除しないと、企業に莫大な金額を科す法律が施行されているため、これは危機的なものです。この種の脅威は、財布の紐を本当に緩めます。罰金が数千万ドルになる可能性がある場合、Hatebaseのようなサービスに相当額を支払うのは良い投資です。

「これらの大きなオンラインエコシステムは、こうしたものをプラットフォームから排除する必要があり、コンテンツモデレーションの特定の割合を自動化する必要があります」とQuinn氏は言います。 「私たちは人間の節度を取り除くことができるとは思いません。それはばかげて達成不可能な目標です。私たちがしたいことは、すでに導入されている自動化を支援することです。太陽の下ですべてのオンラインコミュニティが多言語のヘイトスピーチの独自の大規模なデータベース、独自のAIを構築することはますます非現実的です。企業が独自のメールサーバーを持たなくなったり、Gmailを使用したり、サーバールームを持たず、AWSを使用したりするのと同じ方法です。これが私たちのモデルです。私たちの約半数がその用語を気に入っていますが、半数はそうではありませんが、それが本当に私たちのモデルです。」

Hatebaseの商用クライアントは、同社を初日から利益を上げましたが、彼らは「いかなる方法でも現金を投入していません」。

「スピンアウトするまで私たちは非営利であり、そこから離れることはありませんでしたが、自己資金でやりたいと思っていました」とクインは言いました。結局のところ、金持ちの見知らぬ人の親切に頼ることは、ビジネスにとどまる方法ではありません。同社はインフラストラクチャーの雇用と投資を行っていますが、Quinn氏は成長の促進などには目を向けていないことを示しています。

それまでの間、この種の情報は本当に価値があることはクインや他の人たちには明らかですが、めったに簡単ではありません。

「それは本当に、非常に複雑な問題です。嫌いな言葉はどのような役割を果たしているのでしょうか?誤報はどのような役割を果たしますか?社会経済学はどのような役割を果たしますか?」と彼は言いました。 「ワーウィック大学から出てきた素晴らしい論文があります。彼らはヘイトスピーチとドイツの移民に対する暴力との相関関係を2015年から2017年にかけて研究しました。そして、そのピークのピークは、あなたが知っている、バレーに有効です。すごい。多くの分析を行うのではなく、データプロバイダーです。」

「しかし、現在、ほぼ300の大学がデータを取得しています。 彼ら これらの種類の分析を行います。それは私たちにとって非常に有効なことです。」

Hatebaseの詳細については、Citizen Linguistsまたは研究パートナーシップに参加するか、会社のWebサイトでデータベースの最近の目撃情報と更新を参照してください。