バグ、ジョーク、秘密のコード – またはスパムだけでウェブを詰まらせる?

セキュリティ専門家FireEyeの研究者がGoogle翻訳でいくつかの奇妙な結果を見つけたとき、彼らは精巧なシステムスパイであるか、活動家が秘密裏に通信するために使用していたのか、特定のフレーズを翻訳した結果はとても印象的で珍しいので、俳句のように見えるだけで、中国、NATO、The Companyのような言葉でいっぱいでした。セキュリティ作家のBrian Krebsは、Googleがそれらを無効にする前に翻訳を文書化しました。

ビジネス触媒としてのCIO – 役割、関連性と価値、中小企業は新技術の現在の状況と将来の採用計画、ITリーダーはObamacareのロールアウトミスから学ぶことができる5つのレッスンITのメトリクス:

ここで私の思いが込められています。謎の翻訳は、コードを秘密にするために使われているのではなく、ハッカーがGoogleでいたずらしています。自動化された大量のデータがスパマーと出会ったときや、ウェブやその他の形の人間のコミュニケーションについて私たちが仮定していることを混乱させるような場合に起こります。

lorem ipsumという言葉を翻訳しようとしたときに奇妙な結果が出てきたり、16世紀以来デザイナーが実際の言葉を使わなくてもその言葉がどのように見えるかを示す標準的なダミーコピーのフレーズがありました。それは、シセロの意図的に乱された通路です(最初の単語は実際には悲しみ、苦痛または苦痛を意味するdoloremです)、それはそれらの2つの単語よりも長く続きますが、それほど長くない場合は繰り返してください。または、あなたは単語を記入する必要があるスペースを埋めるために十分な余分な単語をコピーして貼り付けるか、Bacon IpsumやSamuel L Ipsumジェネレータや現代の変種のフレーズをミックスするなど、またはあなたはここで手紙を削除するだけです。だから、lorem ipsumの異なる部分の間に微妙なバリエーションがありますが、人間はそれらをプレースホルダーのテキストとして認識します。

Windows Phoneと偽のアプリとの戦い、Surface、BitLocker、暗号化の未来、Microsoft Azure:どこでも好きな場所で、Surface 2:PCは十分ではありませんが、あなたの電話を浸してしまった:あなたは次に何をすべきですか?

Googleの機械翻訳学習アルゴリズムには、すべてがソースデータです。 Google翻訳の仕組みは、翻訳された言語が既にウェブ上に翻訳された人間によってどのように翻訳されたかに基づいて、ある言語が他の言語にどのように翻訳されるかを学ぶことです。 Googleの調査担当ディレクター、Peter Norvigは、2008年のEmerging Technologyカンファレンスで、Googleのホテル情報サイトや2つ以上の言語で似たようなページを持つニュースサイトなどのWebサイトから “平行テキスト”を収集することから始まったと説明した。彼らは、2つの異なる言語の2つの類似したページの内容が同じで、翻訳されたと仮定したので、英語、フランス語、イタリア語のホテルの説明は、異なる言語でちょうど同じことを言うでしょう。

このシステムでは、洗練された統計モデルを使って、言語間の語順の変化、中国語の記号が自分のものと他のものを組み合わせたときの記号、その他の複雑な言語のようなものに対処します。

しかし、最も基本的なレベルでは、Google翻訳は、類似のソースドキュメントに基づいて、以前に単語がどのように翻訳されたかを知ることができます。ノーヴィグ(Norvig)が述べたように、言語ツールを「言語学者の汗や涙ではなく、データから」とすることがアイデアです。 (彼はまた、情報を抽出するだけでなく、言語の経験を必要とする詩やフィクションのための完全な翻訳を得る方法ではないことにも気づいた。)

そして、ドキュメントは、実際の情報を伝えるために、書いている言語を知っている人が作成し、正しく使用するという前提があります。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

しかし、それは常に真実ではありません。

ある時点では、Google Translate APIは開発者に無料で提供されていましたが、スパマーがそれを使用してメールを埋め込んでいたナンセンスの文章を翻訳すると、ほとんど一晩中削除されました。の文章)。

これらのナンセンス言葉は機械学習アルゴリズムを汚していた。

数百万の例があるにもかかわらず実際の翻訳がほとんどないので、代わりに、プレースホルダーのテキストは、アルゴリズムに似ているが実際には見えないドキュメントと一致するため、lorem ipsumドキュメントのフレーズで誤って同じことが起こった接続されています。

それは言葉を別に大文字にしたり、それらを複製して、中国、インターネット、NATO、会社、中国のインターネット、インターネット上のビジネス、ホームビジネス、ロシアが苦しんでいるかもしれない翻訳の結果、異なる翻訳を得た理由を説明します。スマートな消費者、中国、部門と試験の主な焦点。それらはすべて共通のフレーズです。あなたは、自宅で仕事をしたり、試験問題への回答を提供するために数千ドルを約束しているスパムのウェブサイトからその一部を認めるかもしれません。

中国やその他の論争の的題についてのメッセージを伝えるためにlorem ipsumのフレーズをどのように使うかについて、ベビーシートを投稿する活動家がいくつかいるかもしれません。 Googleをいたずらにするためにlorem ipsumの偽の翻訳を提供しているハッカーが数人いるかもしれません。しかし、Google翻訳がWebやGoogleドライブで見つけたlorem ipsumプレースホルダテキストを使用している数百万もの文書では、完全に無関係の他の文書とのマッチングが忙しくなっています。

Googleは、lorem ipsumがlorem ipsum(Bing Translateで既に行っている方法)として翻訳するようにバグを修正したので、偶発的な詩と陰謀理論はどちらも歴史です。しかし、根本的な問題は残っています。大規模なデータセットでの相関が無意味であったり誤解を招く可能性があります。

溺水とアイスクリームの売り上げは、両方とも同時に上昇し、夏になるとビーチに行く可能性が高くなります。確かに、ニューヨークの1980年代には、深刻な犯罪とアイスクリームの売り上げが似たような水準で上昇しました(おそらく、海岸にいるときに誰かがあなたの家に侵入する方が簡単だからです)。

地球温暖化は、グラフがその結論を導くように誘惑する少数の海賊がある理由ではない。

1996年から2000年までの米国高速道路の死亡率は、メキシコからのレモン輸入と同じ割合で減少した(レモンは安全運転と関係がないためではない)。ある国が獲得したノーベル賞の数は、その国の人口がどれくらいのチョコレートを食べるかとよく相関しており、ノーベル賞受賞者や道路死者の数もそうである。それはチョコレートがあなたを賢くすること、またはあなたを狂ったマニアックに変えること、あるいはノーベル賞受賞者が恐ろしいドライバーであることを意味するものではありません。

しばらくの間、データマイニングが誤解を招く可能性があることはわかっています。あなたのデータセットが1983年から1993年までしかカバーしていない場合、S&P500の年間終値は、米国とバングラデシュのバター生産と羊の人口の組み合わせと完全に一致しています。これは1995年に作成された意図的に偽の反例であり、統計的回帰モデルは「将来の結果が過去の成績と一致しない」という警告と共に読むべきであることを示しています。 Twymanの法則を適用させるだけで十分です。「おもしろいか違うかは通常は間違っています。

大きなデータを持つモデルを作成するとき、我々はこれらのような奇妙なものを得るでしょう。大規模なデータやマシンの学習は有用ではないという意味ではなく、システムを慎重に設計し、ヒューリスティック(人が知っているとマシンがそうでない常識の常識)を追加し、スパムを除外し、システムを歪め、奇妙な結果に気を付ける偽のコンテンツ。

参考文献

実際、あなたが未来を心配しているなら、それはとても安心です。アルゴリズムはデータ科学者を仕事から救うものではなく、AIの有用性が高ければ高いほど、人が解釈して結果を正当にチェックする必要があります。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任