Categories: FAQ

Наука о данных, машинное обучение, барбекю, фотографии и муравьи в террариуме

Другие вещи

Самый популярный

SpiegelMining: Кто, когда, что, с кем? Социальная сеть редакторов SpiegelOnline

Вы, наверное, заметили, что в интернете всегда становится свежо, когда в игру вступает личная информация. Помня об этом, мы добавляем авторов каждой статьи в наш SpiegelMining сегодня. И мы также представляем еще один, очень хороший вид графического представления. Приводит ли это также к неожиданным результатам — вам может быть любопытно.

Что произошло до сих пор: в последней статье по этой теме мы узнали, как я загрузил более 70 000 статей из SpiegelOnline за последние 2 года и теперь оцениваю. Мы обсудили, что мы извлекаем Особенности из статей для оценки. Впервые это были простые функции: время появления статьи, ее категория и длина текста. Уже в результате сопоставления и Aufplotten этих простых функций мы столкнулись с системами, которые были удивительны для одной или другой, а именно — SpiegelOnline назначает длинные и короткие статьи по времени суток в соответствии с очевидной фиксированной системой.

Это только вторая статья, поэтому мы все еще медленно строим наше базовое здание для оценки, которое мы позже будем использовать в дальнейших оценках. Хотя мы все еще строим, будут некоторые результаты, как в предыдущей статье, иначе это не будет весело.

Я всегда стараюсь поделиться с вами, хотя бы поверхностно, небольшой технической частью. Итак, перед фактическими результатами есть еще несколько анекдотов самого процесса оценки, так что вы знаете, как сделать что-то принципиально.

Было крайне неприятно читать авторов

В самом начале, если вы хотите нарисовать авторов из зеркальных статей, вы заметите, что они не только не всегда находятся в одном и том же месте в зеркальных статьях (мы вернемся к этому в следующей статье, обещаю небольшой сюрприз). Часто имена даже не рекламируются, а воспроизводятся аббревиатурой. Я приведу два примера:

Эта статья об убийце топора из Вюрцбурга содержит курсивное авторство в сокращениях, расположенных непосредственно под фактическим содержанием: Sms / dpa / AFP / Reuters . Как мы видим, новостные агентства также включены туда.

Затем есть другие статьи, подобные этой, здесь о Дональде Дрампфе 1), где нижеприведенное заявление автора не следует после текста, но рекламируемые имена авторов находятся непосредственно под заголовком:

Технически, я теперь перебираю все статьи и сначала собираю все названия и сокращения двух возможных тел (выше и ниже), которые я нахожу. Теперь проблема в том, что строки, содержащие имена и сокращения, не стандартизированы в зеркале. Это было бы слишком просто. Нет, они сформулированы по-разному. Но с большинством имен и аббревиатур я справляюсь успешно (сейчас я знаю о регулярных выражениях больше, чем когда-либо хотел знать). Что-то, что вы можете когда-нибудь найти в себе несколько дней, пока оно не заработает. Для тех, кто думает, все, что вам нужно сделать, это найти несколько имен и фамилий: отличать их от остальных слов, особенно когда есть такие коллеги, как г-н Филипп Альварес де Соуза Соарес, чье имя состоит из 5 слов. Ну, это сработало.

Затем на втором этапе я бегу Снова по всем пунктам. Для каждой статьи я проверяю, не забыл ли я имя или ярлык из тех, которые я знаю с первого запуска. Этот прогон очень много раз подтверждает результат.

Остается проблема аббревиатур — вы хотите быть простыми именами и без ярлыков. Ключ к этому обеспечивается самим зеркалом, здесь. На этой странице вы можете найти все виды редакционных имен и связанных с ними сокращений. Страница также регулярно обновляется зеркалом. Я оцениваю их автоматически и сохраняю назначения сокращений для имен. Поэтому мне удается автоматически переводить множество ярлыков в имена. Остальные аббревиатуры останутся такими, как есть.

В результате я нахожу (по состоянию на 17 июля 2016 г.) почти в 90% всех статей хотя бы одного автора. Эта цитата не так уж плоха, потому что при большом количестве статей информация об авторе недоступна. Я продолжаю переводить 84% аббревиатур, встречающихся в простых именах (эта величина воспринимается как более низкая, потому что я также считаю информационные агентства здесь, и они являются общими).

В общем, данных достаточно для правильной оценки. Но я также говорю это так хорошо, чтобы мы были честны с собой и помнили, что могут произойти незначительные пятна.

Простые соображения: статьи на автора и автора на статью

Давай просто начнем. Всего в моей коллекции 1743 автора. Подавляющее большинство статей (около 85,7%) имеют ровно одного автора (здесь агентства исключены). Два автора встречаются еще чаще (около 5,6%). Из трех авторов (около 0,77%) статей все меньше и меньше. Лучшие 3 из моей коллекции больше чем 70 000 пунктов:

Авторы за статью — это одно. Давайте сделаем наоборот: статьи на автора. Кто пишет больше всего статей? Сначала дистрибутив выглядит примерно так: есть много авторов, которые участвуют только в нескольких статьях, и несколько авторов, которые участвуют во многих статьях. Десятка лучших:

Вы уже можете видеть, как быстро становятся меньше номера артикулов, если вы отойдете от первого места вниз. Это также можно суммировать в цифрах: 75% авторов были задействованы максимум в 12 статьях (математически выражено: 75-й процентиль равен 12). У половины авторов даже есть только три статьи или меньше. Если это вас удивляет: это происходит благодаря многочисленным приглашенным авторам, которых просят внести свой вклад и больше не увидят. Только десять процентов опрошенных авторов имеют 80 или более статей.

Возможны и многие другие простые соображения, особенно в связи с датой публикации статьи или категории.

Но теперь отойдем от очень простых соображений — вы можете читать из таких записей больше, чем вы сразу видите. И мы делаем это сейчас, и мы также генерируем новый вид графики и объясняем их.

Вы можете прочитать целые структуры команд из предположительно поверхностных данных.

Мы делаем шаг назад и понимаем, что мы ищем для записи прямо сейчас. У нас более 70 000 наименований, но мы на самом деле не смотрим на них. Для каждой из этих статей мы рассматриваем список авторов, написавших статью.

В жаргоне, который говорят, каждый рассматривает только «метаданные» — так сказать, что находится на конверте, но не то, что в нем. Мы смотрим на писанину, а не на сам контент статьи. Это похоже на то, что мы рассматриваем только отправителей и получателей SMS, но не сам контент SMS или людей, вовлеченных в электронную почту, без содержимого почты. Так что, если кто-то скажет вам, что вы все равно не можете прочитать что-либо из таких скудных метаданных, тогда вы можете сами составить свое мнение в этой статье.

Из-за списков авторов для каждой статьи мы знаем гораздо больше, чем просто кто написал статью. Мы знаем, Кто с кем писал статьи, и даже сколько раз эти пары авторов писали статьи вместе. То есть мы не только знаем, кто с кем работает, но и можем измерить, насколько крепки отношения между авторами.

Точки на рисунке ниже являются авторами. Толстые точки — это авторы с большим количеством написанных статей, меньшие авторские точки — это авторы с меньшим количеством статей. Различные авторы взаимосвязаны (вы можете увидеть много связей на картинке, картинка очень большая, поэтому они очень хорошо).

Связанные авторы написали хотя бы одну статью вместе. Авторы, которые пишут относительно часто вместе, очевидно, работают ближе друг к другу. Такие авторы затем выкладываются ближе, чем те, кто редко или вообще не пишут вместе. Мы получаем «карту отношений» между авторами, просто из метаданных статьи. Посмотрите на время упражнения лидеры статьи, мы перечислили выше!

Примечание. На изображениях графиков я всегда привожу раздел графика непосредственно в статье. Кто хочет, может щелкнуть по нему и получить раздел, а затем сразу же увеличить как изображение. На графике есть также непосредственно под соответствующим изображением PDF-файл для скачивания, затем на нем целый график и, прежде всего, полнотекстовый поиск PDF. Так что вы можете искать конкретных авторов, если хотите.

Если вы откроете PDF-файл, вы также увидите несколько небольших групп авторов, которые не привязаны к «главному континенту» и которые изолированы. Далее, в картину включены только авторы, которые вообще связаны с другими (только у приглашенных авторов они совершенно одиноки, я отфильтровал это мнение).

Мы тестируем макет графика: визуализируем отделы

Вы можете увидеть формирование группы на графике. Эти группы, похоже, соответствуют внутренней структуре команды в SpiegelOnline. Таким образом, структура команды, похоже, основана на метаданных! Но мы не просто должны спекулировать и надеяться на правильность визуализации, но мы также можем убедиться в следующем: в отпечатке SpiegelOnline именно отделы указаны некоторыми лицами. Мы окрашиваем авторов для их принадлежности, а затем посмотрим, что получится. На следующем рисунке показан тот же раздел, что и выше, но только цветной:

В цветах видно, как авторы одних и тех же отделов на самом деле стремятся сблизиться. Это сразу видно на курортах Panorama (зеленый), Wirtschaft (коричневый) и Sport (красный), а также в большинстве других районов. Интересно, что отдел политики (бирюзовый синий) как выброс: здесь, кажется, работает очень междисциплинарно, почти кажется, что в каждом другом отделе есть «главный политик», с помощью которого они затем пишут статьи (у спортсменов, например, Кристиана). Теев, сверху справа в вырезе, слегка обрезан). В этом отношении авторы политики распространяются по всей карте.

Также обратите внимание на всех белых авторов. Это люди, для которых я не нашел назначения в отпечатке. Интересная вещь в таком отображении карты заключается в том, что вы можете внезапно сказать что-то о неназначенных авторах, в зависимости от того, где они размещены на карте. Особенно те, кто написал много статей, но существуют только в виде ярлыков, вероятно, являются бывшими сотрудниками отдела, в котором они были hineinlayoutet, только теперь они больше не доступны в отпечатке зеркала.

Для поддержки этого тезиса, например, ищет Анну Рейманн в графе. Вот раздел:

Anna Рейман подключен (непосредственно видно из цветов подключения) для авторов политики отдела», в моем графике, но белом, так Unassigned. Глядя на стороне Анны Рейман по адресу Spiegel Online, там стоит, но что они очень хорошо работают в ведомственных политиках. но она была в отпечатке, который я взял для окрашивания, поданного в соответствии с «Берлином» — я не принял в качестве курорта. Вот почему она была бесцветной со мной. Итак, вы видите, что наш график на основе оценки является достаточно мощным, например, если вы просто хотите правую полосу через отношения с другими людьми людьми. Все только метаданные!

График на основе оценки, такие как, но также чрезвычайно мощным показано здесь (с ней и намного больше информации, чем обычные опосредующих графики) для визуализации картографических как различные другие вещи. В последней статье мы использовали гистограммы и записи разделены, например, в часах, и рассчитанные с помощью подмножества данных что-то. Там так график макет, в котором то, что вычисляется по узлам, раскладка еще имеет смысл и не только сопоставляется уже гораздо круче.

На следующем рисунке, авторы окрашены в соответствии с последней статьей срединной длиной текста. Скорее красные авторы пишут довольно длинные тексты, писать более синим, а короче. Как вы можете ясно видеть, что коллеги панорамы (в универмаге цвета графа зеленый) здесь больше синего, так что писать более короткие тексты.

Так что вы можете найти свой путь: разрез показывает толстую кучу в середине вышеупомянутого раздела изображения. Возьмем, к примеру, большой узел с Йенсом Витте в качестве ориентира, если вы хотите сравнить. Это густой ярко-зеленый на картинке выше.

Стремится это после того, как Министерство по делам культуры в универмаге графа (верхний левый, темно — синий) , а затем вы смотрите график длина текста даже знаю, что на самом деле Все есть трудности, быть кратким, или если это было самое трудное предубеждение мой в последней статье.

Кто ключевые фигуры?

При взгляде на социальную сеть со стороны всегда интересно узнать, кто является ключевыми людьми. Вы не всегда видите это сразу, потому что это не обязательно те, где "босс" на нем. Теперь мы раскрасим авторов, сколько разных авторов они написали вместе в течение периода наблюдения. Более темный цвет означает больше партнеров-авторов.

Питер Максвилл и Вера Кемпер сразу выделяются, потому что они высокие И темные. Напомним, что размер пузырьков автора отражает количество статей, написанных авторами за период наблюдения. Кроме того, эти два автора связаны со многими другими. Они работают в доминирующих областях политики и политики. Очевидно, что они также пишут много статей, поэтому было бы странно, если бы они написали их вместе только с несколькими другими авторами. Так что не ясно, насколько это значимо — тем более.

Это приводит меня к относительно маленькому, но все же темно-синему Матиасу Гебауэру (в средней части ниже). Здесь наша визуализация безошибочно нашла «главного репортера» в Шпигеле (смотрит на зеркальный отпечаток — это какая-то форма офиса, но на самом деле он не на исполнительном этаже, главные репортеры стоят отдельно от руководителей службы, главного редактора и ниже). У него также есть много соседей по графику, и вы даже не можете винить в этом огромное количество статей. Йорг Диль также выделяется на графике таким же образом — Зак, также главный репортер. Как видите, таких аналитиков легко найти ключевых аналитиков.

Теперь мера, которую мы приняли («Количество связей с другими авторами»), немного поверхностна. С его помощью вы можете найти людей, которые собрали много других людей вокруг вас. Но это не значит, что они занимают хорошие позиции в организации. Теоретически, они могли бы собрать массу вокруг, но вся группа, вместе с темной центральной персоной, сидит где-то на периферии. Примером такого феномена является босс Pegida. У него десятки тысяч подписчиков, поэтому он выглядит очень хорошо в сети, если смотреть локально. Но вся группа где-то, где никто не слушает, поэтому не имеет значения, сколько слушателей у босса.

И наоборот, автор может иметь несколько связей, но быть связующим звеном между двумя половинками огромной организации. Итак, давайте примем более глобальную меру: Центральность между . Это примерно рассчитывается следующим образом:

Вот так это выглядит. Прежде всего, люди, которых мы только что упомянули, появляются снова. Кроме того, однако, приходит Кристина рычаг в отдел политики (прямо о Питере Максвилле). На последнем снимке она была уже темнее света, но теперь она обогнала остальных на снимке! Она />

Кстати, центральное место автора, кстати, не имеет ничего общего с тем, принадлежит ли он в какой-либо форме к залу заседаний. На следующем графике главные редакторы, члены главных редакторов, а также руководители службы окрашены в красный цвет, а все остальное — в серый.

Результат: Вы вряд ли узнаете это. Маленькие красные пятна, которых у нас раньше не было на карте. Что бы ни делало зал заседаний у зеркала, замечательно хорошо связанное, что касается работы с другими в статьях, это не так. Либо они пишут свои статьи в основном в одиночку, либо задачи полностью удалены от написания статьи.

С другой стороны, «главные репортеры» были совсем другими (что я не считал красным «полом босса»). Хотя они писали меньше, чем другие, но их чрезвычайно хорошая сеть действительно появилась на нашем графике. Может быть, один из нас из зеркала мог бы рассказать нам о разных офисах, чтобы мы могли понять это.

Это была небольшая демонстрация, что такое графен. В частности, мы узнали, что это не имеет никакого отношения к количеству статей и не имеет отношения к формальному статусу того, насколько центральная позиция автора занимает место в сети партнерских статей. Вы можете взглянуть на графен гораздо больше измерений и генерировать графики многими другими способами, и будьте готовы к тому, что мы будем делать это в других статьях, а не только для авторов.

Но теперь давайте просто порвать с чиновником — можете ли вы представить, что вы можете прочитать что-то личное из данных статьи?

, и это также работает с частными структурами 🙂

Здесь вы можете увидеть сюжет некоторых авторов, когда они публикуются в области измерения. Одна строка на автора, а справа от строки время проходит. Разные цвета обозначают разные рубрики публикации.

Как всегда: нажмите на нее, чтобы увеличить!

Вы можете четко определить своевременные закономерности: посмотрите на Яна Флейшхауэра, журналиста, который публикует статьи еженедельно Показаны два других обозревателя. Ты ее нашел? Даже сайты склонности авторов и очень междисциплинарные (= красочные) авторы сразу видны.

Вы также можете видеть, что у Грегора Питера Шмитца где-то в марте 2015 года поток статей внезапно заканчивается — другими словами, он ушел (краткие результаты интернет-исследований: он сейчас на Wirtschaftswoche, время точно подходит). Таким образом, мы могли бы измерить, увеличилась ли текучесть кадров в SpiegelOnline в последнее время, что было бы хорошим показателем рабочей атмосферы там.

Но теперь к актуальному моменту: в частности, вы можете видеть на картинке, когда авторы уходят в отпуск. Это пробелы в строках. В конце декабря 2015 года вы также можете догадаться о всеобъемлющем праздничном отпуске (виден чуть более свободный вертикальный столбец). Не обманывайтесь пустой колонкой в ​​марте 2015 года. Как я уже говорил в прошлой статье, я не загружал зеркальные статьи в течение нескольких дней из-за ошибки.

Теперь я обращаюсь к вашему опыту работы и подозреваю, что у вас тоже были коллеги, которые… как-то всегда были в отпуске в одно и то же время. Вы что-то замечаете?

Поэтому отметьте более длительные периоды времени, в течение которых редактор ушел. Лучше всего применять только 10 дней отсутствия, в противном случае вы получите все выходные с указанием дней моста. Как только у вас есть схема предполагаемых выходных дней для каждого автора, сравните эти шаблоны среди авторов и постройте график, как я делал выше — за исключением того, что ссылки между авторами на этот раз говорят о том, что два автора поразительно часто одновременно ушли Конечно, это несколько размыто в этом случае, потому что вы также можете завершить статьи и дни, которые характеризуются как «настоящее», где вы были на самом деле в отпуске. Это означает, что мы должны считаться с некоторыми шумными значениями сравнения и, следовательно, должны снова вручную посмотреть на результаты,

В целом, вы можете получить карту, которая называется на жаргоне для аналитиков "Schlampengraph". Мы не делаем этого здесь сейчас, потому что моя цель не состоит в том, чтобы публиковать личные вещи через людей — но я специально отмечаю, что это работает, опять же только через метаданные.

Уважаемые парочки, любящие тайное зеркало, вы можете снова выдохнуть сейчас и не бояться быть здесь (но я прошу, чтобы пиво было потрачено на свадьбу)! И от человека с 5 составами одновременно я хотел бы знать, как она управляет этим.

И дорогие читатели, вы узнали сегодня: вы также можете извлечь много из метаданных. Если у меня есть некоторые ваши метаданные для общения (с которыми вы отправляете электронное письмо или текст, без содержания), я могу с большой вероятностью сообщить вам, беременны ли вы, больны ли, влюблены, есть дети или что-то еще. Поэтому не позволяйте никому говорить вам, когда кто-то приходит и говорит: «О, это просто метаданные». Мне не нужны никакие фактические данные контента, чтобы действительно получить личную информацию о вас и вашей сортировке в вашей среде. И теперь вы также можете понять, почему некоторые люди имеют что-то против хранения данных. Вот статья для чтения.

Ну что ж, увидимся в следующий раз — и останься со мной!

Я также отмечаю, что вы можете прислать мне свои идеи для оценки . Эта серия статей, безусловно, предназначена и для вас. Конечно, это работает лучше, конечно, если вы знаете, какие функции я уже рассмотрел и что я делаю для оценки. Но это будет медленно. Так что позвольте себе вдохновиться.

Так что вы можете найти свой путь: разрез показывает толстую кучу в середине вышеупомянутого раздела изображения. Возьмем, к примеру, большой узел с Йенсом Витте в качестве ориентира, если вы хотите сравнить. Это густой ярко-зеленый на картинке выше.

Www. dkriesel. com Подробнее…

06.04.2019 14:20:17

antfiksa

Share
Published by
antfiksa

Recent Posts

бетонная стяжка пола цена за м2 стоимость работ в москве

Бетонная стяжка пола цена за м2 стоимость работ в москве

4 недели ago

бетонная стяжка на деревянный пол в частном доме

Бетонная стяжка на деревянный пол в частном доме

4 недели ago

клей для паркета на бетонную стяжку своими руками

Клей для паркета на бетонную стяжку своими руками

4 недели ago

выравнивание пола под ламинат без бетонной стяжки

Выравнивание пола под ламинат без бетонной стяжки

4 недели ago

как выровнять бетонный пол без стяжки при помощи осб или дсп

Как выровнять бетонный пол без стяжки при помощи осб или дсп

4 недели ago

расчет бетонной стяжки пола калькулятор онлайн

Расчет бетонной стяжки пола калькулятор онлайн

4 недели ago