Я работаю на исследования , и я создал DataFrame с колоннами Ид, db_keywords, new_words, count_new_words. В колонке new_words У меня есть слова, которые не в db_keywords столбцов и в count_new_words подсчитывать новые слова. Я describe()
с count_new_words столбцов для того , чтобы иметь базовые статистические данные. Я хотел бы использовать какой - либо метод для того , чтобы иметь статистику по строке (ID). Мне нужно какое - то значение или несколько показателей, например , как много новых слов в ид не присутствуют в нашей базе данных , чтобы в этом случае db_keywords. Это может быть любой метод , потому что я не знаю , как подойти к этой проблеме. Я создал подобный тест dataframe только визуализировать мою проблему.
Пример:
data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]]
df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words'])
df
Я пустошь хотел бы знать, например, что такое добавленная юдоль для идентификатора 1 только с одним словом в колонке db_keywords и мы нашли два новых слова, представленные в колонке new_words. Как я должен рассчитать и представить это?